SlideShare une entreprise Scribd logo
1  sur  25
Télécharger pour lire hors ligne
Некоторые вероятностные модели
в информационном поиске
Антон Алексеев
anton.m.alexeyev@math.spbu.ru
Computer Science Center
21 марта 2013 г.
Людская память — вешняя вода
Дано: документы D, запрос q ∈ Q
Понять: насколько релевантен d ∈ D запросу q
И выдать самые (все) релевантные.
Мы уже знакомы с
grep
булевым поиском
векторным поиском
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 2 / 25
Без предисловий, сей же час
В программе:
1 Необходимые понятия из теории вероятностей
2 PRP + BIM + relevance feedback
3 Прочее
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 3 / 25
Байесовцы, байезианцы, байесята
P(A|B) =
P(B|A)P(A)
P(B)
= P(A)
(︃
P(B|A)
∑︀
X∈{A,¯A} P(B|X)P(X)
)︃
Философия:
P(A) — предполагаемая оценка вероятности события A
P(A|B) — уточнённая свидетельством B оценка P(A)
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 4 / 25
Он не получка, не аванс
Отношение шансов (odds):
O(A) =
P(A)
P(¯A)
=
P(A)
1 − P(A)
Упражнение
Свойство, которое нам пригодится. Легко проверить, что
P(A), P(B) ∈ (0, 1) ⇒ (P(A) > P(B) ⇔ O(A) > O(B))
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 5 / 25
Терминология
Гипотеза: волк режет овец!
false positive = ложная тревога: овцы целы = ошибка I рода
false negative = не опознали волка: овцы съедены = ошибка II рода
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 6 / 25
Предположения и определения
Запрос q, коллекция D.
Для каждого q есть своё множество релевантных документов
Relq ⊂ D, то есть можно ввести функцию
˜Rq(d) =
{︃
1 if d ∈ Relq
0 otherwise
Но, увы, мы ничего не знаем :(
Вместо ˜Rq — случайная величина Rq.
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 7 / 25
Probability Ranking Principle (van Rijsbergen, 1979)
План:
упорядоченный список документов — выводим topk из списка
документов, отсортированного по убыванию P(R = 1|d, q) или
множество всех релевантных — выводим всякий
d : P(R = 1|d, q) > P(R = 0|d, q).
Функция потерь штрафует одним очком как за нерелевантный
документ, так и за непоявление релевантного документа в выдаче.
Теорема (Riply, 1996)
Правило PRP минимизирует байесовский риск.
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 8 / 25
Probability Ranking Principle ++
C0 — стоимость неизвлечения релевантного документа (FN)
C1 — стоимость извлечения нерелевантного документа (FP)
Тогда d попадает в выдачу, если
C0 · P(R = 0|d) − C1 · P(R = 1|d) ≤ C0 · P(R = 0|d′
) − C1 · P(R = 1|d′
),
где d и d′ ещё не показаны.
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 9 / 25
Binary Independence Model (1)
Документ — вектор весов термов.
wd,t ∈ {0, 1}
Допущение 1: Naive Bayes assumption
Термы встречаются в документе независимо друг от друга.
Допущение 2
Релевантность документа не зависит от релевантности никакого
другого документа.
(Умножение — мать сомнения!)
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 10 / 25
Binary Independence Model (2)
⃗q и ⃗x — бинарные векторы, соответствующие запросу и документу.
Хотим уметь вычислять P(R = 1|⃗x,⃗q)−?
P(R = 1|⃗x,⃗q) =
P(⃗x|R = 1,⃗q)P(R = 1,⃗q)
P(⃗x,⃗q)
=
P(⃗x|R = 1,⃗q)P(R = 1|⃗q)
P(⃗x|⃗q)
Аналогично для P(R = 0|⃗x,⃗q). Интерпретация?
Хитрые оценки, не забывать про определение вероятности.
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 11 / 25
Binary Independence Model (3)
Условные вероятности — тоже вероятности
O(R|⃗x,⃗q) =
P(R = 1|⃗x,⃗q)
P(R = 0|⃗x,⃗q)
=
P(R = 1|⃗q)P(⃗x|R = 1,⃗q)
P(R = 0|⃗q)P(⃗x|R = 0,⃗q)
= O(R|⃗q)
P(⃗x|R = 1,⃗q)
P(⃗x|R = 0,⃗q)
Убили P(⃗x|⃗q)!
Применяем Допущение 1:
P(⃗x|R = 1,⃗q)
P(⃗x|R = 0,⃗q)
=
∏︁
t
P(xt|R = 1,⃗q)
P(xt|R = 0,⃗q)
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 12 / 25
Binary Independence Model (4)
Теперь
pt = P(xt = 1|R = 1,⃗q), ut = P(xt = 1|R = 0,⃗q)
Допущение 3
Если qt = 0 (т.е. если соответствующий терм не появляется в
запросе), то присутствие терма t в релевантном и нерелевантном
документах равновероятны, то есть pt = ut.
В формуле кое-что сократилось, а кое-что можно и выбросить:
O(R|⃗x,⃗q) = O(R|⃗q)
∏︁
xt=qt=1
pt
ut
∏︁
xt=0,qt=1
1 − pt
1 − ut
=
= O(R|⃗q)
∏︁
xt=qt=1
pt(1 − ut)
ut(1 − pt)
∏︁
qt=1
1 − pt
1 − ut
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 13 / 25
BIM: Retrieval Status Value
Логарифмируем то, что осталось:
RSVd = log
∏︁
xt=qt=1
pt(1 − ut)
ut(1 − pt)
=
∑︁
xt=qt=1
(log
pt
1 − pt
+ log
1 − ut
ut
)
Нас интересуют только термы, встречающиеся и в документе, и в
запросе.
Величина ct = log pt
1−pt
+ log 1−ut
ut
— основа вычислений в модели.
Напоминание
pt = P(xt = 1|R = 1,⃗q)
ut = P(xt = 1|R = 0,⃗q)
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 14 / 25
BIM: Оценивание (1)
Ранжируем по RSV . Как оценить?
Пример
Для фиксированного терма t:
N — число документов
S — число релевантных документов
s ⊂ S — число релевантных документов, содержащих t
Тогда pt = s
S и ut = dft−s
N−S
ct = log
s
S − s
·
N − S − dft + s
dft − s
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 15 / 25
BIM: Оценивание (2)
Деление на ноль — это смерть!
ct = log
s + 0.5
S − s + 0.5
·
N − S − dft + s + 0.5
dft − s + 0.5
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 16 / 25
BIM: Оценивание (3)
Откуда берутся s и S или pt и ut?
Нерелевантных много больше, чем релевантных!
⇒ ut =
dft
N
Тогда
log((1 − ut)/ut) = log((N − dft)/dft) → log(N/dft)
На что похоже?
Что делать с pt? Варианты
pt − const (Croft & Harper (1979))
Магия: pt = 1
3 + 2
3
dft
N (Greiff (1998))
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 17 / 25
BIM: Probabilistic relevance feedback
В идеальном мире с идеальными пользователями...
1 Задать начальные значения pt и ut. Да хоть константы!
2 Показать пользователю {d : Rd,q = 1}
3 Пользователь: «хочу/не хочу»: V = VR ∪ VNR
4 Пересчитываем!
Как?
pt =
|VRt|
|VR|
Нет, не так.
pt =
|VRt| + 1
2
|VR| + 1
А лучше — так:
p
(k+1)
t =
|VRt| + Kp
(k)
t
|VR| + K
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 18 / 25
BIM: Probabilistic relevance feedback IRL
Не все знают, чего хотят, и не все любят общаться с поисковиком.
1 Задать начальные значения pt и ut. Так же.
2 Показать пользователю V (top|V | по рангу)
3 Пересчитываем! Например,
pt =
|Vt| + 1
2
|V | + 1
ut =
dft − |Vt| + 1
2
N − |V | + 1
4 Если ранжирование не устаканилось, переходим к шагу 2.
Если Вы думаете, что ДА ЭТО ЖЕ TF-IDF, Вам показалось
(наиболее любопытным считать проверку этого упражнением).
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 19 / 25
Выводы о BIM
Хорошо?
1. Cтрогая мат.модель!
2. Лучше булевой
Плохо?
1. Холодный старт
2. Сильные предположения
3. Никак не учитываются длина документа и частоты термов
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 20 / 25
BM25 aka Okapi weighing
Некогда очень популярная в промышленности схема
Идея: будем учитывать длины документов и частоты термов!
Формулы RSV , учитывающие эти характеристики:
idf * something(length, tfs)
За введением — в IIR [1] или Wikipedia.
За подробностями — статьи.
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 21 / 25
«Деревья зависимостей»
Очень, очень сильные предположения.
Может, делать не так топорно?
Термы как множество случайных элементов с редкими
зависимостями
Естественное представление зависимостей — орграф
(а лучше дерево)
Байесовские сети доверия (понятие о применении даётся в [2]):
сеть документов, сеть запросов. Переменные: документы,
термы, «понятия». Логико-вероятностный вывод.
(1991 год. Хорошие результаты на TREC. Продавалось.)
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 22 / 25
Спасибо за внимание!
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 23 / 25
Литература
Introduction to Information Retrieval (2008) by Christopher D.
Manning, Prabhakar Raghavan, Hinrich Schtze.
Baeza-Yates, Ricardo and Ribeiro-Neto, Berthier. Modern
Information Retrieval. Boston, MA, USA. Addison-Wesley
Longman Publishing Co., Inc. 1999.
Прочие ссылки в скобках — найдутся в [1]
Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 24 / 25
Некоторые вероятностные модели
в информационном поиске
Антон Алексеев
anton.m.alexeyev@math.spbu.ru
Computer Science Center
21 марта 2013 г.

Contenu connexe

Tendances

Proizvodnaya i grafiki_funkcii
Proizvodnaya i grafiki_funkciiProizvodnaya i grafiki_funkcii
Proizvodnaya i grafiki_funkciiDimon4
 
Автоматическое доказательство теорем
Автоматическое доказательство теоремАвтоматическое доказательство теорем
Автоматическое доказательство теоремTech Talks @NSU
 
20071111 efficientalgorithms kulikov_lecture05
20071111 efficientalgorithms kulikov_lecture0520071111 efficientalgorithms kulikov_lecture05
20071111 efficientalgorithms kulikov_lecture05Computer Science Club
 
Hash cse lecture3
Hash cse lecture3Hash cse lecture3
Hash cse lecture3LiloSEA
 
20080309 efficientalgorithms kulikov_lecture15
20080309 efficientalgorithms kulikov_lecture1520080309 efficientalgorithms kulikov_lecture15
20080309 efficientalgorithms kulikov_lecture15Computer Science Club
 
Opredelenie proizvodnoj zadachi
Opredelenie proizvodnoj zadachiOpredelenie proizvodnoj zadachi
Opredelenie proizvodnoj zadachiDimon4
 
20111023 csseminar geometry_algorithms_implementation_kovalev
20111023 csseminar geometry_algorithms_implementation_kovalev20111023 csseminar geometry_algorithms_implementation_kovalev
20111023 csseminar geometry_algorithms_implementation_kovalevComputer Science Club
 
20081026 structuralcomplexitytheory lecture05-06
20081026 structuralcomplexitytheory lecture05-0620081026 structuralcomplexitytheory lecture05-06
20081026 structuralcomplexitytheory lecture05-06Computer Science Club
 
практика 15
практика 15практика 15
практика 15student_kai
 
СИ++ УМЕР. ДА ЗДРАВСТВУЕТ СИ++
СИ++ УМЕР. ДА ЗДРАВСТВУЕТ СИ++СИ++ УМЕР. ДА ЗДРАВСТВУЕТ СИ++
СИ++ УМЕР. ДА ЗДРАВСТВУЕТ СИ++Pavel Tsukanov
 
A System of Deductive Verification of Predicate Programs
A System of Deductive Verification of Predicate ProgramsA System of Deductive Verification of Predicate Programs
A System of Deductive Verification of Predicate ProgramsIosif Itkin
 
20090913 algorithmsfornphardproblems kulikov_lecture02
20090913 algorithmsfornphardproblems kulikov_lecture0220090913 algorithmsfornphardproblems kulikov_lecture02
20090913 algorithmsfornphardproblems kulikov_lecture02Computer Science Club
 
контрольная работа Variant i
контрольная работа Variant iконтрольная работа Variant i
контрольная работа Variant ileshiy_AlisA
 
николаева первообр интеграл
николаева первообр интегралниколаева первообр интеграл
николаева первообр интегралurvlan
 

Tendances (17)

Proizvodnaya i grafiki_funkcii
Proizvodnaya i grafiki_funkciiProizvodnaya i grafiki_funkcii
Proizvodnaya i grafiki_funkcii
 
Автоматическое доказательство теорем
Автоматическое доказательство теоремАвтоматическое доказательство теорем
Автоматическое доказательство теорем
 
20071111 efficientalgorithms kulikov_lecture05
20071111 efficientalgorithms kulikov_lecture0520071111 efficientalgorithms kulikov_lecture05
20071111 efficientalgorithms kulikov_lecture05
 
Hash cse lecture3
Hash cse lecture3Hash cse lecture3
Hash cse lecture3
 
Funkciya obratnoj proporcionalnosti
Funkciya obratnoj proporcionalnostiFunkciya obratnoj proporcionalnosti
Funkciya obratnoj proporcionalnosti
 
20080309 efficientalgorithms kulikov_lecture15
20080309 efficientalgorithms kulikov_lecture1520080309 efficientalgorithms kulikov_lecture15
20080309 efficientalgorithms kulikov_lecture15
 
Opredelenie proizvodnoj zadachi
Opredelenie proizvodnoj zadachiOpredelenie proizvodnoj zadachi
Opredelenie proizvodnoj zadachi
 
20111023 csseminar geometry_algorithms_implementation_kovalev
20111023 csseminar geometry_algorithms_implementation_kovalev20111023 csseminar geometry_algorithms_implementation_kovalev
20111023 csseminar geometry_algorithms_implementation_kovalev
 
20081026 structuralcomplexitytheory lecture05-06
20081026 structuralcomplexitytheory lecture05-0620081026 structuralcomplexitytheory lecture05-06
20081026 structuralcomplexitytheory lecture05-06
 
практика 15
практика 15практика 15
практика 15
 
СИ++ УМЕР. ДА ЗДРАВСТВУЕТ СИ++
СИ++ УМЕР. ДА ЗДРАВСТВУЕТ СИ++СИ++ УМЕР. ДА ЗДРАВСТВУЕТ СИ++
СИ++ УМЕР. ДА ЗДРАВСТВУЕТ СИ++
 
Seminar psu 05.04.2013
Seminar psu 05.04.2013Seminar psu 05.04.2013
Seminar psu 05.04.2013
 
A System of Deductive Verification of Predicate Programs
A System of Deductive Verification of Predicate ProgramsA System of Deductive Verification of Predicate Programs
A System of Deductive Verification of Predicate Programs
 
Present 1
Present 1Present 1
Present 1
 
20090913 algorithmsfornphardproblems kulikov_lecture02
20090913 algorithmsfornphardproblems kulikov_lecture0220090913 algorithmsfornphardproblems kulikov_lecture02
20090913 algorithmsfornphardproblems kulikov_lecture02
 
контрольная работа Variant i
контрольная работа Variant iконтрольная работа Variant i
контрольная работа Variant i
 
николаева первообр интеграл
николаева первообр интегралниколаева первообр интеграл
николаева первообр интеграл
 

En vedette

2013 02 28_bigdata_seminare_02
2013 02 28_bigdata_seminare_022013 02 28_bigdata_seminare_02
2013 02 28_bigdata_seminare_02Roman Brovko
 
72 - Spring. Создание абстрактного уровня. Разбор д/з
72 - Spring. Создание абстрактного уровня. Разбор д/з72 - Spring. Создание абстрактного уровня. Разбор д/з
72 - Spring. Создание абстрактного уровня. Разбор д/зRoman Brovko
 
72 - Spring. Создание абстрактного уровня
72 - Spring. Создание абстрактного уровня72 - Spring. Создание абстрактного уровня
72 - Spring. Создание абстрактного уровняRoman Brovko
 
78 - Spring. Настройка GlassFish
78 - Spring. Настройка GlassFish78 - Spring. Настройка GlassFish
78 - Spring. Настройка GlassFishRoman Brovko
 
68 - Spring. Функционал
68 - Spring. Функционал68 - Spring. Функционал
68 - Spring. ФункционалRoman Brovko
 
70 - Spring. Установка GlassFish
70 - Spring. Установка GlassFish70 - Spring. Установка GlassFish
70 - Spring. Установка GlassFishRoman Brovko
 
Web flowpresentation
Web flowpresentationWeb flowpresentation
Web flowpresentationRoman Brovko
 
67 - Spring. Начальные знания
67 - Spring. Начальные знания67 - Spring. Начальные знания
67 - Spring. Начальные знанияRoman Brovko
 
144 - Spring. Наследование потоков
144 - Spring. Наследование потоков144 - Spring. Наследование потоков
144 - Spring. Наследование потоковRoman Brovko
 
143 - Spring. JSF centric integration
143 - Spring. JSF centric integration143 - Spring. JSF centric integration
143 - Spring. JSF centric integrationRoman Brovko
 
Лекция 1. Начало.
Лекция 1. Начало.Лекция 1. Начало.
Лекция 1. Начало.Roman Brovko
 
Лекция 2. Всё, что вы хотели знать о функциях в Python.
Лекция 2. Всё, что вы хотели знать о функциях в Python.Лекция 2. Всё, что вы хотели знать о функциях в Python.
Лекция 2. Всё, что вы хотели знать о функциях в Python.Roman Brovko
 
Лекция 13. Многопоточность и GIL
Лекция 13. Многопоточность и GILЛекция 13. Многопоточность и GIL
Лекция 13. Многопоточность и GILRoman Brovko
 
Лекция 6. Классы 1.
Лекция 6. Классы 1.Лекция 6. Классы 1.
Лекция 6. Классы 1.Roman Brovko
 
Лекция 5. Встроенные коллекции и модуль collections.
Лекция 5. Встроенные коллекции и модуль collections.Лекция 5. Встроенные коллекции и модуль collections.
Лекция 5. Встроенные коллекции и модуль collections.Roman Brovko
 
Лекция 4. Строки, байты, файлы и ввод/вывод.
 Лекция 4. Строки, байты, файлы и ввод/вывод. Лекция 4. Строки, байты, файлы и ввод/вывод.
Лекция 4. Строки, байты, файлы и ввод/вывод.Roman Brovko
 
Лекция 3. Декораторы и модуль functools.
Лекция 3. Декораторы и модуль functools.Лекция 3. Декораторы и модуль functools.
Лекция 3. Декораторы и модуль functools.Roman Brovko
 
Лекция 12. Быстрее, Python, ещё быстрее.
Лекция 12. Быстрее, Python, ещё быстрее.Лекция 12. Быстрее, Python, ещё быстрее.
Лекция 12. Быстрее, Python, ещё быстрее.Roman Brovko
 
Лекция 8. Итераторы, генераторы и модуль itertools.
 Лекция 8. Итераторы, генераторы и модуль itertools. Лекция 8. Итераторы, генераторы и модуль itertools.
Лекция 8. Итераторы, генераторы и модуль itertools.Roman Brovko
 
Лекция 10. Классы 2.
Лекция 10. Классы 2.Лекция 10. Классы 2.
Лекция 10. Классы 2.Roman Brovko
 

En vedette (20)

2013 02 28_bigdata_seminare_02
2013 02 28_bigdata_seminare_022013 02 28_bigdata_seminare_02
2013 02 28_bigdata_seminare_02
 
72 - Spring. Создание абстрактного уровня. Разбор д/з
72 - Spring. Создание абстрактного уровня. Разбор д/з72 - Spring. Создание абстрактного уровня. Разбор д/з
72 - Spring. Создание абстрактного уровня. Разбор д/з
 
72 - Spring. Создание абстрактного уровня
72 - Spring. Создание абстрактного уровня72 - Spring. Создание абстрактного уровня
72 - Spring. Создание абстрактного уровня
 
78 - Spring. Настройка GlassFish
78 - Spring. Настройка GlassFish78 - Spring. Настройка GlassFish
78 - Spring. Настройка GlassFish
 
68 - Spring. Функционал
68 - Spring. Функционал68 - Spring. Функционал
68 - Spring. Функционал
 
70 - Spring. Установка GlassFish
70 - Spring. Установка GlassFish70 - Spring. Установка GlassFish
70 - Spring. Установка GlassFish
 
Web flowpresentation
Web flowpresentationWeb flowpresentation
Web flowpresentation
 
67 - Spring. Начальные знания
67 - Spring. Начальные знания67 - Spring. Начальные знания
67 - Spring. Начальные знания
 
144 - Spring. Наследование потоков
144 - Spring. Наследование потоков144 - Spring. Наследование потоков
144 - Spring. Наследование потоков
 
143 - Spring. JSF centric integration
143 - Spring. JSF centric integration143 - Spring. JSF centric integration
143 - Spring. JSF centric integration
 
Лекция 1. Начало.
Лекция 1. Начало.Лекция 1. Начало.
Лекция 1. Начало.
 
Лекция 2. Всё, что вы хотели знать о функциях в Python.
Лекция 2. Всё, что вы хотели знать о функциях в Python.Лекция 2. Всё, что вы хотели знать о функциях в Python.
Лекция 2. Всё, что вы хотели знать о функциях в Python.
 
Лекция 13. Многопоточность и GIL
Лекция 13. Многопоточность и GILЛекция 13. Многопоточность и GIL
Лекция 13. Многопоточность и GIL
 
Лекция 6. Классы 1.
Лекция 6. Классы 1.Лекция 6. Классы 1.
Лекция 6. Классы 1.
 
Лекция 5. Встроенные коллекции и модуль collections.
Лекция 5. Встроенные коллекции и модуль collections.Лекция 5. Встроенные коллекции и модуль collections.
Лекция 5. Встроенные коллекции и модуль collections.
 
Лекция 4. Строки, байты, файлы и ввод/вывод.
 Лекция 4. Строки, байты, файлы и ввод/вывод. Лекция 4. Строки, байты, файлы и ввод/вывод.
Лекция 4. Строки, байты, файлы и ввод/вывод.
 
Лекция 3. Декораторы и модуль functools.
Лекция 3. Декораторы и модуль functools.Лекция 3. Декораторы и модуль functools.
Лекция 3. Декораторы и модуль functools.
 
Лекция 12. Быстрее, Python, ещё быстрее.
Лекция 12. Быстрее, Python, ещё быстрее.Лекция 12. Быстрее, Python, ещё быстрее.
Лекция 12. Быстрее, Python, ещё быстрее.
 
Лекция 8. Итераторы, генераторы и модуль itertools.
 Лекция 8. Итераторы, генераторы и модуль itertools. Лекция 8. Итераторы, генераторы и модуль itertools.
Лекция 8. Итераторы, генераторы и модуль itertools.
 
Лекция 10. Классы 2.
Лекция 10. Классы 2.Лекция 10. Классы 2.
Лекция 10. Классы 2.
 

Similaire à 2013 03 21_bigdata_seminar_05

ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...
ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...
ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...Alexey Paznikov
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Technosphere1
 
ITMO RecSys course. Autumn 2014. Lecture 3
ITMO RecSys course. Autumn 2014. Lecture 3ITMO RecSys course. Autumn 2014. Lecture 3
ITMO RecSys course. Autumn 2014. Lecture 3Andrey Danilchenko
 
Обзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхОбзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхmaxkalachev
 
Обзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхОбзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхSoftline
 
ITMO RecSys course. Autumn 2014. Lecture 6
ITMO RecSys course. Autumn 2014. Lecture 6ITMO RecSys course. Autumn 2014. Lecture 6
ITMO RecSys course. Autumn 2014. Lecture 6Andrey Danilchenko
 
Факторизационные модели в рекомендательных системах
Факторизационные модели в рекомендательных системахФакторизационные модели в рекомендательных системах
Факторизационные модели в рекомендательных системахromovpa
 
ИТМО Machine Learning. Рекомендательные системы — часть 1
ИТМО Machine Learning. Рекомендательные системы — часть 1ИТМО Machine Learning. Рекомендательные системы — часть 1
ИТМО Machine Learning. Рекомендательные системы — часть 1Andrey Danilchenko
 
2014.12.06 04 Евгений Тюменцев — Откуда появились s.o.l.i.d. принципы
2014.12.06 04 Евгений Тюменцев — Откуда появились s.o.l.i.d. принципы2014.12.06 04 Евгений Тюменцев — Откуда появились s.o.l.i.d. принципы
2014.12.06 04 Евгений Тюменцев — Откуда появились s.o.l.i.d. принципыHappyDev
 
Математическое обоснование SOLID принципов - Евгений Тюменцев Dev2Dev v2.0 30...
Математическое обоснование SOLID принципов - Евгений Тюменцев Dev2Dev v2.0 30...Математическое обоснование SOLID принципов - Евгений Тюменцев Dev2Dev v2.0 30...
Математическое обоснование SOLID принципов - Евгений Тюменцев Dev2Dev v2.0 30...Dev2Dev
 
20100425 model based_testing_kuliamin_lectures01-03
20100425 model based_testing_kuliamin_lectures01-0320100425 model based_testing_kuliamin_lectures01-03
20100425 model based_testing_kuliamin_lectures01-03Computer Science Club
 
Лекция 11. Методы разработки алгоритмов
Лекция 11. Методы разработки алгоритмовЛекция 11. Методы разработки алгоритмов
Лекция 11. Методы разработки алгоритмовMikhail Kurnosov
 
Математическое обоснование S.O.L.I.D принципов
Математическое обоснование S.O.L.I.D принциповМатематическое обоснование S.O.L.I.D принципов
Математическое обоснование S.O.L.I.D принциповetyumentcev
 
2009 10-31 есть ли жизнь после mpi
2009 10-31 есть ли жизнь после mpi2009 10-31 есть ли жизнь после mpi
2009 10-31 есть ли жизнь после mpiMichael Karpov
 
Лекция 10: Графы. Остовные деревья
Лекция 10: Графы. Остовные деревьяЛекция 10: Графы. Остовные деревья
Лекция 10: Графы. Остовные деревьяMikhail Kurnosov
 
Лекция 11: Методы разработки алгоритмов
Лекция 11: Методы разработки алгоритмовЛекция 11: Методы разработки алгоритмов
Лекция 11: Методы разработки алгоритмовMikhail Kurnosov
 
Realistic VR experience requires visualization of realistic players, which in...
Realistic VR experience requires visualization of realistic players, which in...Realistic VR experience requires visualization of realistic players, which in...
Realistic VR experience requires visualization of realistic players, which in...Provectus
 

Similaire à 2013 03 21_bigdata_seminar_05 (20)

ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...
ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...
ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes"
 
ITMO RecSys course. Autumn 2014. Lecture 3
ITMO RecSys course. Autumn 2014. Lecture 3ITMO RecSys course. Autumn 2014. Lecture 3
ITMO RecSys course. Autumn 2014. Lecture 3
 
Обзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхОбзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данных
 
Обзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхОбзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данных
 
ITMO RecSys course. Autumn 2014. Lecture 6
ITMO RecSys course. Autumn 2014. Lecture 6ITMO RecSys course. Autumn 2014. Lecture 6
ITMO RecSys course. Autumn 2014. Lecture 6
 
Синтез функциональных программ при помощи метода дедуктивных таблиц
Синтез функциональных программ при помощи метода дедуктивных таблицСинтез функциональных программ при помощи метода дедуктивных таблиц
Синтез функциональных программ при помощи метода дедуктивных таблиц
 
Факторизационные модели в рекомендательных системах
Факторизационные модели в рекомендательных системахФакторизационные модели в рекомендательных системах
Факторизационные модели в рекомендательных системах
 
ИТМО Machine Learning. Рекомендательные системы — часть 1
ИТМО Machine Learning. Рекомендательные системы — часть 1ИТМО Machine Learning. Рекомендательные системы — часть 1
ИТМО Machine Learning. Рекомендательные системы — часть 1
 
2014.12.06 04 Евгений Тюменцев — Откуда появились s.o.l.i.d. принципы
2014.12.06 04 Евгений Тюменцев — Откуда появились s.o.l.i.d. принципы2014.12.06 04 Евгений Тюменцев — Откуда появились s.o.l.i.d. принципы
2014.12.06 04 Евгений Тюменцев — Откуда появились s.o.l.i.d. принципы
 
Математическое обоснование SOLID принципов - Евгений Тюменцев Dev2Dev v2.0 30...
Математическое обоснование SOLID принципов - Евгений Тюменцев Dev2Dev v2.0 30...Математическое обоснование SOLID принципов - Евгений Тюменцев Dev2Dev v2.0 30...
Математическое обоснование SOLID принципов - Евгений Тюменцев Dev2Dev v2.0 30...
 
20100425 model based_testing_kuliamin_lectures01-03
20100425 model based_testing_kuliamin_lectures01-0320100425 model based_testing_kuliamin_lectures01-03
20100425 model based_testing_kuliamin_lectures01-03
 
Лекция 11. Методы разработки алгоритмов
Лекция 11. Методы разработки алгоритмовЛекция 11. Методы разработки алгоритмов
Лекция 11. Методы разработки алгоритмов
 
Математическое обоснование S.O.L.I.D принципов
Математическое обоснование S.O.L.I.D принциповМатематическое обоснование S.O.L.I.D принципов
Математическое обоснование S.O.L.I.D принципов
 
Recsys.hse
Recsys.hseRecsys.hse
Recsys.hse
 
2009 10-31 есть ли жизнь после mpi
2009 10-31 есть ли жизнь после mpi2009 10-31 есть ли жизнь после mpi
2009 10-31 есть ли жизнь после mpi
 
Задача SLAM
Задача SLAMЗадача SLAM
Задача SLAM
 
Лекция 10: Графы. Остовные деревья
Лекция 10: Графы. Остовные деревьяЛекция 10: Графы. Остовные деревья
Лекция 10: Графы. Остовные деревья
 
Лекция 11: Методы разработки алгоритмов
Лекция 11: Методы разработки алгоритмовЛекция 11: Методы разработки алгоритмов
Лекция 11: Методы разработки алгоритмов
 
Realistic VR experience requires visualization of realistic players, which in...
Realistic VR experience requires visualization of realistic players, which in...Realistic VR experience requires visualization of realistic players, which in...
Realistic VR experience requires visualization of realistic players, which in...
 

Plus de Roman Brovko

Individual task Networking
Individual task NetworkingIndividual task Networking
Individual task NetworkingRoman Brovko
 
Networking essentials lect3
Networking essentials lect3Networking essentials lect3
Networking essentials lect3Roman Brovko
 
Gl embedded starterkit_ethernet
Gl embedded starterkit_ethernetGl embedded starterkit_ethernet
Gl embedded starterkit_ethernetRoman Brovko
 
Networking essentials lect2
Networking essentials lect2Networking essentials lect2
Networking essentials lect2Roman Brovko
 
Networking essentials lect1
Networking essentials lect1Networking essentials lect1
Networking essentials lect1Roman Brovko
 
Bare metal training_07_spi_flash
Bare metal training_07_spi_flashBare metal training_07_spi_flash
Bare metal training_07_spi_flashRoman Brovko
 
Bare metal training_06_I2C
Bare metal training_06_I2CBare metal training_06_I2C
Bare metal training_06_I2CRoman Brovko
 
Bare metal training_05_uart
Bare metal training_05_uartBare metal training_05_uart
Bare metal training_05_uartRoman Brovko
 
Bare metal training_04_adc_temp_sensor
Bare metal training_04_adc_temp_sensorBare metal training_04_adc_temp_sensor
Bare metal training_04_adc_temp_sensorRoman Brovko
 
Bare metal training_03_timers_pwm
Bare metal training_03_timers_pwmBare metal training_03_timers_pwm
Bare metal training_03_timers_pwmRoman Brovko
 
Bare metal training_02_le_ds_and_buttons
Bare metal training_02_le_ds_and_buttonsBare metal training_02_le_ds_and_buttons
Bare metal training_02_le_ds_and_buttonsRoman Brovko
 
Bare metal training_01_hello_world
Bare metal training_01_hello_worldBare metal training_01_hello_world
Bare metal training_01_hello_worldRoman Brovko
 
Bare metal training_00_prerequisites
Bare metal training_00_prerequisitesBare metal training_00_prerequisites
Bare metal training_00_prerequisitesRoman Brovko
 
C language lect_23_advanced
C language lect_23_advancedC language lect_23_advanced
C language lect_23_advancedRoman Brovko
 
C language lect_22_advanced
C language lect_22_advancedC language lect_22_advanced
C language lect_22_advancedRoman Brovko
 
C language lect_21_advanced
C language lect_21_advancedC language lect_21_advanced
C language lect_21_advancedRoman Brovko
 
подготовка рабочего окружения
подготовка рабочего окруженияподготовка рабочего окружения
подготовка рабочего окруженияRoman Brovko
 
C language lect_20_advanced
C language lect_20_advancedC language lect_20_advanced
C language lect_20_advancedRoman Brovko
 
C language lect_19_basics
C language lect_19_basicsC language lect_19_basics
C language lect_19_basicsRoman Brovko
 

Plus de Roman Brovko (20)

Individual task Networking
Individual task NetworkingIndividual task Networking
Individual task Networking
 
Networking essentials lect3
Networking essentials lect3Networking essentials lect3
Networking essentials lect3
 
Gl embedded starterkit_ethernet
Gl embedded starterkit_ethernetGl embedded starterkit_ethernet
Gl embedded starterkit_ethernet
 
Networking essentials lect2
Networking essentials lect2Networking essentials lect2
Networking essentials lect2
 
Networking essentials lect1
Networking essentials lect1Networking essentials lect1
Networking essentials lect1
 
Bare metal training_07_spi_flash
Bare metal training_07_spi_flashBare metal training_07_spi_flash
Bare metal training_07_spi_flash
 
Bare metal training_06_I2C
Bare metal training_06_I2CBare metal training_06_I2C
Bare metal training_06_I2C
 
Glesk worshop
Glesk worshopGlesk worshop
Glesk worshop
 
Bare metal training_05_uart
Bare metal training_05_uartBare metal training_05_uart
Bare metal training_05_uart
 
Bare metal training_04_adc_temp_sensor
Bare metal training_04_adc_temp_sensorBare metal training_04_adc_temp_sensor
Bare metal training_04_adc_temp_sensor
 
Bare metal training_03_timers_pwm
Bare metal training_03_timers_pwmBare metal training_03_timers_pwm
Bare metal training_03_timers_pwm
 
Bare metal training_02_le_ds_and_buttons
Bare metal training_02_le_ds_and_buttonsBare metal training_02_le_ds_and_buttons
Bare metal training_02_le_ds_and_buttons
 
Bare metal training_01_hello_world
Bare metal training_01_hello_worldBare metal training_01_hello_world
Bare metal training_01_hello_world
 
Bare metal training_00_prerequisites
Bare metal training_00_prerequisitesBare metal training_00_prerequisites
Bare metal training_00_prerequisites
 
C language lect_23_advanced
C language lect_23_advancedC language lect_23_advanced
C language lect_23_advanced
 
C language lect_22_advanced
C language lect_22_advancedC language lect_22_advanced
C language lect_22_advanced
 
C language lect_21_advanced
C language lect_21_advancedC language lect_21_advanced
C language lect_21_advanced
 
подготовка рабочего окружения
подготовка рабочего окруженияподготовка рабочего окружения
подготовка рабочего окружения
 
C language lect_20_advanced
C language lect_20_advancedC language lect_20_advanced
C language lect_20_advanced
 
C language lect_19_basics
C language lect_19_basicsC language lect_19_basics
C language lect_19_basics
 

2013 03 21_bigdata_seminar_05

  • 1. Некоторые вероятностные модели в информационном поиске Антон Алексеев anton.m.alexeyev@math.spbu.ru Computer Science Center 21 марта 2013 г.
  • 2. Людская память — вешняя вода Дано: документы D, запрос q ∈ Q Понять: насколько релевантен d ∈ D запросу q И выдать самые (все) релевантные. Мы уже знакомы с grep булевым поиском векторным поиском Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 2 / 25
  • 3. Без предисловий, сей же час В программе: 1 Необходимые понятия из теории вероятностей 2 PRP + BIM + relevance feedback 3 Прочее Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 3 / 25
  • 4. Байесовцы, байезианцы, байесята P(A|B) = P(B|A)P(A) P(B) = P(A) (︃ P(B|A) ∑︀ X∈{A,¯A} P(B|X)P(X) )︃ Философия: P(A) — предполагаемая оценка вероятности события A P(A|B) — уточнённая свидетельством B оценка P(A) Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 4 / 25
  • 5. Он не получка, не аванс Отношение шансов (odds): O(A) = P(A) P(¯A) = P(A) 1 − P(A) Упражнение Свойство, которое нам пригодится. Легко проверить, что P(A), P(B) ∈ (0, 1) ⇒ (P(A) > P(B) ⇔ O(A) > O(B)) Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 5 / 25
  • 6. Терминология Гипотеза: волк режет овец! false positive = ложная тревога: овцы целы = ошибка I рода false negative = не опознали волка: овцы съедены = ошибка II рода Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 6 / 25
  • 7. Предположения и определения Запрос q, коллекция D. Для каждого q есть своё множество релевантных документов Relq ⊂ D, то есть можно ввести функцию ˜Rq(d) = {︃ 1 if d ∈ Relq 0 otherwise Но, увы, мы ничего не знаем :( Вместо ˜Rq — случайная величина Rq. Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 7 / 25
  • 8. Probability Ranking Principle (van Rijsbergen, 1979) План: упорядоченный список документов — выводим topk из списка документов, отсортированного по убыванию P(R = 1|d, q) или множество всех релевантных — выводим всякий d : P(R = 1|d, q) > P(R = 0|d, q). Функция потерь штрафует одним очком как за нерелевантный документ, так и за непоявление релевантного документа в выдаче. Теорема (Riply, 1996) Правило PRP минимизирует байесовский риск. Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 8 / 25
  • 9. Probability Ranking Principle ++ C0 — стоимость неизвлечения релевантного документа (FN) C1 — стоимость извлечения нерелевантного документа (FP) Тогда d попадает в выдачу, если C0 · P(R = 0|d) − C1 · P(R = 1|d) ≤ C0 · P(R = 0|d′ ) − C1 · P(R = 1|d′ ), где d и d′ ещё не показаны. Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 9 / 25
  • 10. Binary Independence Model (1) Документ — вектор весов термов. wd,t ∈ {0, 1} Допущение 1: Naive Bayes assumption Термы встречаются в документе независимо друг от друга. Допущение 2 Релевантность документа не зависит от релевантности никакого другого документа. (Умножение — мать сомнения!) Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 10 / 25
  • 11. Binary Independence Model (2) ⃗q и ⃗x — бинарные векторы, соответствующие запросу и документу. Хотим уметь вычислять P(R = 1|⃗x,⃗q)−? P(R = 1|⃗x,⃗q) = P(⃗x|R = 1,⃗q)P(R = 1,⃗q) P(⃗x,⃗q) = P(⃗x|R = 1,⃗q)P(R = 1|⃗q) P(⃗x|⃗q) Аналогично для P(R = 0|⃗x,⃗q). Интерпретация? Хитрые оценки, не забывать про определение вероятности. Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 11 / 25
  • 12. Binary Independence Model (3) Условные вероятности — тоже вероятности O(R|⃗x,⃗q) = P(R = 1|⃗x,⃗q) P(R = 0|⃗x,⃗q) = P(R = 1|⃗q)P(⃗x|R = 1,⃗q) P(R = 0|⃗q)P(⃗x|R = 0,⃗q) = O(R|⃗q) P(⃗x|R = 1,⃗q) P(⃗x|R = 0,⃗q) Убили P(⃗x|⃗q)! Применяем Допущение 1: P(⃗x|R = 1,⃗q) P(⃗x|R = 0,⃗q) = ∏︁ t P(xt|R = 1,⃗q) P(xt|R = 0,⃗q) Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 12 / 25
  • 13. Binary Independence Model (4) Теперь pt = P(xt = 1|R = 1,⃗q), ut = P(xt = 1|R = 0,⃗q) Допущение 3 Если qt = 0 (т.е. если соответствующий терм не появляется в запросе), то присутствие терма t в релевантном и нерелевантном документах равновероятны, то есть pt = ut. В формуле кое-что сократилось, а кое-что можно и выбросить: O(R|⃗x,⃗q) = O(R|⃗q) ∏︁ xt=qt=1 pt ut ∏︁ xt=0,qt=1 1 − pt 1 − ut = = O(R|⃗q) ∏︁ xt=qt=1 pt(1 − ut) ut(1 − pt) ∏︁ qt=1 1 − pt 1 − ut Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 13 / 25
  • 14. BIM: Retrieval Status Value Логарифмируем то, что осталось: RSVd = log ∏︁ xt=qt=1 pt(1 − ut) ut(1 − pt) = ∑︁ xt=qt=1 (log pt 1 − pt + log 1 − ut ut ) Нас интересуют только термы, встречающиеся и в документе, и в запросе. Величина ct = log pt 1−pt + log 1−ut ut — основа вычислений в модели. Напоминание pt = P(xt = 1|R = 1,⃗q) ut = P(xt = 1|R = 0,⃗q) Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 14 / 25
  • 15. BIM: Оценивание (1) Ранжируем по RSV . Как оценить? Пример Для фиксированного терма t: N — число документов S — число релевантных документов s ⊂ S — число релевантных документов, содержащих t Тогда pt = s S и ut = dft−s N−S ct = log s S − s · N − S − dft + s dft − s Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 15 / 25
  • 16. BIM: Оценивание (2) Деление на ноль — это смерть! ct = log s + 0.5 S − s + 0.5 · N − S − dft + s + 0.5 dft − s + 0.5 Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 16 / 25
  • 17. BIM: Оценивание (3) Откуда берутся s и S или pt и ut? Нерелевантных много больше, чем релевантных! ⇒ ut = dft N Тогда log((1 − ut)/ut) = log((N − dft)/dft) → log(N/dft) На что похоже? Что делать с pt? Варианты pt − const (Croft & Harper (1979)) Магия: pt = 1 3 + 2 3 dft N (Greiff (1998)) Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 17 / 25
  • 18. BIM: Probabilistic relevance feedback В идеальном мире с идеальными пользователями... 1 Задать начальные значения pt и ut. Да хоть константы! 2 Показать пользователю {d : Rd,q = 1} 3 Пользователь: «хочу/не хочу»: V = VR ∪ VNR 4 Пересчитываем! Как? pt = |VRt| |VR| Нет, не так. pt = |VRt| + 1 2 |VR| + 1 А лучше — так: p (k+1) t = |VRt| + Kp (k) t |VR| + K Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 18 / 25
  • 19. BIM: Probabilistic relevance feedback IRL Не все знают, чего хотят, и не все любят общаться с поисковиком. 1 Задать начальные значения pt и ut. Так же. 2 Показать пользователю V (top|V | по рангу) 3 Пересчитываем! Например, pt = |Vt| + 1 2 |V | + 1 ut = dft − |Vt| + 1 2 N − |V | + 1 4 Если ранжирование не устаканилось, переходим к шагу 2. Если Вы думаете, что ДА ЭТО ЖЕ TF-IDF, Вам показалось (наиболее любопытным считать проверку этого упражнением). Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 19 / 25
  • 20. Выводы о BIM Хорошо? 1. Cтрогая мат.модель! 2. Лучше булевой Плохо? 1. Холодный старт 2. Сильные предположения 3. Никак не учитываются длина документа и частоты термов Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 20 / 25
  • 21. BM25 aka Okapi weighing Некогда очень популярная в промышленности схема Идея: будем учитывать длины документов и частоты термов! Формулы RSV , учитывающие эти характеристики: idf * something(length, tfs) За введением — в IIR [1] или Wikipedia. За подробностями — статьи. Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 21 / 25
  • 22. «Деревья зависимостей» Очень, очень сильные предположения. Может, делать не так топорно? Термы как множество случайных элементов с редкими зависимостями Естественное представление зависимостей — орграф (а лучше дерево) Байесовские сети доверия (понятие о применении даётся в [2]): сеть документов, сеть запросов. Переменные: документы, термы, «понятия». Логико-вероятностный вывод. (1991 год. Хорошие результаты на TREC. Продавалось.) Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 22 / 25
  • 23. Спасибо за внимание! Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 23 / 25
  • 24. Литература Introduction to Information Retrieval (2008) by Christopher D. Manning, Prabhakar Raghavan, Hinrich Schtze. Baeza-Yates, Ricardo and Ribeiro-Neto, Berthier. Modern Information Retrieval. Boston, MA, USA. Addison-Wesley Longman Publishing Co., Inc. 1999. Прочие ссылки в скобках — найдутся в [1] Антон Алексеев (CompSciCenter) ВМ в информационном поиске 21 марта 2013 г. 24 / 25
  • 25. Некоторые вероятностные модели в информационном поиске Антон Алексеев anton.m.alexeyev@math.spbu.ru Computer Science Center 21 марта 2013 г.