SlideShare une entreprise Scribd logo
1  sur  32
Télécharger pour lire hors ligne
18 мая 2013 г.
Лингвистика в поиске
Алексей Зобнин
Малый ШАД
Лингвистика в поиске
Поисковая система должна быстро и точно
обрабатывать миллионы запросов.
Чтобы найти релевантные документы, требуется
‒ правильно определить язык запроса
‒ исправить возможные опечатки
‒ произвести морфологический анализ
‒ расширить или переформулировать запрос
Поисковые системы
Как работает поиск?
‒ размер интернета исчисляется экзабайтами
‒ в интернете размещены миллиарды страниц
Конечно, обходить весь интернет каждый раз для
ответа на запрос невозможно. Поэтому поисковая
система заранее индексирует сайты.
Индекс
Специальная структура данных, похожая
на предметный указатель или адресный справочник.
Индекс позволяет по каждому слову найти
все документы и позиции, в которых оно встречается.
Поиск в интернете состоит из двух больших частей:
‒ подготовка поискового индекса
‒ поиск ответа на конкретный запрос в индексе
Индекс: пример
Проиндексируем произведения А. С. Пушкина:
1. «Руслан и Людмила»
2. «Евгений Онегин»
3. «Медный всадник»
…
берегу 1, 2, 3, …
дуб 1, …
дядя 2, …
Евгений 2, 3, …
кот 1, 2, …
Булев поиск
‒ в индексе лежат отдельные слова документов
‒ документ рассматривается как множество слов
‒ ищем документы, содержащие искомые слова
‒ запрос может содержать логические операторы
AND, OR, NOT
Поиск сводится к пересечению и объединению
упорядоченных списков словопозиций.
Недостатки булева поиска
‒ нет ранжирования результатов по релевантности
‒ не учитываются частоты слов
‒ не учитываются расстояния между словами
‒ не учитываются различные формы слов
‒ нет расширений запроса
Расстояния между словами
Модифицируем индекс:
будем записывать полные «координаты» слов.
Например,
‒ номер документа
‒ номер предложения
‒ номер слова в предложении
‒ ???
Токенизация
Как правильно разбить текст на лексемы?
Ростов-на-Дону но San Francisco-Los Angeles
д'Артаньян, п'ять, don't, qu'est-ce que c'est?
Mr. O'Neill thinks that the boys' stories about Chile's capital
aren't amusing
中華人民共和國
Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz
Нормализация
Какие токены следует отождествить?
ё и е (но всё ‒ все, осёл ‒ осел)
cooperation, coöperation и co-operation
iPhone и iphone, Windows и windows?
ä=ae, ö=oe, ü=ue
renyxa
Стоп-слова
Как поступать с частотными токенами?
и, в, на, с, не, по, для, его, что, то, это, все, от, к, из,
за, а, о, как, уже, или, их, том, г, я, у, будет, есть,
больше, было, ...
было или не было?
что есть, то есть
как, это уже все?
Закон Ципфа
Частота слова обратно пропорциональна
его номеру в частотном списке.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0
2000000
4000000
6000000
8000000
10000000
12000000
14000000
Распознавание языка
дружина князя Игоря (русский)
дружина князя Ігоря (украинский)
такси — русский или украинский?
kayak — турецкий или английский?
Nokia — на каком языке отвечать?
Распознавание языка: факторы
‒ алфавит
‒ частоты слов в разных языках
‒ регион пользователя / адрес документа
‒ язык интерфейса пользователя
‒ соответствие языковой модели
Используется машинное обучение.
Языковые модели
Задача: оценить вероятность появления
предложения w1 w2 … wm в данном языке.
Считаем, что
Это — марковское свойство: мы считаем,
что вероятность встретить очередное слово
зависит только от n - 1 предыдущего слова.
Вероятности n-грамм могут быть найдены из корпуса.
P (w1 w2 ...w m) = ∏
i =1
m
P (w i ∣w 1...wi −1) ≈ ∏
i =1
m
P (w i ∣w i −(n−1)...wi −1).
Морфологический анализ
Хотим искать все формы слов из запроса.
Для этого можно либо расширять запрос другими
формами, либо хранить в индексе начальные формы слов.
Основные задачи:
‒ лемматизация (определение нормальной формы)
‒ определение грамматических характеристик
‒ генерация других форм слова
Префиксное дерево (бор, trie)
Цыган, цыганка, цыкать, цыпленок, цыпочки, цыц:
ц ы
г а
ак
п л
о ч
е
т ь
н
к и
о к
ц
на ак
Словоформа и парадигма
Словоформа: чаю кофе потанцуем
Лемма: [ча]й [кофе] [потанц]евать
Парадигма: -й
-я
-ю
-й
-ем
-е
-и
-ев
-ям
-и
-ями
-ях
- -ую
-уй
-уешь
-ует
-евал
-евала
-евало
-уем
-уемте
-уйте
-уете
-уют
-евали
-евать
Добавим грамматические теги
ковер
[ковер] сущ, неод, муж, ед, им
[ковр]а сущ, неод, муж, ед, род
[ковр]у сущ, неод, муж, ед, дат
[ковер] сущ, неод, муж, ед, вин
[ковр]ом сущ, неод, муж, ед, твор
[ковр]е сущ, неод, муж, ед, пр
[ковр]ы сущ, неод, муж, мн, им
[ковр]ов сущ, неод, муж, мн, род
[ковр]ам сущ, неод, муж, мн, дат
[ковр]ы сущ, неод, муж, мн, вин
[ковр]ами сущ, неод, муж, мн, твор
[ковр]ах сущ, неод, муж, мн, пр
...
А если слова нет в словаре?
я иду {идти} по ковру {ковёр}
мы идём {идти} по коврём {коврать?}
ты идёшь {идти} по коврёшь {коврать?}
вы идёте {идти} по коврёте {коврать?}
он идёт {идти} по коврёт {коврать?}
они идут {идти} по коврут {коврать?}
http://company.yandex.ru/technologies/mystem/
А если слова нет в словаре?
«Глокая куздра штеко будланула бокра
и курдячит бокрёнка»
Л. В. Щерба.
глокая {глокать? глокий?}
куздра {куздра?}
штеко {штекий? штеко?}
будланула {будланул? будланула? будлануть?}
бокра {бокр? бокра? бокрый?}
и {и}
кудрячит {кудрячит? кудрячита? кудрячитый? кудрячить?}
бокренка {бокренк? бокренка? бокренок?}
Построение гипотез по образцу
бокренка:
кенгуренка
тигренка
→ бокренок
черенка
→ бокренок
будланула:
обманула
→ будлануть
буренка
сестренка
→ бокренка
керенка
шестеренка
→ бокренка
гранула
→ будланула
манула
→ будланул
Морфологическая омонимия
Задача: выбрать правильный морфологический разбор
слова (с учетом контекста).
Хранение денег в банке.
Что делают белки в клетке?
Фотографии Львов.
Капля стекла со стекла.
Полосы стали красными...
Полосы стали красными реками текли по конвейеру
трубопрокатного завода.
Скрытые марковские модели
Задача: приписать наиболее вероятным образом
каждому слову wk в предложении тег tk.
Используем формулу Байеса для условной вероятности:
Получаем:
Задача — найти для данного предложения набор тегов,
который делает эту вероятность максимальной.
P (A ∣B )=
P (B ∣ A)P (A)
P (B)
.
P (t1 ...tm ∣w 1...wm) =
P (w 1...wm ∣t1 ...t m) P (t 1...t m)
P (w 1...w m)
.
Скрытые марковские модели
Считаем, что распределение тегов подчиняется
марковскому свойству:
Вероятности в правой части могут быть найдены как
частоты по большому размеченному корпусу
(например, http://ruscorpora.ru)
Для поиска оптимальных тегов используется
динамический алгоритм Витерби.
P (w1 ...w m ∣t1 ...tm) P (t1 ...tm) ≈ ∏
k =1
m
P (w k ∣t k ) P (tk ∣tk −(n−1)...tk −1).
Очепятки
‒ орфографические ошибки:
аднакласники
‒ слитное-раздельное написание:
афишатеатров
‒ контекстные:
меховой слон
спорная команда по хоккею
‒ искаженная раскладка клавиатуры:
lytdybr
Исправление орфоопечаток
‒ ищем ближайшие слова по расстоянию Левенштейна:
количеству вставок, удалений или замен, необходимых
для исправления
‒ используем K-граммный индекс для символов
‒ рассматриваем запросы без опечаток с похожим
контекстом
‒ учитываем вероятность исправленного запроса по
языковой модели
Расширения запроса
‒ синонимы
огромный — большой
бегемот — гиппопотам
‒ орфографические варианты написания
джава — ява
‒ транслитерация и перевод
yandex — яндекс
‒ аббревиатуры
МГУ — Московский государственный университет
‒ словообразование
авто — автомобиль
саша — Александр, Александра
Источники расширений
‒ словари
‒ анализ текстов документов
‒ анализ логов запросов и кликов
‒ переформулировки запросов пользователей
‒ автоматические правила
Литература
1. К. Маннинг, П. Рагхаван, Х. Шютце —
Введение в информационный поиск.
2. K. Manning, H. Schütze — Foundations of Statistical
Natural Language Processing.
3. D. Jurafsky, J. Martin —
Speech and Language Processing.

Contenu connexe

En vedette

СПИК-2014. Исследование АГС-40. [Севальнев Дмитрий]
СПИК-2014. Исследование АГС-40. [Севальнев Дмитрий]СПИК-2014. Исследование АГС-40. [Севальнев Дмитрий]
СПИК-2014. Исследование АГС-40. [Севальнев Дмитрий]Дмитрий Севальнев
 
Исследование нового фильтра АГС-- Яндекса 2015
Исследование нового фильтра АГС-- Яндекса 2015Исследование нового фильтра АГС-- Яндекса 2015
Исследование нового фильтра АГС-- Яндекса 2015Александр Алаев
 
Суровые уроки продвижения
Суровые уроки продвиженияСуровые уроки продвижения
Суровые уроки продвиженияЕвгений Летов
 
Оценка сайта асессорами в шапках
Оценка сайта асессорами в шапкахОценка сайта асессорами в шапках
Оценка сайта асессорами в шапкахЕвгений Летов
 
Промо Эксперт — презентация компании
Промо Эксперт — презентация компанииПромо Эксперт — презентация компании
Промо Эксперт — презентация компанииЕвгений Летов
 
Как ускорить попадание сайта в топ
Как ускорить попадание сайта в топКак ускорить попадание сайта в топ
Как ускорить попадание сайта в топНарижный Денис
 
Юзабилити интернет-магазина
Юзабилити интернет-магазинаЮзабилити интернет-магазина
Юзабилити интернет-магазинаЕвгений Летов
 
Cемантика измерение и аналитика (Data Driven Seo)
Cемантика измерение и аналитика (Data Driven Seo)Cемантика измерение и аналитика (Data Driven Seo)
Cемантика измерение и аналитика (Data Driven Seo)Стас Поломарь
 
Ссылки. Яндекс. Год 2016 - Севальнев РИФ Воронеж 2016
Ссылки. Яндекс. Год 2016 - Севальнев РИФ Воронеж 2016Ссылки. Яндекс. Год 2016 - Севальнев РИФ Воронеж 2016
Ссылки. Яндекс. Год 2016 - Севальнев РИФ Воронеж 2016Дмитрий Севальнев
 
Максимизация индекса: Optimization 2015
Максимизация индекса: Optimization 2015Максимизация индекса: Optimization 2015
Максимизация индекса: Optimization 2015OlegShestakov
 
SEO-проектирование при создании ecommerce-площадок.
SEO-проектирование при создании ecommerce-площадок.SEO-проектирование при создании ecommerce-площадок.
SEO-проектирование при создании ecommerce-площадок.Nimax
 
Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев Дмитрий
Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев ДмитрийСанкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев Дмитрий
Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев ДмитрийДмитрий Севальнев
 
Изменения в санкциях поисковых систем 2015
Изменения в санкциях поисковых систем 2015Изменения в санкциях поисковых систем 2015
Изменения в санкциях поисковых систем 2015Дмитрий Севальнев
 
Поддомены и подпапки. Плюсы и минусы
Поддомены и подпапки. Плюсы и минусыПоддомены и подпапки. Плюсы и минусы
Поддомены и подпапки. Плюсы и минусыСергей Кокшаров
 
Автоматизация SEO-задач в 2017 — CyberMarketing — Севальнев
Автоматизация SEO-задач в 2017 — CyberMarketing — СевальневАвтоматизация SEO-задач в 2017 — CyberMarketing — Севальнев
Автоматизация SEO-задач в 2017 — CyberMarketing — СевальневДмитрий Севальнев
 

En vedette (15)

СПИК-2014. Исследование АГС-40. [Севальнев Дмитрий]
СПИК-2014. Исследование АГС-40. [Севальнев Дмитрий]СПИК-2014. Исследование АГС-40. [Севальнев Дмитрий]
СПИК-2014. Исследование АГС-40. [Севальнев Дмитрий]
 
Исследование нового фильтра АГС-- Яндекса 2015
Исследование нового фильтра АГС-- Яндекса 2015Исследование нового фильтра АГС-- Яндекса 2015
Исследование нового фильтра АГС-- Яндекса 2015
 
Суровые уроки продвижения
Суровые уроки продвиженияСуровые уроки продвижения
Суровые уроки продвижения
 
Оценка сайта асессорами в шапках
Оценка сайта асессорами в шапкахОценка сайта асессорами в шапках
Оценка сайта асессорами в шапках
 
Промо Эксперт — презентация компании
Промо Эксперт — презентация компанииПромо Эксперт — презентация компании
Промо Эксперт — презентация компании
 
Как ускорить попадание сайта в топ
Как ускорить попадание сайта в топКак ускорить попадание сайта в топ
Как ускорить попадание сайта в топ
 
Юзабилити интернет-магазина
Юзабилити интернет-магазинаЮзабилити интернет-магазина
Юзабилити интернет-магазина
 
Cемантика измерение и аналитика (Data Driven Seo)
Cемантика измерение и аналитика (Data Driven Seo)Cемантика измерение и аналитика (Data Driven Seo)
Cемантика измерение и аналитика (Data Driven Seo)
 
Ссылки. Яндекс. Год 2016 - Севальнев РИФ Воронеж 2016
Ссылки. Яндекс. Год 2016 - Севальнев РИФ Воронеж 2016Ссылки. Яндекс. Год 2016 - Севальнев РИФ Воронеж 2016
Ссылки. Яндекс. Год 2016 - Севальнев РИФ Воронеж 2016
 
Максимизация индекса: Optimization 2015
Максимизация индекса: Optimization 2015Максимизация индекса: Optimization 2015
Максимизация индекса: Optimization 2015
 
SEO-проектирование при создании ecommerce-площадок.
SEO-проектирование при создании ecommerce-площадок.SEO-проектирование при создании ecommerce-площадок.
SEO-проектирование при создании ecommerce-площадок.
 
Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев Дмитрий
Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев ДмитрийСанкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев Дмитрий
Санкции поисковых систем — новый виток борьбы. IBC Russia, Севальнев Дмитрий
 
Изменения в санкциях поисковых систем 2015
Изменения в санкциях поисковых систем 2015Изменения в санкциях поисковых систем 2015
Изменения в санкциях поисковых систем 2015
 
Поддомены и подпапки. Плюсы и минусы
Поддомены и подпапки. Плюсы и минусыПоддомены и подпапки. Плюсы и минусы
Поддомены и подпапки. Плюсы и минусы
 
Автоматизация SEO-задач в 2017 — CyberMarketing — Севальнев
Автоматизация SEO-задач в 2017 — CyberMarketing — СевальневАвтоматизация SEO-задач в 2017 — CyberMarketing — Севальнев
Автоматизация SEO-задач в 2017 — CyberMarketing — Севальнев
 

Similaire à Яндекс Малый ШАД - лингвистика в поиске

Computer Semantics And Machine Translation
Computer Semantics And Machine TranslationComputer Semantics And Machine Translation
Computer Semantics And Machine TranslationDmitry Kan
 
Морфологический анализатор Mystem 3.0. Алексей ЗобнинЯндекс
Морфологический анализатор Mystem 3.0. Алексей ЗобнинЯндексМорфологический анализатор Mystem 3.0. Алексей ЗобнинЯндекс
Морфологический анализатор Mystem 3.0. Алексей ЗобнинЯндексYandex
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1Noobie312
 
TechTrain 2019 - (Не)адекватное техническое интервью
TechTrain 2019 - (Не)адекватное техническое интервьюTechTrain 2019 - (Не)адекватное техническое интервью
TechTrain 2019 - (Не)адекватное техническое интервьюAnton Arhipov
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаIrene Pochinok
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстаYury Katkov
 
Digital-копирайтинг
Digital-копирайтингDigital-копирайтинг
Digital-копирайтингIlya Petrov
 
Digital-копирайтинг
Digital-копирайтингDigital-копирайтинг
Digital-копирайтингIlya Petrov
 
Semantic feature machine translation system
Semantic feature machine translation systemSemantic feature machine translation system
Semantic feature machine translation systemDmitry Kan
 
word2vec (part 1)
word2vec (part 1)word2vec (part 1)
word2vec (part 1)Denis Dus
 
1й урок
1й урок1й урок
1й урокDiana Der
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1Noobie312
 

Similaire à Яндекс Малый ШАД - лингвистика в поиске (20)

Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекцииАвтоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
 
Computer Semantics And Machine Translation
Computer Semantics And Machine TranslationComputer Semantics And Machine Translation
Computer Semantics And Machine Translation
 
Морфологический анализатор Mystem 3.0. Алексей ЗобнинЯндекс
Морфологический анализатор Mystem 3.0. Алексей ЗобнинЯндексМорфологический анализатор Mystem 3.0. Алексей ЗобнинЯндекс
Морфологический анализатор Mystem 3.0. Алексей ЗобнинЯндекс
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1
 
TechTrain 2019 - (Не)адекватное техническое интервью
TechTrain 2019 - (Не)адекватное техническое интервьюTechTrain 2019 - (Не)адекватное техническое интервью
TechTrain 2019 - (Не)адекватное техническое интервью
 
Ruby строки
Ruby строкиRuby строки
Ruby строки
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
 
RussNet
RussNetRussNet
RussNet
 
PressPortrets
PressPortretsPressPortrets
PressPortrets
 
Digital-копирайтинг
Digital-копирайтингDigital-копирайтинг
Digital-копирайтинг
 
Digital-копирайтинг
Digital-копирайтингDigital-копирайтинг
Digital-копирайтинг
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
Semantic feature machine translation system
Semantic feature machine translation systemSemantic feature machine translation system
Semantic feature machine translation system
 
Автоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу словАвтоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу слов
 
word2vec (part 1)
word2vec (part 1)word2vec (part 1)
word2vec (part 1)
 
1й урок
1й урок1й урок
1й урок
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Rule b platf
Rule b platfRule b platf
Rule b platf
 

Plus de Евгений Летов

Стас Поломарь. 10 задач по SEO, с решением #bdd2017
Стас Поломарь. 10 задач по SEO, с решением #bdd2017Стас Поломарь. 10 задач по SEO, с решением #bdd2017
Стас Поломарь. 10 задач по SEO, с решением #bdd2017Евгений Летов
 
Контент-маркетинг (ДК 04.12.2015) - 50 минут
Контент-маркетинг (ДК 04.12.2015) - 50 минутКонтент-маркетинг (ДК 04.12.2015) - 50 минут
Контент-маркетинг (ДК 04.12.2015) - 50 минутЕвгений Летов
 
Как составить объявление в контексте
Как составить объявление в контекстеКак составить объявление в контексте
Как составить объявление в контекстеЕвгений Летов
 
Плохие методы продвижения сайта
Плохие методы продвижения сайтаПлохие методы продвижения сайта
Плохие методы продвижения сайтаЕвгений Летов
 
Оптимизация конверсий с Е96
Оптимизация конверсий с Е96Оптимизация конверсий с Е96
Оптимизация конверсий с Е96Евгений Летов
 
«Ранжирование сайтов» 18 лекция, антон роменский и сергей царик
«Ранжирование сайтов» 18 лекция, антон роменский и сергей царик«Ранжирование сайтов» 18 лекция, антон роменский и сергей царик
«Ранжирование сайтов» 18 лекция, антон роменский и сергей царикЕвгений Летов
 
«Индексация сайтов в Яндексе» 17 лекция, александр смирнов
«Индексация сайтов в Яндексе» 17 лекция, александр смирнов«Индексация сайтов в Яндексе» 17 лекция, александр смирнов
«Индексация сайтов в Яндексе» 17 лекция, александр смирновЕвгений Летов
 
Продвижение магазинов через сбор семантики
Продвижение магазинов через сбор семантикиПродвижение магазинов через сбор семантики
Продвижение магазинов через сбор семантикиЕвгений Летов
 
Апдейты, Дмитрий Севальнев (ПиксельПлюс)
Апдейты, Дмитрий Севальнев (ПиксельПлюс)Апдейты, Дмитрий Севальнев (ПиксельПлюс)
Апдейты, Дмитрий Севальнев (ПиксельПлюс)Евгений Летов
 
Как и зачем писать новости на корпоративных сайтах для SEO
Как и зачем писать новости на корпоративных сайтах для SEOКак и зачем писать новости на корпоративных сайтах для SEO
Как и зачем писать новости на корпоративных сайтах для SEOЕвгений Летов
 
Как работают асессоры Яндекса
Как работают асессоры Яндекса Как работают асессоры Яндекса
Как работают асессоры Яндекса Евгений Летов
 
6 шагов построения продающего сайта
6 шагов построения продающего сайта6 шагов построения продающего сайта
6 шагов построения продающего сайтаЕвгений Летов
 
Самостоятельное продвижение сайтов (УБРиР)
Самостоятельное продвижение сайтов (УБРиР)Самостоятельное продвижение сайтов (УБРиР)
Самостоятельное продвижение сайтов (УБРиР)Евгений Летов
 
12 простых советов по оформлению баннеров от Яндекса
12 простых советов по оформлению баннеров от Яндекса12 простых советов по оформлению баннеров от Яндекса
12 простых советов по оформлению баннеров от ЯндексаЕвгений Летов
 
Убрать недостатки, подчеркнуть достоинства
Убрать недостатки, подчеркнуть достоинстваУбрать недостатки, подчеркнуть достоинства
Убрать недостатки, подчеркнуть достоинстваЕвгений Летов
 
Перспективы бессылочного продвижения
Перспективы бессылочного продвижения Перспективы бессылочного продвижения
Перспективы бессылочного продвижения Евгений Летов
 

Plus de Евгений Летов (20)

Стас Поломарь. 10 задач по SEO, с решением #bdd2017
Стас Поломарь. 10 задач по SEO, с решением #bdd2017Стас Поломарь. 10 задач по SEO, с решением #bdd2017
Стас Поломарь. 10 задач по SEO, с решением #bdd2017
 
Контент-маркетинг (ДК 04.12.2015) - 50 минут
Контент-маркетинг (ДК 04.12.2015) - 50 минутКонтент-маркетинг (ДК 04.12.2015) - 50 минут
Контент-маркетинг (ДК 04.12.2015) - 50 минут
 
Как составить объявление в контексте
Как составить объявление в контекстеКак составить объявление в контексте
Как составить объявление в контексте
 
Плохие методы продвижения сайта
Плохие методы продвижения сайтаПлохие методы продвижения сайта
Плохие методы продвижения сайта
 
Оптимизация конверсий с Е96
Оптимизация конверсий с Е96Оптимизация конверсий с Е96
Оптимизация конверсий с Е96
 
«Ранжирование сайтов» 18 лекция, антон роменский и сергей царик
«Ранжирование сайтов» 18 лекция, антон роменский и сергей царик«Ранжирование сайтов» 18 лекция, антон роменский и сергей царик
«Ранжирование сайтов» 18 лекция, антон роменский и сергей царик
 
«Индексация сайтов в Яндексе» 17 лекция, александр смирнов
«Индексация сайтов в Яндексе» 17 лекция, александр смирнов«Индексация сайтов в Яндексе» 17 лекция, александр смирнов
«Индексация сайтов в Яндексе» 17 лекция, александр смирнов
 
Продвижение магазинов через сбор семантики
Продвижение магазинов через сбор семантикиПродвижение магазинов через сбор семантики
Продвижение магазинов через сбор семантики
 
Апдейты, Дмитрий Севальнев (ПиксельПлюс)
Апдейты, Дмитрий Севальнев (ПиксельПлюс)Апдейты, Дмитрий Севальнев (ПиксельПлюс)
Апдейты, Дмитрий Севальнев (ПиксельПлюс)
 
Типовые ошибки на сайте
Типовые ошибки на сайтеТиповые ошибки на сайте
Типовые ошибки на сайте
 
Как и зачем писать новости на корпоративных сайтах для SEO
Как и зачем писать новости на корпоративных сайтах для SEOКак и зачем писать новости на корпоративных сайтах для SEO
Как и зачем писать новости на корпоративных сайтах для SEO
 
Как работают асессоры Яндекса
Как работают асессоры Яндекса Как работают асессоры Яндекса
Как работают асессоры Яндекса
 
За секунду до клика
За секунду до кликаЗа секунду до клика
За секунду до клика
 
6 шагов построения продающего сайта
6 шагов построения продающего сайта6 шагов построения продающего сайта
6 шагов построения продающего сайта
 
Самостоятельное продвижение сайтов (УБРиР)
Самостоятельное продвижение сайтов (УБРиР)Самостоятельное продвижение сайтов (УБРиР)
Самостоятельное продвижение сайтов (УБРиР)
 
12 простых советов по оформлению баннеров от Яндекса
12 простых советов по оформлению баннеров от Яндекса12 простых советов по оформлению баннеров от Яндекса
12 простых советов по оформлению баннеров от Яндекса
 
Убрать недостатки, подчеркнуть достоинства
Убрать недостатки, подчеркнуть достоинстваУбрать недостатки, подчеркнуть достоинства
Убрать недостатки, подчеркнуть достоинства
 
Nikolaev 2012
Nikolaev 2012Nikolaev 2012
Nikolaev 2012
 
Перспективы бессылочного продвижения
Перспективы бессылочного продвижения Перспективы бессылочного продвижения
Перспективы бессылочного продвижения
 
146% внимания
146% внимания146% внимания
146% внимания
 

Яндекс Малый ШАД - лингвистика в поиске

  • 1. 18 мая 2013 г. Лингвистика в поиске Алексей Зобнин Малый ШАД
  • 2. Лингвистика в поиске Поисковая система должна быстро и точно обрабатывать миллионы запросов. Чтобы найти релевантные документы, требуется ‒ правильно определить язык запроса ‒ исправить возможные опечатки ‒ произвести морфологический анализ ‒ расширить или переформулировать запрос
  • 4. Как работает поиск? ‒ размер интернета исчисляется экзабайтами ‒ в интернете размещены миллиарды страниц Конечно, обходить весь интернет каждый раз для ответа на запрос невозможно. Поэтому поисковая система заранее индексирует сайты.
  • 5. Индекс Специальная структура данных, похожая на предметный указатель или адресный справочник. Индекс позволяет по каждому слову найти все документы и позиции, в которых оно встречается. Поиск в интернете состоит из двух больших частей: ‒ подготовка поискового индекса ‒ поиск ответа на конкретный запрос в индексе
  • 6. Индекс: пример Проиндексируем произведения А. С. Пушкина: 1. «Руслан и Людмила» 2. «Евгений Онегин» 3. «Медный всадник» … берегу 1, 2, 3, … дуб 1, … дядя 2, … Евгений 2, 3, … кот 1, 2, …
  • 7. Булев поиск ‒ в индексе лежат отдельные слова документов ‒ документ рассматривается как множество слов ‒ ищем документы, содержащие искомые слова ‒ запрос может содержать логические операторы AND, OR, NOT Поиск сводится к пересечению и объединению упорядоченных списков словопозиций.
  • 8. Недостатки булева поиска ‒ нет ранжирования результатов по релевантности ‒ не учитываются частоты слов ‒ не учитываются расстояния между словами ‒ не учитываются различные формы слов ‒ нет расширений запроса
  • 9. Расстояния между словами Модифицируем индекс: будем записывать полные «координаты» слов. Например, ‒ номер документа ‒ номер предложения ‒ номер слова в предложении ‒ ???
  • 10. Токенизация Как правильно разбить текст на лексемы? Ростов-на-Дону но San Francisco-Los Angeles д'Артаньян, п'ять, don't, qu'est-ce que c'est? Mr. O'Neill thinks that the boys' stories about Chile's capital aren't amusing 中華人民共和國 Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz
  • 11. Нормализация Какие токены следует отождествить? ё и е (но всё ‒ все, осёл ‒ осел) cooperation, coöperation и co-operation iPhone и iphone, Windows и windows? ä=ae, ö=oe, ü=ue renyxa
  • 12. Стоп-слова Как поступать с частотными токенами? и, в, на, с, не, по, для, его, что, то, это, все, от, к, из, за, а, о, как, уже, или, их, том, г, я, у, будет, есть, больше, было, ... было или не было? что есть, то есть как, это уже все?
  • 13. Закон Ципфа Частота слова обратно пропорциональна его номеру в частотном списке. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0 2000000 4000000 6000000 8000000 10000000 12000000 14000000
  • 14. Распознавание языка дружина князя Игоря (русский) дружина князя Ігоря (украинский) такси — русский или украинский? kayak — турецкий или английский? Nokia — на каком языке отвечать?
  • 15. Распознавание языка: факторы ‒ алфавит ‒ частоты слов в разных языках ‒ регион пользователя / адрес документа ‒ язык интерфейса пользователя ‒ соответствие языковой модели Используется машинное обучение.
  • 16. Языковые модели Задача: оценить вероятность появления предложения w1 w2 … wm в данном языке. Считаем, что Это — марковское свойство: мы считаем, что вероятность встретить очередное слово зависит только от n - 1 предыдущего слова. Вероятности n-грамм могут быть найдены из корпуса. P (w1 w2 ...w m) = ∏ i =1 m P (w i ∣w 1...wi −1) ≈ ∏ i =1 m P (w i ∣w i −(n−1)...wi −1).
  • 17. Морфологический анализ Хотим искать все формы слов из запроса. Для этого можно либо расширять запрос другими формами, либо хранить в индексе начальные формы слов. Основные задачи: ‒ лемматизация (определение нормальной формы) ‒ определение грамматических характеристик ‒ генерация других форм слова
  • 18. Префиксное дерево (бор, trie) Цыган, цыганка, цыкать, цыпленок, цыпочки, цыц: ц ы г а ак п л о ч е т ь н к и о к ц на ак
  • 19. Словоформа и парадигма Словоформа: чаю кофе потанцуем Лемма: [ча]й [кофе] [потанц]евать Парадигма: -й -я -ю -й -ем -е -и -ев -ям -и -ями -ях - -ую -уй -уешь -ует -евал -евала -евало -уем -уемте -уйте -уете -уют -евали -евать
  • 20. Добавим грамматические теги ковер [ковер] сущ, неод, муж, ед, им [ковр]а сущ, неод, муж, ед, род [ковр]у сущ, неод, муж, ед, дат [ковер] сущ, неод, муж, ед, вин [ковр]ом сущ, неод, муж, ед, твор [ковр]е сущ, неод, муж, ед, пр [ковр]ы сущ, неод, муж, мн, им [ковр]ов сущ, неод, муж, мн, род [ковр]ам сущ, неод, муж, мн, дат [ковр]ы сущ, неод, муж, мн, вин [ковр]ами сущ, неод, муж, мн, твор [ковр]ах сущ, неод, муж, мн, пр ...
  • 21. А если слова нет в словаре? я иду {идти} по ковру {ковёр} мы идём {идти} по коврём {коврать?} ты идёшь {идти} по коврёшь {коврать?} вы идёте {идти} по коврёте {коврать?} он идёт {идти} по коврёт {коврать?} они идут {идти} по коврут {коврать?} http://company.yandex.ru/technologies/mystem/
  • 22. А если слова нет в словаре? «Глокая куздра штеко будланула бокра и курдячит бокрёнка» Л. В. Щерба. глокая {глокать? глокий?} куздра {куздра?} штеко {штекий? штеко?} будланула {будланул? будланула? будлануть?} бокра {бокр? бокра? бокрый?} и {и} кудрячит {кудрячит? кудрячита? кудрячитый? кудрячить?} бокренка {бокренк? бокренка? бокренок?}
  • 23. Построение гипотез по образцу бокренка: кенгуренка тигренка → бокренок черенка → бокренок будланула: обманула → будлануть буренка сестренка → бокренка керенка шестеренка → бокренка гранула → будланула манула → будланул
  • 24.
  • 25. Морфологическая омонимия Задача: выбрать правильный морфологический разбор слова (с учетом контекста). Хранение денег в банке. Что делают белки в клетке? Фотографии Львов. Капля стекла со стекла. Полосы стали красными... Полосы стали красными реками текли по конвейеру трубопрокатного завода.
  • 26. Скрытые марковские модели Задача: приписать наиболее вероятным образом каждому слову wk в предложении тег tk. Используем формулу Байеса для условной вероятности: Получаем: Задача — найти для данного предложения набор тегов, который делает эту вероятность максимальной. P (A ∣B )= P (B ∣ A)P (A) P (B) . P (t1 ...tm ∣w 1...wm) = P (w 1...wm ∣t1 ...t m) P (t 1...t m) P (w 1...w m) .
  • 27. Скрытые марковские модели Считаем, что распределение тегов подчиняется марковскому свойству: Вероятности в правой части могут быть найдены как частоты по большому размеченному корпусу (например, http://ruscorpora.ru) Для поиска оптимальных тегов используется динамический алгоритм Витерби. P (w1 ...w m ∣t1 ...tm) P (t1 ...tm) ≈ ∏ k =1 m P (w k ∣t k ) P (tk ∣tk −(n−1)...tk −1).
  • 28. Очепятки ‒ орфографические ошибки: аднакласники ‒ слитное-раздельное написание: афишатеатров ‒ контекстные: меховой слон спорная команда по хоккею ‒ искаженная раскладка клавиатуры: lytdybr
  • 29. Исправление орфоопечаток ‒ ищем ближайшие слова по расстоянию Левенштейна: количеству вставок, удалений или замен, необходимых для исправления ‒ используем K-граммный индекс для символов ‒ рассматриваем запросы без опечаток с похожим контекстом ‒ учитываем вероятность исправленного запроса по языковой модели
  • 30. Расширения запроса ‒ синонимы огромный — большой бегемот — гиппопотам ‒ орфографические варианты написания джава — ява ‒ транслитерация и перевод yandex — яндекс ‒ аббревиатуры МГУ — Московский государственный университет ‒ словообразование авто — автомобиль саша — Александр, Александра
  • 31. Источники расширений ‒ словари ‒ анализ текстов документов ‒ анализ логов запросов и кликов ‒ переформулировки запросов пользователей ‒ автоматические правила
  • 32. Литература 1. К. Маннинг, П. Рагхаван, Х. Шютце — Введение в информационный поиск. 2. K. Manning, H. Schütze — Foundations of Statistical Natural Language Processing. 3. D. Jurafsky, J. Martin — Speech and Language Processing.