SlideShare une entreprise Scribd logo
1  sur  34
Télécharger pour lire hors ligne
1
2
Персонализация поиска:
контекстное ранжирование
Юрий Устиновский
3
Персонализация
Общая схема
4
«Интернет, 12 декабря 2012 года. Яндекс запустил
персональный поиск. Он предлагает пользователям
подсказки и ответы, учитывая их личные интересы
и предпочтения. Так, по запросу [гарри поттер] любителю
чтения Яндекс найдет прежде всего книгу, а не фильм
или игру».
Корпоративный блог
http://company.yandex.ru/
5
Персонализация
!  Цель – сократить время от первого задания запроса до решения
поисковой задачи
!  Данные – информация о том откуда, когда и кем задан запрос
!  Метод – ранжирование документов с учетом персонального контекста
6
Персонализация
Можно выделить два типа персонализации поиска:
!  Длинная персонализация
Учитывает устойчивые предпочтения пользователя (знание языков,
образование, профессиональные интересы, хобби)
!  Короткая персонализация
Ориентируется на сиюминутные потребности пользователя (поиск
товаров, услуг, отзывов, статей на заданную тему)
7
Длинная персонализация
Как должна выглядить выдача по запросу «вендетта»?
Для меломана и любителя кино по-разному.
8
Длинная персонализация
9
Длинная персонализация
10
Короткая персонализация
Пользователи взаимодействуют с поисковой системой непрерывно
!  Поисковые сессии
–  Последовательности запросов связанных одной информационной
потребностью
–  Действия на поисковой выдаче
Используем для извлечения контекста о запросе.
Как должна выглядить выдача по запросу «ягуар»?
11
Контекстное ранжирование
Ягуар	
  
Дикие	
  кошки	
  
Mercedez	
  benz	
  s	
  
Яга	
   Кощей	
  
Иванушка	
  
дурачок	
  
По-разному для людей искавших до этого
информацию по запросам «дикие кошки» и
«mercedes benz s»
	
  
12
Поисковые сессии
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Долязапросов
Позиция запроса в поисковой сессии
Поисковые сессии помогают в персонализации >60% запросов.
13
Поисковые сессии
Однако, все еще не работают для ~40% запросов.
Выход – найти новый источник контекста для данного запроса:
!  Навигационные сессии
–  Действия в браузере помимо переходов с выдачи Яндекса: переходы по
ссылкам, переключение между вкладками, открытие страниц из закладок.
Навигационная сесиия, объединенная одной информационной потребностью
называется логической сессией.
14
Логические сессии
Выделение логической сессии внутри навигационной сложная задча.
•  "Intent-­‐Based	
  Browse	
  AcGvity	
  SegmentaGon".	
  35th	
  
European	
  Conference	
  on	
  IR	
  Research,	
  ECIR	
  2013	
  hp://
bit.ly/yuraust13	
  
!  Эвристический алгоритм: относим две соседние страницы навигационной
сессии к одной логической сессии, если между их посещением прошло
меньше T минут.
15
Логические сессии
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
0 1 2 3 4 5 6 7
Долясессий
Количество страниц, просмотренных пользователем до задания запроса
Логические сессии потенциально помогают в персонализации 59%
запросов, для которых не работают поисковые сессии
16
Контекстное ранжирование
Используем логические сессии
17
Контекстное ранжирование
Doc(1)	
   Doc(2)	
   Doc(3)	
   Query	
  
Url(1)	
  
Url(2)	
  
Url(3)	
  
Url(4)	
  
Url(5)	
  
Url(6)	
  
Url(7)	
  
Url(8)	
  
Url(9)	
  
Url(10)	
  
Контекст – документы Doc(1), Doc(2), Doc(3).
Хотим упорядочить страницы Url(i) поисковой
выдачи с учетом контекста.
18
Контекстное ранжирование
Возникают следующие задачи
1.  Понять полезен ли контекст для запроса.
2.  Если «да», то измерить релевантность каждого из документов Url(i)
контексту.
Обе задачи решаются при помощи машинного обучения.
19
Персональные оценки релевантности
!  Ключевой элемент любого алгоритма машинного обучения – обучающее
множество и разметка. В персональном поиске особенно трудно собрать
оценки релевантности.
20
Персональные оценки релевантности
!  Посмотрим, какие документы пользователи просматривают, и попробуем
их отранжировать исходя из контекста так, чтобы показывать выше.
Плюсы: возможность неограниченно наращивать обучающее
множество
Минусы: необходимость очистки данных от бесполезных
сессий и шума
21
Признаки
!  Следующим ингридиентом машинного обучения являются признаки,
численные характеристики документа, позволяющие оценить его
релевантность.
!  Для каждого документа Url(i) мы извлекаем от 42 до 267 признаков,
характеризующих запрос, неперсонализированную выдачу, текущую
логическую сессию, её связь с нашим документом.
22
Основные признаки
1. Характеристики запроса
1.  Сколько документов найдено
2.  Насколько разнообразна выдача
3.  Навигационный ли запрос
23
Основные признаки
2. Характеристики логической сессии
1.  Время проведенное на Doc(j)
2.  Вероятность сформулировать запрос после Doc(j)
3.  Количество страниц в логической сессии
24
Основные признаки
3. Близость между Doc(j) и Url(i)
1.  Вероятность того, что Doc(j) и Url(i) окажутся в одной логической
сессии
2.  Совпадают ли Doc(j) и Url(i), их хосты
3.  Pointwise mutual information
25
Основные признаки
4. Близость между Doc(j) и Url(i) аггрегированная по всем документам
Doc(j)
26
Основные признаки
5. Позиция Url(i) в неперсонализированной выдаче
27
«В 2009 году Яндекс внедрил новый метод машинного
обучения — Матрикснет. Важная особенность этого метода
в том, что он устойчив к переобучению. Это позволяет
учитывать очень много факторов ранжирования —
и при этом не увеличивать количество оценок асессоров
и не опасаться, что машина найдет несуществующие
закономерности».
Корпоративный блог
http://company.yandex.ru/
28
Метод машинного обучения
!  Обучаем Matrixnet на признаках, минимизируя квадратичное отклонение
от разметки на обучающем множестве.
!  Ранжируем согласно обученной оценке.
!  Как понять, работает ли наше контекстное ранжирование?
29
Метрика MRR (mean reciprocal rank)
Ключевая метрика
Чем больше, тем лучше.
!  Увеличивает ли наше персональное ражирование MRR?
!  Можно понять анализируя исторические логи.
30
Метрика MRR (mean reciprocal rank)
!  Идея: смотрим как изменилось бы значение MRR, если бы и раньше
выдача была персонализированной.
!  Предположение: если документ кликнут в старой выдаче, то он будет
кликнут и в новой. Как следствие, получаем оценку снизу на реальный
MRR нашего алгоритма
31
Результаты
3.4%
3.4%
3.5%
3.5%
3.6%
3.6%
3.7%
3.7%
3.8%
3.8%
1 2 3 4 5 6 7 8 9 10
ОтносительноеулучшениеMRRна
затронутыхзапросах
Анализируемая длина логической сессии
32
Выводы
!  Использование навигационного контекста значимо улучшает качество
ранжирования
!  Данных уже об одной странице, посещенной перед заданием запроса
достаточно, чтобы улучшить ранжирование
!  Более тонкий анализ пользовательского поведения потенциально может
значительно улучшить контекстное ранжирование
33
Спасибо за внимание
34
Юрий Устиновский
Исследователь-разработчик
yuraust@yandex-team.ru

Contenu connexe

Similaire à "Анализ поведения пользователей и персонализация поисковой выдачи". Юрий Устиновский, Яндекс

Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 final
yaevents
 
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
Yandex
 
операционная система
операционная системаоперационная система
операционная система
psemitkin
 
операционная система
операционная системаоперационная система
операционная система
psemitkin
 
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
Yandex
 
поисковые системы презентация ученика
поисковые системы презентация ученикапоисковые системы презентация ученика
поисковые системы презентация ученика
Kuznecov
 
Информационная доступность и гостеприимство города. Проект исследования
Информационная доступность и гостеприимство города. Проект исследованияИнформационная доступность и гостеприимство города. Проект исследования
Информационная доступность и гостеприимство города. Проект исследования
DPR
 

Similaire à "Анализ поведения пользователей и персонализация поисковой выдачи". Юрий Устиновский, Яндекс (20)

Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 final
 
Kak ustroena poiskovaya sistema
Kak ustroena poiskovaya sistemaKak ustroena poiskovaya sistema
Kak ustroena poiskovaya sistema
 
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
 
Продвижение сайтов в Уфе от Андрея Буйлова
Продвижение сайтов в Уфе от Андрея БуйловаПродвижение сайтов в Уфе от Андрея Буйлова
Продвижение сайтов в Уфе от Андрея Буйлова
 
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
 
операционная система
операционная системаоперационная система
операционная система
 
операционная система
операционная системаоперационная система
операционная система
 
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
 
поисковые системы презентация ученика
поисковые системы презентация ученикапоисковые системы презентация ученика
поисковые системы презентация ученика
 
Puple's presentation
Puple's presentationPuple's presentation
Puple's presentation
 
Natural Language Processing (NLP) with .NET for #dotnetby meetup-29
Natural Language Processing (NLP) with .NET for #dotnetby meetup-29Natural Language Processing (NLP) with .NET for #dotnetby meetup-29
Natural Language Processing (NLP) with .NET for #dotnetby meetup-29
 
лекция 5
лекция 5лекция 5
лекция 5
 
Seo upgrade - аналитика накрутки пф
Seo upgrade - аналитика накрутки пфSeo upgrade - аналитика накрутки пф
Seo upgrade - аналитика накрутки пф
 
Webuibasics - Lesson 1 - Overview (in russian)
Webuibasics - Lesson 1 - Overview (in russian) Webuibasics - Lesson 1 - Overview (in russian)
Webuibasics - Lesson 1 - Overview (in russian)
 
презентация рамдок
презентация рамдокпрезентация рамдок
презентация рамдок
 
Информационная доступность и гостеприимство города. Проект исследования
Информационная доступность и гостеприимство города. Проект исследованияИнформационная доступность и гостеприимство города. Проект исследования
Информационная доступность и гостеприимство города. Проект исследования
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
 
UCD: основы процесса
UCD: основы процессаUCD: основы процесса
UCD: основы процесса
 
User Centered Design: обзор процесса
User Centered Design: обзор процессаUser Centered Design: обзор процесса
User Centered Design: обзор процесса
 
Практика SEO: выпуск 6. Поведенческие факторы
Практика SEO: выпуск 6. Поведенческие факторыПрактика SEO: выпуск 6. Поведенческие факторы
Практика SEO: выпуск 6. Поведенческие факторы
 

Plus de Yandex

Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Yandex
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Yandex
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Yandex
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Yandex
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Yandex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Yandex
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Yandex
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Yandex
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Yandex
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Yandex
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Yandex
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Yandex
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Yandex
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Yandex
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Yandex
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Yandex
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Yandex
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Yandex
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Yandex
 

Plus de Yandex (20)

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of Tanks
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
 

"Анализ поведения пользователей и персонализация поисковой выдачи". Юрий Устиновский, Яндекс

  • 1. 1
  • 4. 4 «Интернет, 12 декабря 2012 года. Яндекс запустил персональный поиск. Он предлагает пользователям подсказки и ответы, учитывая их личные интересы и предпочтения. Так, по запросу [гарри поттер] любителю чтения Яндекс найдет прежде всего книгу, а не фильм или игру». Корпоративный блог http://company.yandex.ru/
  • 5. 5 Персонализация !  Цель – сократить время от первого задания запроса до решения поисковой задачи !  Данные – информация о том откуда, когда и кем задан запрос !  Метод – ранжирование документов с учетом персонального контекста
  • 6. 6 Персонализация Можно выделить два типа персонализации поиска: !  Длинная персонализация Учитывает устойчивые предпочтения пользователя (знание языков, образование, профессиональные интересы, хобби) !  Короткая персонализация Ориентируется на сиюминутные потребности пользователя (поиск товаров, услуг, отзывов, статей на заданную тему)
  • 7. 7 Длинная персонализация Как должна выглядить выдача по запросу «вендетта»? Для меломана и любителя кино по-разному.
  • 10. 10 Короткая персонализация Пользователи взаимодействуют с поисковой системой непрерывно !  Поисковые сессии –  Последовательности запросов связанных одной информационной потребностью –  Действия на поисковой выдаче Используем для извлечения контекста о запросе. Как должна выглядить выдача по запросу «ягуар»?
  • 11. 11 Контекстное ранжирование Ягуар   Дикие  кошки   Mercedez  benz  s   Яга   Кощей   Иванушка   дурачок   По-разному для людей искавших до этого информацию по запросам «дикие кошки» и «mercedes benz s»  
  • 12. 12 Поисковые сессии 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Долязапросов Позиция запроса в поисковой сессии Поисковые сессии помогают в персонализации >60% запросов.
  • 13. 13 Поисковые сессии Однако, все еще не работают для ~40% запросов. Выход – найти новый источник контекста для данного запроса: !  Навигационные сессии –  Действия в браузере помимо переходов с выдачи Яндекса: переходы по ссылкам, переключение между вкладками, открытие страниц из закладок. Навигационная сесиия, объединенная одной информационной потребностью называется логической сессией.
  • 14. 14 Логические сессии Выделение логической сессии внутри навигационной сложная задча. •  "Intent-­‐Based  Browse  AcGvity  SegmentaGon".  35th   European  Conference  on  IR  Research,  ECIR  2013  hp:// bit.ly/yuraust13   !  Эвристический алгоритм: относим две соседние страницы навигационной сессии к одной логической сессии, если между их посещением прошло меньше T минут.
  • 15. 15 Логические сессии 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% 0 1 2 3 4 5 6 7 Долясессий Количество страниц, просмотренных пользователем до задания запроса Логические сессии потенциально помогают в персонализации 59% запросов, для которых не работают поисковые сессии
  • 17. 17 Контекстное ранжирование Doc(1)   Doc(2)   Doc(3)   Query   Url(1)   Url(2)   Url(3)   Url(4)   Url(5)   Url(6)   Url(7)   Url(8)   Url(9)   Url(10)   Контекст – документы Doc(1), Doc(2), Doc(3). Хотим упорядочить страницы Url(i) поисковой выдачи с учетом контекста.
  • 18. 18 Контекстное ранжирование Возникают следующие задачи 1.  Понять полезен ли контекст для запроса. 2.  Если «да», то измерить релевантность каждого из документов Url(i) контексту. Обе задачи решаются при помощи машинного обучения.
  • 19. 19 Персональные оценки релевантности !  Ключевой элемент любого алгоритма машинного обучения – обучающее множество и разметка. В персональном поиске особенно трудно собрать оценки релевантности.
  • 20. 20 Персональные оценки релевантности !  Посмотрим, какие документы пользователи просматривают, и попробуем их отранжировать исходя из контекста так, чтобы показывать выше. Плюсы: возможность неограниченно наращивать обучающее множество Минусы: необходимость очистки данных от бесполезных сессий и шума
  • 21. 21 Признаки !  Следующим ингридиентом машинного обучения являются признаки, численные характеристики документа, позволяющие оценить его релевантность. !  Для каждого документа Url(i) мы извлекаем от 42 до 267 признаков, характеризующих запрос, неперсонализированную выдачу, текущую логическую сессию, её связь с нашим документом.
  • 22. 22 Основные признаки 1. Характеристики запроса 1.  Сколько документов найдено 2.  Насколько разнообразна выдача 3.  Навигационный ли запрос
  • 23. 23 Основные признаки 2. Характеристики логической сессии 1.  Время проведенное на Doc(j) 2.  Вероятность сформулировать запрос после Doc(j) 3.  Количество страниц в логической сессии
  • 24. 24 Основные признаки 3. Близость между Doc(j) и Url(i) 1.  Вероятность того, что Doc(j) и Url(i) окажутся в одной логической сессии 2.  Совпадают ли Doc(j) и Url(i), их хосты 3.  Pointwise mutual information
  • 25. 25 Основные признаки 4. Близость между Doc(j) и Url(i) аггрегированная по всем документам Doc(j)
  • 26. 26 Основные признаки 5. Позиция Url(i) в неперсонализированной выдаче
  • 27. 27 «В 2009 году Яндекс внедрил новый метод машинного обучения — Матрикснет. Важная особенность этого метода в том, что он устойчив к переобучению. Это позволяет учитывать очень много факторов ранжирования — и при этом не увеличивать количество оценок асессоров и не опасаться, что машина найдет несуществующие закономерности». Корпоративный блог http://company.yandex.ru/
  • 28. 28 Метод машинного обучения !  Обучаем Matrixnet на признаках, минимизируя квадратичное отклонение от разметки на обучающем множестве. !  Ранжируем согласно обученной оценке. !  Как понять, работает ли наше контекстное ранжирование?
  • 29. 29 Метрика MRR (mean reciprocal rank) Ключевая метрика Чем больше, тем лучше. !  Увеличивает ли наше персональное ражирование MRR? !  Можно понять анализируя исторические логи.
  • 30. 30 Метрика MRR (mean reciprocal rank) !  Идея: смотрим как изменилось бы значение MRR, если бы и раньше выдача была персонализированной. !  Предположение: если документ кликнут в старой выдаче, то он будет кликнут и в новой. Как следствие, получаем оценку снизу на реальный MRR нашего алгоритма
  • 31. 31 Результаты 3.4% 3.4% 3.5% 3.5% 3.6% 3.6% 3.7% 3.7% 3.8% 3.8% 1 2 3 4 5 6 7 8 9 10 ОтносительноеулучшениеMRRна затронутыхзапросах Анализируемая длина логической сессии
  • 32. 32 Выводы !  Использование навигационного контекста значимо улучшает качество ранжирования !  Данных уже об одной странице, посещенной перед заданием запроса достаточно, чтобы улучшить ранжирование !  Более тонкий анализ пользовательского поведения потенциально может значительно улучшить контекстное ранжирование