SlideShare une entreprise Scribd logo
1  sur  34
Télécharger pour lire hors ligne
1
2
Анализ неявных
предпочтений
пользователей
Михаил Агеев
3
Emory Intelligent Information Access Lab
Mikhail
Ageev
Dmitry Lagun Eugene Agichtein
4
Цель: улучшение поисковых аннотаций
Критерии качества сниппетов
!  Readability
–  Сниппет должен быть
удобочитаемым
!  Representativeness
–  Сниппет должен показывать части документа,
которые соответствуют запросу пользователя
!  Judgeability
–  Хороший сниппет должен содержать ответ на вопрос
пользователя или указание на то, что ответ есть в
документе
5
Алгоритмы выделения сниппетов
!  Сопоставление текста документа с запросом
!  Учет местоположения текста, структуры документа
!  Текстовых факторов недостаточно!
6
Пример: траектория
зрачка глаза и
идеальный ответ!  Цель поиска
–  How many pixels must be dead on a iPad 3
before Apple will replace it?
!  Запрос
–  [how many dead pixels ipad 3 replace]
!  Фрагмент с ответом
–  iPad: 3 Dead Pixel -> Apple will replace a
new LCD for you
Идеальный сниппет!
7
Траектория курсора мыши коррелирует
с траекторией зрачка
Q. Guo and E. Agichtein. Towards
predicting web searcher gaze position
from mouse movements. // CHI,
2010.
!  Пример:
–  Find the worst drought that
happened in the history of the US
!  Запрос:
–  [worst drought in US]
The worst droughts in the history of the United States
occurred during the 1930s and 1950s, periods of time
known as 'Dust Bowl' years
Идеальный сниппет!
8
Идея: выделение сниппетов на основе
поведения пользователей
!  Поведение пользователей на найденной странице (scroll, движения
мыши) позволяет выявить фрагменты, интересующие пользователя
!  Данные о поведении можно собирать при помощи JavaScript
browser API
!  Выделение заинтересовавших пользователя фрагментов может
позволить улучшить сниппеты
9
Задачи
!  Как собрать реалистичные данные поведения
пользователей?
–  В том числе движения мыши на страницах после
SERP
!  Как по движениям мыши определить фрагменты,
заинтересовавшие пользователя?
–  Объём данных: около 400 событий на каждый просмотр
страницы
–  Разные устройства ввода и версии браузеров
–  Разные привычки пользователей
!  Как объединить данные поведения и текстовые
факторы?
10
План
!  Введение
!  Метод сбора данных о поведении
пользователей поисковой системы,
включающих движения мыши
!  Предсказание фрагментов документов,
заинтересовавших пользователя
!  Улучшение поисковых аннотаций
(сниппетов) на основе анализа
поведения
!  Улучшение поиска ответов на вопрос в
Web на основе анализа поведения
!  Заключение
11
UFindIt: инфраструктура для сбора
данныхСбор данных о поведении пользователя
!  Цель поиска: найти ответ при помощи поисковой
системы
!  Игрок находит ответ и подтверждающий URL
Участники
!  Amazon Mechanical Turk
–  HIT = игра из 12 вопросов
!  Мотивация игрока
–  Гарантированная оплата $1 за игру
–  Бонусы для 25% лучших игроков
–  Соревнование! Азарт!
!  Проверка данных: ReCaptcha + Автоматическая
проверка выполнения правил игры
12
Протоколирование: Proxy + JavaScript
!  HTTP reverse proxy
–  Пользователь использует привычный интерфейс поиска
–  HTML-ссылки преобразуются на лету
–  В каждую страницу встраивается код JavaScript для
отслеживания поведения
13
EMU.js: связь координат мыши с текстом
!  Проблема
–  Позиция мыши представлена координатами в окне браузера
–  Координаты текста зависят от разрешения экрана, версии и настроек браузера
!  Решение
–  Вычислить координаты всех слов на клиенте и сохранить на сервере
14
Структура данных
Для каждого просмотра страницы известны
!  Запрос пользователя к поисковой системе
!  URL и содержание документа
!  Координаты каждого слова в документе
!  Лог действие пользователя: движения
мыши, клики, прокрутка
!  Заданный запрос (цель поиска)
!  Ответ, который пользователь отправил
Поведенческие
факторы
Обучающая
и тестовая
выборки
Только для
экспериментов
15
Статистика по собранным данным	
  
!  Код и данные свободно доступны http://ir.mathcs.emory.edu/intent/
109 Пользователей
12 Вопросов
1,175 Поисковых сессий
3,295 Запросов
2,997 Просмотров страниц
662 Различных URL
1,454,257 Атомарных событий
707 Пар запрос-URL (сниппетов) с полным набором
данных для экспериментов
16
План
!  Введение
!  Метод сбора данных о поведении
пользователей поисковой системы,
включающих движения мыши
!  Предсказание фрагментов документов,
заинтересовавших пользователя
!  Улучшение поисковых аннотаций
(сниппетов) на основе анализа
поведения
!  Улучшение поиска ответов на вопрос в
Web на основе анализа поведения
!  Заключение
17
Предсказание интересных фрагментов
!  Текст HTML-страницы разбивается на фрагменты по пять слов
!  6 поведенческих факторов
–  Длительность нахождения курсора мыши над фрагментом
–  … рядом с фрагментом (±100px)
–  Средняя скорость курсора мыши над фрагментом
–  … рядом с фрагментом
–  Время показа фрагмента в видимой части окна просмотра (scrollbar)
–  Время показа фрагмента в середине окна просмотра
!  Предсказание вероятности интересного фрагмента
!  Метод машинного обучения: GBRT
18
Обучающее множество
!  Положительные примеры
–  Фрагменты,
пересекающиеся с
ответом пользователя
!  Отрицательные примеры
–  Все остальные фрагменты
Обучающее множество неполно:
мы ничего не знаем об остальных
фрагментах, которые пользователь
посмотрел
!  Пример
–  Вопрос: «Which metals float on
water?»
–  Ответ пользователя: «lithium,
sodium, potassium»
19
Предсказание интересных фрагментов
Чем выше
предсказанная
интересность
фрагмента (BScore),
тем больше
пересечение с
ответом пользователя
(ROUGE)
20
Наиболее важные факторы
!  DispMiddleTime – время, в течение которого фрагмент текста был
виден на экране
!  MouseOverTime – время, в течение которого курсор мыши был над
фрагментом текста
21
План
!  Введение
!  Метод сбора данных о поведении
пользователей поисковой системы,
включающих движения мыши
!  Предсказание фрагментов документов,
заинтересовавших пользователя
!  Улучшение поисковых аннотаций
(сниппетов) на основе анализа поведения
!  Улучшение поиска ответов на вопрос в
Web на основе анализа поведения
!  Заключение
22
Генерация сниппетов: baseline
D. Metzler and T. Kanungo. Machine learned sentence selection
strategies for query-biased summarization. In SIGIR Learning to Rank
Workshop, 2008.
!  Для каждого предложения вычисляем 22 фактора
–  Точное соответствие
–  Количество найденных слов запроса и синонимов (3 фактора)
–  BM25-like (4 фактора)
–  Расстояние между словами запроса (3 фактора)
–  Длина предложения
–  Позиция в документе
–  Удобочитаемость: количество знаков пунктуации,
заглавных слов, различных слов (9 факторов)
23
Генерация сниппетов на основе поведения
!  Линейная комбинация весов предложений baseline-алгоритма
TextScore(f) и интересности фрагмента BScore(f)
!  λ влияет на покрытие и качество сниппетов
–  Слишком маленькое λ = сниппеты не отличаются от baseline
–  Слишком большое λ = риск низкого качества сниппетов
!  Эксперимент:
24
Постановка эксперимента
!  Попарная оценка сниппетов для двух алгоритмов по критериям:
–  Representativeness
Какой из сниппетов лучше отражает соответствие документа
запросу?
Необходимо прочитать документ до ответа на вопрос.
–  Readability
Какой из сниппетов лучше написан, легче читается?
–  Judgeability
Какой из сниппетов лучше помогает найти релевантный ответ и
решить, нужно ли кликать на ссылку?
25
Результаты
!  Fraction improved: доля сниппетов, улучшенных за счет учета поведения пользователей
!  Coverage: доля сниппетов, для которых сниппеты с учетом поведения отличаются от
baseline
!  При λ	
  =	
  0.7	
  статистически значимое улучшение по всем метрикам
26
Пример
Baseline
BeBS
27
План
!  Введение
!  Метод сбора данных о поведении
пользователей поисковой системы,
включающих движения мыши
!  Предсказание фрагментов документов,
заинтересовавших пользователя
!  Улучшение поисковых аннотаций
(сниппетов) на основе анализа
поведения
!  Улучшение поиска ответов на вопрос в
Web на основе анализа поведения
!  Заключение
28
Вопросно-ответный поиск
!  Поиск точного ответа на вопрос пользователя
!  Основные этапы QA (IR Approach)
–  Анализ запроса (POS Tagging, NER), классификация по типу
вопроса, формирование шаблонов ответов
–  Поиск релевантных документов – кандидатов на нахождение
ответов
–  Поиск релевантных пассажей
–  Анализ пассажей и извлечение ответов по шаблону
29
Улучшение извлечения пассажей
!  Baseline algorithm:
–  QANUS: open-source QA system from National
University of Singapore (Min Yen Kan, 2010)
!  BeQA: behavior-based QA
–  QANUS fragment score TextScore(f)
–  Интересность фрагмента BScore(f)
30
Поиск релевантных пассажей:
результаты! 
rank𝑖 - позиция первого релевантного
ответа
!  Поиск ответов по коллекции
–  All: все документы по всем вопросам
–  Clicked: все документы, которые
пользователи посещали при поиске
ответа на данный вопрос
–  Relevant: документы, про которые
известно, что в них есть правильный
ответ
31
Основные предположения
(и ограничения)
!  Эксперименты на информационных вопросах: пользователь ищет
текст ответа в документе
!  Просмотры страниц сгруппированы по информационной
потребности
–  Поведенческие факторы усредняются по всем пользователям с
одинаковой информационной потребностью
!  Данные о поведении пользователя на найденных страницах могут
быть собраны поисковой системой
–  Плагины браузера
–  Рекламные площадки
–  Счетчики посещений
32
References
!  Mikhail Ageev, Dmitry Lagun, Eugene Agichtein. Improving Search
Result Summaries By Using Searcher Behavior Data // SIGIR 2013
!  Mikhail Ageev, Dmitry Lagun, Eugene Agichtein. The Answer is
at your Fingertips: Improving Passage Retrieval for Web
Question Answering with Search Behavior Data // EMNLP 2013
!  Код и данные: http://ir.mathcs.emory.edu/intent/
33
Спасибо за
внимание
34
Михаил Агеев
Исследователь-разработчик
+7(916)607-5072
irlab@yandex-team.ru
к.ф.-м.н.

Contenu connexe

Tendances

Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian) Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian) Alexander Petrov
 
Как построить SEO CRM (Sempro 15)
Как построить SEO CRM (Sempro 15)Как построить SEO CRM (Sempro 15)
Как построить SEO CRM (Sempro 15)Стас Поломарь
 
информационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернетинформационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернетInno4ka2323
 
Кто потеснит полнотекстовый поиск?
Кто потеснит полнотекстовый поиск?Кто потеснит полнотекстовый поиск?
Кто потеснит полнотекстовый поиск?Sergey Galyonkin
 
ИКТ в гуманитарных науках
ИКТ в гуманитарных наукахИКТ в гуманитарных науках
ИКТ в гуманитарных наукахJulia Martinavichene
 
Search systems
Search systemsSearch systems
Search systemsKuznecov
 
Аналитика поискового продвижения (SmartFox)
Аналитика поискового продвижения (SmartFox)Аналитика поискового продвижения (SmartFox)
Аналитика поискового продвижения (SmartFox)Стас Поломарь
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Yandex
 
Аналитика поведенческих факторов Яндекс/Гугл
Аналитика поведенческих факторов Яндекс/ГуглАналитика поведенческих факторов Яндекс/Гугл
Аналитика поведенческих факторов Яндекс/ГуглСтас Поломарь
 
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев ДмитрийДмитрий Севальнев
 

Tendances (12)

Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian) Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian)
 
Как построить SEO CRM (Sempro 15)
Как построить SEO CRM (Sempro 15)Как построить SEO CRM (Sempro 15)
Как построить SEO CRM (Sempro 15)
 
информационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернетинформационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернет
 
Доклад MAD conference
Доклад MAD conferenceДоклад MAD conference
Доклад MAD conference
 
Кто потеснит полнотекстовый поиск?
Кто потеснит полнотекстовый поиск?Кто потеснит полнотекстовый поиск?
Кто потеснит полнотекстовый поиск?
 
ИКТ в гуманитарных науках
ИКТ в гуманитарных наукахИКТ в гуманитарных науках
ИКТ в гуманитарных науках
 
Search systems
Search systemsSearch systems
Search systems
 
Аналитика поискового продвижения (SmartFox)
Аналитика поискового продвижения (SmartFox)Аналитика поискового продвижения (SmartFox)
Аналитика поискового продвижения (SmartFox)
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
 
SEO итоги 2015 (Smartfox)
SEO итоги 2015 (Smartfox)SEO итоги 2015 (Smartfox)
SEO итоги 2015 (Smartfox)
 
Аналитика поведенческих факторов Яндекс/Гугл
Аналитика поведенческих факторов Яндекс/ГуглАналитика поведенческих факторов Яндекс/Гугл
Аналитика поведенческих факторов Яндекс/Гугл
 
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий
 

En vedette

"xCAT: удобное администрирование дата-центра". Антон Турецкий, Badoo
"xCAT: удобное администрирование дата-центра". Антон Турецкий, Badoo"xCAT: удобное администрирование дата-центра". Антон Турецкий, Badoo
"xCAT: удобное администрирование дата-центра". Антон Турецкий, BadooYandex
 
"Когда загрузится страница нам нужно знать наверняка". Иван Карев, Яндекс
"Когда загрузится страница нам нужно знать наверняка". Иван Карев, Яндекс"Когда загрузится страница нам нужно знать наверняка". Иван Карев, Яндекс
"Когда загрузится страница нам нужно знать наверняка". Иван Карев, ЯндексYandex
 
"Фронтенд в Яндексе: сложные сервисы, непростые решения". Елена Джетпыспаева,...
"Фронтенд в Яндексе: сложные сервисы, непростые решения". Елена Джетпыспаева,..."Фронтенд в Яндексе: сложные сервисы, непростые решения". Елена Джетпыспаева,...
"Фронтенд в Яндексе: сложные сервисы, непростые решения". Елена Джетпыспаева,...Yandex
 
Nikolay
NikolayNikolay
NikolayYandex
 
"Managing API Complexity". Matthew Flaming, Temboo
"Managing API Complexity". Matthew Flaming, Temboo"Managing API Complexity". Matthew Flaming, Temboo
"Managing API Complexity". Matthew Flaming, TembooYandex
 
idea rectora en arquitectura
idea rectora en arquitecturaidea rectora en arquitectura
idea rectora en arquitecturaUrban-boy
 
2013 09 21 безопасность веб-приложений
2013 09 21 безопасность веб-приложений2013 09 21 безопасность веб-приложений
2013 09 21 безопасность веб-приложенийYandex
 
Артем Кувалдин: Основы HTML
Артем Кувалдин: Основы HTMLАртем Кувалдин: Основы HTML
Артем Кувалдин: Основы HTMLYandex
 
Вики синтаксис
Вики синтаксисВики синтаксис
Вики синтаксисYandex
 
Вводная по ШРИ
Вводная по ШРИВводная по ШРИ
Вводная по ШРИYandex
 
FrontTalks: Вадим Макеев (Opera Software), «Зачем Опере Вебкит, или Опиум для...
FrontTalks: Вадим Макеев (Opera Software), «Зачем Опере Вебкит, или Опиум для...FrontTalks: Вадим Макеев (Opera Software), «Зачем Опере Вебкит, или Опиум для...
FrontTalks: Вадим Макеев (Opera Software), «Зачем Опере Вебкит, или Опиум для...Yandex
 
Артём Кошелев — Качество кода автотестов
Артём Кошелев — Качество кода автотестовАртём Кошелев — Качество кода автотестов
Артём Кошелев — Качество кода автотестовYandex
 
Юрий Ткаченко — Разработка фронтенда для гиков
Юрий Ткаченко — Разработка фронтенда для гиковЮрий Ткаченко — Разработка фронтенда для гиков
Юрий Ткаченко — Разработка фронтенда для гиковYandex
 
Алексей Лобанов — Как создаются Яндекс.Карты
Алексей Лобанов — Как создаются Яндекс.КартыАлексей Лобанов — Как создаются Яндекс.Карты
Алексей Лобанов — Как создаются Яндекс.КартыYandex
 
Сергей Сергеев — Maintainer кода в большом проекте
Сергей Сергеев — Maintainer кода в большом проектеСергей Сергеев — Maintainer кода в большом проекте
Сергей Сергеев — Maintainer кода в большом проектеYandex
 
Александр Алиев "Что такое Яндекс.API"
Александр Алиев "Что такое Яндекс.API"Александр Алиев "Что такое Яндекс.API"
Александр Алиев "Что такое Яндекс.API"Yandex
 
Владимир Гуриев, Яндекс
Владимир Гуриев, ЯндексВладимир Гуриев, Яндекс
Владимир Гуриев, ЯндексYandex
 
Евгений Вернигора, T-Sell
Евгений Вернигора, T-SellЕвгений Вернигора, T-Sell
Евгений Вернигора, T-SellYandex
 
Line Vision Apresentação
Line Vision ApresentaçãoLine Vision Apresentação
Line Vision ApresentaçãoJhileade Gomes
 

En vedette (20)

"xCAT: удобное администрирование дата-центра". Антон Турецкий, Badoo
"xCAT: удобное администрирование дата-центра". Антон Турецкий, Badoo"xCAT: удобное администрирование дата-центра". Антон Турецкий, Badoo
"xCAT: удобное администрирование дата-центра". Антон Турецкий, Badoo
 
"Когда загрузится страница нам нужно знать наверняка". Иван Карев, Яндекс
"Когда загрузится страница нам нужно знать наверняка". Иван Карев, Яндекс"Когда загрузится страница нам нужно знать наверняка". Иван Карев, Яндекс
"Когда загрузится страница нам нужно знать наверняка". Иван Карев, Яндекс
 
"Фронтенд в Яндексе: сложные сервисы, непростые решения". Елена Джетпыспаева,...
"Фронтенд в Яндексе: сложные сервисы, непростые решения". Елена Джетпыспаева,..."Фронтенд в Яндексе: сложные сервисы, непростые решения". Елена Джетпыспаева,...
"Фронтенд в Яндексе: сложные сервисы, непростые решения". Елена Джетпыспаева,...
 
Nikolay
NikolayNikolay
Nikolay
 
Ism
IsmIsm
Ism
 
"Managing API Complexity". Matthew Flaming, Temboo
"Managing API Complexity". Matthew Flaming, Temboo"Managing API Complexity". Matthew Flaming, Temboo
"Managing API Complexity". Matthew Flaming, Temboo
 
idea rectora en arquitectura
idea rectora en arquitecturaidea rectora en arquitectura
idea rectora en arquitectura
 
2013 09 21 безопасность веб-приложений
2013 09 21 безопасность веб-приложений2013 09 21 безопасность веб-приложений
2013 09 21 безопасность веб-приложений
 
Артем Кувалдин: Основы HTML
Артем Кувалдин: Основы HTMLАртем Кувалдин: Основы HTML
Артем Кувалдин: Основы HTML
 
Вики синтаксис
Вики синтаксисВики синтаксис
Вики синтаксис
 
Вводная по ШРИ
Вводная по ШРИВводная по ШРИ
Вводная по ШРИ
 
FrontTalks: Вадим Макеев (Opera Software), «Зачем Опере Вебкит, или Опиум для...
FrontTalks: Вадим Макеев (Opera Software), «Зачем Опере Вебкит, или Опиум для...FrontTalks: Вадим Макеев (Opera Software), «Зачем Опере Вебкит, или Опиум для...
FrontTalks: Вадим Макеев (Opera Software), «Зачем Опере Вебкит, или Опиум для...
 
Артём Кошелев — Качество кода автотестов
Артём Кошелев — Качество кода автотестовАртём Кошелев — Качество кода автотестов
Артём Кошелев — Качество кода автотестов
 
Юрий Ткаченко — Разработка фронтенда для гиков
Юрий Ткаченко — Разработка фронтенда для гиковЮрий Ткаченко — Разработка фронтенда для гиков
Юрий Ткаченко — Разработка фронтенда для гиков
 
Алексей Лобанов — Как создаются Яндекс.Карты
Алексей Лобанов — Как создаются Яндекс.КартыАлексей Лобанов — Как создаются Яндекс.Карты
Алексей Лобанов — Как создаются Яндекс.Карты
 
Сергей Сергеев — Maintainer кода в большом проекте
Сергей Сергеев — Maintainer кода в большом проектеСергей Сергеев — Maintainer кода в большом проекте
Сергей Сергеев — Maintainer кода в большом проекте
 
Александр Алиев "Что такое Яндекс.API"
Александр Алиев "Что такое Яндекс.API"Александр Алиев "Что такое Яндекс.API"
Александр Алиев "Что такое Яндекс.API"
 
Владимир Гуриев, Яндекс
Владимир Гуриев, ЯндексВладимир Гуриев, Яндекс
Владимир Гуриев, Яндекс
 
Евгений Вернигора, T-Sell
Евгений Вернигора, T-SellЕвгений Вернигора, T-Sell
Евгений Вернигора, T-Sell
 
Line Vision Apresentação
Line Vision ApresentaçãoLine Vision Apresentação
Line Vision Apresentação
 

Similaire à "Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ

Принципы работы поисковых систем
Принципы работы поисковых системПринципы работы поисковых систем
Принципы работы поисковых системСергей Кокшаров
 
Дизайн мышление или почему так важно знать про правило 7 плюс/минус 2
Дизайн мышление или почему так важно знать про правило 7 плюс/минус 2Дизайн мышление или почему так важно знать про правило 7 плюс/минус 2
Дизайн мышление или почему так важно знать про правило 7 плюс/минус 2Kamil Kalimullin
 
Юзабилити - ключ к построению успешного интернет бизнеса
Юзабилити - ключ к построению успешного интернет бизнесаЮзабилити - ключ к построению успешного интернет бизнеса
Юзабилити - ключ к построению успешного интернет бизнесаЛенар Амирханов
 
хранение и обработка больших объемов данных в рекомендательном движке сайта I...
хранение и обработка больших объемов данных в рекомендательном движке сайта I...хранение и обработка больших объемов данных в рекомендательном движке сайта I...
хранение и обработка больших объемов данных в рекомендательном движке сайта I...Ontico
 
Puple's presentation
Puple's presentationPuple's presentation
Puple's presentationKuznecov
 
поисковые системы презентация ученика
поисковые системы презентация ученикапоисковые системы презентация ученика
поисковые системы презентация ученикаKuznecov
 
Prezent puti interneta_neispovedimi
Prezent puti interneta_neispovedimiPrezent puti interneta_neispovedimi
Prezent puti interneta_neispovedimirinto2
 
Работа с контентными проектами (Optimization-16)
Работа с контентными проектами (Optimization-16)Работа с контентными проектами (Optimization-16)
Работа с контентными проектами (Optimization-16)Стас Поломарь
 
Дедуктивный метод анализа пользователей
Дедуктивный метод анализа пользователейДедуктивный метод анализа пользователей
Дедуктивный метод анализа пользователейЕвген Гуринович
 
Поведенческие факторы в поисковом продвижении
Поведенческие факторы в поисковом продвиженииПоведенческие факторы в поисковом продвижении
Поведенческие факторы в поисковом продвиженииimba_ru
 
Ранжирование: от строчки кода до Матрикснета
Ранжирование:  от строчки кода до МатрикснетаРанжирование:  от строчки кода до Матрикснета
Ранжирование: от строчки кода до Матрикснетаyaevents
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAINL Conferences
 
Композиционно-графический анализ сайтов органов власти
Композиционно-графический анализ сайтов органов властиКомпозиционно-графический анализ сайтов органов власти
Композиционно-графический анализ сайтов органов властиAnna Milyukova
 
Start prezenten
Start prezentenStart prezenten
Start prezentenrinto2
 
Практика SEO: выпуск 6. Поведенческие факторы
Практика SEO: выпуск 6. Поведенческие факторыПрактика SEO: выпуск 6. Поведенческие факторы
Практика SEO: выпуск 6. Поведенческие факторыДмитрий Севальнев
 
Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"
Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"
Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"Fwdays
 
"Анализ поведения пользователей и персонализация поисковой выдачи". Юрий Усти...
"Анализ поведения пользователей и персонализация поисковой выдачи". Юрий Усти..."Анализ поведения пользователей и персонализация поисковой выдачи". Юрий Усти...
"Анализ поведения пользователей и персонализация поисковой выдачи". Юрий Усти...Yandex
 

Similaire à "Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ (20)

Принципы работы поисковых систем
Принципы работы поисковых системПринципы работы поисковых систем
Принципы работы поисковых систем
 
Дизайн мышление или почему так важно знать про правило 7 плюс/минус 2
Дизайн мышление или почему так важно знать про правило 7 плюс/минус 2Дизайн мышление или почему так важно знать про правило 7 плюс/минус 2
Дизайн мышление или почему так важно знать про правило 7 плюс/минус 2
 
Юзабилити - ключ к построению успешного интернет бизнеса
Юзабилити - ключ к построению успешного интернет бизнесаЮзабилити - ключ к построению успешного интернет бизнеса
Юзабилити - ключ к построению успешного интернет бизнеса
 
хранение и обработка больших объемов данных в рекомендательном движке сайта I...
хранение и обработка больших объемов данных в рекомендательном движке сайта I...хранение и обработка больших объемов данных в рекомендательном движке сайта I...
хранение и обработка больших объемов данных в рекомендательном движке сайта I...
 
Puple's presentation
Puple's presentationPuple's presentation
Puple's presentation
 
поисковые системы презентация ученика
поисковые системы презентация ученикапоисковые системы презентация ученика
поисковые системы презентация ученика
 
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатовИнформационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
 
Ageev
AgeevAgeev
Ageev
 
Prezent puti interneta_neispovedimi
Prezent puti interneta_neispovedimiPrezent puti interneta_neispovedimi
Prezent puti interneta_neispovedimi
 
Работа с контентными проектами (Optimization-16)
Работа с контентными проектами (Optimization-16)Работа с контентными проектами (Optimization-16)
Работа с контентными проектами (Optimization-16)
 
Дедуктивный метод анализа пользователей
Дедуктивный метод анализа пользователейДедуктивный метод анализа пользователей
Дедуктивный метод анализа пользователей
 
Поведенческие факторы в поисковом продвижении
Поведенческие факторы в поисковом продвиженииПоведенческие факторы в поисковом продвижении
Поведенческие факторы в поисковом продвижении
 
Ранжирование: от строчки кода до Матрикснета
Ранжирование:  от строчки кода до МатрикснетаРанжирование:  от строчки кода до Матрикснета
Ранжирование: от строчки кода до Матрикснета
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
 
Композиционно-графический анализ сайтов органов власти
Композиционно-графический анализ сайтов органов властиКомпозиционно-графический анализ сайтов органов власти
Композиционно-графический анализ сайтов органов власти
 
Start prezenten
Start prezentenStart prezenten
Start prezenten
 
Практика SEO: выпуск 6. Поведенческие факторы
Практика SEO: выпуск 6. Поведенческие факторыПрактика SEO: выпуск 6. Поведенческие факторы
Практика SEO: выпуск 6. Поведенческие факторы
 
Базовый курс по SEO
Базовый курс по SEOБазовый курс по SEO
Базовый курс по SEO
 
Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"
Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"
Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"
 
"Анализ поведения пользователей и персонализация поисковой выдачи". Юрий Усти...
"Анализ поведения пользователей и персонализация поисковой выдачи". Юрий Усти..."Анализ поведения пользователей и персонализация поисковой выдачи". Юрий Усти...
"Анализ поведения пользователей и персонализация поисковой выдачи". Юрий Усти...
 

Plus de Yandex

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksYandex
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Yandex
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаYandex
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаYandex
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Yandex
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Yandex
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Yandex
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Yandex
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровYandex
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Yandex
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Yandex
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Yandex
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Yandex
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Yandex
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Yandex
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Yandex
 
Эталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатовЭталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатовYandex
 

Plus de Yandex (20)

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of Tanks
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
 
Эталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатовЭталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатов
 

"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ

  • 1. 1
  • 3. 3 Emory Intelligent Information Access Lab Mikhail Ageev Dmitry Lagun Eugene Agichtein
  • 4. 4 Цель: улучшение поисковых аннотаций Критерии качества сниппетов !  Readability –  Сниппет должен быть удобочитаемым !  Representativeness –  Сниппет должен показывать части документа, которые соответствуют запросу пользователя !  Judgeability –  Хороший сниппет должен содержать ответ на вопрос пользователя или указание на то, что ответ есть в документе
  • 5. 5 Алгоритмы выделения сниппетов !  Сопоставление текста документа с запросом !  Учет местоположения текста, структуры документа !  Текстовых факторов недостаточно!
  • 6. 6 Пример: траектория зрачка глаза и идеальный ответ!  Цель поиска –  How many pixels must be dead on a iPad 3 before Apple will replace it? !  Запрос –  [how many dead pixels ipad 3 replace] !  Фрагмент с ответом –  iPad: 3 Dead Pixel -> Apple will replace a new LCD for you Идеальный сниппет!
  • 7. 7 Траектория курсора мыши коррелирует с траекторией зрачка Q. Guo and E. Agichtein. Towards predicting web searcher gaze position from mouse movements. // CHI, 2010. !  Пример: –  Find the worst drought that happened in the history of the US !  Запрос: –  [worst drought in US] The worst droughts in the history of the United States occurred during the 1930s and 1950s, periods of time known as 'Dust Bowl' years Идеальный сниппет!
  • 8. 8 Идея: выделение сниппетов на основе поведения пользователей !  Поведение пользователей на найденной странице (scroll, движения мыши) позволяет выявить фрагменты, интересующие пользователя !  Данные о поведении можно собирать при помощи JavaScript browser API !  Выделение заинтересовавших пользователя фрагментов может позволить улучшить сниппеты
  • 9. 9 Задачи !  Как собрать реалистичные данные поведения пользователей? –  В том числе движения мыши на страницах после SERP !  Как по движениям мыши определить фрагменты, заинтересовавшие пользователя? –  Объём данных: около 400 событий на каждый просмотр страницы –  Разные устройства ввода и версии браузеров –  Разные привычки пользователей !  Как объединить данные поведения и текстовые факторы?
  • 10. 10 План !  Введение !  Метод сбора данных о поведении пользователей поисковой системы, включающих движения мыши !  Предсказание фрагментов документов, заинтересовавших пользователя !  Улучшение поисковых аннотаций (сниппетов) на основе анализа поведения !  Улучшение поиска ответов на вопрос в Web на основе анализа поведения !  Заключение
  • 11. 11 UFindIt: инфраструктура для сбора данныхСбор данных о поведении пользователя !  Цель поиска: найти ответ при помощи поисковой системы !  Игрок находит ответ и подтверждающий URL Участники !  Amazon Mechanical Turk –  HIT = игра из 12 вопросов !  Мотивация игрока –  Гарантированная оплата $1 за игру –  Бонусы для 25% лучших игроков –  Соревнование! Азарт! !  Проверка данных: ReCaptcha + Автоматическая проверка выполнения правил игры
  • 12. 12 Протоколирование: Proxy + JavaScript !  HTTP reverse proxy –  Пользователь использует привычный интерфейс поиска –  HTML-ссылки преобразуются на лету –  В каждую страницу встраивается код JavaScript для отслеживания поведения
  • 13. 13 EMU.js: связь координат мыши с текстом !  Проблема –  Позиция мыши представлена координатами в окне браузера –  Координаты текста зависят от разрешения экрана, версии и настроек браузера !  Решение –  Вычислить координаты всех слов на клиенте и сохранить на сервере
  • 14. 14 Структура данных Для каждого просмотра страницы известны !  Запрос пользователя к поисковой системе !  URL и содержание документа !  Координаты каждого слова в документе !  Лог действие пользователя: движения мыши, клики, прокрутка !  Заданный запрос (цель поиска) !  Ответ, который пользователь отправил Поведенческие факторы Обучающая и тестовая выборки Только для экспериментов
  • 15. 15 Статистика по собранным данным   !  Код и данные свободно доступны http://ir.mathcs.emory.edu/intent/ 109 Пользователей 12 Вопросов 1,175 Поисковых сессий 3,295 Запросов 2,997 Просмотров страниц 662 Различных URL 1,454,257 Атомарных событий 707 Пар запрос-URL (сниппетов) с полным набором данных для экспериментов
  • 16. 16 План !  Введение !  Метод сбора данных о поведении пользователей поисковой системы, включающих движения мыши !  Предсказание фрагментов документов, заинтересовавших пользователя !  Улучшение поисковых аннотаций (сниппетов) на основе анализа поведения !  Улучшение поиска ответов на вопрос в Web на основе анализа поведения !  Заключение
  • 17. 17 Предсказание интересных фрагментов !  Текст HTML-страницы разбивается на фрагменты по пять слов !  6 поведенческих факторов –  Длительность нахождения курсора мыши над фрагментом –  … рядом с фрагментом (±100px) –  Средняя скорость курсора мыши над фрагментом –  … рядом с фрагментом –  Время показа фрагмента в видимой части окна просмотра (scrollbar) –  Время показа фрагмента в середине окна просмотра !  Предсказание вероятности интересного фрагмента !  Метод машинного обучения: GBRT
  • 18. 18 Обучающее множество !  Положительные примеры –  Фрагменты, пересекающиеся с ответом пользователя !  Отрицательные примеры –  Все остальные фрагменты Обучающее множество неполно: мы ничего не знаем об остальных фрагментах, которые пользователь посмотрел !  Пример –  Вопрос: «Which metals float on water?» –  Ответ пользователя: «lithium, sodium, potassium»
  • 19. 19 Предсказание интересных фрагментов Чем выше предсказанная интересность фрагмента (BScore), тем больше пересечение с ответом пользователя (ROUGE)
  • 20. 20 Наиболее важные факторы !  DispMiddleTime – время, в течение которого фрагмент текста был виден на экране !  MouseOverTime – время, в течение которого курсор мыши был над фрагментом текста
  • 21. 21 План !  Введение !  Метод сбора данных о поведении пользователей поисковой системы, включающих движения мыши !  Предсказание фрагментов документов, заинтересовавших пользователя !  Улучшение поисковых аннотаций (сниппетов) на основе анализа поведения !  Улучшение поиска ответов на вопрос в Web на основе анализа поведения !  Заключение
  • 22. 22 Генерация сниппетов: baseline D. Metzler and T. Kanungo. Machine learned sentence selection strategies for query-biased summarization. In SIGIR Learning to Rank Workshop, 2008. !  Для каждого предложения вычисляем 22 фактора –  Точное соответствие –  Количество найденных слов запроса и синонимов (3 фактора) –  BM25-like (4 фактора) –  Расстояние между словами запроса (3 фактора) –  Длина предложения –  Позиция в документе –  Удобочитаемость: количество знаков пунктуации, заглавных слов, различных слов (9 факторов)
  • 23. 23 Генерация сниппетов на основе поведения !  Линейная комбинация весов предложений baseline-алгоритма TextScore(f) и интересности фрагмента BScore(f) !  λ влияет на покрытие и качество сниппетов –  Слишком маленькое λ = сниппеты не отличаются от baseline –  Слишком большое λ = риск низкого качества сниппетов !  Эксперимент:
  • 24. 24 Постановка эксперимента !  Попарная оценка сниппетов для двух алгоритмов по критериям: –  Representativeness Какой из сниппетов лучше отражает соответствие документа запросу? Необходимо прочитать документ до ответа на вопрос. –  Readability Какой из сниппетов лучше написан, легче читается? –  Judgeability Какой из сниппетов лучше помогает найти релевантный ответ и решить, нужно ли кликать на ссылку?
  • 25. 25 Результаты !  Fraction improved: доля сниппетов, улучшенных за счет учета поведения пользователей !  Coverage: доля сниппетов, для которых сниппеты с учетом поведения отличаются от baseline !  При λ  =  0.7  статистически значимое улучшение по всем метрикам
  • 27. 27 План !  Введение !  Метод сбора данных о поведении пользователей поисковой системы, включающих движения мыши !  Предсказание фрагментов документов, заинтересовавших пользователя !  Улучшение поисковых аннотаций (сниппетов) на основе анализа поведения !  Улучшение поиска ответов на вопрос в Web на основе анализа поведения !  Заключение
  • 28. 28 Вопросно-ответный поиск !  Поиск точного ответа на вопрос пользователя !  Основные этапы QA (IR Approach) –  Анализ запроса (POS Tagging, NER), классификация по типу вопроса, формирование шаблонов ответов –  Поиск релевантных документов – кандидатов на нахождение ответов –  Поиск релевантных пассажей –  Анализ пассажей и извлечение ответов по шаблону
  • 29. 29 Улучшение извлечения пассажей !  Baseline algorithm: –  QANUS: open-source QA system from National University of Singapore (Min Yen Kan, 2010) !  BeQA: behavior-based QA –  QANUS fragment score TextScore(f) –  Интересность фрагмента BScore(f)
  • 30. 30 Поиск релевантных пассажей: результаты!  rank𝑖 - позиция первого релевантного ответа !  Поиск ответов по коллекции –  All: все документы по всем вопросам –  Clicked: все документы, которые пользователи посещали при поиске ответа на данный вопрос –  Relevant: документы, про которые известно, что в них есть правильный ответ
  • 31. 31 Основные предположения (и ограничения) !  Эксперименты на информационных вопросах: пользователь ищет текст ответа в документе !  Просмотры страниц сгруппированы по информационной потребности –  Поведенческие факторы усредняются по всем пользователям с одинаковой информационной потребностью !  Данные о поведении пользователя на найденных страницах могут быть собраны поисковой системой –  Плагины браузера –  Рекламные площадки –  Счетчики посещений
  • 32. 32 References !  Mikhail Ageev, Dmitry Lagun, Eugene Agichtein. Improving Search Result Summaries By Using Searcher Behavior Data // SIGIR 2013 !  Mikhail Ageev, Dmitry Lagun, Eugene Agichtein. The Answer is at your Fingertips: Improving Passage Retrieval for Web Question Answering with Search Behavior Data // EMNLP 2013 !  Код и данные: http://ir.mathcs.emory.edu/intent/