SlideShare une entreprise Scribd logo
1  sur  52
Télécharger pour lire hors ligne
Введение в Learning to Rank
    Агеев Михаил Сергеевич
          НИВЦ МГУ


    Лекция на факультете ВМиК, 24 марта 2009
Основные материалы



• Публикации по Learning to Rank в SIGIR, ICML,
  WWW

• Tutorial on Learning to Rank for Information
  Retrieval at www2008, by Tie-Yan Liu
  http://research.microsoft.com/en-us/people/tyliu/learning_to_rank_tutorial_-_www_-_2008.pdf
План

• Постановка задачи Learning to Rank,
  метрики
• Тестовые коллекции
• Методы решения: история и
  классификация
• Pointwise approach
• Pairwise approach
• Listwise approach
• Ссылки
Функция ранжирования
Функция ранжирования
• Q – множество запросов
• D – множество документов

• x ( q, d ) ∈ n - множество факторов ранжирования
  (features), например, x=(tf*idf(q,d), PR(d), len(q))
• f ( x ( q, d ) , w ) ∈ - SCORE-функция
  например, f = x ( q, d ) , w , w-вектор параметров

• для запроса q в ответ выдается top-k документов,
  упорядоченных по убыванию f
Learning to Rank
• Y – оценки релевантности, Y={0,1}, Y={0,1,2,3}
  (1=«документ релевантен», 0=«нерелевантен»)
• Есть набор запросов, документов и оценок
  релевантности для них («обучающая коллекция»):
                 (qi, dij, yij), i=1..Ni
• Метрика качества поиска:

                       ∑ L ({f ( x ( q , d ) , w ) , y })
                  1
           L(w) =                     i   ij         ij
                  Ni    i




                   L ( w ) → max
Метрики качества поиска
• P@10: точность на уровне 10 документов

     P@n =
           {количество релевантных среди top n}
                            n
• P@1 (winner takes all, I’m feeling lucky)
• MAP (Mean Average Precision)
• NDCG@n (Normalized Discounted Cumulative Gain)
MAP
NDCG-1
NDCG-2
Свойства метрик
• Метрики считаются отдельно для каждого
  запроса, затем вычисляется среднее (все запросы
  равны)
• Важен относительный порядок документов, а не
  значения SCORE-функции.
  Применение любой монотонно возрастающей
  функции g(f(x,w)) не меняет порядок.
• Документы в начале списка результатов имеют
  больший вес
• Метрика L(w) – не гладкая, не выпуклая,
  разрывная, ступенчатая функция!
План

• Постановка задачи Learning to Rank,
  метрики
• Тестовые коллекции
• Методы решения: история и
  классификация
• Pointwise approach
• Pairwise approach
• Listwise approach
• Ссылки
Тестовые коллекции - LETOR
• LETOR 3.0 (Learning TO Rank)
  – http://research.microsoft.com/en-us/um/beijing/projects/letor/index.html
  – Коллекции:
      • OHSUMED (340 000 документов из медицинских журналов)
      • “.GOV” (1 000 000 документов с правительственных сайтов США)
  – 64 features:
      •   TF, IDF of body, title, anchor, body, whole document;
      •   TF*IDF, BM25, LM (3 вида, по всем полям)
      •   HITS, PageRank, HostRank (разные варианты)
      •   Number of slash in url, length of url, document length
  – Около 500 оцененных запросов (из TREC)
  – Результаты 8 baseline алгоритмов, множество
    опубликованных результатов
Яндекс: «Интернет-математика 2009»
• http://company.yandex.ru/grant/2009/datasets
• Цель участников конкурса «Интернет-математика
  2009» – с помощью методов машинного обучения
  получить формулу ранжирования документов
• Для обучения и проверки используются реальные
  данные – значения признаков пар «запрос-
  документ» и оценки релевантности, сделанные
  асессорами Яндекса.
• 245 features, семантика факторов не указана
• 9 124 запросов
• 97 290 пар документ-запрос для обучения
• Метрика качества ранжирования - NDCG
План

• Постановка задачи Learning to Rank,
  метрики
• Тестовые коллекции
• Методы решения: история и
  классификация
• Pointwise approach
• Pairwise approach
• Listwise approach
• Ссылки
Методы решения -1
• Редукция LtR к известным проблемам машинного
  обучения
  – Pointwise approach (F.Gey 1992)
     • Применение методов классификации и регрессии для пар
       документ-запрос: релевантна ли данная пара
                              f(x(q,d),w) ~ y
  – Pairwise approach (R.Herbrich 1999, T. Joachims 2002)
     • Классификация пар документов:
       пара (d1,q) и (d2,q) – корректно классифицирована,
       если f(d1,q) > f(d2,q) и d1 более релевантен, чем d2
Методы решения -2
• Появление термина LtR (~2005 NIPS’05 workshop),
  SIGIR LtR workshop (2007)
   – Создание специализированных методов для LtR
   – Учет IR-специфичных метрик
• Listwise approach:
   – Прямая оптимизация MAP, NDCG (2006-2008):
      •   Методы бустинга (AdaRank, 2007)
      •   Сглаживание функции метрики (SoftRank, 2007)
      •   Оптимизация верхней оценки метрики (SVM_MAP, 2007)
      •   Использование surrogate loss – функции, похожей на метрику, но
          гладкой и/или выпуклой (ListNet, 2007, ListMLE, 2008)
   – Использование подходов для оптимизации негладких
     функций
      • Определяем градиент, но не функцию (LambdaRank, 2006)
      • Генетическое программирование (RankGP, 2008)
      • Monte-Carlo Markov Chains (Yandex, 2008)
Методы решения -3
• Аналитическое исследование разных методов
  (Tie-Yan Liu, 2008)
  – Сравнение SVM_MAP и AdaRank на основе свойств
    используемых loss-функций (SIGIR 2008)
  – Рассмотрение loss-функций по параметрам
     • Consistency: при достаточно большом количестве примеров
       решение оптимизационной задачи даст оптимальное
       ранжирование
     • Soundness: уменьшение loss-функции соответствует
       улучшению ранжирования с точки зрения пользователя
     • Непрерывность, дифференцируемость, выпуклость
     • Скорость сходимости алгоритма
    (ICML 2008)
План

• Постановка задачи Learning to Rank,
  метрики
• Тестовые коллекции
• Методы решения: история и
  классификация
• Pointwise approach
• Pairwise approach
• Listwise approach
• Ссылки
Pointwise approach



• Регрессия:
  Предположим SCORE = оценка релевантности
                     f(x, w) ~ y
• Классификация:
  Предсказать значение y для данного x
  (предсказать релевантна ли пара документ-запрос)
Pointwise approach: Логистическая регрессия

•    W.S. Cooper, F.C. Gey, D.P. Dabney. Probabilistic retrieval based on
     staged logistic regression // SIGIR 1992

•    Лучший результат в TREC 1993 (TREC-2)

•    Полученная формула:
                       1 ⎛          tfq            tfd             tfc ⎞
log O ( R ) = −3.51 +     ⎜ 37.4
                          ⎜               + 0.330        + 0.1937      ⎟ + 0.0929 M
                      M +1⎝      tfq + 35         D + 80          | C|⎟⎠
•    M – количество общих слов в запросе и документе
•    tfq – количество слов в запросе
•    tfd - частотность слов запроса в документе
•    |D| - длина документа в словах
•    tfc - частотность слов запроса в коллекции
•    |C| - длина коллекции в словах
f ( xij , w ) = xij , w
                                                                     Логистическая регрессия
                            1
P ( xij , w ) =                                 вероятность, что документ релевантен
                                (
                           − f xij ,w   )
                  1+ e
         ⎧ P ( xij , w ) ,    yij = 1
         ⎪
L( f ) = ⎨                            функция макс. правдоп.
         ⎪1 − P ( xij , w ) , yij = 0
         ⎩
                                (
w = arg max ∏ L f ( xij , w ) , yij
                    i, j
                                                             )
   = arg max          ∑
                   i , j | yij =1
                                            (
                                    − ln 1 + e
                                                  − xij ,w
                                                                 )   +      ∑
                                                                         i , j| yij = 0
                                                                                            (
                                                                                          ln 1 + e
                                                                                                     xij ,w
                                                                                                              )
                                                                                        1
                                                                 P( f ) =
                                                                                     1 + e− f                     − ln (1 + e − f   )
Проблемы логистической регрессии
• Оптимизируемая функция L плохо соответствует
  метрикам:
  – При применении монотонной функции к f порядок
    документов не меняется, а L – меняется
  – Для разных запросов – разное количество оцененных
    документов, а L суммирует равноправно все пары
    документ-запрос
  – Для разных запросов top-документы имеют разные
    SCORE
  – Не учитывается связь между SCORE разных
    документов
План

• Постановка задачи Learning to Rank,
  метрики
• Тестовые коллекции
• Методы решения: история и
  классификация
• Pointwise approach
• Pairwise approach
• Listwise approach
• Ссылки
Pairwise approach
 •   T. Joachims, Optimizing Search Engines Using Clickthrough Data //ACM
     KDD 2002

Click: d1, d3, d7
Вывод:
 • d3 лучше d2
 • d7 лучше d2
 • d7 лучше d4
 • d7 лучше d5
 • d7 лучше d6
 Положительные примеры: (d3,d2), (d7,d2), (d7,d4), (d7,d5),(d7,d6)
 Отрицательные примеры: (d2,d3), (d2,d7), (d4,d7), (d5,d7),(d6,d7)
Оптимальный линейный сепаратор
 SVM (Support Vector Machines)
                       Максимизация
                       расстояния между
                       двумя
                       параллельными
                       поддерживающими
                       плоскостями

                   1
                     || w ||2 + ∑ ξi → min
                   2            i

                   yi w, xi(1) − xi(2) ≥ 1 − ξi
                   ξi ≥ 0
                   xi(1)    xi(2)
RankNet
RankNet
                        ⎛    (32) (2) ⎛          (2) ⎞  (3) ⎞
f ( x, w ) = g          ⎜ ∑ w j g ⎜ ∑ w k xk + b j ⎟ + b ⎟ − 2x уровневая нейронная сеть
                  (3)                     (21)

                        ⎝ j           ⎝ k            ⎠      ⎠
            1
g (t ) =
         1 + e−t
L ( f ) = ∑ cij
           i> j

L ( f ) → min


   • L(f(x,w)) – гладкая, выпуклая функция по w
   • Алгоритм: gradient descent (метод градиентного
     спуска)
Pairwise approach: проблемы
• Разные запросы имеют разное количество
  документов, соответственно,
  количество пар ~ (кол-во документов)2
• Не учитывается значимость top-позиций

• Отклонение от конечной цели:
  – Пользователи видят не пары документов, а
    упорядоченный список документов
  – Оптимизируемая функция не похожа на MAP, NDCG
План

• Постановка задачи Learning to Rank,
  метрики
• Тестовые коллекции
• Методы решения: история и
  классификация
• Pointwise approach
• Pairwise approach
• Listwise approach
• Ссылки
Listwise approach
                                                 → {1.. D }
                                                                    D
• Задача машинного обучения:            f : D⋅        n


   – Input: набор векторов {x(q,d)} – для всех документов
     коллекции
   – Output: перестановка на множестве документов
• Listwise approach:
   – Прямая оптимизация MAP, NDCG (2006-2008):
      •   Методы бустинга (AdaRank, 2007)
      •   Сглаживание функции метрики (SoftRank, 2007)
      •   Оптимизация верхней оценки метрики (SVM_MAP, 2007)
      •   Использование surrogate loss – функции, похожей на метрику, но
          гладкой и/или выпуклой (ListNet, 2007, ListMLE, 2008)
   – Использование подходов для оптимизации негладких
     функций
      • Определяем градиент, но не функцию (LambdaRank, 2006)
      • Генетическое программирование (RankGP, 2008)
      • Monte-Carlo Markov Chains (Yandex, 2008)
SoftRank: сглаживание метрики
• M. Taylor, et al. LR4IR 2007
• Ключевая идея: избежать сортировки результатов
  за счет определения SCORE как случайных
  переменных
• Основные шаги:
   – SCORE f ( x , w ) → p ( s ) , p ( s ) = N ( s | f ( x , w ) , σ )
                     j        j     j      j    j

      случайная переменная, нормальное распределени
    – Ранг документа – тоже случайная переменная,
      вычисляем распределение вероятностей позиций
    – SoftNDCG(w) := E( NDCG(w) ) – матожидание,
      гладкая функция от w
    – Вычисляем arg max SoftNDCG(w) градиентным
      методом
LambdaRank: аналог физической системы

• NDCG, MAP – разрывные, невыпуклые функции
• Вместо того, чтобы определять loss function,
  определим ее градиент:
 ∂L ( w )
∂x ( q, di )
             = −∑
                     1
                j 1+ e
                              (
                       fi − f j
                                NDCG ( f ( x, w ) , y ) − NDCG ( f ( x, w ) , σ i , j y )   )

• Документы в списке «притягиваются» друг к другу
                                                                             1
    – сила притяжения зависит от разницы score:                               f −f
                                                                          1+ e i j
    – и пропорциональна изменению NDCG при перестановке σ i , j
      документов (i, j)
• Оптимизируемая функция гладкая и выпуклая!
RankGP: генетическое программирование

• J. Yeh, et al. LR4IR 2007
• Предобработка: нормализация features в [0,1]
                                xk ( qi , d j ) − min xk ( qi , d m )
         xk ( qi , d j ) ←                        m

                             max xk ( qi , d m ) − min xk ( qi , d m )
                               m                      m

• Построение функции f в виде формулы из
  элементов:
                                           S v = { x1 , x2 ,… , xn }
                                           Sc = {0.0, 0.1, 0.2, ... , 0.8, 0.9,1.0}
                                           Sop = {+, −, ×, /}

• Мутация, crossover – замена элементов в формуле
• Функция качества: MAP
AdaRank
Listwise методы
• Результаты на LETOR: стабильно лучше, чем
  pairwise и, тем более, pointwise методов
• Мало оценок, разные методы измерения: строго
  упорядочить методы «лучше-хуже» пока
  невозможно
• Трудно анализировать аналитически:
  – Loss-функция не всегда задана явно
  – Даже если задана – как соотносится L(w) и NDCG(w)?
Listwise: аналитические исследования
• Аналитическое исследование разных методов
  (Tie-Yan Liu, 2008)
  – Сравнение SVM_MAP и AdaRank на основе свойств
    используемых loss-функций (SIGIR 2008)
  – Рассмотрение loss-функций по параметрам
     • Consistency: при достаточно большом количестве примеров
       решение оптимизационной задачи даст оптимальное
       ранжирование
     • Soundness: уменьшение loss-функции соответствует
       улучшению ранжирования с точки зрения пользователя
     • Непрерывность, дифференцируемость, выпуклость
     • Скорость сходимости алгоритма
    (ICML 2008)
План

• Постановка задачи Learning to Rank,
  метрики
• Тестовые коллекции
• Методы решения: история и
  классификация
• Pointwise approach
• Pairwise approach
• Listwise approach
• Ссылки
Ссылки
• SIGIR Workshop on Learning to Rank for Information
  Retrieval
    – 2007: http://research.microsoft.com/en-us/um/beijing/events/LR4IR-2007/
    – 2008: http://research.microsoft.com/en-us/um/beijing/events/LR4IR-2008/
• SIGIR (ACM SIG on Information Retrieval) 2006-2008:
   http://sigir.org/

• ICML (International Conference on Machine Learning) 2007-
  2008: http://oregonstate.edu/conferences/icml2007/, http://icml2008.cs.helsinki.fi/
• TREC (Text Retrieval Conference): http://trec.nist.gov
• Tie-Yan Liu home page:
   http://research.microsoft.com/en-us/people/tyliu/default.aspx

• Christopher J. C. Burges publications:
   http://research.microsoft.com/en-us/um/people/cburges/pubs.htm

• NIPS-2005 Workshop on Learning to Rank
   http://web.mit.edu/shivani/www/Ranking-NIPS-05/

Contenu connexe

Tendances

ИТМО Machine Learning 2015. Рекомендательные системы
ИТМО Machine Learning 2015. Рекомендательные системыИТМО Machine Learning 2015. Рекомендательные системы
ИТМО Machine Learning 2015. Рекомендательные системыAndrey Danilchenko
 
ИТМО Machine Learning. Рекомендательные системы — часть 1
ИТМО Machine Learning. Рекомендательные системы — часть 1ИТМО Machine Learning. Рекомендательные системы — часть 1
ИТМО Machine Learning. Рекомендательные системы — часть 1Andrey Danilchenko
 
Решение краевых задач методом конечных элементов
Решение краевых задач методом конечных элементовРешение краевых задач методом конечных элементов
Решение краевых задач методом конечных элементовTheoretical mechanics department
 
Morzhin o., november 03, 2011
Morzhin o., november 03, 2011Morzhin o., november 03, 2011
Morzhin o., november 03, 2011oleg_morzhin
 
Методы численного интегрирования
Методы численного интегрированияМетоды численного интегрирования
Методы численного интегрированияTheoretical mechanics department
 
Численное решение ОДУ. Метод Эйлера
Численное решение ОДУ. Метод ЭйлераЧисленное решение ОДУ. Метод Эйлера
Численное решение ОДУ. Метод ЭйлераTheoretical mechanics department
 
Data Mining - lecture 7 - 2014
Data Mining - lecture 7 - 2014Data Mining - lecture 7 - 2014
Data Mining - lecture 7 - 2014Andrii Gakhov
 

Tendances (11)

ИТМО Machine Learning 2015. Рекомендательные системы
ИТМО Machine Learning 2015. Рекомендательные системыИТМО Machine Learning 2015. Рекомендательные системы
ИТМО Machine Learning 2015. Рекомендательные системы
 
ИТМО Machine Learning. Рекомендательные системы — часть 1
ИТМО Machine Learning. Рекомендательные системы — часть 1ИТМО Machine Learning. Рекомендательные системы — часть 1
ИТМО Machine Learning. Рекомендательные системы — часть 1
 
Решение краевых задач методом конечных элементов
Решение краевых задач методом конечных элементовРешение краевых задач методом конечных элементов
Решение краевых задач методом конечных элементов
 
Метод конечных разностей
Метод конечных разностейМетод конечных разностей
Метод конечных разностей
 
Morzhin o., november 03, 2011
Morzhin o., november 03, 2011Morzhin o., november 03, 2011
Morzhin o., november 03, 2011
 
Методы численного интегрирования
Методы численного интегрированияМетоды численного интегрирования
Методы численного интегрирования
 
Pr i-8
Pr i-8Pr i-8
Pr i-8
 
Pr i-8
Pr i-8Pr i-8
Pr i-8
 
Сплайн интерполяция
Сплайн интерполяцияСплайн интерполяция
Сплайн интерполяция
 
Численное решение ОДУ. Метод Эйлера
Численное решение ОДУ. Метод ЭйлераЧисленное решение ОДУ. Метод Эйлера
Численное решение ОДУ. Метод Эйлера
 
Data Mining - lecture 7 - 2014
Data Mining - lecture 7 - 2014Data Mining - lecture 7 - 2014
Data Mining - lecture 7 - 2014
 

Similaire à Введение в Learning To Rank

ITMO RecSys course. Autumn 2014. Lecture 3
ITMO RecSys course. Autumn 2014. Lecture 3ITMO RecSys course. Autumn 2014. Lecture 3
ITMO RecSys course. Autumn 2014. Lecture 3Andrey Danilchenko
 
экспертные системы
экспертные системыэкспертные системы
экспертные системыsokol_klinik
 
Лекция №1. Введение. Предмет "Теория вычислительных процессов"
Лекция №1. Введение. Предмет "Теория вычислительных процессов"Лекция №1. Введение. Предмет "Теория вычислительных процессов"
Лекция №1. Введение. Предмет "Теория вычислительных процессов"Nikolay Grebenshikov
 
Semantic web и продукционная модель знаний
Semantic web  и продукционная модель знанийSemantic web  и продукционная модель знаний
Semantic web и продукционная модель знанийYury Katkov
 
Semantic web и продукционная модель знаний
Semantic web  и продукционная модель знанийSemantic web  и продукционная модель знаний
Semantic web и продукционная модель знанийYury Katkov
 
Проблемы построения интеллектуальных агентов реального времени
Проблемы построения интеллектуальных агентов реального времениПроблемы построения интеллектуальных агентов реального времени
Проблемы построения интеллектуальных агентов реального времениIrene Pochinok
 
Data Mining - lecture 4 - 2014
Data Mining - lecture 4 - 2014Data Mining - lecture 4 - 2014
Data Mining - lecture 4 - 2014Andrii Gakhov
 
Алгоритмы и структуры данных осень 2013 лекция 1
Алгоритмы и структуры данных осень 2013 лекция 1Алгоритмы и структуры данных осень 2013 лекция 1
Алгоритмы и структуры данных осень 2013 лекция 1Technopark
 
Лекция №12. Графы: представление, обходы, топологическая сортировка. Предмет ...
Лекция №12. Графы: представление, обходы, топологическая сортировка. Предмет ...Лекция №12. Графы: представление, обходы, топологическая сортировка. Предмет ...
Лекция №12. Графы: представление, обходы, топологическая сортировка. Предмет ...Nikolay Grebenshikov
 
Факторизационные модели в рекомендательных системах
Факторизационные модели в рекомендательных системахФакторизационные модели в рекомендательных системах
Факторизационные модели в рекомендательных системахromovpa
 
Урок на тему "Показательная функция"
Урок на тему "Показательная функция"Урок на тему "Показательная функция"
Урок на тему "Показательная функция"Инна Фельдман
 
основы Java для_any_logic
основы Java для_any_logicосновы Java для_any_logic
основы Java для_any_logicKVPw
 
ITMO RecSys course. Autumn 2014. Lecture 5
ITMO RecSys course. Autumn 2014. Lecture 5ITMO RecSys course. Autumn 2014. Lecture 5
ITMO RecSys course. Autumn 2014. Lecture 5Andrey Danilchenko
 
ITMO RecSys course. Autumn 2014. Lecture 6
ITMO RecSys course. Autumn 2014. Lecture 6ITMO RecSys course. Autumn 2014. Lecture 6
ITMO RecSys course. Autumn 2014. Lecture 6Andrey Danilchenko
 
ITMO RecSys course. Autumn 2014. Lecture1: Introduction. kNN, SVD, evaluation
ITMO RecSys course. Autumn 2014. Lecture1: Introduction. kNN, SVD, evaluationITMO RecSys course. Autumn 2014. Lecture1: Introduction. kNN, SVD, evaluation
ITMO RecSys course. Autumn 2014. Lecture1: Introduction. kNN, SVD, evaluationAndrey Danilchenko
 
ITMO RecSys course. Autumn2014. Lecture1
ITMO RecSys course. Autumn2014. Lecture1ITMO RecSys course. Autumn2014. Lecture1
ITMO RecSys course. Autumn2014. Lecture1Andrey Danilchenko
 
ОПК № 5 – Составные типы данных, списки
ОПК № 5 – Составные типы данных, спискиОПК № 5 – Составные типы данных, списки
ОПК № 5 – Составные типы данных, спискиVladimir Parfinenko
 

Similaire à Введение в Learning To Rank (20)

ITMO RecSys course. Autumn 2014. Lecture 3
ITMO RecSys course. Autumn 2014. Lecture 3ITMO RecSys course. Autumn 2014. Lecture 3
ITMO RecSys course. Autumn 2014. Lecture 3
 
экспертные системы
экспертные системыэкспертные системы
экспертные системы
 
Лекция №1. Введение. Предмет "Теория вычислительных процессов"
Лекция №1. Введение. Предмет "Теория вычислительных процессов"Лекция №1. Введение. Предмет "Теория вычислительных процессов"
Лекция №1. Введение. Предмет "Теория вычислительных процессов"
 
Semantic web и продукционная модель знаний
Semantic web  и продукционная модель знанийSemantic web  и продукционная модель знаний
Semantic web и продукционная модель знаний
 
Semantic web и продукционная модель знаний
Semantic web  и продукционная модель знанийSemantic web  и продукционная модель знаний
Semantic web и продукционная модель знаний
 
Проблемы построения интеллектуальных агентов реального времени
Проблемы построения интеллектуальных агентов реального времениПроблемы построения интеллектуальных агентов реального времени
Проблемы построения интеллектуальных агентов реального времени
 
Data Mining - lecture 4 - 2014
Data Mining - lecture 4 - 2014Data Mining - lecture 4 - 2014
Data Mining - lecture 4 - 2014
 
Алгоритмы и структуры данных осень 2013 лекция 1
Алгоритмы и структуры данных осень 2013 лекция 1Алгоритмы и структуры данных осень 2013 лекция 1
Алгоритмы и структуры данных осень 2013 лекция 1
 
Лекция №12. Графы: представление, обходы, топологическая сортировка. Предмет ...
Лекция №12. Графы: представление, обходы, топологическая сортировка. Предмет ...Лекция №12. Графы: представление, обходы, топологическая сортировка. Предмет ...
Лекция №12. Графы: представление, обходы, топологическая сортировка. Предмет ...
 
Факторизационные модели в рекомендательных системах
Факторизационные модели в рекомендательных системахФакторизационные модели в рекомендательных системах
Факторизационные модели в рекомендательных системах
 
функция
функцияфункция
функция
 
Урок на тему "Показательная функция"
Урок на тему "Показательная функция"Урок на тему "Показательная функция"
Урок на тему "Показательная функция"
 
основы Java для_any_logic
основы Java для_any_logicосновы Java для_any_logic
основы Java для_any_logic
 
ITMO RecSys course. Autumn 2014. Lecture 5
ITMO RecSys course. Autumn 2014. Lecture 5ITMO RecSys course. Autumn 2014. Lecture 5
ITMO RecSys course. Autumn 2014. Lecture 5
 
8 2-3
8 2-38 2-3
8 2-3
 
ITMO RecSys course. Autumn 2014. Lecture 6
ITMO RecSys course. Autumn 2014. Lecture 6ITMO RecSys course. Autumn 2014. Lecture 6
ITMO RecSys course. Autumn 2014. Lecture 6
 
Scala
ScalaScala
Scala
 
ITMO RecSys course. Autumn 2014. Lecture1: Introduction. kNN, SVD, evaluation
ITMO RecSys course. Autumn 2014. Lecture1: Introduction. kNN, SVD, evaluationITMO RecSys course. Autumn 2014. Lecture1: Introduction. kNN, SVD, evaluation
ITMO RecSys course. Autumn 2014. Lecture1: Introduction. kNN, SVD, evaluation
 
ITMO RecSys course. Autumn2014. Lecture1
ITMO RecSys course. Autumn2014. Lecture1ITMO RecSys course. Autumn2014. Lecture1
ITMO RecSys course. Autumn2014. Lecture1
 
ОПК № 5 – Составные типы данных, списки
ОПК № 5 – Составные типы данных, спискиОПК № 5 – Составные типы данных, списки
ОПК № 5 – Составные типы данных, списки
 

Plus de Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

Plus de Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 

Введение в Learning To Rank

  • 1. Введение в Learning to Rank Агеев Михаил Сергеевич НИВЦ МГУ Лекция на факультете ВМиК, 24 марта 2009
  • 2. Основные материалы • Публикации по Learning to Rank в SIGIR, ICML, WWW • Tutorial on Learning to Rank for Information Retrieval at www2008, by Tie-Yan Liu http://research.microsoft.com/en-us/people/tyliu/learning_to_rank_tutorial_-_www_-_2008.pdf
  • 3. План • Постановка задачи Learning to Rank, метрики • Тестовые коллекции • Методы решения: история и классификация • Pointwise approach • Pairwise approach • Listwise approach • Ссылки
  • 5. Функция ранжирования • Q – множество запросов • D – множество документов • x ( q, d ) ∈ n - множество факторов ранжирования (features), например, x=(tf*idf(q,d), PR(d), len(q)) • f ( x ( q, d ) , w ) ∈ - SCORE-функция например, f = x ( q, d ) , w , w-вектор параметров • для запроса q в ответ выдается top-k документов, упорядоченных по убыванию f
  • 6. Learning to Rank • Y – оценки релевантности, Y={0,1}, Y={0,1,2,3} (1=«документ релевантен», 0=«нерелевантен») • Есть набор запросов, документов и оценок релевантности для них («обучающая коллекция»): (qi, dij, yij), i=1..Ni • Метрика качества поиска: ∑ L ({f ( x ( q , d ) , w ) , y }) 1 L(w) = i ij ij Ni i L ( w ) → max
  • 7.
  • 8. Метрики качества поиска • P@10: точность на уровне 10 документов P@n = {количество релевантных среди top n} n • P@1 (winner takes all, I’m feeling lucky) • MAP (Mean Average Precision) • NDCG@n (Normalized Discounted Cumulative Gain)
  • 9. MAP
  • 11.
  • 12.
  • 13.
  • 14.
  • 16. Свойства метрик • Метрики считаются отдельно для каждого запроса, затем вычисляется среднее (все запросы равны) • Важен относительный порядок документов, а не значения SCORE-функции. Применение любой монотонно возрастающей функции g(f(x,w)) не меняет порядок. • Документы в начале списка результатов имеют больший вес • Метрика L(w) – не гладкая, не выпуклая, разрывная, ступенчатая функция!
  • 17. План • Постановка задачи Learning to Rank, метрики • Тестовые коллекции • Методы решения: история и классификация • Pointwise approach • Pairwise approach • Listwise approach • Ссылки
  • 18. Тестовые коллекции - LETOR • LETOR 3.0 (Learning TO Rank) – http://research.microsoft.com/en-us/um/beijing/projects/letor/index.html – Коллекции: • OHSUMED (340 000 документов из медицинских журналов) • “.GOV” (1 000 000 документов с правительственных сайтов США) – 64 features: • TF, IDF of body, title, anchor, body, whole document; • TF*IDF, BM25, LM (3 вида, по всем полям) • HITS, PageRank, HostRank (разные варианты) • Number of slash in url, length of url, document length – Около 500 оцененных запросов (из TREC) – Результаты 8 baseline алгоритмов, множество опубликованных результатов
  • 19.
  • 20. Яндекс: «Интернет-математика 2009» • http://company.yandex.ru/grant/2009/datasets • Цель участников конкурса «Интернет-математика 2009» – с помощью методов машинного обучения получить формулу ранжирования документов • Для обучения и проверки используются реальные данные – значения признаков пар «запрос- документ» и оценки релевантности, сделанные асессорами Яндекса. • 245 features, семантика факторов не указана • 9 124 запросов • 97 290 пар документ-запрос для обучения • Метрика качества ранжирования - NDCG
  • 21.
  • 22. План • Постановка задачи Learning to Rank, метрики • Тестовые коллекции • Методы решения: история и классификация • Pointwise approach • Pairwise approach • Listwise approach • Ссылки
  • 23.
  • 24. Методы решения -1 • Редукция LtR к известным проблемам машинного обучения – Pointwise approach (F.Gey 1992) • Применение методов классификации и регрессии для пар документ-запрос: релевантна ли данная пара f(x(q,d),w) ~ y – Pairwise approach (R.Herbrich 1999, T. Joachims 2002) • Классификация пар документов: пара (d1,q) и (d2,q) – корректно классифицирована, если f(d1,q) > f(d2,q) и d1 более релевантен, чем d2
  • 25. Методы решения -2 • Появление термина LtR (~2005 NIPS’05 workshop), SIGIR LtR workshop (2007) – Создание специализированных методов для LtR – Учет IR-специфичных метрик • Listwise approach: – Прямая оптимизация MAP, NDCG (2006-2008): • Методы бустинга (AdaRank, 2007) • Сглаживание функции метрики (SoftRank, 2007) • Оптимизация верхней оценки метрики (SVM_MAP, 2007) • Использование surrogate loss – функции, похожей на метрику, но гладкой и/или выпуклой (ListNet, 2007, ListMLE, 2008) – Использование подходов для оптимизации негладких функций • Определяем градиент, но не функцию (LambdaRank, 2006) • Генетическое программирование (RankGP, 2008) • Monte-Carlo Markov Chains (Yandex, 2008)
  • 26. Методы решения -3 • Аналитическое исследование разных методов (Tie-Yan Liu, 2008) – Сравнение SVM_MAP и AdaRank на основе свойств используемых loss-функций (SIGIR 2008) – Рассмотрение loss-функций по параметрам • Consistency: при достаточно большом количестве примеров решение оптимизационной задачи даст оптимальное ранжирование • Soundness: уменьшение loss-функции соответствует улучшению ранжирования с точки зрения пользователя • Непрерывность, дифференцируемость, выпуклость • Скорость сходимости алгоритма (ICML 2008)
  • 27. План • Постановка задачи Learning to Rank, метрики • Тестовые коллекции • Методы решения: история и классификация • Pointwise approach • Pairwise approach • Listwise approach • Ссылки
  • 28. Pointwise approach • Регрессия: Предположим SCORE = оценка релевантности f(x, w) ~ y • Классификация: Предсказать значение y для данного x (предсказать релевантна ли пара документ-запрос)
  • 29. Pointwise approach: Логистическая регрессия • W.S. Cooper, F.C. Gey, D.P. Dabney. Probabilistic retrieval based on staged logistic regression // SIGIR 1992 • Лучший результат в TREC 1993 (TREC-2) • Полученная формула: 1 ⎛ tfq tfd tfc ⎞ log O ( R ) = −3.51 + ⎜ 37.4 ⎜ + 0.330 + 0.1937 ⎟ + 0.0929 M M +1⎝ tfq + 35 D + 80 | C|⎟⎠ • M – количество общих слов в запросе и документе • tfq – количество слов в запросе • tfd - частотность слов запроса в документе • |D| - длина документа в словах • tfc - частотность слов запроса в коллекции • |C| - длина коллекции в словах
  • 30. f ( xij , w ) = xij , w Логистическая регрессия 1 P ( xij , w ) = вероятность, что документ релевантен ( − f xij ,w ) 1+ e ⎧ P ( xij , w ) , yij = 1 ⎪ L( f ) = ⎨ функция макс. правдоп. ⎪1 − P ( xij , w ) , yij = 0 ⎩ ( w = arg max ∏ L f ( xij , w ) , yij i, j ) = arg max ∑ i , j | yij =1 ( − ln 1 + e − xij ,w ) + ∑ i , j| yij = 0 ( ln 1 + e xij ,w ) 1 P( f ) = 1 + e− f − ln (1 + e − f )
  • 31. Проблемы логистической регрессии • Оптимизируемая функция L плохо соответствует метрикам: – При применении монотонной функции к f порядок документов не меняется, а L – меняется – Для разных запросов – разное количество оцененных документов, а L суммирует равноправно все пары документ-запрос – Для разных запросов top-документы имеют разные SCORE – Не учитывается связь между SCORE разных документов
  • 32. План • Постановка задачи Learning to Rank, метрики • Тестовые коллекции • Методы решения: история и классификация • Pointwise approach • Pairwise approach • Listwise approach • Ссылки
  • 33. Pairwise approach • T. Joachims, Optimizing Search Engines Using Clickthrough Data //ACM KDD 2002 Click: d1, d3, d7 Вывод: • d3 лучше d2 • d7 лучше d2 • d7 лучше d4 • d7 лучше d5 • d7 лучше d6 Положительные примеры: (d3,d2), (d7,d2), (d7,d4), (d7,d5),(d7,d6) Отрицательные примеры: (d2,d3), (d2,d7), (d4,d7), (d5,d7),(d6,d7)
  • 34. Оптимальный линейный сепаратор SVM (Support Vector Machines) Максимизация расстояния между двумя параллельными поддерживающими плоскостями 1 || w ||2 + ∑ ξi → min 2 i yi w, xi(1) − xi(2) ≥ 1 − ξi ξi ≥ 0 xi(1) xi(2)
  • 36. RankNet ⎛ (32) (2) ⎛ (2) ⎞ (3) ⎞ f ( x, w ) = g ⎜ ∑ w j g ⎜ ∑ w k xk + b j ⎟ + b ⎟ − 2x уровневая нейронная сеть (3) (21) ⎝ j ⎝ k ⎠ ⎠ 1 g (t ) = 1 + e−t L ( f ) = ∑ cij i> j L ( f ) → min • L(f(x,w)) – гладкая, выпуклая функция по w • Алгоритм: gradient descent (метод градиентного спуска)
  • 37. Pairwise approach: проблемы • Разные запросы имеют разное количество документов, соответственно, количество пар ~ (кол-во документов)2 • Не учитывается значимость top-позиций • Отклонение от конечной цели: – Пользователи видят не пары документов, а упорядоченный список документов – Оптимизируемая функция не похожа на MAP, NDCG
  • 38.
  • 39.
  • 40. План • Постановка задачи Learning to Rank, метрики • Тестовые коллекции • Методы решения: история и классификация • Pointwise approach • Pairwise approach • Listwise approach • Ссылки
  • 41. Listwise approach → {1.. D } D • Задача машинного обучения: f : D⋅ n – Input: набор векторов {x(q,d)} – для всех документов коллекции – Output: перестановка на множестве документов • Listwise approach: – Прямая оптимизация MAP, NDCG (2006-2008): • Методы бустинга (AdaRank, 2007) • Сглаживание функции метрики (SoftRank, 2007) • Оптимизация верхней оценки метрики (SVM_MAP, 2007) • Использование surrogate loss – функции, похожей на метрику, но гладкой и/или выпуклой (ListNet, 2007, ListMLE, 2008) – Использование подходов для оптимизации негладких функций • Определяем градиент, но не функцию (LambdaRank, 2006) • Генетическое программирование (RankGP, 2008) • Monte-Carlo Markov Chains (Yandex, 2008)
  • 42. SoftRank: сглаживание метрики • M. Taylor, et al. LR4IR 2007 • Ключевая идея: избежать сортировки результатов за счет определения SCORE как случайных переменных • Основные шаги: – SCORE f ( x , w ) → p ( s ) , p ( s ) = N ( s | f ( x , w ) , σ ) j j j j j случайная переменная, нормальное распределени – Ранг документа – тоже случайная переменная, вычисляем распределение вероятностей позиций – SoftNDCG(w) := E( NDCG(w) ) – матожидание, гладкая функция от w – Вычисляем arg max SoftNDCG(w) градиентным методом
  • 43.
  • 44.
  • 45.
  • 46. LambdaRank: аналог физической системы • NDCG, MAP – разрывные, невыпуклые функции • Вместо того, чтобы определять loss function, определим ее градиент: ∂L ( w ) ∂x ( q, di ) = −∑ 1 j 1+ e ( fi − f j NDCG ( f ( x, w ) , y ) − NDCG ( f ( x, w ) , σ i , j y ) ) • Документы в списке «притягиваются» друг к другу 1 – сила притяжения зависит от разницы score: f −f 1+ e i j – и пропорциональна изменению NDCG при перестановке σ i , j документов (i, j) • Оптимизируемая функция гладкая и выпуклая!
  • 47. RankGP: генетическое программирование • J. Yeh, et al. LR4IR 2007 • Предобработка: нормализация features в [0,1] xk ( qi , d j ) − min xk ( qi , d m ) xk ( qi , d j ) ← m max xk ( qi , d m ) − min xk ( qi , d m ) m m • Построение функции f в виде формулы из элементов: S v = { x1 , x2 ,… , xn } Sc = {0.0, 0.1, 0.2, ... , 0.8, 0.9,1.0} Sop = {+, −, ×, /} • Мутация, crossover – замена элементов в формуле • Функция качества: MAP
  • 49. Listwise методы • Результаты на LETOR: стабильно лучше, чем pairwise и, тем более, pointwise методов • Мало оценок, разные методы измерения: строго упорядочить методы «лучше-хуже» пока невозможно • Трудно анализировать аналитически: – Loss-функция не всегда задана явно – Даже если задана – как соотносится L(w) и NDCG(w)?
  • 50. Listwise: аналитические исследования • Аналитическое исследование разных методов (Tie-Yan Liu, 2008) – Сравнение SVM_MAP и AdaRank на основе свойств используемых loss-функций (SIGIR 2008) – Рассмотрение loss-функций по параметрам • Consistency: при достаточно большом количестве примеров решение оптимизационной задачи даст оптимальное ранжирование • Soundness: уменьшение loss-функции соответствует улучшению ранжирования с точки зрения пользователя • Непрерывность, дифференцируемость, выпуклость • Скорость сходимости алгоритма (ICML 2008)
  • 51. План • Постановка задачи Learning to Rank, метрики • Тестовые коллекции • Методы решения: история и классификация • Pointwise approach • Pairwise approach • Listwise approach • Ссылки
  • 52. Ссылки • SIGIR Workshop on Learning to Rank for Information Retrieval – 2007: http://research.microsoft.com/en-us/um/beijing/events/LR4IR-2007/ – 2008: http://research.microsoft.com/en-us/um/beijing/events/LR4IR-2008/ • SIGIR (ACM SIG on Information Retrieval) 2006-2008: http://sigir.org/ • ICML (International Conference on Machine Learning) 2007- 2008: http://oregonstate.edu/conferences/icml2007/, http://icml2008.cs.helsinki.fi/ • TREC (Text Retrieval Conference): http://trec.nist.gov • Tie-Yan Liu home page: http://research.microsoft.com/en-us/people/tyliu/default.aspx • Christopher J. C. Burges publications: http://research.microsoft.com/en-us/um/people/cburges/pubs.htm • NIPS-2005 Workshop on Learning to Rank http://web.mit.edu/shivani/www/Ranking-NIPS-05/