SlideShare une entreprise Scribd logo
1  sur  44
Télécharger pour lire hors ligne
Введение      PatternSim           Сравнение     HybridSim   Приложения




           Метрики семантической близости с
            приложениями к задачам АОТ

                       Александр Панченко
                   Universit´ catholique de Louvain
                            e
                alexander.panchenko@uclouvain.be


                              1 апреля 2013 г.




                     Александр Панченко   1/44
Введение       PatternSim           Сравнение     HybridSim   Приложения




План


     1 Введение


     2 Метрика основанная на лексико-синтаксических шаблонах


     3 Сравнение метрик семантической близости


     4 Гибридная метрика семантической близости


     5 Приложения метрик семантической близости




                      Александр Панченко   2/44
Введение        PatternSim           Сравнение     HybridSim   Приложения




План


     1 Введение

     2 Метрика основанная на лексико-синтаксических шаблонах

     3 Сравнение метрик семантической близости

     4 Гибридная метрика семантической близости

     5 Приложения метрик семантической близости
           Поиск и визуализация семантически связанных слов
           Классификация коротких текстов



                       Александр Панченко   3/44
Введение             PatternSim           Сравнение      HybridSim          Приложения




Введение


     Мотивация

           1   Синонимы, гиперонимы и ко-гипонимы полезны для:
                                                       ˇ
                   систем обработки коротких текстов (Saric et al., 2012;
                   Panchenko at., 2012);
                   расширешия поисковых запросов (Hsu et al., 2006);
                   вопросно-ответных систем (Sun et al., 2005);
           2   Ручное создание семантических ресурсов непозволительно
               дорого.
           3   Качество существующих систем извлечения недостаточно.




                            Александр Панченко   4/44
Введение         PatternSim           Сравнение     HybridSim   Приложения




Семантические отношения и ресурсы
     Определение
     Семантический ресурс это ненаправленный граф (C , R):
           узлы C представляют слова;
           дуги R представляют нетипизированные семантические
           отношения.




                        Александр Панченко   5/44
Введение           PatternSim                  Сравнение                     HybridSim                     Приложения




Subject of the Research – Semantic Relation Extractors
           We study the extractors based on two components:
             1   semantic similarity measures;
             2   nearest neighbors procedures.
                   Terms         Text-Based Data



                       C
                      Feature Extractor
                                  F
                     Similarity Measure        Semantic Similarity Measure

                                  S                                          Semantic Relation Extractor
                           Normalizer

                              S
                      kNN Procedure

                                  R



                      Semantic Relations

                              Александр Панченко         6/44
Введение            PatternSim           Сравнение      HybridSim        Приложения




Метрики семантической близости
     Определение
     Метрика семантической близости численно выражает
     семантическую связность двух ci , cj : sij = sim(ci , cj ):

                       high      если ci , cj пара syn, hyper , cohypo
            sij =
                       0         иначе


     Свойства

           Неотрицательность: 0 ≤ sij ≤ 1;
           Рефлективность: sij = 1 ⇔ ci = cj ;
           Симметричность: sij = sji ;
           sij ≤ sik + skj

                           Александр Панченко   7/44
Введение         PatternSim           Сравнение     HybridSim        Приложения




Метрики семантической близости
           Малое количество подобных пар, большое количество
           несвязных пар: sij ∼ exp(λ):




           Распределение подобия слова “doctor” (|C | > 200, 000):




                        Александр Панченко   8/44
Введение             PatternSim           Сравнение     HybridSim      Приложения




Оценка качества метрик семантической близости




           1   корреляции с суждениями человека (MC, RG, WordSim);
           2   ранжирование семантических отношений (BLESS, SN);
           3   извлечение семантических отношений;
           4   использование извлеченных отношений в системе АОТ:
                   в системе классификации имен файлов (iCOP);
                   с системе поиска семантически связанных слов (Serelex).




                            Александр Панченко   9/44
Введение        PatternSim           Сравнение      HybridSim   Приложения




План


     1 Введение

     2 Метрика основанная на лексико-синтаксических шаблонах

     3 Сравнение метрик семантической близости

     4 Гибридная метрика семантической близости

     5 Приложения метрик семантической близости
           Поиск и визуализация семантически связанных слов
           Классификация коротких текстов



                       Александр Панченко   10/44
Введение         PatternSim           Сравнение      HybridSim    Приложения




Публикации

           Panchenko A., Morozova O., Naets H. “A Semantic
           Similarity Measure Based on Lexico-Syntactic Patterns”.
           In Proceedings of KONVENS 2012, pp.174–178, 2012
           Panchenko A., Romanov P., Morozova O., Naets H.,
           Philippovich A., Fairon C. "Serelex: Search and
           Visualization of Semantically Related Words". In
           Proceedings of the 35th European Conference on Information
           Retrieva (ECIR 2013).
           Панченко А., Романов П., Романов А., Филиппович А.,
           Филиппович Ю., Морозова О. Серелекс: поиск и
           визуализация семантически связанных слов. (АИСТ
           2013)


                        Александр Панченко   11/44
Введение        PatternSim           Сравнение      HybridSim   Приложения




Демо
           http://serelex.cental.be/




                       Александр Панченко   12/44
Введение        PatternSim           Сравнение      HybridSim   Приложения




Лексико-синтаксические паттерны


           18 паттернов извлекающих гиперонимы, ко-гипонимы и
           синонимы




                       Александр Панченко   13/44
Введение         PatternSim           Сравнение      HybridSim   Приложения




Основной каскад автоматов

           Каскад конечных автоматов (FST)
           В формете Unitex




                        Александр Панченко   14/44
Введение         PatternSim           Сравнение      HybridSim   Приложения




Пример реализации паттерна в виде автомата




           Гибкие правила позволяют учеть лингвистическую
           вариацию сохраняя точность
           В отличие от паттернов основанных на строках (Bollegala
           et al., 2007)
                        Александр Панченко   15/44
Введение        PatternSim           Сравнение      HybridSim   Приложения




PatternSim: основные этапы
     Корпус Wikipedia+ukWaC: 2.9 · 1012 токенов
     Паттерны извлекают конкордансы
           such diverse {[occupations]} as {[doctors]},
           {[engineers]} and {[scientists]}[PATTERN=1]
           such {non-alcoholic [sodas]} as {[root beer]} and
           {[cream soda]}[PATTERN=1]
           {traditional[food]}, such as
           {[sandwich]},{[burger]}, and {[fry]}[PATTERN=2]
     Количество извлечений
           Wikipedia – 1.196.468
           ukWaC – 2.227.025
           WaCypedia+ukWaC – 3.423.493
     Вычисление подобия
                       Александр Панченко   16/44
Введение           PatternSim                              Сравнение           HybridSim      Приложения




Формула Efreq-Rnum-Cfreq-Pnum

                                              √             2 · µb   P(ci , cj )
                             sij =                pij ·            ·             .
                                                          bi∗ + b∗j P(ci )P(cj )
                                  eij
           P(ci , cj ) =                eij   – вероятность извлечения отношения
                                  ij
           между парой ci , cj , где eij – частота взаимной
           встречаемости слов ci и cj в конкордансе K
                        fi
           P(ci ) =                – вероятность слова ci , где fi – частота ci
                           i fi

           bi∗ =      j:eij ≥β         1 – количество извлечений слова ci с
                                                             1     |C |
           частотой ≥ β, где µb =                           |C |   i=1 bi∗   – среднее количество
           извлечений для слова
           pij ∈ [1; 18] – количество отдельных паттернов
           извлечекших отношение ci , cj

                                  Александр Панченко               17/44
Введение        PatternSim           Сравнение      HybridSim   Приложения




Ранжирование семантических отношений
           Точность сравнима или лучше чем у аналогов;
           Полнота меньше чем у аналогов.




             Рис.: График точность-полнота (коллекция BLESS).
                       Александр Панченко   18/44
Введение   PatternSim           Сравнение         HybridSim     Приложения




Извлечение семантических отношений


                                       Точность@1 ≈ 0.80;
                                       “Хорошее” лексическое покрытие:




                  Александр Панченко    19/44
Введение        PatternSim           Сравнение      HybridSim   Приложения




План


     1 Введение

     2 Метрика основанная на лексико-синтаксических шаблонах

     3 Сравнение метрик семантической близости

     4 Гибридная метрика семантической близости

     5 Приложения метрик семантической близости
           Поиск и визуализация семантически связанных слов
           Классификация коротких текстов



                       Александр Панченко   20/44
Введение         PatternSim           Сравнение      HybridSim   Приложения




Проанализированные метрики близости




           37 различных метрик;
           Вопрос 1: Дополняют ли метрики друг друга?
           Вопрос 2: Если да то в каких аспектах?



                        Александр Панченко   21/44
Введение         PatternSim           Сравнение      HybridSim   Приложения




Лучшие метрики семантической близости (MC, RG,
WordSim, BLESS, SN)




           Каждый излекает большое количество ко-гипонимов:
               Canon, Nikon ,
               Lamborghini, Ferrari ,
               Obama, Romney .
                        Александр Панченко   22/44
Введение         PatternSim           Сравнение      HybridSim   Приложения




Резюме




     Метрики дополняют друг друга в терминах:

           лексического покрытия;
           точности;
           типов извлекаемых отношений.




                        Александр Панченко   23/44
Введение        PatternSim           Сравнение      HybridSim   Приложения




План


     1 Введение

     2 Метрика основанная на лексико-синтаксических шаблонах

     3 Сравнение метрик семантической близости

     4 Гибридная метрика семантической близости

     5 Приложения метрик семантической близости
           Поиск и визуализация семантически связанных слов
           Классификация коротких текстов



                       Александр Панченко   24/44
Введение         PatternSim           Сравнение      HybridSim   Приложения




Публикациии




           Panchenko A., Morozova O., Naets H. “A Semantic
           Similarity Measure Based on Lexico-Syntactic Patterns”.
           In Proceedings of KONVENS 2012, pp.174–178, 2012
           Panchenko A., “Similarity Measures for Semantic Relation
           Extraction”. PhD thesis. Universit´ catholique de Louvain.
                                             e
           197 pages, 2013.




                        Александр Панченко   25/44
Введение         PatternSim                                  Сравнение                      HybridSim                         Приложения




Отдельные и гибридные метрики
                 (a) Terms, C                                (b)            Terms, C




                                 Single Similarity Measure
                      simi                                         sim1        ...        simN




                                                                                                  Hybrid Similarity Measure
                                                                                                  Features
                        Si                                           S1                      SN
                     norm                                          norm        ...        norm

                                                                      S1                     SN
                                                                    combination method
                                                                              Scmb
                                                                          norm

                        Si                                                       Scmb
                     knn                                                      knn

                  Relations, R                                             Relations, R

     Рис.: Система извлечения семантических отношений основанная на:
           (a) отдельной метрике;
           (b) гибридной метрике.

                         Александр Панченко                           26/44
Введение          PatternSim           Сравнение      HybridSim   Приложения




16 признаков = 16 отдельных метрик
           5 метрик основанных на семантических сетях:
            1   WuPalmer;
            2   Leacock and Chodorow;
            3   Resnik;
            4   Jiang and Conrath;
            5   Lin.
           3 метрики основанных на Веб корпусе
           (NGD-Yahoo/Bing/Google);
           5 метрики основанные на корпусе текстов:
                2 дистрибутивных (BDA, SDA)
                1 лексико-синтаксические шаблоны (PatternSim)
                2 другие (LSA, NGD-Factiva)
           3 метрики основанные на определениях
            1   ExtendedLesk;
            2   GlossVectors;
            3   DefVectors-WktWiki.
                         Александр Панченко   27/44
Введение             PatternSim            Сравнение             HybridSim   Приложения




Способы комбинирования без учителя


                      cmb       1               k
           1   Mean: sij =      K    k=1,K sij ;
                             cmb               1                  k
           2   Mean-Nnz:    sij     = |k:s k >0,k=1,K |    k=1,K sij ;
                                          ij
                                           1    K  Sk −µk
           3   Mean-Zscore: Scmb =         K    k=1 σk ;
                      cmb = median(s 1 , . . . , s K );
           4 Median: sij                  ij        ij
                   cmb = max(s 1 , . . . , s K );
           5 Max: sij         ij             ij
                          cmb = 1
           6 RankFusion: sij                        k
                                  K        k=1,K rij ;
           7   RelationFusion (Panchenko and Morozova, 2012).




                            Александр Панченко     28/44
Введение             PatternSim           Сравнение              HybridSim      Приложения




Методы комбинирования с учителем
           8   Logit, Logit-L1, Logit-L2.
                   Бинарная логистическая регрессия;
                   Положительные обучающие примеры – синонимы,
                   гиперонимы, ко-гипонимы из BLESS/SN;
                   Отрицательные обучающие примеры – случайные пары
                   семантически несвязных слов BLESS/SN;
                   Отношение ci , t, cj ∈ R представлена с помощью вектора
                                                1          N
                   попарной близостей: x = (sij , . . . , sij ), N = 2, 16;
                   Категория yij :
                                   0      if ci , t, cj случайное отношение
                         yij =
                                   1      иначе
                   Использование модели (w1 , . . . , wK ) для
                   комбинирования:
                                                          K
                                   cmb       1                      k
                                  sij =            ,z =         wk sij + w0 .
                                          1 + e −z
                                                          k=1
                            Александр Панченко   29/44
Введение              PatternSim           Сравнение           HybridSim                   Приложения




Методы комбинирования с учителем

           9   SVM.


                                                          Веса w и опорные вектора
                                                          SV :

                                                                w=            αi yi xi .
                                                                     xi ∈SV

                                                          Использование модели


                                                                                 K
                                                          sij = wT x+b =
                                                           cmb                           k
                                                                                     wi sij +b.
                                                                               k=1




                             Александр Панченко   30/44
Введение         PatternSim           Сравнение      HybridSim   Приложения




Методы комбинирования с учителем




     График Точность-Полнота вычисленный на коллекции BLESS:
           (a) 16 отдельных метрик и гибридная метрика Logit-E15;
           (b) 8 гибридных метрик.

                        Александр Панченко   31/44
Введение        PatternSim           Сравнение      HybridSim   Приложения




Методы комбинирования с учителем Logit-E15




     Рис.: Значение подобия между 74 словами связанными со словом
     “acacia”.
                       Александр Панченко   32/44
Введение   PatternSim           Сравнение      HybridSim   Приложения




Методы комбинирования с учителем




                  Александр Панченко   33/44
Введение            PatternSim           Сравнение      HybridSim   Приложения




Методы комбинирования с учителем (продолжение)




           Рис.: Оптимизация мета-параметров метрики C-SVM-radial-E15.



                           Александр Панченко   34/44
Введение        PatternSim           Сравнение      HybridSim   Приложения




План


     1 Введение

     2 Метрика основанная на лексико-синтаксических шаблонах

     3 Сравнение метрик семантической близости

     4 Гибридная метрика семантической близости

     5 Приложения метрик семантической близости
           Поиск и визуализация семантически связанных слов
           Классификация коротких текстов



                       Александр Панченко   35/44
Введение             PatternSim              Сравнение      HybridSim   Приложения

Поиск и визуализация семантически связанных слов


План


      1 Введение

      2 Метрика основанная на лексико-синтаксических шаблонах

      3 Сравнение метрик семантической близости

      4 Гибридная метрика семантической близости

      5 Приложения метрик семантической близости
            Поиск и визуализация семантически связанных слов
            Классификация коротких текстов



                             Александр Панченко     36/44
Введение             PatternSim              Сравнение      HybridSim   Приложения

Поиск и визуализация семантически связанных слов


Серелекс: результаты в виде списка и графа слов
            http://serelex.cental.be/




                             Александр Панченко     37/44
Введение             PatternSim              Сравнение      HybridSim   Приложения

Поиск и визуализация семантически связанных слов


Серелекс: результаты в виде множества изображений




                             Александр Панченко     38/44
Введение             PatternSim              Сравнение      HybridSim   Приложения

Поиск и визуализация семантически связанных слов


Оценка качества работы системы Серелекс




     Рис.: Удовлетворенность пользователей первыми 20 результатами
     поиска для 353 запросов.

                             Александр Панченко     39/44
Введение             PatternSim            Сравнение      HybridSim   Приложения

Классификация коротких текстов


План


      1 Введение

      2 Метрика основанная на лексико-синтаксических шаблонах

      3 Сравнение метрик семантической близости

      4 Гибридная метрика семантической близости

      5 Приложения метрик семантической близости
            Поиск и визуализация семантически связанных слов
            Классификация коротких текстов



                             Александр Панченко   40/44
Введение             PatternSim            Сравнение         HybridSim   Приложения

Классификация коротких текстов


iCop: классификация имен файлов




                                  Рис.: Структура системы.

            Использование семантических отношений для расширения
            имени файла (Vocabulary Projection).
                             Александр Панченко   41/44
Введение             PatternSim            Сравнение      HybridSim   Приложения

Классификация коротких текстов


iCop: пример Vocabulary Projection




                             Александр Панченко   42/44
Введение             PatternSim             Сравнение              HybridSim                Приложения

Классификация коротких текстов


Качество классификации



       Обучающая выборка           Тестовая выборка            Accuracy   Accuracy (voc. projection)
       Gallery (train)             Gallery                     96.41      96.83 (+0.42)
       PirateBay Title+Desc+Tags   PirateBay Title+Desc+Tags   98.92      98.86 (–0.06)
       PirateBay Title+Tags        PirateBay Title+Tags        97.73      97.63 (–0.10)
       Gallery                     PirateBay Title+Desc+Tags   90.57      91.48 (+0.91)
       Gallery                     PirateBay Title+Tags        84.23      88.89 (+4.66)
       PirateBay Title+Desc+Tags   Gallery                     88.83      89.04 (+0.21)
       PirateBay Title+Tags        Gallery                     91.16      91.30 (+0.14)

     Таблица: Качество классификации с использованием C-SVM-linear c
     учетом кросс-валидации.




                             Александр Панченко     43/44
Введение             PatternSim            Сравнение      HybridSim   Приложения

Классификация коротких текстов




     Спасибо за внимание!
     Вопросы?



                             Александр Панченко   44/44

Contenu connexe

En vedette

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

En vedette (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Метрики семантической близости с приложениями к задачам АОТ

  • 1. Введение PatternSim Сравнение HybridSim Приложения Метрики семантической близости с приложениями к задачам АОТ Александр Панченко Universit´ catholique de Louvain e alexander.panchenko@uclouvain.be 1 апреля 2013 г. Александр Панченко 1/44
  • 2. Введение PatternSim Сравнение HybridSim Приложения План 1 Введение 2 Метрика основанная на лексико-синтаксических шаблонах 3 Сравнение метрик семантической близости 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Александр Панченко 2/44
  • 3. Введение PatternSim Сравнение HybridSim Приложения План 1 Введение 2 Метрика основанная на лексико-синтаксических шаблонах 3 Сравнение метрик семантической близости 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 3/44
  • 4. Введение PatternSim Сравнение HybridSim Приложения Введение Мотивация 1 Синонимы, гиперонимы и ко-гипонимы полезны для: ˇ систем обработки коротких текстов (Saric et al., 2012; Panchenko at., 2012); расширешия поисковых запросов (Hsu et al., 2006); вопросно-ответных систем (Sun et al., 2005); 2 Ручное создание семантических ресурсов непозволительно дорого. 3 Качество существующих систем извлечения недостаточно. Александр Панченко 4/44
  • 5. Введение PatternSim Сравнение HybridSim Приложения Семантические отношения и ресурсы Определение Семантический ресурс это ненаправленный граф (C , R): узлы C представляют слова; дуги R представляют нетипизированные семантические отношения. Александр Панченко 5/44
  • 6. Введение PatternSim Сравнение HybridSim Приложения Subject of the Research – Semantic Relation Extractors We study the extractors based on two components: 1 semantic similarity measures; 2 nearest neighbors procedures. Terms Text-Based Data C Feature Extractor F Similarity Measure Semantic Similarity Measure S Semantic Relation Extractor Normalizer S kNN Procedure R Semantic Relations Александр Панченко 6/44
  • 7. Введение PatternSim Сравнение HybridSim Приложения Метрики семантической близости Определение Метрика семантической близости численно выражает семантическую связность двух ci , cj : sij = sim(ci , cj ): high если ci , cj пара syn, hyper , cohypo sij = 0 иначе Свойства Неотрицательность: 0 ≤ sij ≤ 1; Рефлективность: sij = 1 ⇔ ci = cj ; Симметричность: sij = sji ; sij ≤ sik + skj Александр Панченко 7/44
  • 8. Введение PatternSim Сравнение HybridSim Приложения Метрики семантической близости Малое количество подобных пар, большое количество несвязных пар: sij ∼ exp(λ): Распределение подобия слова “doctor” (|C | > 200, 000): Александр Панченко 8/44
  • 9. Введение PatternSim Сравнение HybridSim Приложения Оценка качества метрик семантической близости 1 корреляции с суждениями человека (MC, RG, WordSim); 2 ранжирование семантических отношений (BLESS, SN); 3 извлечение семантических отношений; 4 использование извлеченных отношений в системе АОТ: в системе классификации имен файлов (iCOP); с системе поиска семантически связанных слов (Serelex). Александр Панченко 9/44
  • 10. Введение PatternSim Сравнение HybridSim Приложения План 1 Введение 2 Метрика основанная на лексико-синтаксических шаблонах 3 Сравнение метрик семантической близости 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 10/44
  • 11. Введение PatternSim Сравнение HybridSim Приложения Публикации Panchenko A., Morozova O., Naets H. “A Semantic Similarity Measure Based on Lexico-Syntactic Patterns”. In Proceedings of KONVENS 2012, pp.174–178, 2012 Panchenko A., Romanov P., Morozova O., Naets H., Philippovich A., Fairon C. "Serelex: Search and Visualization of Semantically Related Words". In Proceedings of the 35th European Conference on Information Retrieva (ECIR 2013). Панченко А., Романов П., Романов А., Филиппович А., Филиппович Ю., Морозова О. Серелекс: поиск и визуализация семантически связанных слов. (АИСТ 2013) Александр Панченко 11/44
  • 12. Введение PatternSim Сравнение HybridSim Приложения Демо http://serelex.cental.be/ Александр Панченко 12/44
  • 13. Введение PatternSim Сравнение HybridSim Приложения Лексико-синтаксические паттерны 18 паттернов извлекающих гиперонимы, ко-гипонимы и синонимы Александр Панченко 13/44
  • 14. Введение PatternSim Сравнение HybridSim Приложения Основной каскад автоматов Каскад конечных автоматов (FST) В формете Unitex Александр Панченко 14/44
  • 15. Введение PatternSim Сравнение HybridSim Приложения Пример реализации паттерна в виде автомата Гибкие правила позволяют учеть лингвистическую вариацию сохраняя точность В отличие от паттернов основанных на строках (Bollegala et al., 2007) Александр Панченко 15/44
  • 16. Введение PatternSim Сравнение HybridSim Приложения PatternSim: основные этапы Корпус Wikipedia+ukWaC: 2.9 · 1012 токенов Паттерны извлекают конкордансы such diverse {[occupations]} as {[doctors]}, {[engineers]} and {[scientists]}[PATTERN=1] such {non-alcoholic [sodas]} as {[root beer]} and {[cream soda]}[PATTERN=1] {traditional[food]}, such as {[sandwich]},{[burger]}, and {[fry]}[PATTERN=2] Количество извлечений Wikipedia – 1.196.468 ukWaC – 2.227.025 WaCypedia+ukWaC – 3.423.493 Вычисление подобия Александр Панченко 16/44
  • 17. Введение PatternSim Сравнение HybridSim Приложения Формула Efreq-Rnum-Cfreq-Pnum √ 2 · µb P(ci , cj ) sij = pij · · . bi∗ + b∗j P(ci )P(cj ) eij P(ci , cj ) = eij – вероятность извлечения отношения ij между парой ci , cj , где eij – частота взаимной встречаемости слов ci и cj в конкордансе K fi P(ci ) = – вероятность слова ci , где fi – частота ci i fi bi∗ = j:eij ≥β 1 – количество извлечений слова ci с 1 |C | частотой ≥ β, где µb = |C | i=1 bi∗ – среднее количество извлечений для слова pij ∈ [1; 18] – количество отдельных паттернов извлечекших отношение ci , cj Александр Панченко 17/44
  • 18. Введение PatternSim Сравнение HybridSim Приложения Ранжирование семантических отношений Точность сравнима или лучше чем у аналогов; Полнота меньше чем у аналогов. Рис.: График точность-полнота (коллекция BLESS). Александр Панченко 18/44
  • 19. Введение PatternSim Сравнение HybridSim Приложения Извлечение семантических отношений Точность@1 ≈ 0.80; “Хорошее” лексическое покрытие: Александр Панченко 19/44
  • 20. Введение PatternSim Сравнение HybridSim Приложения План 1 Введение 2 Метрика основанная на лексико-синтаксических шаблонах 3 Сравнение метрик семантической близости 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 20/44
  • 21. Введение PatternSim Сравнение HybridSim Приложения Проанализированные метрики близости 37 различных метрик; Вопрос 1: Дополняют ли метрики друг друга? Вопрос 2: Если да то в каких аспектах? Александр Панченко 21/44
  • 22. Введение PatternSim Сравнение HybridSim Приложения Лучшие метрики семантической близости (MC, RG, WordSim, BLESS, SN) Каждый излекает большое количество ко-гипонимов: Canon, Nikon , Lamborghini, Ferrari , Obama, Romney . Александр Панченко 22/44
  • 23. Введение PatternSim Сравнение HybridSim Приложения Резюме Метрики дополняют друг друга в терминах: лексического покрытия; точности; типов извлекаемых отношений. Александр Панченко 23/44
  • 24. Введение PatternSim Сравнение HybridSim Приложения План 1 Введение 2 Метрика основанная на лексико-синтаксических шаблонах 3 Сравнение метрик семантической близости 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 24/44
  • 25. Введение PatternSim Сравнение HybridSim Приложения Публикациии Panchenko A., Morozova O., Naets H. “A Semantic Similarity Measure Based on Lexico-Syntactic Patterns”. In Proceedings of KONVENS 2012, pp.174–178, 2012 Panchenko A., “Similarity Measures for Semantic Relation Extraction”. PhD thesis. Universit´ catholique de Louvain. e 197 pages, 2013. Александр Панченко 25/44
  • 26. Введение PatternSim Сравнение HybridSim Приложения Отдельные и гибридные метрики (a) Terms, C (b) Terms, C Single Similarity Measure simi sim1 ... simN Hybrid Similarity Measure Features Si S1 SN norm norm ... norm S1 SN combination method Scmb norm Si Scmb knn knn Relations, R Relations, R Рис.: Система извлечения семантических отношений основанная на: (a) отдельной метрике; (b) гибридной метрике. Александр Панченко 26/44
  • 27. Введение PatternSim Сравнение HybridSim Приложения 16 признаков = 16 отдельных метрик 5 метрик основанных на семантических сетях: 1 WuPalmer; 2 Leacock and Chodorow; 3 Resnik; 4 Jiang and Conrath; 5 Lin. 3 метрики основанных на Веб корпусе (NGD-Yahoo/Bing/Google); 5 метрики основанные на корпусе текстов: 2 дистрибутивных (BDA, SDA) 1 лексико-синтаксические шаблоны (PatternSim) 2 другие (LSA, NGD-Factiva) 3 метрики основанные на определениях 1 ExtendedLesk; 2 GlossVectors; 3 DefVectors-WktWiki. Александр Панченко 27/44
  • 28. Введение PatternSim Сравнение HybridSim Приложения Способы комбинирования без учителя cmb 1 k 1 Mean: sij = K k=1,K sij ; cmb 1 k 2 Mean-Nnz: sij = |k:s k >0,k=1,K | k=1,K sij ; ij 1 K Sk −µk 3 Mean-Zscore: Scmb = K k=1 σk ; cmb = median(s 1 , . . . , s K ); 4 Median: sij ij ij cmb = max(s 1 , . . . , s K ); 5 Max: sij ij ij cmb = 1 6 RankFusion: sij k K k=1,K rij ; 7 RelationFusion (Panchenko and Morozova, 2012). Александр Панченко 28/44
  • 29. Введение PatternSim Сравнение HybridSim Приложения Методы комбинирования с учителем 8 Logit, Logit-L1, Logit-L2. Бинарная логистическая регрессия; Положительные обучающие примеры – синонимы, гиперонимы, ко-гипонимы из BLESS/SN; Отрицательные обучающие примеры – случайные пары семантически несвязных слов BLESS/SN; Отношение ci , t, cj ∈ R представлена с помощью вектора 1 N попарной близостей: x = (sij , . . . , sij ), N = 2, 16; Категория yij : 0 if ci , t, cj случайное отношение yij = 1 иначе Использование модели (w1 , . . . , wK ) для комбинирования: K cmb 1 k sij = ,z = wk sij + w0 . 1 + e −z k=1 Александр Панченко 29/44
  • 30. Введение PatternSim Сравнение HybridSim Приложения Методы комбинирования с учителем 9 SVM. Веса w и опорные вектора SV : w= αi yi xi . xi ∈SV Использование модели K sij = wT x+b = cmb k wi sij +b. k=1 Александр Панченко 30/44
  • 31. Введение PatternSim Сравнение HybridSim Приложения Методы комбинирования с учителем График Точность-Полнота вычисленный на коллекции BLESS: (a) 16 отдельных метрик и гибридная метрика Logit-E15; (b) 8 гибридных метрик. Александр Панченко 31/44
  • 32. Введение PatternSim Сравнение HybridSim Приложения Методы комбинирования с учителем Logit-E15 Рис.: Значение подобия между 74 словами связанными со словом “acacia”. Александр Панченко 32/44
  • 33. Введение PatternSim Сравнение HybridSim Приложения Методы комбинирования с учителем Александр Панченко 33/44
  • 34. Введение PatternSim Сравнение HybridSim Приложения Методы комбинирования с учителем (продолжение) Рис.: Оптимизация мета-параметров метрики C-SVM-radial-E15. Александр Панченко 34/44
  • 35. Введение PatternSim Сравнение HybridSim Приложения План 1 Введение 2 Метрика основанная на лексико-синтаксических шаблонах 3 Сравнение метрик семантической близости 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 35/44
  • 36. Введение PatternSim Сравнение HybridSim Приложения Поиск и визуализация семантически связанных слов План 1 Введение 2 Метрика основанная на лексико-синтаксических шаблонах 3 Сравнение метрик семантической близости 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 36/44
  • 37. Введение PatternSim Сравнение HybridSim Приложения Поиск и визуализация семантически связанных слов Серелекс: результаты в виде списка и графа слов http://serelex.cental.be/ Александр Панченко 37/44
  • 38. Введение PatternSim Сравнение HybridSim Приложения Поиск и визуализация семантически связанных слов Серелекс: результаты в виде множества изображений Александр Панченко 38/44
  • 39. Введение PatternSim Сравнение HybridSim Приложения Поиск и визуализация семантически связанных слов Оценка качества работы системы Серелекс Рис.: Удовлетворенность пользователей первыми 20 результатами поиска для 353 запросов. Александр Панченко 39/44
  • 40. Введение PatternSim Сравнение HybridSim Приложения Классификация коротких текстов План 1 Введение 2 Метрика основанная на лексико-синтаксических шаблонах 3 Сравнение метрик семантической близости 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 40/44
  • 41. Введение PatternSim Сравнение HybridSim Приложения Классификация коротких текстов iCop: классификация имен файлов Рис.: Структура системы. Использование семантических отношений для расширения имени файла (Vocabulary Projection). Александр Панченко 41/44
  • 42. Введение PatternSim Сравнение HybridSim Приложения Классификация коротких текстов iCop: пример Vocabulary Projection Александр Панченко 42/44
  • 43. Введение PatternSim Сравнение HybridSim Приложения Классификация коротких текстов Качество классификации Обучающая выборка Тестовая выборка Accuracy Accuracy (voc. projection) Gallery (train) Gallery 96.41 96.83 (+0.42) PirateBay Title+Desc+Tags PirateBay Title+Desc+Tags 98.92 98.86 (–0.06) PirateBay Title+Tags PirateBay Title+Tags 97.73 97.63 (–0.10) Gallery PirateBay Title+Desc+Tags 90.57 91.48 (+0.91) Gallery PirateBay Title+Tags 84.23 88.89 (+4.66) PirateBay Title+Desc+Tags Gallery 88.83 89.04 (+0.21) PirateBay Title+Tags Gallery 91.16 91.30 (+0.14) Таблица: Качество классификации с использованием C-SVM-linear c учетом кросс-валидации. Александр Панченко 43/44
  • 44. Введение PatternSim Сравнение HybridSim Приложения Классификация коротких текстов Спасибо за внимание! Вопросы? Александр Панченко 44/44