Метрики семантической близости слов успешно применяются при решении многих задач Автоматической Обработки Текста (АОТ), таких как извлечение отношений, расширение поисковых запросов, разрешение омонимии и поиск семантически подобных текстов. Данная лекция начинается с обзора классических подходов к семантической близости основанных на семантических сетях, словарях и корпусах текстов. Далее мы представим две новые метрики близости. Первая основана на лексико-синтаксических шаблонах и корпусе текстов. Она обладает точностью сопоставимой с метриками основанными на WordNet. Вторая объединяет 16 разнородных метрик и обучена на множестве семантических отношений из словаря. Эксперименты показывают что данная метрика значительно превосходит по точности и полноте большинство существующих подходов. Лекция завершается обзором двух систем АОТ в которых применяются разработанные метрики.
Страница проекта - serelex.it-claim.ru
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Метрики семантической близости с приложениями к задачам АОТ
1. Введение PatternSim Сравнение HybridSim Приложения
Метрики семантической близости с
приложениями к задачам АОТ
Александр Панченко
Universit´ catholique de Louvain
e
alexander.panchenko@uclouvain.be
1 апреля 2013 г.
Александр Панченко 1/44
2. Введение PatternSim Сравнение HybridSim Приложения
План
1 Введение
2 Метрика основанная на лексико-синтаксических шаблонах
3 Сравнение метрик семантической близости
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Александр Панченко 2/44
3. Введение PatternSim Сравнение HybridSim Приложения
План
1 Введение
2 Метрика основанная на лексико-синтаксических шаблонах
3 Сравнение метрик семантической близости
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко 3/44
4. Введение PatternSim Сравнение HybridSim Приложения
Введение
Мотивация
1 Синонимы, гиперонимы и ко-гипонимы полезны для:
ˇ
систем обработки коротких текстов (Saric et al., 2012;
Panchenko at., 2012);
расширешия поисковых запросов (Hsu et al., 2006);
вопросно-ответных систем (Sun et al., 2005);
2 Ручное создание семантических ресурсов непозволительно
дорого.
3 Качество существующих систем извлечения недостаточно.
Александр Панченко 4/44
5. Введение PatternSim Сравнение HybridSim Приложения
Семантические отношения и ресурсы
Определение
Семантический ресурс это ненаправленный граф (C , R):
узлы C представляют слова;
дуги R представляют нетипизированные семантические
отношения.
Александр Панченко 5/44
6. Введение PatternSim Сравнение HybridSim Приложения
Subject of the Research – Semantic Relation Extractors
We study the extractors based on two components:
1 semantic similarity measures;
2 nearest neighbors procedures.
Terms Text-Based Data
C
Feature Extractor
F
Similarity Measure Semantic Similarity Measure
S Semantic Relation Extractor
Normalizer
S
kNN Procedure
R
Semantic Relations
Александр Панченко 6/44
7. Введение PatternSim Сравнение HybridSim Приложения
Метрики семантической близости
Определение
Метрика семантической близости численно выражает
семантическую связность двух ci , cj : sij = sim(ci , cj ):
high если ci , cj пара syn, hyper , cohypo
sij =
0 иначе
Свойства
Неотрицательность: 0 ≤ sij ≤ 1;
Рефлективность: sij = 1 ⇔ ci = cj ;
Симметричность: sij = sji ;
sij ≤ sik + skj
Александр Панченко 7/44
8. Введение PatternSim Сравнение HybridSim Приложения
Метрики семантической близости
Малое количество подобных пар, большое количество
несвязных пар: sij ∼ exp(λ):
Распределение подобия слова “doctor” (|C | > 200, 000):
Александр Панченко 8/44
9. Введение PatternSim Сравнение HybridSim Приложения
Оценка качества метрик семантической близости
1 корреляции с суждениями человека (MC, RG, WordSim);
2 ранжирование семантических отношений (BLESS, SN);
3 извлечение семантических отношений;
4 использование извлеченных отношений в системе АОТ:
в системе классификации имен файлов (iCOP);
с системе поиска семантически связанных слов (Serelex).
Александр Панченко 9/44
10. Введение PatternSim Сравнение HybridSim Приложения
План
1 Введение
2 Метрика основанная на лексико-синтаксических шаблонах
3 Сравнение метрик семантической близости
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко 10/44
11. Введение PatternSim Сравнение HybridSim Приложения
Публикации
Panchenko A., Morozova O., Naets H. “A Semantic
Similarity Measure Based on Lexico-Syntactic Patterns”.
In Proceedings of KONVENS 2012, pp.174–178, 2012
Panchenko A., Romanov P., Morozova O., Naets H.,
Philippovich A., Fairon C. "Serelex: Search and
Visualization of Semantically Related Words". In
Proceedings of the 35th European Conference on Information
Retrieva (ECIR 2013).
Панченко А., Романов П., Романов А., Филиппович А.,
Филиппович Ю., Морозова О. Серелекс: поиск и
визуализация семантически связанных слов. (АИСТ
2013)
Александр Панченко 11/44
13. Введение PatternSim Сравнение HybridSim Приложения
Лексико-синтаксические паттерны
18 паттернов извлекающих гиперонимы, ко-гипонимы и
синонимы
Александр Панченко 13/44
14. Введение PatternSim Сравнение HybridSim Приложения
Основной каскад автоматов
Каскад конечных автоматов (FST)
В формете Unitex
Александр Панченко 14/44
15. Введение PatternSim Сравнение HybridSim Приложения
Пример реализации паттерна в виде автомата
Гибкие правила позволяют учеть лингвистическую
вариацию сохраняя точность
В отличие от паттернов основанных на строках (Bollegala
et al., 2007)
Александр Панченко 15/44
16. Введение PatternSim Сравнение HybridSim Приложения
PatternSim: основные этапы
Корпус Wikipedia+ukWaC: 2.9 · 1012 токенов
Паттерны извлекают конкордансы
such diverse {[occupations]} as {[doctors]},
{[engineers]} and {[scientists]}[PATTERN=1]
such {non-alcoholic [sodas]} as {[root beer]} and
{[cream soda]}[PATTERN=1]
{traditional[food]}, such as
{[sandwich]},{[burger]}, and {[fry]}[PATTERN=2]
Количество извлечений
Wikipedia – 1.196.468
ukWaC – 2.227.025
WaCypedia+ukWaC – 3.423.493
Вычисление подобия
Александр Панченко 16/44
17. Введение PatternSim Сравнение HybridSim Приложения
Формула Efreq-Rnum-Cfreq-Pnum
√ 2 · µb P(ci , cj )
sij = pij · · .
bi∗ + b∗j P(ci )P(cj )
eij
P(ci , cj ) = eij – вероятность извлечения отношения
ij
между парой ci , cj , где eij – частота взаимной
встречаемости слов ci и cj в конкордансе K
fi
P(ci ) = – вероятность слова ci , где fi – частота ci
i fi
bi∗ = j:eij ≥β 1 – количество извлечений слова ci с
1 |C |
частотой ≥ β, где µb = |C | i=1 bi∗ – среднее количество
извлечений для слова
pij ∈ [1; 18] – количество отдельных паттернов
извлечекших отношение ci , cj
Александр Панченко 17/44
18. Введение PatternSim Сравнение HybridSim Приложения
Ранжирование семантических отношений
Точность сравнима или лучше чем у аналогов;
Полнота меньше чем у аналогов.
Рис.: График точность-полнота (коллекция BLESS).
Александр Панченко 18/44
19. Введение PatternSim Сравнение HybridSim Приложения
Извлечение семантических отношений
Точность@1 ≈ 0.80;
“Хорошее” лексическое покрытие:
Александр Панченко 19/44
20. Введение PatternSim Сравнение HybridSim Приложения
План
1 Введение
2 Метрика основанная на лексико-синтаксических шаблонах
3 Сравнение метрик семантической близости
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко 20/44
21. Введение PatternSim Сравнение HybridSim Приложения
Проанализированные метрики близости
37 различных метрик;
Вопрос 1: Дополняют ли метрики друг друга?
Вопрос 2: Если да то в каких аспектах?
Александр Панченко 21/44
22. Введение PatternSim Сравнение HybridSim Приложения
Лучшие метрики семантической близости (MC, RG,
WordSim, BLESS, SN)
Каждый излекает большое количество ко-гипонимов:
Canon, Nikon ,
Lamborghini, Ferrari ,
Obama, Romney .
Александр Панченко 22/44
23. Введение PatternSim Сравнение HybridSim Приложения
Резюме
Метрики дополняют друг друга в терминах:
лексического покрытия;
точности;
типов извлекаемых отношений.
Александр Панченко 23/44
24. Введение PatternSim Сравнение HybridSim Приложения
План
1 Введение
2 Метрика основанная на лексико-синтаксических шаблонах
3 Сравнение метрик семантической близости
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко 24/44
25. Введение PatternSim Сравнение HybridSim Приложения
Публикациии
Panchenko A., Morozova O., Naets H. “A Semantic
Similarity Measure Based on Lexico-Syntactic Patterns”.
In Proceedings of KONVENS 2012, pp.174–178, 2012
Panchenko A., “Similarity Measures for Semantic Relation
Extraction”. PhD thesis. Universit´ catholique de Louvain.
e
197 pages, 2013.
Александр Панченко 25/44
26. Введение PatternSim Сравнение HybridSim Приложения
Отдельные и гибридные метрики
(a) Terms, C (b) Terms, C
Single Similarity Measure
simi sim1 ... simN
Hybrid Similarity Measure
Features
Si S1 SN
norm norm ... norm
S1 SN
combination method
Scmb
norm
Si Scmb
knn knn
Relations, R Relations, R
Рис.: Система извлечения семантических отношений основанная на:
(a) отдельной метрике;
(b) гибридной метрике.
Александр Панченко 26/44
27. Введение PatternSim Сравнение HybridSim Приложения
16 признаков = 16 отдельных метрик
5 метрик основанных на семантических сетях:
1 WuPalmer;
2 Leacock and Chodorow;
3 Resnik;
4 Jiang and Conrath;
5 Lin.
3 метрики основанных на Веб корпусе
(NGD-Yahoo/Bing/Google);
5 метрики основанные на корпусе текстов:
2 дистрибутивных (BDA, SDA)
1 лексико-синтаксические шаблоны (PatternSim)
2 другие (LSA, NGD-Factiva)
3 метрики основанные на определениях
1 ExtendedLesk;
2 GlossVectors;
3 DefVectors-WktWiki.
Александр Панченко 27/44
28. Введение PatternSim Сравнение HybridSim Приложения
Способы комбинирования без учителя
cmb 1 k
1 Mean: sij = K k=1,K sij ;
cmb 1 k
2 Mean-Nnz: sij = |k:s k >0,k=1,K | k=1,K sij ;
ij
1 K Sk −µk
3 Mean-Zscore: Scmb = K k=1 σk ;
cmb = median(s 1 , . . . , s K );
4 Median: sij ij ij
cmb = max(s 1 , . . . , s K );
5 Max: sij ij ij
cmb = 1
6 RankFusion: sij k
K k=1,K rij ;
7 RelationFusion (Panchenko and Morozova, 2012).
Александр Панченко 28/44
29. Введение PatternSim Сравнение HybridSim Приложения
Методы комбинирования с учителем
8 Logit, Logit-L1, Logit-L2.
Бинарная логистическая регрессия;
Положительные обучающие примеры – синонимы,
гиперонимы, ко-гипонимы из BLESS/SN;
Отрицательные обучающие примеры – случайные пары
семантически несвязных слов BLESS/SN;
Отношение ci , t, cj ∈ R представлена с помощью вектора
1 N
попарной близостей: x = (sij , . . . , sij ), N = 2, 16;
Категория yij :
0 if ci , t, cj случайное отношение
yij =
1 иначе
Использование модели (w1 , . . . , wK ) для
комбинирования:
K
cmb 1 k
sij = ,z = wk sij + w0 .
1 + e −z
k=1
Александр Панченко 29/44
30. Введение PatternSim Сравнение HybridSim Приложения
Методы комбинирования с учителем
9 SVM.
Веса w и опорные вектора
SV :
w= αi yi xi .
xi ∈SV
Использование модели
K
sij = wT x+b =
cmb k
wi sij +b.
k=1
Александр Панченко 30/44
31. Введение PatternSim Сравнение HybridSim Приложения
Методы комбинирования с учителем
График Точность-Полнота вычисленный на коллекции BLESS:
(a) 16 отдельных метрик и гибридная метрика Logit-E15;
(b) 8 гибридных метрик.
Александр Панченко 31/44
32. Введение PatternSim Сравнение HybridSim Приложения
Методы комбинирования с учителем Logit-E15
Рис.: Значение подобия между 74 словами связанными со словом
“acacia”.
Александр Панченко 32/44
33. Введение PatternSim Сравнение HybridSim Приложения
Методы комбинирования с учителем
Александр Панченко 33/44
34. Введение PatternSim Сравнение HybridSim Приложения
Методы комбинирования с учителем (продолжение)
Рис.: Оптимизация мета-параметров метрики C-SVM-radial-E15.
Александр Панченко 34/44
35. Введение PatternSim Сравнение HybridSim Приложения
План
1 Введение
2 Метрика основанная на лексико-синтаксических шаблонах
3 Сравнение метрик семантической близости
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко 35/44
36. Введение PatternSim Сравнение HybridSim Приложения
Поиск и визуализация семантически связанных слов
План
1 Введение
2 Метрика основанная на лексико-синтаксических шаблонах
3 Сравнение метрик семантической близости
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко 36/44
37. Введение PatternSim Сравнение HybridSim Приложения
Поиск и визуализация семантически связанных слов
Серелекс: результаты в виде списка и графа слов
http://serelex.cental.be/
Александр Панченко 37/44
38. Введение PatternSim Сравнение HybridSim Приложения
Поиск и визуализация семантически связанных слов
Серелекс: результаты в виде множества изображений
Александр Панченко 38/44
39. Введение PatternSim Сравнение HybridSim Приложения
Поиск и визуализация семантически связанных слов
Оценка качества работы системы Серелекс
Рис.: Удовлетворенность пользователей первыми 20 результатами
поиска для 353 запросов.
Александр Панченко 39/44
40. Введение PatternSim Сравнение HybridSim Приложения
Классификация коротких текстов
План
1 Введение
2 Метрика основанная на лексико-синтаксических шаблонах
3 Сравнение метрик семантической близости
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко 40/44
41. Введение PatternSim Сравнение HybridSim Приложения
Классификация коротких текстов
iCop: классификация имен файлов
Рис.: Структура системы.
Использование семантических отношений для расширения
имени файла (Vocabulary Projection).
Александр Панченко 41/44
42. Введение PatternSim Сравнение HybridSim Приложения
Классификация коротких текстов
iCop: пример Vocabulary Projection
Александр Панченко 42/44
43. Введение PatternSim Сравнение HybridSim Приложения
Классификация коротких текстов
Качество классификации
Обучающая выборка Тестовая выборка Accuracy Accuracy (voc. projection)
Gallery (train) Gallery 96.41 96.83 (+0.42)
PirateBay Title+Desc+Tags PirateBay Title+Desc+Tags 98.92 98.86 (–0.06)
PirateBay Title+Tags PirateBay Title+Tags 97.73 97.63 (–0.10)
Gallery PirateBay Title+Desc+Tags 90.57 91.48 (+0.91)
Gallery PirateBay Title+Tags 84.23 88.89 (+4.66)
PirateBay Title+Desc+Tags Gallery 88.83 89.04 (+0.21)
PirateBay Title+Tags Gallery 91.16 91.30 (+0.14)
Таблица: Качество классификации с использованием C-SVM-linear c
учетом кросс-валидации.
Александр Панченко 43/44
44. Введение PatternSim Сравнение HybridSim Приложения
Классификация коротких текстов
Спасибо за внимание!
Вопросы?
Александр Панченко 44/44