6. Что делает NLP?
•
•
•
•
•
•
•
•
6
Поиск (текстовый) / Information Retrieval
Извлечение фактов / Information Extraction
Автоматический перевод
Диалоговые системы и Question Answering
Синтез и распознавание речи
Оценка тональности
Автореферирование
Кластеризация и классификация текстов
8. Графематика
Разбиение текста на слова и предложения
Яндекс.Маркет — сервис сравнения
характеристик товаров и их цен
Скоро начнется осенняя серия игр "Что?
Где? Когда?".
8
9. Морфология
• Бывает словарная и автоматическая
• Еще бывает:
– Part-of-Speech Tagging
– Стемминг
стекло:
Стекло – существительное в ед.ч, им.п./вин.п
Стекать – глагол в прош. вр., ед.ч, сред. род
9
11. Named Entity Recognition (NER)
• Извлечение именованных сущностей
Ранее "Коммерсантъ" и "Интерфакс"
удалили со своих сайтов высказывание
Пескова, где он объясняет, что Путин
публично не произносит имени Алексея
Навального, так как боится отдать ему
часть своей популярности, сообщает
justmedia.ru.
11
12. Кореференция: анафора
• Разрешение анафоры: поиск разных
выражений указывающих на одну сущность
Ранее "Коммерсантъ" и "Интерфакс"
удалили со своих сайтов высказывание
Пескова, где ОН объясняет, что Путин
публично не произносит имени Алексея
Навального, так как боится отдать ЕМУ
часть СВОЕЙ популярности, сообщает
justmedia.ru.
12
13. Кореференция: “синонимы”
• Разнообразные способы называния одного
и того же
• Транслитерация: Yandex – Яндекс
• Аббревиация: ВТБ – Внешторгбанк – Банк
Внешней Торговли
• Синонимы: больница – госпиталь
• Словообразование: Москва – московский
• Графические: авто кредит - автокредит
13
14. Снятие омонимии
• Снятие разнообразных неоднозначностей:
• Морфологическая:
Молоко стекло со стола
• Синтаксическая:
Он видел их семью своими глазами
• «Объектная»:
Михаил Задорнов: «20% российских семей
могут себе позволить ипотеку»
14
15. Генерация текста
• Чат-боты!
Me: I read about Turing test.
Bot: Ah the Turing Test. People are always trying
to get me to take it, but I just pretend not to
understand.
Me: You are doing a good job.
Bot : Why, thank you very much. I like you, too.
If I could have a pet you would be my first
choice.
15
16. Генерация текста: SCIgen
• A Methodology for the Synthesis of Expert
Systems
• 802.11B must work. After years of significant
research into the Internet, we disprove the
improvement of virtual machines, which
embodies the structured principles of
steganography. We show that although the
acclaimed flexible algorithm for the important
unification of information retrieval systems and
robots by Miller et al. is Turing complete, cache
coherence and agents are entirely incompatible.
Of course, this is not always the case.
16
17. Методы
• Machine learning
• Machine learning
• Machine learning
•
•
•
•
•
17
Статистика
Контекстно-свободные грамматики
Словарные и корпусные данные
Онтологии
Построение языковой модели