SlideShare une entreprise Scribd logo
1  sur  19
Использование технологии
ABBYY Compreno для
обработки текстов на
естественном языке

Анатолий Старостин
Руководитель группы семантического
анализа
Технология ABBYY Compreno

   Лексический анализ
   Морфологический анализ
   Семантико-синтаксический анализ
   Масштабное лексико-семантическое описание ЕЯ
   Синтез текстов (из внутреннего представления)




Технология ABBYY Compreno. Анатолий Старостин
Технологии перевода и анализа текстов

 Rule-based - технологии, основанные на использовании частных
языковых правил, применимых к отдельной задаче.


 Statistics-based -технологии, основанные на машинном обучении
на больших текстовых корпусах, размеченных или параллельных.


 Гибридные технологии - соединяющие различные подходы,
например: Rule-based + Statistics-based.


 Model-based – технологии, основанные на универсальном
языковом моделировании и получении языковых структур (=
«понимании»).

ABBYY Compreno

Технология ABBYY Compreno. Анатолий Старостин                     3
Лексический и морфологический анализ

 Токенизация: I’m, 1pm, www.abbyy.com, 1/10/2000, и
т.д.
 Деление на предложения
 Морфологические парадигмы для больше чем 40
языков
 Анализ и синтез
 Обработка композитов ( Rindfleischetikettierungs-
überwachungsaufgabenübertragungs-gesetz )
 Обработка опечаток
 Обработка незнакомых слов
 Автоматическое извлечение словарей из текстовых
корпусов

Технология ABBYY Compreno. Анатолий Старостин
Семантико-синтаксический анализ

 Универсальная семантическая иерархия
 Полнота разборов – дерево строится для целого
предложения
 Обработка эллипсиса
 Обработка кореференции
 Сложная модель: Около 100 концепций в
лингвистической модели
 Сложное описание отдельного языка: ~1000 граммем,
~500 поверхностных позиций, ~500 глубинных позиций,
~2-5 значения на одно слово
 Результат: качественное снятие омонимии
 Существенную роль играют оценки (ручные и
собранные статистикой)
Технология ABBYY Compreno. Анатолий Старостин
Универсальная Семантическая Иерархия


•   Дерево семантических
    классов
•   Листьями являются
    лексические классы, к
    которым привязаны
    конкретные лексемы




Технология ABBYY Compreno. Анатолий Старостин   6
Общие свойства иерархии

 Глубина:             до 10 уровней

 Только           древесные отношения

 Дефолтное                  наследование всех свойств




Технология ABBYY Compreno. Анатолий Старостин
Универсальная Семантическая Иерархия




Технология ABBYY Compreno. Анатолий Старостин   8
Универсальная Семантическая Иерархия




Технология ABBYY Compreno. Анатолий Старостин   9
Универсальная Семантическая Иерархия




Технология ABBYY Compreno. Анатолий Старостин   10
Семантико-синтаксический анализ

 Гибридная модель ( проективные деревья
зависимостей с элементами систем составляющих )
 Непроективные структуры описываются механизмом
перемещений
 Нулевые узлы (эллипсис)
 Недревесные связи (кореференция, общедочерние,
перемещения и др.)
 Два уровня представления (поверхностные и
глубинные позиции)




Технология ABBYY Compreno. Анатолий Старостин
Семантико-синтаксический анализ

 Переборный алгоритм с оценками (похож на
CYK, много работы по оптимизации перебора)

 Используется                статистика сочетаемости

 Устойчивость                к неизвестным словам




Технология ABBYY Compreno. Анатолий Старостин
Семантико-синтаксический анализ




Технология ABBYY Compreno. Анатолий Старостин   13
Недревесные связи




Технология ABBYY Compreno. Анатолий Старостин   14
Использование статистики

   Частотность лексических классов
   Сочетаемость тематик и лексических классов
   Поверхностная и глубинная статистика древесных связей
   Статистика длин древесных связей
   Статистика правил сочинения
   Статистика длины сочинительной связи
   Статистика пунктуации поверхностных позиций
   Статистика соседей эллиптированной составляющей
   Статистика переводов лексических классов


Главный источник для сбора статистики – корпуса
параллельных текстов


Технология ABBYY Compreno. Анатолий Старостин               15
Адаптивность анализа

 Статистическое вычисление тематики текста
(методом машинного обучения)

 Таким образом, для снятия омонимии учитывается
глобальный (уровня текста) контекст




Технология ABBYY Compreno. Анатолий Старостин
Возможные применения технологии
ABBYY Compreno

Семантико-синтаксический анализ
Построение семантических представлений для предложений в
текстах на естественных языках

   Машинный перевод
   Анализ запросов (вопросно-ответные системы)
   Семантическое индексирование
   Извлечение информации
   Реферирование
   Определение тональности
   …………..




Технология ABBYY Compreno. Анатолий Старостин              17
ВОПРОСЫ?




Технология ABBYY Compreno. Анатолий Старостин   18
Спасибо за внимание!




Технология ABBYY Compreno. Анатолий Старостин   19

Contenu connexe

Similaire à Compreno_Starostin

гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4
rit2011
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
NLPseminar
 
07 автоматическое реферирование
07 автоматическое реферирование07 автоматическое реферирование
07 автоматическое реферирование
Lidia Pivovarova
 
АОТ - Введение
АОТ - ВведениеАОТ - Введение
АОТ - Введение
eibolshakova
 

Similaire à Compreno_Starostin (7)

гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТ
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный перевод
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
07 автоматическое реферирование
07 автоматическое реферирование07 автоматическое реферирование
07 автоматическое реферирование
 
АОТ - Введение
АОТ - ВведениеАОТ - Введение
АОТ - Введение
 
Chernyak_defense
Chernyak_defenseChernyak_defense
Chernyak_defense
 

Plus de NLPseminar

конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гаврилова
NLPseminar
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3
NLPseminar
 

Plus de NLPseminar (20)

[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
 
Events
EventsEvents
Events
 
Tomita
TomitaTomita
Tomita
 
бетин
бетинбетин
бетин
 
Andreev
AndreevAndreev
Andreev
 
клышинский
клышинскийклышинский
клышинский
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гаврилова
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3
 
rubashkin
rubashkinrubashkin
rubashkin
 
Vlasova
VlasovaVlasova
Vlasova
 
Ageev
AgeevAgeev
Ageev
 
Khomitsevich
Khomitsevich Khomitsevich
Khomitsevich
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловская
 
Serebryakov
SerebryakovSerebryakov
Serebryakov
 
потапов
потаповпотапов
потапов
 
molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)
 
белканова
белкановабелканова
белканова
 
Skatov
SkatovSkatov
Skatov
 
гвоздикин
гвоздикингвоздикин
гвоздикин
 
веселов
веселоввеселов
веселов
 

Compreno_Starostin

  • 1. Использование технологии ABBYY Compreno для обработки текстов на естественном языке Анатолий Старостин Руководитель группы семантического анализа
  • 2. Технология ABBYY Compreno  Лексический анализ  Морфологический анализ  Семантико-синтаксический анализ  Масштабное лексико-семантическое описание ЕЯ  Синтез текстов (из внутреннего представления) Технология ABBYY Compreno. Анатолий Старостин
  • 3. Технологии перевода и анализа текстов  Rule-based - технологии, основанные на использовании частных языковых правил, применимых к отдельной задаче.  Statistics-based -технологии, основанные на машинном обучении на больших текстовых корпусах, размеченных или параллельных.  Гибридные технологии - соединяющие различные подходы, например: Rule-based + Statistics-based.  Model-based – технологии, основанные на универсальном языковом моделировании и получении языковых структур (= «понимании»). ABBYY Compreno Технология ABBYY Compreno. Анатолий Старостин 3
  • 4. Лексический и морфологический анализ  Токенизация: I’m, 1pm, www.abbyy.com, 1/10/2000, и т.д.  Деление на предложения  Морфологические парадигмы для больше чем 40 языков  Анализ и синтез  Обработка композитов ( Rindfleischetikettierungs- überwachungsaufgabenübertragungs-gesetz )  Обработка опечаток  Обработка незнакомых слов  Автоматическое извлечение словарей из текстовых корпусов Технология ABBYY Compreno. Анатолий Старостин
  • 5. Семантико-синтаксический анализ  Универсальная семантическая иерархия  Полнота разборов – дерево строится для целого предложения  Обработка эллипсиса  Обработка кореференции  Сложная модель: Около 100 концепций в лингвистической модели  Сложное описание отдельного языка: ~1000 граммем, ~500 поверхностных позиций, ~500 глубинных позиций, ~2-5 значения на одно слово  Результат: качественное снятие омонимии  Существенную роль играют оценки (ручные и собранные статистикой) Технология ABBYY Compreno. Анатолий Старостин
  • 6. Универсальная Семантическая Иерархия • Дерево семантических классов • Листьями являются лексические классы, к которым привязаны конкретные лексемы Технология ABBYY Compreno. Анатолий Старостин 6
  • 7. Общие свойства иерархии  Глубина: до 10 уровней  Только древесные отношения  Дефолтное наследование всех свойств Технология ABBYY Compreno. Анатолий Старостин
  • 11. Семантико-синтаксический анализ  Гибридная модель ( проективные деревья зависимостей с элементами систем составляющих )  Непроективные структуры описываются механизмом перемещений  Нулевые узлы (эллипсис)  Недревесные связи (кореференция, общедочерние, перемещения и др.)  Два уровня представления (поверхностные и глубинные позиции) Технология ABBYY Compreno. Анатолий Старостин
  • 12. Семантико-синтаксический анализ  Переборный алгоритм с оценками (похож на CYK, много работы по оптимизации перебора)  Используется статистика сочетаемости  Устойчивость к неизвестным словам Технология ABBYY Compreno. Анатолий Старостин
  • 14. Недревесные связи Технология ABBYY Compreno. Анатолий Старостин 14
  • 15. Использование статистики  Частотность лексических классов  Сочетаемость тематик и лексических классов  Поверхностная и глубинная статистика древесных связей  Статистика длин древесных связей  Статистика правил сочинения  Статистика длины сочинительной связи  Статистика пунктуации поверхностных позиций  Статистика соседей эллиптированной составляющей  Статистика переводов лексических классов Главный источник для сбора статистики – корпуса параллельных текстов Технология ABBYY Compreno. Анатолий Старостин 15
  • 16. Адаптивность анализа  Статистическое вычисление тематики текста (методом машинного обучения)  Таким образом, для снятия омонимии учитывается глобальный (уровня текста) контекст Технология ABBYY Compreno. Анатолий Старостин
  • 17. Возможные применения технологии ABBYY Compreno Семантико-синтаксический анализ Построение семантических представлений для предложений в текстах на естественных языках  Машинный перевод  Анализ запросов (вопросно-ответные системы)  Семантическое индексирование  Извлечение информации  Реферирование  Определение тональности  ………….. Технология ABBYY Compreno. Анатолий Старостин 17
  • 18. ВОПРОСЫ? Технология ABBYY Compreno. Анатолий Старостин 18
  • 19. Спасибо за внимание! Технология ABBYY Compreno. Анатолий Старостин 19

Notes de l'éditeur

  1. Основные ограничения  RBMT связаны с невозможностью корректно обработать исключения,  объективной сложностью языковой системы, игнорированием семантики, проблемами с неоднозначностью и т.п.Основные ограничения статистических систем - недостаток параллельных текстов для множества предметных областей и пар языков, невозможность фиксировать реальные связи в предложении, невозможность целенаправленно исправлять ошибки и т.п..