2. Технология ABBYY Compreno
Лексический анализ
Морфологический анализ
Семантико-синтаксический анализ
Масштабное лексико-семантическое описание ЕЯ
Синтез текстов (из внутреннего представления)
Технология ABBYY Compreno. Анатолий Старостин
3. Технологии перевода и анализа текстов
Rule-based - технологии, основанные на использовании частных
языковых правил, применимых к отдельной задаче.
Statistics-based -технологии, основанные на машинном обучении
на больших текстовых корпусах, размеченных или параллельных.
Гибридные технологии - соединяющие различные подходы,
например: Rule-based + Statistics-based.
Model-based – технологии, основанные на универсальном
языковом моделировании и получении языковых структур (=
«понимании»).
ABBYY Compreno
Технология ABBYY Compreno. Анатолий Старостин 3
4. Лексический и морфологический анализ
Токенизация: I’m, 1pm, www.abbyy.com, 1/10/2000, и
т.д.
Деление на предложения
Морфологические парадигмы для больше чем 40
языков
Анализ и синтез
Обработка композитов ( Rindfleischetikettierungs-
überwachungsaufgabenübertragungs-gesetz )
Обработка опечаток
Обработка незнакомых слов
Автоматическое извлечение словарей из текстовых
корпусов
Технология ABBYY Compreno. Анатолий Старостин
5. Семантико-синтаксический анализ
Универсальная семантическая иерархия
Полнота разборов – дерево строится для целого
предложения
Обработка эллипсиса
Обработка кореференции
Сложная модель: Около 100 концепций в
лингвистической модели
Сложное описание отдельного языка: ~1000 граммем,
~500 поверхностных позиций, ~500 глубинных позиций,
~2-5 значения на одно слово
Результат: качественное снятие омонимии
Существенную роль играют оценки (ручные и
собранные статистикой)
Технология ABBYY Compreno. Анатолий Старостин
6. Универсальная Семантическая Иерархия
• Дерево семантических
классов
• Листьями являются
лексические классы, к
которым привязаны
конкретные лексемы
Технология ABBYY Compreno. Анатолий Старостин 6
7. Общие свойства иерархии
Глубина: до 10 уровней
Только древесные отношения
Дефолтное наследование всех свойств
Технология ABBYY Compreno. Анатолий Старостин
11. Семантико-синтаксический анализ
Гибридная модель ( проективные деревья
зависимостей с элементами систем составляющих )
Непроективные структуры описываются механизмом
перемещений
Нулевые узлы (эллипсис)
Недревесные связи (кореференция, общедочерние,
перемещения и др.)
Два уровня представления (поверхностные и
глубинные позиции)
Технология ABBYY Compreno. Анатолий Старостин
12. Семантико-синтаксический анализ
Переборный алгоритм с оценками (похож на
CYK, много работы по оптимизации перебора)
Используется статистика сочетаемости
Устойчивость к неизвестным словам
Технология ABBYY Compreno. Анатолий Старостин
15. Использование статистики
Частотность лексических классов
Сочетаемость тематик и лексических классов
Поверхностная и глубинная статистика древесных связей
Статистика длин древесных связей
Статистика правил сочинения
Статистика длины сочинительной связи
Статистика пунктуации поверхностных позиций
Статистика соседей эллиптированной составляющей
Статистика переводов лексических классов
Главный источник для сбора статистики – корпуса
параллельных текстов
Технология ABBYY Compreno. Анатолий Старостин 15
16. Адаптивность анализа
Статистическое вычисление тематики текста
(методом машинного обучения)
Таким образом, для снятия омонимии учитывается
глобальный (уровня текста) контекст
Технология ABBYY Compreno. Анатолий Старостин
17. Возможные применения технологии
ABBYY Compreno
Семантико-синтаксический анализ
Построение семантических представлений для предложений в
текстах на естественных языках
Машинный перевод
Анализ запросов (вопросно-ответные системы)
Семантическое индексирование
Извлечение информации
Реферирование
Определение тональности
…………..
Технология ABBYY Compreno. Анатолий Старостин 17
Основные ограничения RBMT связаны с невозможностью корректно обработать исключения, объективной сложностью языковой системы, игнорированием семантики, проблемами с неоднозначностью и т.п.Основные ограничения статистических систем - недостаток параллельных текстов для множества предметных областей и пар языков, невозможность фиксировать реальные связи в предложении, невозможность целенаправленно исправлять ошибки и т.п..