2. Outline
Компьютерная семантика
Машинный перевод
Статистика и классика
Гибридные подходы
Иерархическая линеаризация
Переводной семантический словарь
3. Введение в компьютерную
семантику
Глаголы, предлоги, слова-свойства
Базисные функции
Иерархия классов (картина мира + снятие
полисемии=функции с разными аргументами)
Присоединение слов
Взаимодействие: морфология, синтаксис,
семантика
Полисемия (разбивать: чашку, сквер,
колено, сердце)
4. Этапы формализации языка
Отделение семантики от прагматики
Предложение как запись команд
Выполнение предложения по
суперпозиции по функций
Анализ слова
Анализ предложения
Отличие от предикатов
5. Базисные функции
Caus(x,y) – x делает так, чтобы y (x каузирует y)
Cont (x) – x продолжается
Lab(x,y) – x подвергается действию y
Incep(x) – x начинается
Fin(x) – x заканчивается, перестает
Func (x) – имеет место быть x
Perf(x) – перфектность (завершенность) x
Fact(x) – x соблюдается
Prepar(x) – x приготовляется
Multo(x) – множество x
Ne x – не x.
7. Машинный перевод: мотивация
Перевод объвлений, изучение языков
Перевод запросов для расширения
области поиска и перевод результатов
поиска
Семантика по WordNet: перевод на
английский
Публикация статей!
9. Google translate
But the ambition is to produce reams of
paper that could one day power a car.
Google Translate Beta (Статистический
подход, США, 1е место на NIST, 2005):
Но амбиция заключается в том, чтобы
производить пачек бумаги
, которые могли бы один день
мощность автомобиля.
10. ПРОМТ
But the ambition is to produce reams of
paper that could one day power a car.
PROMT Translator (Традиционный
подход, Россия, год основания: 1991)
Но амбиция состоит в том, чтобы
произвести стопки бумаг, которые
могли однажды привести автомобиль
в действие.
11. Systran
But the ambition is to produce reams of
paper that could one day power a car.
Systran (Традиционный подход,
Франция, год основания: 1968)
Но гонор произвести reams бумаги
которые смогли дн сила автомобиль.
12. Основные подходы
Interlingua
Анализ Transfer Порождение
$_source Direct $_target
13. Методы машинного перевода
MT
Rule-Based MT Data-Driven MT
Transfer Interlingua EBMT SMT
(Example based MT)
14. SMT in a nutshell
Максимизировать
p(e|f), e – предложение перевода, f –
предложение оригинала
Теорема Байеса:
p e p f e
p e f 1
p f
15. SMT in a nutshell #1
p(e) – Языковая модель, которая:
Назначает наибольшую вероятность
беглым, грамматически верным
предложениям
Вычисляется по одноязычному корпусу
p(f|e) – Модель перевода
Назначает наибольшую вероятность
парам предложений с одним значением
Вычисляется по двуязычному корпусу
16.
17. Подзадачи МП
Лемматизация (русский, финский)
Переупорядочение слов
Переводные словари (фразовые или
семантические)
Маппинг синтаксических структур (японский:
рекурсивный синтаксис)
Word alignment
Sentence alignment
Parallel corpora
19. BLEU score
c – длина перевода-
кандидата
r – длина Reference
корпуса
База: N=4, wn=1/N
20. Word reordering
Статистика: N!, сужение пространства
перебора
Классика: математические методы,
теория мереологии, иерархическая
линеаризация (не упорядочение!)
21. Иерархическая линеаризация
Мельчук (слабые и сильные связи)
Слово определяет строгий порядок группы слов
Слова соединяются в группы (деепр. обороты)
Слова не вляют на взаимный порядок
Семантическое дерево
STL-like tree
Перенос поддеревьев
Сложные предложения (Я постучал, и Петя открыл
дверь)
Приложения: МП, plagiarism detection, summarization
22. Пример семантического дерева
любит<X007.004>
(@Вин Сашу<X003.002><+СущСущ3+>
(@Вин Умного<X001.001><+Какой:ПрилСущ7+>,
@Вин красивого<X002.001><+Однородный:ОднорПрил6+>),
@Им Маша<X006.003><+СущГлаг3+>
(@Им интересная<X004.001><+КАКОЙ:ПрилСущ7+>,
@Им
замечательная<X005.001><+Однородный:ОднорПрил6+>)
)
.
Умного красивого Сашу любит интересная замечательная
Маша.
25. Правила линеаризации (русский
язык)
Узлы подлежат обмену только на одном
уровне в семантическом дереве
При синтезе уточняющие прилагательные
предшествуют существительным
Притяжательные местоимения также
предшетсвуют существительным
Предлоги предшествуют своим поддеревьям
в синтезируемом предложении
Замечательная интересная Маша любит красивого умного Сашу.
29. Переводной семантический
словарь
7 лет на семантический словарь:
частично автоматическое построение
Для перевода: важнейший компонент
Как ускорить процесс?
30. Ответ: GIZA++
Гибридный подход
Статистическое выравнивание слов
Автоматическая генерация словаря
Необходимость параллельного корпуса
Проверка качества через
экспериментальную СМП
31. NULL And the program has been implemented
| | | | | | |
GIZA++ |
|
|
|
| |
| |
+-+---+
| | |
Le programme a ete mis en application
Модуль выравнивания слов
Входит в состав пакета Moses
(статистический МП)
86000 предложений -> 1,3 млн пар слов в
выходных данных
Задача разрешения полисемии
Высокий уровень избыточности данных в
словаре
32. GIZA++: output
Desperate to hold onto power , Pervez Musharraf has
discarded Pakistan ' s constitutional framework and
declared a state of emergency .
NULL ({ 20 }) В ({ }) отчаянном ({ 1 3 4 })
стремлении ({ 2 }) удержать ({ }) власть ({ 5 }) ,
({ 6 }) Первез ({ 7 }) Мушарраф ({ 8}) отверг ({ 9 10 })
конституционную ({ 14 15 }) систему ({ })
Пакистана ({ 11 12 13 }) и ({ 16 })
объявил ({ 17 }) о ({ 18 }) введении ({ })
чрезвычайного ({ 19 21 }) положения ({ }) . ({ 22 })
33. Таблица соответствий слов
NULL of
отчаянном Desperate to hold
стремлении to
власть power
, ,
Первез Pervez
Мушарраф Musharraf
отверг has discarded
конституционную constitutional framework
Пакистана Pakistan ’ s
и and
объявил declared
о a
чрезвычайного state emergency
. .
35. Выдержка из словаря
В Y1>HabU(Y1:,ПРЕД:Z1) <149>--->Within
В Y1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) <146>--->at
В Y1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) <208>--->In
В Y1>Loc(Y1:,ПРЕД:Z1) <224>--->Throughout
...
МАРШАЛЛ S1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) <2>
--->Marshall
...
НА Y1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) <67>--->at
НА Y1>Direkt(Y1:,РОД:Z1) <100>--->on
НА Y1>Direkt(Y1:,РОД:Z1) <69>--->for
НА Y1>Direkt(Y1:,РОД:Z1) <74>--->for the
...
ОБРАЗ (РОД:Z1) <2>--->a way
ОБЩЕМИРОВОЙ A1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227))
<1>--->global
...
Всего около 18 тысяч пар слов
36. Экспериментальная система МП
•Словарный метод третьего уровня
•Первые два: прямой с перебором всех
флексий (первый уровень) и с применением
морфологического анализа для перехода к
леммам (второй уровень)
•Третий уровень: семантический анализ,
учитывающий ещё и контекст слова
37. Примеры переводов
Отчет, написанный рукой Распутина.
Review was written hand Rasputin.
В этой статье Аббас разбирает доклад Распутина.
In this article Abbas review report Rasputin.
Распутина скомпрометировали государственностью.
Rasputin compromised by statehood.
Распутин вел скрытный образ жизни.
Rasputin lead secretive way of life.
У Распутина скрытые доходы.
have Rasputin an implicit income.
38. Улучшение качества словаря
Удаление дубликатов (sort | uc >>
output)
Добавление синтаксической
информации: роли в предложении
Добавление СГТ
Вычисление предлогов: анализ
словосочетаний с предлогами
39. Moses: почему статистика не
справляется?
Статистическая модель – только
приближение языковой модели, при том
сугубо численное
Зависимость от качества корпуса
Перевод человека зачастую не прямолинеен
и иносказателен, отсюда снижение качества
Сложные пары языков: с богатой
морфологией
Снятие полисемии через лемматизацию –
грубое отсечение семантики
40. Классика: недостатки
Медленная разработка
Привязка к одному языку или группе
схожих языков (синтаксис, порядок
слов)
Скрещивание!
41. Перевод на русский
Сборка по семантическим формулам
Анализатор иностранного языка
Статистический подход для en->ru
42. Открытые задачи
Прагматика
Анализ текста: связи и свойства
объектов, анафорические ссылки
Hän meni kauppaan. -> Он (она?) пошёл
(ла?) в магазин.
Анафорические ссылки на часть текста
43. Литература
[1] Тузов В. А. Компьютерная семантика русского языка, СПб.: Изд-во С.-
Петерб. ун-та, 2004. 400 с.
[2] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203-
35979-8
[3] Мельчук И. А. Русский текст в модели «смысл<->текст». М.: Языки русской
культуры, 1995. 682 с.
[4] http://www.hutchinsweb.me.uk/MTJ-2000.pdf
[5] http://www.hutchinsweb.me.uk/IJT-2004.pdf
[6] http://www.scientific.ru/trv/2008/013/ostap_bender.html
[7] Natural Language Processing, Instructor: Manning, Christopher D., Stanford
School of Engineering
[8] http://translate.google.com
[9] http://www.translate.ru/text_Translation.aspx
[10] Кан Д. А., Лебедев И. С.: Линеаризация при синтезе предложений на
естественном языке // Политехнический симпозиум «Молодые ученые
промышленности Северо-Западного региона»; материалы конференций. СПб.:
Изд-во С.-Петерб. политехн. ун-та, 2007. С. 15-16