Automatic Build Of Semantic Translational Dictionary
1. Метод автоматического построения
переводного семантического
словаря для машинного перевода
Кан Дмитрий Александрович
аспирантура ПМ-ПУ, 3 курс
кафедра ТП
2009
2. Outline
Два фундаментальных подхода к
машинному переводу (МП)
Характеристика классического подхода
Характеристика статистического подхода
Задача скрещивания двух подходов
Переводной семантический словарь
Экспериментальная система МП
3. Классика и статистика
Классика: лингвистические правила;
трансфер синтаксиса; интерлингва
Статистика: статистические модели языка,
перевода и переупорядочивания слов
4. Интерлингва
Компьютерная семантика
Семантический анализатор снимает
первые две языковые оболочки:
морфологию и синтаксис
Каждое слово выражается на
семантическом языке (аналог
интерлингвы)
5. Семантический анализ
Областью определения базисных функций является множество объектов
базы знаний.
является<X005.001>
(@Тв Областью<X001.001><+СущГлаг3+>
(@Род определения<X002.002><+СущСущ1+>
(@Род функций<X004.002><+СущСущ6+>
(@Род базисных<X003.001><+КАКОЙ:ПрилСущ7+>)
)
),
@Им множество<X006.001><+ГлагСущ8+>
(@Род объектов<X007.001><+СущГлагСущ+>
(@Род базы_знаний<X008.006><+СущСущ4+>)
)
)
.
6. NULL And the program has been implemented
| || | || |
| | || +-+---+
| | || || |
GIZA++
Le programme a ete mis en application
Модуль выравнивания слов
Входит в состав пакета Moses
(статистический МП)
86000 предложений -> 1,3 млн пар слов в
выходных данных
Задача разрешения полисемии
Высокий уровень избыточности данных в
словаре
7. Пара || предложений и выходные
данные
Desperate to hold onto power , Pervez Musharraf has
discarded Pakistan ' s constitutional framework and
declared a state of emergency .
NULL ({ 20 }) В ({ }) отчаянном ({ 1 3 4 })
стремлении ({ 2 }) удержать ({ }) власть ({ 5 }) ,
({ 6 }) Первез ({ 7 }) Мушарраф ({ 8}) отверг ({ 9 10 })
конституционную ({ 14 15 }) систему ({ })
Пакистана ({ 11 12 13 }) и ({ 16 })
объявил ({ 17 }) о ({ 18 }) введении ({ })
чрезвычайного ({ 19 21 }) положения ({ }) . ({ 22 })
8. Таблица соответствий слов
NULL of
отчаянном Desperate to hold
стремлении to
власть power
, ,
Первез Pervez
Мушарраф Musharraf
отверг has discarded
конституционную constitutional framework
Пакистана Pakistan ’ s
и and
объявил declared
о a
чрезвычайного state emergency
. .
9. Переводной семантический словарь
Семантический анализатор разрешает
полисемию посредством
морфологического, синтаксического и
семантического анализа
Каждое слово слева имеет свой контекст в
паре параллельных предложений
Контекст выражается своей
семантической формулой
11. Выдержка из словаря
В Y1>HabU(Y1:,ПРЕД:Z1) <149>--->Within
В Y1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) <146>--->at
В Y1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) <208>--->In
В Y1>Loc(Y1:,ПРЕД:Z1) <224>--->Throughout
...
МАРШАЛЛ S1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) <2>
--->Marshall
...
НА Y1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) <67>--->at
НА Y1>Direkt(Y1:,РОД:Z1) <100>--->on
НА Y1>Direkt(Y1:,РОД:Z1) <69>--->for
НА Y1>Direkt(Y1:,РОД:Z1) <74>--->for the
...
ОБРАЗ (РОД:Z1) <2>--->a way
ОБЩЕМИРОВОЙ A1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227))
<1>--->global
...
Всего около 18 тысяч пар слов
12. Экспериментальная система МП
Словарный метод третьего уровня
Первые два: прямой с перебором всех
флексий (первый уровень) и с
применением морфологического анализа
для перехода к леммам (второй уровень)
Третий уровень: семантический анализ,
учитывающий ещё и контекст слова
13. Оценка по BLEU score
c – длина перевода-
кандидата
r – длина Reference
корпуса
База: N=4, wn=1/N
14. Сравнение с Moses
3000 предложений для оценки по BLEU
Экспериментальная СМП BLEU = 12,89
Moses BLEU = 21,31
Moses оперирует над словоформами, в то
время как экспериментальная СМП
оперирует над леммами
15. Примеры переводов
экспериментальной СМП
Исходное предложение: Распутина скомпрометировали
государственностью.
перевод Moses: Распутина compromised государственностью.
перевод экспериментальной СМП: Rasputin compromised
by statehood.
Исходное предложение: У Распутина скрытые доходы.
перевод Moses: the распутина hidden incomes .
перевод экспериментальной СМП: has Rasputin an
implicit income.
16. Future plans
Корректный морфологический синтез
Линеаризация (переупорядочивание слов
в выходном предложении)
Перевод корпуса в нижний регистр перед
GIZA++
Отработка имён собственных
Тщательная вычистка словаря
Постоянное пополнение
18. Литература
1. Тузов В.А. Компьютерная семантика русского языка. СПб, изд-во
СПбГУ, 2004. 400 с.
2. Al-Onaizan Y., Curin J., Jahr M., Knight K., Laerty J., Melamed
D., Och F.J., Purdy J., Smith N. A., Yarowsky D. Statistical Machine
Translation. Final report, JHU Workshop, 1999
3. Och F.J. An Ecient Method for Determining Bilingual Word
classes. // Ninth Conf. of the Europ. Chapter of the Association for
Computational Linguistics. EACL'99. Bergen, Norway, June 1999. P
7176.
4. Brown P.F., Della Pietra V.J., Della Pietra S.A. and Mercer R.L. The
mathematics of statistical machine translation: Parameter estimation.
// Computational linguistics 19(2), 1993
5. Koehn P., Hoang H., Birch A., Callison-Burch C., Federico M.,
Bertoldi N., Cowan B., Shen W., Moran C., Zens R., Dyer C.,
Bojar O., Constantin A., Herbst E. Moses: Open Source Toolkit for
Statistical Machine Translation. // Annual Meeting of the Association
for Computational Linguistics (ACL), demonstration session, Prague,
Czech Republic, June 2007.
6. Klyueva N., Bojar O. UMC 0.1: Czech-Russian-English Multilingual
Corpus. // Proceedings of the Conference quot;Corpora 2008quot;. (In print.)