Introduction To Machine Translation

Введение в машинный
перевод
Лектор: Кан Дмитрий Александрович
III курс аспирантуры, СПбГУ, ПМ-ПУ, ТП

СПбГУ, ПМ-ПУ, ТП, 2009

Темы

Для чего нужен машинный перевод
(МП)
История МП
Что происходит сейчас
Статистический и традиционный
подходы
Методы оценки систем МП


Тема

Для чего нужен машинный перевод
История МП
Что происходит сейчас
подходы
Методы оценки систем МП


Для чего нужен машинный
перевод #1
Перевод: объявлений при поиске квартиры;
рецептов блюд; сайтов
Изучение языков
Поиск в Интернете на разных языках
(внутри поисковых алгоритмов и
дополнительная функция для пользователя
[9])
Перевод научных публикаций
Публикация статей (!) [5]


История МП #1

Одновременное независимое
патентование МП (1933): Пётр
Смирнов-Троянский (более серьёзное
исследование) [3] и Джордж Артсруни
(Georges Artsrouni) (отец МП) [4]


История МП #2
Вторая мировая война:
Электронный компьютер (обсчёт
баллистических выстрелов в США, взлом кодов,
code breaking, в Британии)
Алан Тьюринг: нечисловые программы, такие
как машинный перевод
1949, Вивер (Weaver): обсуждение МП с 200
коллегами (однако идея использовать code-
breaking себя не зарекомендовала)


История МП #3: direct МП
Вивер своими (неверными) идеями
стимулировал дальнейшие исследования в
машинном переводе
1952: первая конференция по МП (MIT, Институт
Технологии Массачусетса, США)
1954: демонстрация первой системы МП для
пары русский<->английский, слово-в-слово
В 1960е МП стимулирован Холодной Войной:
США, Британия, Франция, Япония и СССР


История МП: диаграмма

Figure 1: Informal graph showing the history of MT; also shown
are the five ‘Eras of MT History’ identified by Hutchins
(1993:27ff.) [1]


История МП #4: indirect МП
Концепция interlingua (transfer
architecture=анализ,трансфер,синтез)
‘real-world knowledge’ (Bar-Hillel 1960) ->
высококачественный МП
1966-1976: системы МП второго поколения,
вовлекающие лингвистику и численные методы
(в основном U.S.)
Появились: MÉTÉOTM (1976, Montreal [11]),
SYSTRAN (конец 1950х, California), EUROTRA
(1982-1993, замена SYSTRAN)


Что происходит сейчас #1

But the ambition is to produce reams of paper
that could one day power a car.

Google Translate Beta (Статистический
подход, США, 1е место на NIST [10], 2005):
Но амбиция заключается в том, чтобы
производить пачек бумаги
, которые могли бы один день мощность
автомобиля.



But the ambition is to produce reams of
paper that could one day power a car.

PROMT Translator (Традиционный
подход, Россия, год основания: 1991)
Но амбиция состоит в том, чтобы
произвести стопки бумаг, которые
могли однажды привести автомобиль
в действие.



But the ambition is to produce reams of
paper that could one day power a car.

Systran (Традиционный подход,
Франция, год основания: 1968)
Но гонор произвести reams бумаги
которые смогли дн сила автомобиль.


MP и NLP пакеты

Moses: статистический МП, C++, Open
source
SRILM [12]: моделирование
естественного языка, C++, Open
source


подходы
Altavista's BabelFish, 2000 ~ 1,000,000 /
day
Softissimo’s Reverso, 2001 ~ several
millions
Altavista & Google, 2003 ~ 10,000,000 /
day


Методы машинного перевода

MT

Rule-Based MT Data-Driven MT

Transfer Interlingua EBMT SMT
(Example based MT)


Классика
Interlingua

Анализ Transfer Порождение

$_source Direct $_target


Классика: детали


Direct MT system


Характеристики:

Нет сложных лингвистических теорий
Нет стратегии парсинга
Использование синтаксической,
семантической и лексической похожести
между двумя языками
Базируется на одной языковой паре
«Надёжны»: могут переводить даже
неполные предложения
Словари – наиболее важный компонент


Transfer

Анализ: морфология и синтаксис
Выделение важных для перевода
частей абстракции
Source abstraction -> target abstraction
Target abstraction -> синтез


Transfer types

Синтаксический трансфер: передача
синтаксических структур между
языками (одной семьи)
Глубокий (семантический) трансфер:
семантическое представление,
зависимое от языка



Содержат завершённые
лингвистические концепции
Компоненты анализа и порождения
могут быть использованы для других
языковых пар, если компоненты
изолированы
Словари также представляют
отдельные компоненты


Interlingua: пример



Абстрактное представление, не
зависимое от языка
O(N) – построение системы для N
языков vs O(N2) в transfer methods
Может быть сложен для построения
при широком охвате тем => узкая
тема, много языков


Interlingua vs Transfer


Статистические подходы


Статистический подход

3 компонента:
Языковая модель p(e)
Модель перевода p(f|e)
Декодер


EBMT

Необходимость в двуязычном
выровненном корпусе
Вероятности в переводы
Установить переводные эквиваленты
Перераспределить чтобы получить
перевод


EBMT

Английский Японский :
How much is that red umbrella? Ano
akai kasa wa ikura desu ka.
How much is that small camera? Ano
chiisai kamera wa ikura desu ka.


EBMT#1

Соответствие предложений:
The man swims ⇔ L’homme nage.
The woman laughs ⇔ La femme rit
Соответствие частей предложений
the man ⇔ L’homme, swims ⇔ nage, the
⇔ l’, man ⇔ homme, the ⇔ la, woman
⇔ femme, laughs ⇔ rit ...


SMT in a nutshell

Максимизировать
p(e|f), e – предложение перевода, f –
предложение оригинала
Теорема Байеса:

p e p f e
p e f 1
p f


Байес
1
e arg max p e f
e

e arg max p e p f e
e


Вероятности: расшифровка

p(e) – Языковая модель, которая:
Назначает наибольшую вероятность
беглым, грамматически верным
предложениям
Вычисляется по одноязычному корпусу
p(f|e) – Модель перевода
Назначает наибольшую вероятность
парам предложений с одним значением
Вычисляется по двуязычному корпусу


Диаграмма для тех, кто не любит
формулы


Языковая модель

Правильный порядок слов
Некоторые идеи грамматики
Вычисляется с помощью триграм (об
этом позднее, не засыпайте)
Может быть вычислена с помощью
статистической грамматики, напр.
PCFG


Триграммная языковая модель


Вычисление языковой модели

Однограммные вероятности



Двуграммные вероятности



Триграммные вероятности


Visualization

He argues, she loves


Можно увеличивать порядок «n-
граммности» бесконечно долго
Чем больше n, тем ниже вероятность
того, что мы когда уже встречали
такую последовательность


Backing off

Что если последовательность не
встречалась в модели? Вероятность 0
Так как мы умножаем по теореме
Байеса, то итоговая вероятность
предложения 0
Что делать? См. след. слайд


Backing off

.8*p(w3|w1w2) + .15*p(w3|w2) +
.049*p(w3)+0.001


Модель перевода

p(f|e) – вероятность некоторой строки
(предложения) из f, при гипотезе перевода
из e
Формула:

Так как все предложения из e новые, то это
сосчитать нельзя



Разделить предложение на меньшие
части, как при моделировании языка
Ввести новую переменную a,
представляющую выравнивания
между отдельными словами в паре
предложений



f = Ces gens ont grandi, vécu et oeuvré
des dizaines d’années dans le domaine
agricole.
Those people have grown up, lived and
worked many years in a farming district


Выравнивание слов


Характеристики SMT

Основа – параллельный корпус
Вероятности назначаются подсчётом
смежных пар переводов
Оценки вероятностей тем точнее, чем
больше корпус (и чем он
качественней)



Зависит от языка
Применяем к любой паре языков, для
которых есть || параллельный корпус
Нужна ! лингвистическая информация:
как делить текст на предложения и на
слова
Не нужны лингвисты для получения
правил: всё это получается из данных



Дёшево и быстро
Компьютеры делают всю тяжёлую
работу
Система перевода может быть
построена примерно за 2 недели


Материалы для построения SMT

|| корпус
ПО для выравнивания слов
Инструментарий для моделирования
языка
Декодер


|| корпус

http://www.ldc.upenn.edu/
UMC корпус: чешский, русский,
английский (попарно)
Европейский парламент
crawling


ПО для выравнивания слов

GIZA++
http://www.fjoch.com/GIZA++.html
Удобные скрипты в составе пакета
Moses


Инструментарий моделирования
языка
SRILM
Разработан для распознавания речи
Применяется также в SMT
Вычисляет вероятности n-грамм
Сложные метода для back off
http://www.speech.sri.com/projects/srilm/


Декодер

Pharaoh
SMT декодер на основе фразовых
моделей
Строит фразовые таблицы по
выравниваниям GIZA++
Перевод по фразовой таблице и SRILM-
модели языка
http://www.isi.edu/licensed-sw/pharaoh/


Библиография
[1] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203-
35979-8
[2] Р. Г. Пиотровский: Автоматизация обработки текста, ВИНИТИ, ИНФОРМ.
ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5
[3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf
[4] http://www.hutchinsweb.me.uk/IJT-2004.pdf
[5] http://www.scientific.ru/trv/2008/013/ostap_bender.html
[6] Natural Language Processing, Instructor: Manning, Christopher D., Stanford
School of Engineering
[7] http://translate.google.com
[8] http://www.translate.ru/text_Translation.aspx
[9] http://www.google.ru/language_tools
[10] http://www.nist.gov/speech/tests/mt/(cont’d)
2005/doc/mt05eval_official_results_release_(cont’d)
20050801_v3.html
[11] http://www.hutchinsweb.me.uk/IntroMT-12.pdf
[12] http://www.speech.sri.com/


Библиография
[13] ALPAC report http://www.nap.edu/openbook.php?record_id=9547&page=R1
[14] Andy Way: Web-based Machine Translation, School of Computing
[15] http://en.wikipedia.org/wiki/
[16] Chris Callison-Burch, Philipp Koehn: Introduction to Statistical Machine
Translation, ESSLLI 2005
[17] Heshaam Faili: Chapter 21: Machine Translation, University of Tehran
[18] http://www.chrisharrison.net/projects/trigramviz/index.html


Introduction To Machine Translation

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Plus de Dmitry Kan

Plus de Dmitry Kan (6)

Introduction To Machine Translation