SlideShare une entreprise Scribd logo
1  sur  60
Télécharger pour lire hors ligne
Введение в машинный
перевод
  Лектор: Кан Дмитрий Александрович
  III курс аспирантуры, СПбГУ, ПМ-ПУ, ТП




                  СПбГУ, ПМ-ПУ, ТП, 2009
Темы

  Для чего нужен машинный перевод
  (МП)
  История МП
  Что происходит сейчас
  Статистический и традиционный
  подходы
  Методы оценки систем МП


              СПбГУ, ПМ-ПУ, ТП, 2009
Тема

  Для чего нужен машинный перевод
  История МП
  Что происходит сейчас
  Статистический и традиционный
  подходы
  Методы оценки систем МП



              СПбГУ, ПМ-ПУ, ТП, 2009
Для чего нужен машинный
перевод #1
  Перевод: объявлений при поиске квартиры;
  рецептов блюд; сайтов
  Изучение языков
  Поиск в Интернете на разных языках
  (внутри поисковых алгоритмов и
  дополнительная функция для пользователя
  [9])
  Перевод научных публикаций
  Публикация статей (!) [5]

                СПбГУ, ПМ-ПУ, ТП, 2009
Тема

  Для чего нужен машинный перевод
  История МП
  Что происходит сейчас
  Статистический и традиционный
  подходы
  Методы оценки систем МП



              СПбГУ, ПМ-ПУ, ТП, 2009
История МП #1

  Одновременное независимое
  патентование МП (1933): Пётр
  Смирнов-Троянский (более серьёзное
  исследование) [3] и Джордж Артсруни
  (Georges Artsrouni) (отец МП) [4]




              СПбГУ, ПМ-ПУ, ТП, 2009
История МП #2
  Вторая мировая война:
    Электронный компьютер (обсчёт
    баллистических выстрелов в США, взлом кодов,
    code breaking, в Британии)
    Алан Тьюринг: нечисловые программы, такие
    как машинный перевод
    1949, Вивер (Weaver): обсуждение МП с 200
    коллегами (однако идея использовать code-
    breaking себя не зарекомендовала)




                  СПбГУ, ПМ-ПУ, ТП, 2009
История МП #3: direct МП
    Вивер своими (неверными) идеями
    стимулировал дальнейшие исследования в
    машинном переводе
    1952: первая конференция по МП (MIT, Институт
    Технологии Массачусетса, США)
    1954: демонстрация первой системы МП для
    пары русский<->английский, слово-в-слово
    В 1960е МП стимулирован Холодной Войной:
    США, Британия, Франция, Япония и СССР




                  СПбГУ, ПМ-ПУ, ТП, 2009
История МП: диаграмма




   Figure 1: Informal graph showing the history of MT; also shown
   are the five ‘Eras of MT History’ identified by Hutchins
   (1993:27ff.) [1]


                        СПбГУ, ПМ-ПУ, ТП, 2009
История МП #4: indirect МП
    Концепция interlingua (transfer
    architecture=анализ,трансфер,синтез)
    ‘real-world knowledge’ (Bar-Hillel 1960) ->
    высококачественный МП
    1966-1976: системы МП второго поколения,
    вовлекающие лингвистику и численные методы
    (в основном U.S.)
    Появились: MÉTÉOTM (1976, Montreal [11]),
    SYSTRAN (конец 1950х, California), EUROTRA
    (1982-1993, замена SYSTRAN)




                  СПбГУ, ПМ-ПУ, ТП, 2009
Тема

  Для чего нужен машинный перевод
  История МП
  Что происходит сейчас
  Статистический и традиционный
  подходы
  Методы оценки систем МП



              СПбГУ, ПМ-ПУ, ТП, 2009
Что происходит сейчас #1

  But the ambition is to produce reams of paper
  that could one day power a car.

  Google Translate Beta (Статистический
  подход, США, 1е место на NIST [10], 2005):
  Но амбиция заключается в том, чтобы
  производить пачек бумаги
  , которые могли бы один день мощность
  автомобиля.

                  СПбГУ, ПМ-ПУ, ТП, 2009
Что происходит сейчас #2

  But the ambition is to produce reams of
  paper that could one day power a car.

  PROMT Translator (Традиционный
  подход, Россия, год основания: 1991)
  Но амбиция состоит в том, чтобы
  произвести стопки бумаг, которые
  могли однажды привести автомобиль
  в действие.

                СПбГУ, ПМ-ПУ, ТП, 2009
Что происходит сейчас #2

  But the ambition is to produce reams of
  paper that could one day power a car.

  Systran (Традиционный подход,
  Франция, год основания: 1968)
  Но гонор произвести reams бумаги
  которые смогли дн сила автомобиль.


                СПбГУ, ПМ-ПУ, ТП, 2009
MP и NLP пакеты

  Moses: статистический МП, C++, Open
  source
  SRILM [12]: моделирование
  естественного языка, C++, Open
  source




              СПбГУ, ПМ-ПУ, ТП, 2009
Тема

  Для чего нужен машинный перевод
  История МП
  Что происходит сейчас
  Статистический и традиционный
  подходы
  Методы оценки систем МП



              СПбГУ, ПМ-ПУ, ТП, 2009
Статистический и традиционный
подходы
  Altavista's BabelFish, 2000 ~ 1,000,000 /
  day
  Softissimo’s Reverso, 2001 ~ several
  millions
  Altavista & Google, 2003 ~ 10,000,000 /
  day



                СПбГУ, ПМ-ПУ, ТП, 2009
Методы машинного перевода

                        MT

  Rule-Based MT                    Data-Driven MT

 Transfer Interlingua              EBMT            SMT
                              (Example based MT)




                 СПбГУ, ПМ-ПУ, ТП, 2009
Классика
            Interlingua



 Анализ       Transfer Порождение

 $_source        Direct              $_target




            СПбГУ, ПМ-ПУ, ТП, 2009
Классика: детали




            СПбГУ, ПМ-ПУ, ТП, 2009
Direct MT system




             СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики:

  Нет сложных лингвистических теорий
  Нет стратегии парсинга
  Использование синтаксической,
  семантической и лексической похожести
  между двумя языками
  Базируется на одной языковой паре
  «Надёжны»: могут переводить даже
  неполные предложения
  Словари – наиболее важный компонент

                СПбГУ, ПМ-ПУ, ТП, 2009
Transfer

   Анализ: морфология и синтаксис
   Выделение важных для перевода
   частей    абстракции
   Source abstraction -> target abstraction
   Target abstraction -> синтез




                 СПбГУ, ПМ-ПУ, ТП, 2009
Transfer types

   Синтаксический трансфер: передача
   синтаксических структур между
   языками (одной семьи)
   Глубокий (семантический) трансфер:
   семантическое представление,
   зависимое от языка




               СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики:

  Содержат завершённые
  лингвистические концепции
  Компоненты анализа и порождения
  могут быть использованы для других
  языковых пар, если компоненты
  изолированы
  Словари также представляют
  отдельные компоненты

              СПбГУ, ПМ-ПУ, ТП, 2009
Interlingua: пример




             СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики:

  Абстрактное представление, не
  зависимое от языка
  O(N) – построение системы для N
  языков vs O(N2) в transfer methods
  Может быть сложен для построения
  при широком охвате тем => узкая
  тема, много языков


               СПбГУ, ПМ-ПУ, ТП, 2009
Interlingua vs Transfer




              СПбГУ, ПМ-ПУ, ТП, 2009
Статистические подходы




           СПбГУ, ПМ-ПУ, ТП, 2009
Статистический подход

  3 компонента:
  Языковая модель p(e)
  Модель перевода p(f|e)
  Декодер




               СПбГУ, ПМ-ПУ, ТП, 2009
EBMT

  Необходимость в двуязычном
  выровненном корпусе
  Вероятности   в переводы
  Установить переводные эквиваленты
  Перераспределить чтобы получить
  перевод



              СПбГУ, ПМ-ПУ, ТП, 2009
EBMT

  Английский     Японский :
  How much is that red umbrella?        Ano
  akai kasa wa ikura desu ka.
  How much is that small camera?        Ano
  chiisai kamera wa ikura desu ka.




               СПбГУ, ПМ-ПУ, ТП, 2009
EBMT#1

   Соответствие предложений:
 The man swims ⇔ L’homme nage.
 The woman laughs ⇔ La femme rit
   Соответствие частей предложений
 the man ⇔ L’homme, swims ⇔ nage, the
   ⇔ l’, man ⇔ homme, the ⇔ la, woman
   ⇔ femme, laughs ⇔ rit ...


               СПбГУ, ПМ-ПУ, ТП, 2009
SMT in a nutshell

   Максимизировать
 p(e|f), e – предложение перевода, f –
   предложение оригинала
 Теорема Байеса:


                  p e p f e
        p e f               1
                     p f


                   СПбГУ, ПМ-ПУ, ТП, 2009
Байес
                                   1
    e arg max p e f
              e




  e arg max p e p f e
          e




                  СПбГУ, ПМ-ПУ, ТП, 2009
Вероятности: расшифровка

  p(e) – Языковая модель, которая:
    Назначает наибольшую вероятность
    беглым, грамматически верным
    предложениям
    Вычисляется по одноязычному корпусу
  p(f|e) – Модель перевода
    Назначает наибольшую вероятность
    парам предложений с одним значением
    Вычисляется по двуязычному корпусу

               СПбГУ, ПМ-ПУ, ТП, 2009
Диаграмма для тех, кто не любит
формулы




              СПбГУ, ПМ-ПУ, ТП, 2009
Языковая модель

  Правильный порядок слов
  Некоторые идеи грамматики
  Вычисляется с помощью триграм (об
  этом позднее, не засыпайте)
  Может быть вычислена с помощью
  статистической грамматики, напр.
  PCFG


              СПбГУ, ПМ-ПУ, ТП, 2009
Триграммная языковая модель




           СПбГУ, ПМ-ПУ, ТП, 2009
Вычисление языковой модели

  Однограммные вероятности




             СПбГУ, ПМ-ПУ, ТП, 2009
Вычисление языковой модели

  Двуграммные вероятности




             СПбГУ, ПМ-ПУ, ТП, 2009
Вычисление языковой модели

  Триграммные вероятности




             СПбГУ, ПМ-ПУ, ТП, 2009
Visualization




        He argues, she loves
                     СПбГУ, ПМ-ПУ, ТП, 2009
Вычисление языковой модели

  Можно увеличивать порядок «n-
  граммности» бесконечно долго
  Чем больше n, тем ниже вероятность
  того, что мы когда уже встречали
  такую последовательность




              СПбГУ, ПМ-ПУ, ТП, 2009
Backing off

   Что если последовательность не
   встречалась в модели? Вероятность 0
   Так как мы умножаем по теореме
   Байеса, то итоговая вероятность
   предложения 0
   Что делать? См. след. слайд



               СПбГУ, ПМ-ПУ, ТП, 2009
Backing off

   .8*p(w3|w1w2) + .15*p(w3|w2) +
   .049*p(w3)+0.001




                 СПбГУ, ПМ-ПУ, ТП, 2009
Модель перевода

  p(f|e) – вероятность некоторой строки
  (предложения) из f, при гипотезе перевода
  из e
  Формула:




    Так как все предложения из e новые, то это
    сосчитать нельзя


                        СПбГУ, ПМ-ПУ, ТП, 2009
Модель перевода

  Разделить предложение на меньшие
  части, как при моделировании языка
  Ввести новую переменную a,
  представляющую выравнивания
  между отдельными словами в паре
  предложений




              СПбГУ, ПМ-ПУ, ТП, 2009
Модель перевода

  f = Ces gens ont grandi, vécu et oeuvré
  des dizaines d’années dans le domaine
  agricole.
  Those people have grown up, lived and
  worked many years in a farming district




                СПбГУ, ПМ-ПУ, ТП, 2009
Выравнивание слов




           СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики SMT

  Основа – параллельный корпус
  Вероятности назначаются подсчётом
  смежных пар переводов
  Оценки вероятностей тем точнее, чем
  больше корпус (и чем он
  качественней)



              СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики SMT

  Зависит от языка
  Применяем к любой паре языков, для
  которых есть || параллельный корпус
  Нужна ! лингвистическая информация:
  как делить текст на предложения и на
  слова
  Не нужны лингвисты для получения
  правил: всё это получается из данных

              СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики SMT

  Дёшево и быстро
  Компьютеры делают всю тяжёлую
  работу
  Система перевода может быть
  построена примерно за 2 недели




              СПбГУ, ПМ-ПУ, ТП, 2009
Материалы для построения SMT

  || корпус
  ПО для выравнивания слов
  Инструментарий для моделирования
  языка
  Декодер




             СПбГУ, ПМ-ПУ, ТП, 2009
|| корпус

   http://www.ldc.upenn.edu/
   UMC корпус: чешский, русский,
   английский (попарно)
   Европейский парламент
   crawling




               СПбГУ, ПМ-ПУ, ТП, 2009
ПО для выравнивания слов

  GIZA++
  http://www.fjoch.com/GIZA++.html
  Удобные скрипты в составе пакета
  Moses




              СПбГУ, ПМ-ПУ, ТП, 2009
Инструментарий моделирования
языка
  SRILM
    Разработан для распознавания речи
    Применяется также в SMT
    Вычисляет вероятности n-грамм
    Сложные метода для back off
  http://www.speech.sri.com/projects/srilm/



                СПбГУ, ПМ-ПУ, ТП, 2009
Декодер

  Pharaoh
    SMT декодер на основе фразовых
    моделей
    Строит фразовые таблицы по
    выравниваниям GIZA++
    Перевод по фразовой таблице и SRILM-
    модели языка
  http://www.isi.edu/licensed-sw/pharaoh/

                СПбГУ, ПМ-ПУ, ТП, 2009
Библиография
    [1] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203-
    35979-8
    [2] Р. Г. Пиотровский: Автоматизация обработки текста, ВИНИТИ, ИНФОРМ.
    ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5
    [3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf
    [4] http://www.hutchinsweb.me.uk/IJT-2004.pdf
    [5] http://www.scientific.ru/trv/2008/013/ostap_bender.html
    [6] Natural Language Processing, Instructor: Manning, Christopher D., Stanford
    School of Engineering
    [7] http://translate.google.com
    [8] http://www.translate.ru/text_Translation.aspx
    [9] http://www.google.ru/language_tools
    [10] http://www.nist.gov/speech/tests/mt/(cont’d)
 2005/doc/mt05eval_official_results_release_(cont’d)
 20050801_v3.html
    [11] http://www.hutchinsweb.me.uk/IntroMT-12.pdf
    [12] http://www.speech.sri.com/




                                СПбГУ, ПМ-ПУ, ТП, 2009
Библиография
  [13] ALPAC report http://www.nap.edu/openbook.php?record_id=9547&page=R1
  [14] Andy Way: Web-based Machine Translation, School of Computing
  [15] http://en.wikipedia.org/wiki/
  [16] Chris Callison-Burch, Philipp Koehn: Introduction to Statistical Machine
  Translation, ESSLLI 2005
  [17] Heshaam Faili: Chapter 21: Machine Translation, University of Tehran
  [18] http://www.chrisharrison.net/projects/trigramviz/index.html




                             СПбГУ, ПМ-ПУ, ТП, 2009

Contenu connexe

En vedette

Automatic Build Of Semantic Translational Dictionary
Automatic Build Of Semantic Translational DictionaryAutomatic Build Of Semantic Translational Dictionary
Automatic Build Of Semantic Translational DictionaryDmitry Kan
 
Lucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeupLucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeupDmitry Kan
 
Solr onfitnesse learningfromberlinbuzzwords
Solr onfitnesse learningfromberlinbuzzwordsSolr onfitnesse learningfromberlinbuzzwords
Solr onfitnesse learningfromberlinbuzzwordsDmitry Kan
 
Starget sentiment analyzer for English
Starget sentiment analyzer for EnglishStarget sentiment analyzer for English
Starget sentiment analyzer for EnglishDmitry Kan
 
Social spam detection by SemanticAnalyzer Group
Social spam detection by SemanticAnalyzer GroupSocial spam detection by SemanticAnalyzer Group
Social spam detection by SemanticAnalyzer GroupDmitry Kan
 
Linguistic component Sentiment Analyzer for the Russian language
Linguistic component Sentiment Analyzer for the Russian languageLinguistic component Sentiment Analyzer for the Russian language
Linguistic component Sentiment Analyzer for the Russian languageDmitry Kan
 
Linguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageLinguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageDmitry Kan
 
MTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine TranslationMTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine TranslationDmitry Kan
 
NoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopNoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopDmitry Kan
 
Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Dmitry Kan
 
Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Dmitry Kan
 
Rule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesRule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesDmitry Kan
 
Linguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageLinguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageDmitry Kan
 
Semantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use casesSemantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use casesDmitry Kan
 
IR: Open source state
IR: Open source stateIR: Open source state
IR: Open source stateDmitry Kan
 
Types of translation
Types of translationTypes of translation
Types of translationAzhar Bhatti
 
Translation Studies
Translation StudiesTranslation Studies
Translation StudiesArdiansyah -
 
Translation Types
Translation TypesTranslation Types
Translation TypesElena Shapa
 

En vedette (20)

Automatic Build Of Semantic Translational Dictionary
Automatic Build Of Semantic Translational DictionaryAutomatic Build Of Semantic Translational Dictionary
Automatic Build Of Semantic Translational Dictionary
 
Lucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeupLucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeup
 
Solr onfitnesse learningfromberlinbuzzwords
Solr onfitnesse learningfromberlinbuzzwordsSolr onfitnesse learningfromberlinbuzzwords
Solr onfitnesse learningfromberlinbuzzwords
 
Starget sentiment analyzer for English
Starget sentiment analyzer for EnglishStarget sentiment analyzer for English
Starget sentiment analyzer for English
 
Social spam detection by SemanticAnalyzer Group
Social spam detection by SemanticAnalyzer GroupSocial spam detection by SemanticAnalyzer Group
Social spam detection by SemanticAnalyzer Group
 
Linguistic component Sentiment Analyzer for the Russian language
Linguistic component Sentiment Analyzer for the Russian languageLinguistic component Sentiment Analyzer for the Russian language
Linguistic component Sentiment Analyzer for the Russian language
 
Linguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageLinguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian language
 
MTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine TranslationMTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine Translation
 
NoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopNoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache Hadoop
 
Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011
 
Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...
 
Rule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesRule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slides
 
Linguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageLinguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian language
 
Semantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use casesSemantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use cases
 
IR: Open source state
IR: Open source stateIR: Open source state
IR: Open source state
 
Types of translation
Types of translationTypes of translation
Types of translation
 
Types of translation
Types of translationTypes of translation
Types of translation
 
Translation Studies
Translation StudiesTranslation Studies
Translation Studies
 
Methods Of Translation
Methods Of TranslationMethods Of Translation
Methods Of Translation
 
Translation Types
Translation TypesTranslation Types
Translation Types
 

Plus de Dmitry Kan

London IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use casesLondon IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use casesDmitry Kan
 
Vector databases and neural search
Vector databases and neural searchVector databases and neural search
Vector databases and neural searchDmitry Kan
 
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...Dmitry Kan
 
SentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaSentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaDmitry Kan
 
Icsoft 2011 51_cr
Icsoft 2011 51_crIcsoft 2011 51_cr
Icsoft 2011 51_crDmitry Kan
 
Computer Semantics And Machine Translation
Computer Semantics And Machine TranslationComputer Semantics And Machine Translation
Computer Semantics And Machine TranslationDmitry Kan
 

Plus de Dmitry Kan (6)

London IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use casesLondon IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use cases
 
Vector databases and neural search
Vector databases and neural searchVector databases and neural search
Vector databases and neural search
 
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
 
SentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaSentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social media
 
Icsoft 2011 51_cr
Icsoft 2011 51_crIcsoft 2011 51_cr
Icsoft 2011 51_cr
 
Computer Semantics And Machine Translation
Computer Semantics And Machine TranslationComputer Semantics And Machine Translation
Computer Semantics And Machine Translation
 

Introduction To Machine Translation

  • 1. Введение в машинный перевод Лектор: Кан Дмитрий Александрович III курс аспирантуры, СПбГУ, ПМ-ПУ, ТП СПбГУ, ПМ-ПУ, ТП, 2009
  • 2. Темы Для чего нужен машинный перевод (МП) История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  • 3. Тема Для чего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  • 4. Для чего нужен машинный перевод #1 Перевод: объявлений при поиске квартиры; рецептов блюд; сайтов Изучение языков Поиск в Интернете на разных языках (внутри поисковых алгоритмов и дополнительная функция для пользователя [9]) Перевод научных публикаций Публикация статей (!) [5] СПбГУ, ПМ-ПУ, ТП, 2009
  • 5. Тема Для чего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  • 6. История МП #1 Одновременное независимое патентование МП (1933): Пётр Смирнов-Троянский (более серьёзное исследование) [3] и Джордж Артсруни (Georges Artsrouni) (отец МП) [4] СПбГУ, ПМ-ПУ, ТП, 2009
  • 7. История МП #2 Вторая мировая война: Электронный компьютер (обсчёт баллистических выстрелов в США, взлом кодов, code breaking, в Британии) Алан Тьюринг: нечисловые программы, такие как машинный перевод 1949, Вивер (Weaver): обсуждение МП с 200 коллегами (однако идея использовать code- breaking себя не зарекомендовала) СПбГУ, ПМ-ПУ, ТП, 2009
  • 8. История МП #3: direct МП Вивер своими (неверными) идеями стимулировал дальнейшие исследования в машинном переводе 1952: первая конференция по МП (MIT, Институт Технологии Массачусетса, США) 1954: демонстрация первой системы МП для пары русский<->английский, слово-в-слово В 1960е МП стимулирован Холодной Войной: США, Британия, Франция, Япония и СССР СПбГУ, ПМ-ПУ, ТП, 2009
  • 9. История МП: диаграмма Figure 1: Informal graph showing the history of MT; also shown are the five ‘Eras of MT History’ identified by Hutchins (1993:27ff.) [1] СПбГУ, ПМ-ПУ, ТП, 2009
  • 10. История МП #4: indirect МП Концепция interlingua (transfer architecture=анализ,трансфер,синтез) ‘real-world knowledge’ (Bar-Hillel 1960) -> высококачественный МП 1966-1976: системы МП второго поколения, вовлекающие лингвистику и численные методы (в основном U.S.) Появились: MÉTÉOTM (1976, Montreal [11]), SYSTRAN (конец 1950х, California), EUROTRA (1982-1993, замена SYSTRAN) СПбГУ, ПМ-ПУ, ТП, 2009
  • 11. Тема Для чего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  • 12. Что происходит сейчас #1 But the ambition is to produce reams of paper that could one day power a car. Google Translate Beta (Статистический подход, США, 1е место на NIST [10], 2005): Но амбиция заключается в том, чтобы производить пачек бумаги , которые могли бы один день мощность автомобиля. СПбГУ, ПМ-ПУ, ТП, 2009
  • 13. Что происходит сейчас #2 But the ambition is to produce reams of paper that could one day power a car. PROMT Translator (Традиционный подход, Россия, год основания: 1991) Но амбиция состоит в том, чтобы произвести стопки бумаг, которые могли однажды привести автомобиль в действие. СПбГУ, ПМ-ПУ, ТП, 2009
  • 14. Что происходит сейчас #2 But the ambition is to produce reams of paper that could one day power a car. Systran (Традиционный подход, Франция, год основания: 1968) Но гонор произвести reams бумаги которые смогли дн сила автомобиль. СПбГУ, ПМ-ПУ, ТП, 2009
  • 15. MP и NLP пакеты Moses: статистический МП, C++, Open source SRILM [12]: моделирование естественного языка, C++, Open source СПбГУ, ПМ-ПУ, ТП, 2009
  • 16. Тема Для чего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  • 17. Статистический и традиционный подходы Altavista's BabelFish, 2000 ~ 1,000,000 / day Softissimo’s Reverso, 2001 ~ several millions Altavista & Google, 2003 ~ 10,000,000 / day СПбГУ, ПМ-ПУ, ТП, 2009
  • 18. Методы машинного перевода MT Rule-Based MT Data-Driven MT Transfer Interlingua EBMT SMT (Example based MT) СПбГУ, ПМ-ПУ, ТП, 2009
  • 19. Классика Interlingua Анализ Transfer Порождение $_source Direct $_target СПбГУ, ПМ-ПУ, ТП, 2009
  • 20. Классика: детали СПбГУ, ПМ-ПУ, ТП, 2009
  • 21. Direct MT system СПбГУ, ПМ-ПУ, ТП, 2009
  • 22. Характеристики: Нет сложных лингвистических теорий Нет стратегии парсинга Использование синтаксической, семантической и лексической похожести между двумя языками Базируется на одной языковой паре «Надёжны»: могут переводить даже неполные предложения Словари – наиболее важный компонент СПбГУ, ПМ-ПУ, ТП, 2009
  • 23. Transfer Анализ: морфология и синтаксис Выделение важных для перевода частей абстракции Source abstraction -> target abstraction Target abstraction -> синтез СПбГУ, ПМ-ПУ, ТП, 2009
  • 24. Transfer types Синтаксический трансфер: передача синтаксических структур между языками (одной семьи) Глубокий (семантический) трансфер: семантическое представление, зависимое от языка СПбГУ, ПМ-ПУ, ТП, 2009
  • 25. Характеристики: Содержат завершённые лингвистические концепции Компоненты анализа и порождения могут быть использованы для других языковых пар, если компоненты изолированы Словари также представляют отдельные компоненты СПбГУ, ПМ-ПУ, ТП, 2009
  • 26. Interlingua: пример СПбГУ, ПМ-ПУ, ТП, 2009
  • 27. Характеристики: Абстрактное представление, не зависимое от языка O(N) – построение системы для N языков vs O(N2) в transfer methods Может быть сложен для построения при широком охвате тем => узкая тема, много языков СПбГУ, ПМ-ПУ, ТП, 2009
  • 28. Interlingua vs Transfer СПбГУ, ПМ-ПУ, ТП, 2009
  • 29. Статистические подходы СПбГУ, ПМ-ПУ, ТП, 2009
  • 30. Статистический подход 3 компонента: Языковая модель p(e) Модель перевода p(f|e) Декодер СПбГУ, ПМ-ПУ, ТП, 2009
  • 31. EBMT Необходимость в двуязычном выровненном корпусе Вероятности в переводы Установить переводные эквиваленты Перераспределить чтобы получить перевод СПбГУ, ПМ-ПУ, ТП, 2009
  • 32. EBMT Английский Японский : How much is that red umbrella? Ano akai kasa wa ikura desu ka. How much is that small camera? Ano chiisai kamera wa ikura desu ka. СПбГУ, ПМ-ПУ, ТП, 2009
  • 33. EBMT#1 Соответствие предложений: The man swims ⇔ L’homme nage. The woman laughs ⇔ La femme rit Соответствие частей предложений the man ⇔ L’homme, swims ⇔ nage, the ⇔ l’, man ⇔ homme, the ⇔ la, woman ⇔ femme, laughs ⇔ rit ... СПбГУ, ПМ-ПУ, ТП, 2009
  • 34. SMT in a nutshell Максимизировать p(e|f), e – предложение перевода, f – предложение оригинала Теорема Байеса: p e p f e p e f 1 p f СПбГУ, ПМ-ПУ, ТП, 2009
  • 35. Байес 1 e arg max p e f e e arg max p e p f e e СПбГУ, ПМ-ПУ, ТП, 2009
  • 36. Вероятности: расшифровка p(e) – Языковая модель, которая: Назначает наибольшую вероятность беглым, грамматически верным предложениям Вычисляется по одноязычному корпусу p(f|e) – Модель перевода Назначает наибольшую вероятность парам предложений с одним значением Вычисляется по двуязычному корпусу СПбГУ, ПМ-ПУ, ТП, 2009
  • 37. Диаграмма для тех, кто не любит формулы СПбГУ, ПМ-ПУ, ТП, 2009
  • 38. Языковая модель Правильный порядок слов Некоторые идеи грамматики Вычисляется с помощью триграм (об этом позднее, не засыпайте) Может быть вычислена с помощью статистической грамматики, напр. PCFG СПбГУ, ПМ-ПУ, ТП, 2009
  • 39. Триграммная языковая модель СПбГУ, ПМ-ПУ, ТП, 2009
  • 40. Вычисление языковой модели Однограммные вероятности СПбГУ, ПМ-ПУ, ТП, 2009
  • 41. Вычисление языковой модели Двуграммные вероятности СПбГУ, ПМ-ПУ, ТП, 2009
  • 42. Вычисление языковой модели Триграммные вероятности СПбГУ, ПМ-ПУ, ТП, 2009
  • 43. Visualization He argues, she loves СПбГУ, ПМ-ПУ, ТП, 2009
  • 44. Вычисление языковой модели Можно увеличивать порядок «n- граммности» бесконечно долго Чем больше n, тем ниже вероятность того, что мы когда уже встречали такую последовательность СПбГУ, ПМ-ПУ, ТП, 2009
  • 45. Backing off Что если последовательность не встречалась в модели? Вероятность 0 Так как мы умножаем по теореме Байеса, то итоговая вероятность предложения 0 Что делать? См. след. слайд СПбГУ, ПМ-ПУ, ТП, 2009
  • 46. Backing off .8*p(w3|w1w2) + .15*p(w3|w2) + .049*p(w3)+0.001 СПбГУ, ПМ-ПУ, ТП, 2009
  • 47. Модель перевода p(f|e) – вероятность некоторой строки (предложения) из f, при гипотезе перевода из e Формула: Так как все предложения из e новые, то это сосчитать нельзя СПбГУ, ПМ-ПУ, ТП, 2009
  • 48. Модель перевода Разделить предложение на меньшие части, как при моделировании языка Ввести новую переменную a, представляющую выравнивания между отдельными словами в паре предложений СПбГУ, ПМ-ПУ, ТП, 2009
  • 49. Модель перевода f = Ces gens ont grandi, vécu et oeuvré des dizaines d’années dans le domaine agricole. Those people have grown up, lived and worked many years in a farming district СПбГУ, ПМ-ПУ, ТП, 2009
  • 50. Выравнивание слов СПбГУ, ПМ-ПУ, ТП, 2009
  • 51. Характеристики SMT Основа – параллельный корпус Вероятности назначаются подсчётом смежных пар переводов Оценки вероятностей тем точнее, чем больше корпус (и чем он качественней) СПбГУ, ПМ-ПУ, ТП, 2009
  • 52. Характеристики SMT Зависит от языка Применяем к любой паре языков, для которых есть || параллельный корпус Нужна ! лингвистическая информация: как делить текст на предложения и на слова Не нужны лингвисты для получения правил: всё это получается из данных СПбГУ, ПМ-ПУ, ТП, 2009
  • 53. Характеристики SMT Дёшево и быстро Компьютеры делают всю тяжёлую работу Система перевода может быть построена примерно за 2 недели СПбГУ, ПМ-ПУ, ТП, 2009
  • 54. Материалы для построения SMT || корпус ПО для выравнивания слов Инструментарий для моделирования языка Декодер СПбГУ, ПМ-ПУ, ТП, 2009
  • 55. || корпус http://www.ldc.upenn.edu/ UMC корпус: чешский, русский, английский (попарно) Европейский парламент crawling СПбГУ, ПМ-ПУ, ТП, 2009
  • 56. ПО для выравнивания слов GIZA++ http://www.fjoch.com/GIZA++.html Удобные скрипты в составе пакета Moses СПбГУ, ПМ-ПУ, ТП, 2009
  • 57. Инструментарий моделирования языка SRILM Разработан для распознавания речи Применяется также в SMT Вычисляет вероятности n-грамм Сложные метода для back off http://www.speech.sri.com/projects/srilm/ СПбГУ, ПМ-ПУ, ТП, 2009
  • 58. Декодер Pharaoh SMT декодер на основе фразовых моделей Строит фразовые таблицы по выравниваниям GIZA++ Перевод по фразовой таблице и SRILM- модели языка http://www.isi.edu/licensed-sw/pharaoh/ СПбГУ, ПМ-ПУ, ТП, 2009
  • 59. Библиография [1] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203- 35979-8 [2] Р. Г. Пиотровский: Автоматизация обработки текста, ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5 [3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf [4] http://www.hutchinsweb.me.uk/IJT-2004.pdf [5] http://www.scientific.ru/trv/2008/013/ostap_bender.html [6] Natural Language Processing, Instructor: Manning, Christopher D., Stanford School of Engineering [7] http://translate.google.com [8] http://www.translate.ru/text_Translation.aspx [9] http://www.google.ru/language_tools [10] http://www.nist.gov/speech/tests/mt/(cont’d) 2005/doc/mt05eval_official_results_release_(cont’d) 20050801_v3.html [11] http://www.hutchinsweb.me.uk/IntroMT-12.pdf [12] http://www.speech.sri.com/ СПбГУ, ПМ-ПУ, ТП, 2009
  • 60. Библиография [13] ALPAC report http://www.nap.edu/openbook.php?record_id=9547&page=R1 [14] Andy Way: Web-based Machine Translation, School of Computing [15] http://en.wikipedia.org/wiki/ [16] Chris Callison-Burch, Philipp Koehn: Introduction to Statistical Machine Translation, ESSLLI 2005 [17] Heshaam Faili: Chapter 21: Machine Translation, University of Tehran [18] http://www.chrisharrison.net/projects/trigramviz/index.html СПбГУ, ПМ-ПУ, ТП, 2009