SlideShare une entreprise Scribd logo
1  sur  19
Télécharger pour lire hors ligne
Метод автоматического построения
   переводного семантического
словаря для машинного перевода

               Кан Дмитрий Александрович
               аспирантура ПМ-ПУ, 3 курс
               кафедра ТП
               2009
Outline

 Два фундаментальных подхода к
 машинному переводу (МП)
 Характеристика классического подхода
 Характеристика статистического подхода
 Задача скрещивания двух подходов
 Переводной семантический словарь
 Экспериментальная система МП
Классика и статистика

 Классика: лингвистические правила;
 трансфер синтаксиса; интерлингва
 Статистика: статистические модели языка,
 перевода и переупорядочивания слов
Интерлингва

 Компьютерная семантика
 Семантический анализатор снимает
 первые две языковые оболочки:
 морфологию и синтаксис
 Каждое слово выражается на
 семантическом языке (аналог
 интерлингвы)
Семантический анализ
    Областью определения базисных функций является множество объектов
    базы знаний.
    является<X005.001>
    (@Тв Областью<X001.001><+СущГлаг3+>
      (@Род определения<X002.002><+СущСущ1+>
        (@Род функций<X004.002><+СущСущ6+>
          (@Род базисных<X003.001><+КАКОЙ:ПрилСущ7+>)
        )
       ),
       @Им множество<X006.001><+ГлагСущ8+>
         (@Род объектов<X007.001><+СущГлагСущ+>
           (@Род базы_знаний<X008.006><+СущСущ4+>)
         )
    )
.
NULL And the program has been implemented
                |    ||         |    ||          |
                         |      |    ||        +-+---+
                         |      |    ||        || |

GIZA++
                        Le programme a ete mis en application




 Модуль выравнивания слов
 Входит в состав пакета Moses
 (статистический МП)
 86000 предложений -> 1,3 млн пар слов в
 выходных данных
 Задача разрешения полисемии
 Высокий уровень избыточности данных в
 словаре
Пара || предложений и выходные
данные

    Desperate to hold onto power , Pervez Musharraf has
discarded Pakistan ' s constitutional framework and
declared a state of emergency .
    NULL ({ 20 }) В ({ }) отчаянном ({ 1 3 4 })
стремлении ({ 2 }) удержать ({ }) власть ({ 5 }) ,
({ 6 }) Первез ({ 7 }) Мушарраф ({ 8}) отверг ({ 9 10 })
конституционную ({ 14 15 }) систему ({ })
Пакистана ({ 11 12 13 }) и ({ 16 })
объявил ({ 17 }) о ({ 18 }) введении ({ })
чрезвычайного ({ 19 21 }) положения ({ }) . ({ 22 })
Таблица соответствий слов
     NULL              of
     отчаянном         Desperate to hold
     стремлении        to
     власть            power
     ,                 ,
     Первез            Pervez
     Мушарраф          Musharraf
     отверг            has discarded
     конституционную   constitutional framework
     Пакистана         Pakistan ’ s
     и                 and
     объявил           declared
     о                 a
     чрезвычайного     state emergency
     .                 .
Переводной семантический словарь

 Семантический анализатор разрешает
 полисемию посредством
 морфологического, синтаксического и
 семантического анализа
 Каждое слово слева имеет свой контекст в
 паре параллельных предложений
 Контекст выражается своей
 семантической формулой
Схема алгоритма


             GIZA++


                                        Переводной
                                        семантический
|| корпус                     merging
                                        словарь



            Семантический анализатор
Выдержка из словаря
В Y1>HabU(Y1:,ПРЕД:Z1)  <149>--->Within
В Y1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1))  <146>--->at
В Y1>Loc(Y1:,Oper01(#,ПРЕД:Z1))  <208>--->In
В Y1>Loc(Y1:,ПРЕД:Z1)  <224>--->Throughout
...
МАРШАЛЛ S1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11)  <2>
--->Marshall
...
НА Y1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1))  <67>--->at
НА Y1>Direkt(Y1:,РОД:Z1)  <100>--->on
НА Y1>Direkt(Y1:,РОД:Z1)  <69>--->for
НА Y1>Direkt(Y1:,РОД:Z1)  <74>--->for the
...
ОБРАЗ (РОД:Z1)  <2>--->a way
ОБЩЕМИРОВОЙ A1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227))
 <1>--->global
...

Всего около 18 тысяч пар слов
Экспериментальная система МП

 Словарный метод третьего уровня
 Первые два: прямой с перебором всех
 флексий (первый уровень) и с
 применением морфологического анализа
 для перехода к леммам (второй уровень)
 Третий уровень: семантический анализ,
 учитывающий ещё и контекст слова
Оценка по BLEU score




                       c – длина перевода-
                       кандидата
                    r – длина Reference
                    корпуса
                   База: N=4, wn=1/N
Сравнение с Moses

 3000 предложений для оценки по BLEU
 Экспериментальная СМП BLEU = 12,89
 Moses BLEU = 21,31
 Moses оперирует над словоформами, в то
 время как экспериментальная СМП
 оперирует над леммами
Примеры переводов
экспериментальной СМП

   Исходное предложение: Распутина скомпрометировали
   государственностью.
перевод Moses: Распутина compromised государственностью.
перевод экспериментальной СМП: Rasputin compromised
by statehood.
   Исходное предложение: У Распутина скрытые доходы.
перевод Moses: the распутина hidden incomes .
перевод экспериментальной СМП: has Rasputin an
implicit income.
Future plans

 Корректный морфологический синтез
 Линеаризация (переупорядочивание слов
 в выходном предложении)
 Перевод корпуса в нижний регистр перед
 GIZA++
 Отработка имён собственных
 Тщательная вычистка словаря
 Постоянное пополнение
Благодарности

 Владимир Порошин
 M-Brain
Литература
      1. Тузов В.А. Компьютерная семантика русского языка. СПб, изд-во
СПбГУ, 2004. 400 с.
      2. Al-Onaizan Y., Curin J., Jahr M., Knight K., Laerty J., Melamed
D., Och F.J., Purdy J., Smith N. A., Yarowsky D. Statistical Machine
Translation. Final report, JHU Workshop, 1999
      3. Och F.J. An Ecient Method for Determining Bilingual Word
classes. // Ninth Conf. of the Europ. Chapter of the Association for
Computational Linguistics. EACL'99. Bergen, Norway, June 1999. P
7176.
      4. Brown P.F., Della Pietra V.J., Della Pietra S.A. and Mercer R.L. The
mathematics of statistical machine translation: Parameter estimation.
// Computational linguistics 19(2), 1993
      5. Koehn P., Hoang H., Birch A., Callison-Burch C., Federico M.,
Bertoldi N., Cowan B., Shen W., Moran C., Zens R., Dyer C.,
Bojar O., Constantin A., Herbst E. Moses: Open Source Toolkit for
Statistical Machine Translation. // Annual Meeting of the Association
for Computational Linguistics (ACL), demonstration session, Prague,
Czech Republic, June 2007.
      6. Klyueva N., Bojar O. UMC 0.1: Czech-Russian-English Multilingual
Corpus. // Proceedings of the Conference quot;Corpora 2008quot;. (In print.)
Спасибо!



           Вопросы?

Contenu connexe

Tendances

Sef 2009 Itsm
Sef 2009 ItsmSef 2009 Itsm
Sef 2009 Itsmsef2009
 
Competitions Cloudwatcher_new
Competitions Cloudwatcher_newCompetitions Cloudwatcher_new
Competitions Cloudwatcher_newguest18d24c
 
робота з батьками, які мають дітей з рса
робота з батьками, які мають дітей з рсаробота з батьками, які мають дітей з рса
робота з батьками, які мають дітей з рсаОльга Демидова
 
Портфоліо методичної комісії викладачів спецдисциплін та майстрів виробничого...
Портфоліо методичної комісії викладачів спецдисциплін та майстрів виробничого...Портфоліо методичної комісії викладачів спецдисциплін та майстрів виробничого...
Портфоліо методичної комісії викладачів спецдисциплін та майстрів виробничого...Віктор Пилип
 
Творчий звіт викладача Мальцевої Т. О.
Творчий звіт викладача Мальцевої Т.  О.Творчий звіт викладача Мальцевої Т.  О.
Творчий звіт викладача Мальцевої Т. О.Віктор Пилип
 
Довідник вступнику до військових навчальних закладів
Довідник вступнику до військових навчальних закладівДовідник вступнику до військових навчальних закладів
Довідник вступнику до військових навчальних закладівssuser6d3afb
 
поширення звуку у природI
поширення звуку у природIпоширення звуку у природI
поширення звуку у природIPaul
 
Освітня програма Верхньовизницької ЗОШ І-ІІІ ст. на 2020/21 навчальний рік
Освітня програма Верхньовизницької ЗОШ І-ІІІ ст. на 2020/21 навчальний рікОсвітня програма Верхньовизницької ЗОШ І-ІІІ ст. на 2020/21 навчальний рік
Освітня програма Верхньовизницької ЗОШ І-ІІІ ст. на 2020/21 навчальний рікssuser1345d9
 
Brazil Report 2007 12 25 12
Brazil Report 2007 12 25 12Brazil Report 2007 12 25 12
Brazil Report 2007 12 25 12Victor Gridnev
 
сульфиды
сульфидысульфиды
сульфидыMano4ka
 
Восхождение разума
Восхождение разумаВосхождение разума
Восхождение разумаDanila Medvedev
 
Dunaev samouchitel js
Dunaev samouchitel jsDunaev samouchitel js
Dunaev samouchitel jssamson1111
 
2009 Inquisitor 3
2009 Inquisitor 32009 Inquisitor 3
2009 Inquisitor 3Liudmila Li
 

Tendances (17)

Sef 2009 Itsm
Sef 2009 ItsmSef 2009 Itsm
Sef 2009 Itsm
 
Competitions Cloudwatcher_new
Competitions Cloudwatcher_newCompetitions Cloudwatcher_new
Competitions Cloudwatcher_new
 
GeoGebra
GeoGebraGeoGebra
GeoGebra
 
skk
skkskk
skk
 
робота з батьками, які мають дітей з рса
робота з батьками, які мають дітей з рсаробота з батьками, які мають дітей з рса
робота з батьками, які мають дітей з рса
 
Портфоліо методичної комісії викладачів спецдисциплін та майстрів виробничого...
Портфоліо методичної комісії викладачів спецдисциплін та майстрів виробничого...Портфоліо методичної комісії викладачів спецдисциплін та майстрів виробничого...
Портфоліо методичної комісії викладачів спецдисциплін та майстрів виробничого...
 
Творчий звіт викладача Мальцевої Т. О.
Творчий звіт викладача Мальцевої Т.  О.Творчий звіт викладача Мальцевої Т.  О.
Творчий звіт викладача Мальцевої Т. О.
 
Довідник вступнику до військових навчальних закладів
Довідник вступнику до військових навчальних закладівДовідник вступнику до військових навчальних закладів
Довідник вступнику до військових навчальних закладів
 
поширення звуку у природI
поширення звуку у природIпоширення звуку у природI
поширення звуку у природI
 
Decree 8 43_7
Decree 8 43_7Decree 8 43_7
Decree 8 43_7
 
Освітня програма Верхньовизницької ЗОШ І-ІІІ ст. на 2020/21 навчальний рік
Освітня програма Верхньовизницької ЗОШ І-ІІІ ст. на 2020/21 навчальний рікОсвітня програма Верхньовизницької ЗОШ І-ІІІ ст. на 2020/21 навчальний рік
Освітня програма Верхньовизницької ЗОШ І-ІІІ ст. на 2020/21 навчальний рік
 
Brazil Report 2007 12 25 12
Brazil Report 2007 12 25 12Brazil Report 2007 12 25 12
Brazil Report 2007 12 25 12
 
сульфиды
сульфидысульфиды
сульфиды
 
Восхождение разума
Восхождение разумаВосхождение разума
Восхождение разума
 
Dunaev samouchitel js
Dunaev samouchitel jsDunaev samouchitel js
Dunaev samouchitel js
 
4
44
4
 
2009 Inquisitor 3
2009 Inquisitor 32009 Inquisitor 3
2009 Inquisitor 3
 

En vedette

Starget sentiment analyzer for English
Starget sentiment analyzer for EnglishStarget sentiment analyzer for English
Starget sentiment analyzer for EnglishDmitry Kan
 
Lucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeupLucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeupDmitry Kan
 
Semantic feature machine translation system
Semantic feature machine translation systemSemantic feature machine translation system
Semantic feature machine translation systemDmitry Kan
 
Linguistic component Sentiment Analyzer for the Russian language
Linguistic component Sentiment Analyzer for the Russian languageLinguistic component Sentiment Analyzer for the Russian language
Linguistic component Sentiment Analyzer for the Russian languageDmitry Kan
 
Introduction To Machine Translation 1
Introduction To Machine Translation 1Introduction To Machine Translation 1
Introduction To Machine Translation 1Dmitry Kan
 
Machine translation course program (in English)
Machine translation course program (in English)Machine translation course program (in English)
Machine translation course program (in English)Dmitry Kan
 
Solr onfitnesse learningfromberlinbuzzwords
Solr onfitnesse learningfromberlinbuzzwordsSolr onfitnesse learningfromberlinbuzzwords
Solr onfitnesse learningfromberlinbuzzwordsDmitry Kan
 
Social spam detection by SemanticAnalyzer Group
Social spam detection by SemanticAnalyzer GroupSocial spam detection by SemanticAnalyzer Group
Social spam detection by SemanticAnalyzer GroupDmitry Kan
 
Linguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageLinguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageDmitry Kan
 
MTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine TranslationMTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine TranslationDmitry Kan
 
Introduction To Machine Translation
Introduction To Machine TranslationIntroduction To Machine Translation
Introduction To Machine TranslationDmitry Kan
 
NoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopNoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopDmitry Kan
 
Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Dmitry Kan
 
Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Dmitry Kan
 
Rule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesRule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesDmitry Kan
 
Linguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageLinguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageDmitry Kan
 
Semantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use casesSemantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use casesDmitry Kan
 
IR: Open source state
IR: Open source stateIR: Open source state
IR: Open source stateDmitry Kan
 

En vedette (18)

Starget sentiment analyzer for English
Starget sentiment analyzer for EnglishStarget sentiment analyzer for English
Starget sentiment analyzer for English
 
Lucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeupLucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeup
 
Semantic feature machine translation system
Semantic feature machine translation systemSemantic feature machine translation system
Semantic feature machine translation system
 
Linguistic component Sentiment Analyzer for the Russian language
Linguistic component Sentiment Analyzer for the Russian languageLinguistic component Sentiment Analyzer for the Russian language
Linguistic component Sentiment Analyzer for the Russian language
 
Introduction To Machine Translation 1
Introduction To Machine Translation 1Introduction To Machine Translation 1
Introduction To Machine Translation 1
 
Machine translation course program (in English)
Machine translation course program (in English)Machine translation course program (in English)
Machine translation course program (in English)
 
Solr onfitnesse learningfromberlinbuzzwords
Solr onfitnesse learningfromberlinbuzzwordsSolr onfitnesse learningfromberlinbuzzwords
Solr onfitnesse learningfromberlinbuzzwords
 
Social spam detection by SemanticAnalyzer Group
Social spam detection by SemanticAnalyzer GroupSocial spam detection by SemanticAnalyzer Group
Social spam detection by SemanticAnalyzer Group
 
Linguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageLinguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian language
 
MTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine TranslationMTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine Translation
 
Introduction To Machine Translation
Introduction To Machine TranslationIntroduction To Machine Translation
Introduction To Machine Translation
 
NoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopNoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache Hadoop
 
Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011
 
Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...
 
Rule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesRule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slides
 
Linguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageLinguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian language
 
Semantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use casesSemantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use cases
 
IR: Open source state
IR: Open source stateIR: Open source state
IR: Open source state
 

Plus de Dmitry Kan

London IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use casesLondon IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use casesDmitry Kan
 
Vector databases and neural search
Vector databases and neural searchVector databases and neural search
Vector databases and neural searchDmitry Kan
 
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...Dmitry Kan
 
SentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaSentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaDmitry Kan
 
Icsoft 2011 51_cr
Icsoft 2011 51_crIcsoft 2011 51_cr
Icsoft 2011 51_crDmitry Kan
 
Computer Semantics And Machine Translation
Computer Semantics And Machine TranslationComputer Semantics And Machine Translation
Computer Semantics And Machine TranslationDmitry Kan
 

Plus de Dmitry Kan (6)

London IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use casesLondon IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use cases
 
Vector databases and neural search
Vector databases and neural searchVector databases and neural search
Vector databases and neural search
 
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
 
SentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaSentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social media
 
Icsoft 2011 51_cr
Icsoft 2011 51_crIcsoft 2011 51_cr
Icsoft 2011 51_cr
 
Computer Semantics And Machine Translation
Computer Semantics And Machine TranslationComputer Semantics And Machine Translation
Computer Semantics And Machine Translation
 

Automatic Build Of Semantic Translational Dictionary

  • 1. Метод автоматического построения переводного семантического словаря для машинного перевода Кан Дмитрий Александрович аспирантура ПМ-ПУ, 3 курс кафедра ТП 2009
  • 2. Outline Два фундаментальных подхода к машинному переводу (МП) Характеристика классического подхода Характеристика статистического подхода Задача скрещивания двух подходов Переводной семантический словарь Экспериментальная система МП
  • 3. Классика и статистика Классика: лингвистические правила; трансфер синтаксиса; интерлингва Статистика: статистические модели языка, перевода и переупорядочивания слов
  • 4. Интерлингва Компьютерная семантика Семантический анализатор снимает первые две языковые оболочки: морфологию и синтаксис Каждое слово выражается на семантическом языке (аналог интерлингвы)
  • 5. Семантический анализ Областью определения базисных функций является множество объектов базы знаний. является<X005.001> (@Тв Областью<X001.001><+СущГлаг3+> (@Род определения<X002.002><+СущСущ1+> (@Род функций<X004.002><+СущСущ6+> (@Род базисных<X003.001><+КАКОЙ:ПрилСущ7+>) ) ), @Им множество<X006.001><+ГлагСущ8+> (@Род объектов<X007.001><+СущГлагСущ+> (@Род базы_знаний<X008.006><+СущСущ4+>) ) ) .
  • 6. NULL And the program has been implemented | || | || | | | || +-+---+ | | || || | GIZA++ Le programme a ete mis en application Модуль выравнивания слов Входит в состав пакета Moses (статистический МП) 86000 предложений -> 1,3 млн пар слов в выходных данных Задача разрешения полисемии Высокий уровень избыточности данных в словаре
  • 7. Пара || предложений и выходные данные Desperate to hold onto power , Pervez Musharraf has discarded Pakistan ' s constitutional framework and declared a state of emergency . NULL ({ 20 }) В ({ }) отчаянном ({ 1 3 4 }) стремлении ({ 2 }) удержать ({ }) власть ({ 5 }) , ({ 6 }) Первез ({ 7 }) Мушарраф ({ 8}) отверг ({ 9 10 }) конституционную ({ 14 15 }) систему ({ }) Пакистана ({ 11 12 13 }) и ({ 16 }) объявил ({ 17 }) о ({ 18 }) введении ({ }) чрезвычайного ({ 19 21 }) положения ({ }) . ({ 22 })
  • 8. Таблица соответствий слов NULL of отчаянном Desperate to hold стремлении to власть power , , Первез Pervez Мушарраф Musharraf отверг has discarded конституционную constitutional framework Пакистана Pakistan ’ s и and объявил declared о a чрезвычайного state emergency . .
  • 9. Переводной семантический словарь Семантический анализатор разрешает полисемию посредством морфологического, синтаксического и семантического анализа Каждое слово слева имеет свой контекст в паре параллельных предложений Контекст выражается своей семантической формулой
  • 10. Схема алгоритма GIZA++ Переводной семантический || корпус merging словарь Семантический анализатор
  • 11. Выдержка из словаря В Y1>HabU(Y1:,ПРЕД:Z1) <149>--->Within В Y1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) <146>--->at В Y1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) <208>--->In В Y1>Loc(Y1:,ПРЕД:Z1) <224>--->Throughout ... МАРШАЛЛ S1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) <2> --->Marshall ... НА Y1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) <67>--->at НА Y1>Direkt(Y1:,РОД:Z1) <100>--->on НА Y1>Direkt(Y1:,РОД:Z1) <69>--->for НА Y1>Direkt(Y1:,РОД:Z1) <74>--->for the ... ОБРАЗ (РОД:Z1) <2>--->a way ОБЩЕМИРОВОЙ A1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227)) <1>--->global ... Всего около 18 тысяч пар слов
  • 12. Экспериментальная система МП Словарный метод третьего уровня Первые два: прямой с перебором всех флексий (первый уровень) и с применением морфологического анализа для перехода к леммам (второй уровень) Третий уровень: семантический анализ, учитывающий ещё и контекст слова
  • 13. Оценка по BLEU score c – длина перевода- кандидата r – длина Reference корпуса База: N=4, wn=1/N
  • 14. Сравнение с Moses 3000 предложений для оценки по BLEU Экспериментальная СМП BLEU = 12,89 Moses BLEU = 21,31 Moses оперирует над словоформами, в то время как экспериментальная СМП оперирует над леммами
  • 15. Примеры переводов экспериментальной СМП Исходное предложение: Распутина скомпрометировали государственностью. перевод Moses: Распутина compromised государственностью. перевод экспериментальной СМП: Rasputin compromised by statehood. Исходное предложение: У Распутина скрытые доходы. перевод Moses: the распутина hidden incomes . перевод экспериментальной СМП: has Rasputin an implicit income.
  • 16. Future plans Корректный морфологический синтез Линеаризация (переупорядочивание слов в выходном предложении) Перевод корпуса в нижний регистр перед GIZA++ Отработка имён собственных Тщательная вычистка словаря Постоянное пополнение
  • 18. Литература 1. Тузов В.А. Компьютерная семантика русского языка. СПб, изд-во СПбГУ, 2004. 400 с. 2. Al-Onaizan Y., Curin J., Jahr M., Knight K., Laerty J., Melamed D., Och F.J., Purdy J., Smith N. A., Yarowsky D. Statistical Machine Translation. Final report, JHU Workshop, 1999 3. Och F.J. An Ecient Method for Determining Bilingual Word classes. // Ninth Conf. of the Europ. Chapter of the Association for Computational Linguistics. EACL'99. Bergen, Norway, June 1999. P 7176. 4. Brown P.F., Della Pietra V.J., Della Pietra S.A. and Mercer R.L. The mathematics of statistical machine translation: Parameter estimation. // Computational linguistics 19(2), 1993 5. Koehn P., Hoang H., Birch A., Callison-Burch C., Federico M., Bertoldi N., Cowan B., Shen W., Moran C., Zens R., Dyer C., Bojar O., Constantin A., Herbst E. Moses: Open Source Toolkit for Statistical Machine Translation. // Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007. 6. Klyueva N., Bojar O. UMC 0.1: Czech-Russian-English Multilingual Corpus. // Proceedings of the Conference quot;Corpora 2008quot;. (In print.)
  • 19. Спасибо! Вопросы?