SlideShare une entreprise Scribd logo
1  sur  43
Компьютерная
семантика и
машинный перевод
Дмитрий Кан
3 курс аспирантуры
ПМ-ПУ, СПбГУ
      2009
Outline
 Компьютерная семантика
 Машинный перевод
 Статистика и классика
 Гибридные подходы
 Иерархическая линеаризация
 Переводной семантический словарь
Введение в компьютерную
семантику
 Глаголы, предлоги, слова-свойства
 Базисные функции
 Иерархия классов (картина мира + снятие
 полисемии=функции с разными аргументами)
 Присоединение слов
 Взаимодействие: морфология, синтаксис,
 семантика
 Полисемия (разбивать: чашку, сквер,
 колено, сердце)
Этапы формализации языка
 Отделение семантики от прагматики
 Предложение как запись команд
 Выполнение предложения по
 суперпозиции по функций
 Анализ слова
 Анализ предложения
 Отличие от предикатов
Базисные функции
 Caus(x,y) – x делает так, чтобы y (x каузирует y)
 Cont (x)     – x продолжается
 Lab(x,y) – x подвергается действию y
 Incep(x)     – x начинается
 Fin(x)       – x заканчивается, перестает
 Func (x)     – имеет место быть x
 Perf(x)      – перфектность (завершенность) x
 Fact(x) – x соблюдается
 Prepar(x)    – x приготовляется
 Multo(x) – множество x
 Ne x – не x.
Смыслы
СОБЛЮДАТЬСЯ         Fact(Им)
НАРУШАТЬСЯ          Fin Fact(Им)
СОБЛЮДАТЬ           Caus(Им,Cont Fact(Вин))
НАРУШИТЬ            Perf Caus(Им,Fin Fact(Вин))
НАРУШАТЬ            Caus(Им,Fin Fact(Вин))
ГАСИТЬ              Caus(Им,Fin Lab(Вин,ОГОНЬ))         Гасить свечу
ГАСИТЬ              Caus(Им,Fin Func (ПРОЦЕСС Вин))     Гасить колебания
ГОРЕТЬ                          Lab(Им,ОГОНЬ)
ЗАГОРЕТЬСЯ          Perf Incep Lab(Им,ОГОНЬ)
ПОГАСИТЬ            Perf Caus(Им,Fin Lab(Вин,ОГОНЬ))
ПОТУШИТЬ            Perf Caus(Им,Fin Lab(Вин,ОГОНЬ))             
Потушить свечу
ПОТУШИТЬ            Perf Caus(Им,Prepar(ПИЩА Вин))               
Потушить картошку
ТУШИТЬ              Caus(Им,Fin Lab(Вин,ОГОНЬ))         Тушить свечу
ТУШИТЬ              Caus(Им,Prepar(ПИЩА Вин))           Тушить картошку.
Машинный перевод: мотивация

 Перевод объвлений, изучение языков
 Перевод запросов для расширения
 области поиска и перевод результатов
 поиска
 Семантика по WordNet: перевод на
 английский
 Публикация статей!
Исторические вехи
 Иностранный текст, как
 криптографический шифр
 ALPAC доклад
 Systran, ПРОМТ, Google Translate
Google translate
 But the ambition is to produce reams of
 paper that could one day power a car.

 Google Translate Beta (Статистический
 подход, США, 1е место на NIST, 2005):
 Но амбиция заключается в том, чтобы
 производить пачек бумаги
 , которые могли бы один день
 мощность автомобиля.
ПРОМТ
 But the ambition is to produce reams of
 paper that could one day power a car.

 PROMT Translator (Традиционный
 подход, Россия, год основания: 1991)
 Но амбиция состоит в том, чтобы
 произвести стопки бумаг, которые
 могли однажды привести автомобиль
 в действие.
Systran
 But the ambition is to produce reams of
 paper that could one day power a car.

 Systran (Традиционный подход,
 Франция, год основания: 1968)
 Но гонор произвести reams бумаги
 которые смогли дн сила автомобиль.
Основные подходы
           Interlingua



Анализ      Transfer Порождение

$_source      Direct      $_target
Методы машинного перевода
                    MT

  Rule-Based MT            Data-Driven MT

 Transfer Interlingua      EBMT              SMT
                        (Example based MT)
SMT in a nutshell
 Максимизировать
 p(e|f), e – предложение перевода, f –
 предложение оригинала
 Теорема Байеса:


               p e p f e
      p e f                  1
                  p f
SMT in a nutshell #1
 p(e) – Языковая модель, которая:
   Назначает наибольшую вероятность
   беглым, грамматически верным
   предложениям
   Вычисляется по одноязычному корпусу
 p(f|e) – Модель перевода
   Назначает наибольшую вероятность
   парам предложений с одним значением
   Вычисляется по двуязычному корпусу
Подзадачи МП
 Лемматизация (русский, финский)
 Переупорядочение слов
 Переводные словари (фразовые или
 семантические)
 Маппинг синтаксических структур (японский:
 рекурсивный синтаксис)
 Word alignment
 Sentence alignment
 Parallel corpora
Методы оценки СМП
 BLEU score
 METEOR
 Round-trip
BLEU score



              c – длина перевода-
              кандидата
              r – длина Reference
              корпуса

             База: N=4, wn=1/N
Word reordering
 Статистика: N!, сужение пространства
 перебора
 Классика: математические методы,
 теория мереологии, иерархическая
 линеаризация (не упорядочение!)
Иерархическая линеаризация
 Мельчук (слабые и сильные связи)
   Слово определяет строгий порядок группы слов
   Слова соединяются в группы (деепр. обороты)
   Слова не вляют на взаимный порядок
 Семантическое дерево
 STL-like tree
 Перенос поддеревьев
 Сложные предложения (Я постучал, и Петя открыл
 дверь)
 Приложения: МП, plagiarism detection, summarization
Пример семантического дерева
любит<X007.004>
  (@Вин Сашу<X003.002><+СущСущ3+>
    (@Вин Умного<X001.001><+Какой:ПрилСущ7+>,
     @Вин красивого<X002.001><+Однородный:ОднорПрил6+>),
  @Им Маша<X006.003><+СущГлаг3+>
    (@Им интересная<X004.001><+КАКОЙ:ПрилСущ7+>,
    @Им
   замечательная<X005.001><+Однородный:ОднорПрил6+>)
)
.
   Умного красивого Сашу любит интересная замечательная
   Маша.
Визуальная интерпретация
Tree in C++ STL style
Правила линеаризации (русский
язык)
   Узлы подлежат обмену только на одном
   уровне в семантическом дереве
   При синтезе уточняющие прилагательные
   предшествуют существительным
   Притяжательные местоимения также
   предшетсвуют существительным
   Предлоги предшествуют своим поддеревьям
   в синтезируемом предложении
Замечательная интересная Маша любит красивого умного Сашу.
Псевдо-код
Псевдо-код#1
Псевдо-код#2
Переводной семантический
словарь
 7 лет на семантический словарь:
 частично автоматическое построение
 Для перевода: важнейший компонент
 Как ускорить процесс?
Ответ: GIZA++
 Гибридный подход
 Статистическое выравнивание слов
 Автоматическая генерация словаря
 Необходимость параллельного корпуса
 Проверка качества через
 экспериментальную СМП
NULL And the program has been implemented
                 |    | |        |    | |         |

GIZA++                    |
                          |
                                 |
                                 |
                                      | |
                                      | |
                                                +-+---+
                                                | | |
                         Le programme a ete mis en application



  Модуль выравнивания слов
  Входит в состав пакета Moses
  (статистический МП)
  86000 предложений -> 1,3 млн пар слов в
  выходных данных
  Задача разрешения полисемии
  Высокий уровень избыточности данных в
  словаре
GIZA++: output
   Desperate to hold onto power , Pervez Musharraf has
discarded Pakistan ' s constitutional framework and
declared a state of emergency .
   NULL ({ 20 }) В ({ }) отчаянном ({ 1 3 4 })
стремлении ({ 2 }) удержать ({ }) власть ({ 5 }) ,
({ 6 }) Первез ({ 7 }) Мушарраф ({ 8}) отверг ({ 9 10 })
конституционную ({ 14 15 }) систему ({ })
Пакистана ({ 11 12 13 }) и ({ 16 })
объявил ({ 17 }) о ({ 18 }) введении ({ })
чрезвычайного ({ 19 21 }) положения ({ }) . ({ 22 })
Таблица соответствий слов
NULL              of
отчаянном         Desperate to hold
стремлении        to
власть            power
,                 ,
Первез            Pervez
Мушарраф          Musharraf
отверг            has discarded
конституционную   constitutional framework
Пакистана         Pakistan ’ s
и                 and
объявил           declared
о                 a
чрезвычайного     state emergency
.                 .
Схема алгоритма

             GIZA++


                                        Переводной
|| корпус                     merging   семантический
                                        словарь



            Семантический анализатор
Выдержка из словаря
В Y1>HabU(Y1:,ПРЕД:Z1)  <149>--->Within
В Y1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1))  <146>--->at
В Y1>Loc(Y1:,Oper01(#,ПРЕД:Z1))  <208>--->In
В Y1>Loc(Y1:,ПРЕД:Z1)  <224>--->Throughout
...
МАРШАЛЛ S1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11)  <2>
--->Marshall
...
НА Y1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1))  <67>--->at
НА Y1>Direkt(Y1:,РОД:Z1)  <100>--->on
НА Y1>Direkt(Y1:,РОД:Z1)  <69>--->for
НА Y1>Direkt(Y1:,РОД:Z1)  <74>--->for the
...
ОБРАЗ (РОД:Z1)  <2>--->a way
ОБЩЕМИРОВОЙ A1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227))
 <1>--->global
...
Всего около 18 тысяч пар слов
Экспериментальная система МП

•Словарный метод третьего уровня
•Первые два: прямой с перебором всех
флексий (первый уровень) и с применением
морфологического анализа для перехода к
леммам (второй уровень)
•Третий уровень: семантический анализ,
учитывающий ещё и контекст слова
Примеры переводов
 Отчет, написанный рукой Распутина.
 Review was written hand Rasputin.
 В этой статье Аббас разбирает доклад Распутина.
 In this article Abbas review report Rasputin.
 Распутина скомпрометировали государственностью.
 Rasputin compromised by statehood.
 Распутин вел скрытный образ жизни.
 Rasputin lead secretive way of life.
 У Распутина скрытые доходы.
 have Rasputin an implicit income.
Улучшение качества словаря
 Удаление дубликатов (sort | uc >>
 output)
 Добавление синтаксической
 информации: роли в предложении
 Добавление СГТ
 Вычисление предлогов: анализ
 словосочетаний с предлогами
Moses: почему статистика не
справляется?
 Статистическая модель – только
 приближение языковой модели, при том
 сугубо численное
 Зависимость от качества корпуса
 Перевод человека зачастую не прямолинеен
 и иносказателен, отсюда снижение качества
 Сложные пары языков: с богатой
 морфологией
 Снятие полисемии через лемматизацию –
 грубое отсечение семантики
Классика: недостатки
 Медленная разработка
 Привязка к одному языку или группе
 схожих языков (синтаксис, порядок
 слов)


            Скрещивание!
Перевод на русский
 Сборка по семантическим формулам
 Анализатор иностранного языка
 Статистический подход для en->ru
Открытые задачи
 Прагматика
 Анализ текста: связи и свойства
 объектов, анафорические ссылки
 Hän meni kauppaan. -> Он (она?) пошёл
 (ла?) в магазин.
 Анафорические ссылки на часть текста
Литература
 [1] Тузов В. А. Компьютерная семантика русского языка, СПб.: Изд-во С.-
 Петерб. ун-та, 2004. 400 с.
 [2] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203-
 35979-8
 [3] Мельчук И. А. Русский текст в модели «смысл<->текст». М.: Языки русской
 культуры, 1995. 682 с.
 [4] http://www.hutchinsweb.me.uk/MTJ-2000.pdf
 [5] http://www.hutchinsweb.me.uk/IJT-2004.pdf
 [6] http://www.scientific.ru/trv/2008/013/ostap_bender.html
 [7] Natural Language Processing, Instructor: Manning, Christopher D., Stanford
 School of Engineering
 [8] http://translate.google.com
 [9] http://www.translate.ru/text_Translation.aspx
 [10] Кан Д. А., Лебедев И. С.: Линеаризация при синтезе предложений на
 естественном языке // Политехнический симпозиум «Молодые ученые
 промышленности Северо-Западного региона»; материалы конференций. СПб.:
 Изд-во С.-Петерб. политехн. ун-та, 2007. С. 15-16

Contenu connexe

Similaire à Computer Semantics And Machine Translation

Semantic feature machine translation system
Semantic feature machine translation systemSemantic feature machine translation system
Semantic feature machine translation systemDmitry Kan
 
Яндекс Малый ШАД - лингвистика в поиске
Яндекс  Малый ШАД - лингвистика в поискеЯндекс  Малый ШАД - лингвистика в поиске
Яндекс Малый ШАД - лингвистика в поискеЕвгений Летов
 
SemanticAnalyzer
SemanticAnalyzerSemanticAnalyzer
SemanticAnalyzerNLPseminar
 
Etap overview rus
Etap overview rusEtap overview rus
Etap overview rusyaevents
 
A System of Deductive Verification of Predicate Programs
A System of Deductive Verification of Predicate ProgramsA System of Deductive Verification of Predicate Programs
A System of Deductive Verification of Predicate ProgramsIosif Itkin
 

Similaire à Computer Semantics And Machine Translation (8)

Semantic feature machine translation system
Semantic feature machine translation systemSemantic feature machine translation system
Semantic feature machine translation system
 
Яндекс Малый ШАД - лингвистика в поиске
Яндекс  Малый ШАД - лингвистика в поискеЯндекс  Малый ШАД - лингвистика в поиске
Яндекс Малый ШАД - лингвистика в поиске
 
SemanticAnalyzer
SemanticAnalyzerSemanticAnalyzer
SemanticAnalyzer
 
Etap overview rus
Etap overview rusEtap overview rus
Etap overview rus
 
Logacheva
LogachevaLogacheva
Logacheva
 
RussNet
RussNetRussNet
RussNet
 
A System of Deductive Verification of Predicate Programs
A System of Deductive Verification of Predicate ProgramsA System of Deductive Verification of Predicate Programs
A System of Deductive Verification of Predicate Programs
 
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекцииАвтоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
 

Plus de Dmitry Kan

London IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use casesLondon IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use casesDmitry Kan
 
Vector databases and neural search
Vector databases and neural searchVector databases and neural search
Vector databases and neural searchDmitry Kan
 
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...Dmitry Kan
 
IR: Open source state
IR: Open source stateIR: Open source state
IR: Open source stateDmitry Kan
 
SentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaSentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaDmitry Kan
 
Social spam detection by SemanticAnalyzer Group
Social spam detection by SemanticAnalyzer GroupSocial spam detection by SemanticAnalyzer Group
Social spam detection by SemanticAnalyzer GroupDmitry Kan
 
Lucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeupLucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeupDmitry Kan
 
Starget sentiment analyzer for English
Starget sentiment analyzer for EnglishStarget sentiment analyzer for English
Starget sentiment analyzer for EnglishDmitry Kan
 
Linguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageLinguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageDmitry Kan
 
Linguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageLinguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageDmitry Kan
 
Linguistic component Sentiment Analyzer for the Russian language
Linguistic component Sentiment Analyzer for the Russian languageLinguistic component Sentiment Analyzer for the Russian language
Linguistic component Sentiment Analyzer for the Russian languageDmitry Kan
 
Solr onfitnesse learningfromberlinbuzzwords
Solr onfitnesse learningfromberlinbuzzwordsSolr onfitnesse learningfromberlinbuzzwords
Solr onfitnesse learningfromberlinbuzzwordsDmitry Kan
 
MTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine TranslationMTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine TranslationDmitry Kan
 
Rule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesRule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesDmitry Kan
 
Machine translation course program (in English)
Machine translation course program (in English)Machine translation course program (in English)
Machine translation course program (in English)Dmitry Kan
 
Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Dmitry Kan
 
Icsoft 2011 51_cr
Icsoft 2011 51_crIcsoft 2011 51_cr
Icsoft 2011 51_crDmitry Kan
 
Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Dmitry Kan
 
NoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopNoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopDmitry Kan
 
Introduction To Machine Translation 1
Introduction To Machine Translation 1Introduction To Machine Translation 1
Introduction To Machine Translation 1Dmitry Kan
 

Plus de Dmitry Kan (20)

London IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use casesLondon IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use cases
 
Vector databases and neural search
Vector databases and neural searchVector databases and neural search
Vector databases and neural search
 
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
 
IR: Open source state
IR: Open source stateIR: Open source state
IR: Open source state
 
SentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaSentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social media
 
Social spam detection by SemanticAnalyzer Group
Social spam detection by SemanticAnalyzer GroupSocial spam detection by SemanticAnalyzer Group
Social spam detection by SemanticAnalyzer Group
 
Lucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeupLucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeup
 
Starget sentiment analyzer for English
Starget sentiment analyzer for EnglishStarget sentiment analyzer for English
Starget sentiment analyzer for English
 
Linguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageLinguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian language
 
Linguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageLinguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian language
 
Linguistic component Sentiment Analyzer for the Russian language
Linguistic component Sentiment Analyzer for the Russian languageLinguistic component Sentiment Analyzer for the Russian language
Linguistic component Sentiment Analyzer for the Russian language
 
Solr onfitnesse learningfromberlinbuzzwords
Solr onfitnesse learningfromberlinbuzzwordsSolr onfitnesse learningfromberlinbuzzwords
Solr onfitnesse learningfromberlinbuzzwords
 
MTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine TranslationMTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine Translation
 
Rule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesRule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slides
 
Machine translation course program (in English)
Machine translation course program (in English)Machine translation course program (in English)
Machine translation course program (in English)
 
Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011
 
Icsoft 2011 51_cr
Icsoft 2011 51_crIcsoft 2011 51_cr
Icsoft 2011 51_cr
 
Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...
 
NoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopNoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache Hadoop
 
Introduction To Machine Translation 1
Introduction To Machine Translation 1Introduction To Machine Translation 1
Introduction To Machine Translation 1
 

Computer Semantics And Machine Translation

  • 1. Компьютерная семантика и машинный перевод Дмитрий Кан 3 курс аспирантуры ПМ-ПУ, СПбГУ 2009
  • 2. Outline Компьютерная семантика Машинный перевод Статистика и классика Гибридные подходы Иерархическая линеаризация Переводной семантический словарь
  • 3. Введение в компьютерную семантику Глаголы, предлоги, слова-свойства Базисные функции Иерархия классов (картина мира + снятие полисемии=функции с разными аргументами) Присоединение слов Взаимодействие: морфология, синтаксис, семантика Полисемия (разбивать: чашку, сквер, колено, сердце)
  • 4. Этапы формализации языка Отделение семантики от прагматики Предложение как запись команд Выполнение предложения по суперпозиции по функций Анализ слова Анализ предложения Отличие от предикатов
  • 5. Базисные функции Caus(x,y) – x делает так, чтобы y (x каузирует y) Cont (x) – x продолжается Lab(x,y) – x подвергается действию y Incep(x) – x начинается Fin(x) – x заканчивается, перестает Func (x) – имеет место быть x Perf(x) – перфектность (завершенность) x Fact(x) – x соблюдается Prepar(x) – x приготовляется Multo(x) – множество x Ne x – не x.
  • 6. Смыслы СОБЛЮДАТЬСЯ Fact(Им) НАРУШАТЬСЯ Fin Fact(Им) СОБЛЮДАТЬ Caus(Им,Cont Fact(Вин)) НАРУШИТЬ Perf Caus(Им,Fin Fact(Вин)) НАРУШАТЬ Caus(Им,Fin Fact(Вин)) ГАСИТЬ Caus(Им,Fin Lab(Вин,ОГОНЬ)) Гасить свечу ГАСИТЬ Caus(Им,Fin Func (ПРОЦЕСС Вин)) Гасить колебания ГОРЕТЬ Lab(Им,ОГОНЬ) ЗАГОРЕТЬСЯ Perf Incep Lab(Им,ОГОНЬ) ПОГАСИТЬ Perf Caus(Им,Fin Lab(Вин,ОГОНЬ)) ПОТУШИТЬ Perf Caus(Им,Fin Lab(Вин,ОГОНЬ)) Потушить свечу ПОТУШИТЬ Perf Caus(Им,Prepar(ПИЩА Вин)) Потушить картошку ТУШИТЬ Caus(Им,Fin Lab(Вин,ОГОНЬ)) Тушить свечу ТУШИТЬ Caus(Им,Prepar(ПИЩА Вин)) Тушить картошку.
  • 7. Машинный перевод: мотивация Перевод объвлений, изучение языков Перевод запросов для расширения области поиска и перевод результатов поиска Семантика по WordNet: перевод на английский Публикация статей!
  • 8. Исторические вехи Иностранный текст, как криптографический шифр ALPAC доклад Systran, ПРОМТ, Google Translate
  • 9. Google translate But the ambition is to produce reams of paper that could one day power a car. Google Translate Beta (Статистический подход, США, 1е место на NIST, 2005): Но амбиция заключается в том, чтобы производить пачек бумаги , которые могли бы один день мощность автомобиля.
  • 10. ПРОМТ But the ambition is to produce reams of paper that could one day power a car. PROMT Translator (Традиционный подход, Россия, год основания: 1991) Но амбиция состоит в том, чтобы произвести стопки бумаг, которые могли однажды привести автомобиль в действие.
  • 11. Systran But the ambition is to produce reams of paper that could one day power a car. Systran (Традиционный подход, Франция, год основания: 1968) Но гонор произвести reams бумаги которые смогли дн сила автомобиль.
  • 12. Основные подходы Interlingua Анализ Transfer Порождение $_source Direct $_target
  • 13. Методы машинного перевода MT Rule-Based MT Data-Driven MT Transfer Interlingua EBMT SMT (Example based MT)
  • 14. SMT in a nutshell Максимизировать p(e|f), e – предложение перевода, f – предложение оригинала Теорема Байеса: p e p f e p e f 1 p f
  • 15. SMT in a nutshell #1 p(e) – Языковая модель, которая: Назначает наибольшую вероятность беглым, грамматически верным предложениям Вычисляется по одноязычному корпусу p(f|e) – Модель перевода Назначает наибольшую вероятность парам предложений с одним значением Вычисляется по двуязычному корпусу
  • 16.
  • 17. Подзадачи МП Лемматизация (русский, финский) Переупорядочение слов Переводные словари (фразовые или семантические) Маппинг синтаксических структур (японский: рекурсивный синтаксис) Word alignment Sentence alignment Parallel corpora
  • 18. Методы оценки СМП BLEU score METEOR Round-trip
  • 19. BLEU score c – длина перевода- кандидата r – длина Reference корпуса База: N=4, wn=1/N
  • 20. Word reordering Статистика: N!, сужение пространства перебора Классика: математические методы, теория мереологии, иерархическая линеаризация (не упорядочение!)
  • 21. Иерархическая линеаризация Мельчук (слабые и сильные связи) Слово определяет строгий порядок группы слов Слова соединяются в группы (деепр. обороты) Слова не вляют на взаимный порядок Семантическое дерево STL-like tree Перенос поддеревьев Сложные предложения (Я постучал, и Петя открыл дверь) Приложения: МП, plagiarism detection, summarization
  • 22. Пример семантического дерева любит<X007.004> (@Вин Сашу<X003.002><+СущСущ3+> (@Вин Умного<X001.001><+Какой:ПрилСущ7+>, @Вин красивого<X002.001><+Однородный:ОднорПрил6+>), @Им Маша<X006.003><+СущГлаг3+> (@Им интересная<X004.001><+КАКОЙ:ПрилСущ7+>, @Им замечательная<X005.001><+Однородный:ОднорПрил6+>) ) . Умного красивого Сашу любит интересная замечательная Маша.
  • 24. Tree in C++ STL style
  • 25. Правила линеаризации (русский язык) Узлы подлежат обмену только на одном уровне в семантическом дереве При синтезе уточняющие прилагательные предшествуют существительным Притяжательные местоимения также предшетсвуют существительным Предлоги предшествуют своим поддеревьям в синтезируемом предложении Замечательная интересная Маша любит красивого умного Сашу.
  • 29. Переводной семантический словарь 7 лет на семантический словарь: частично автоматическое построение Для перевода: важнейший компонент Как ускорить процесс?
  • 30. Ответ: GIZA++ Гибридный подход Статистическое выравнивание слов Автоматическая генерация словаря Необходимость параллельного корпуса Проверка качества через экспериментальную СМП
  • 31. NULL And the program has been implemented | | | | | | | GIZA++ | | | | | | | | +-+---+ | | | Le programme a ete mis en application Модуль выравнивания слов Входит в состав пакета Moses (статистический МП) 86000 предложений -> 1,3 млн пар слов в выходных данных Задача разрешения полисемии Высокий уровень избыточности данных в словаре
  • 32. GIZA++: output Desperate to hold onto power , Pervez Musharraf has discarded Pakistan ' s constitutional framework and declared a state of emergency . NULL ({ 20 }) В ({ }) отчаянном ({ 1 3 4 }) стремлении ({ 2 }) удержать ({ }) власть ({ 5 }) , ({ 6 }) Первез ({ 7 }) Мушарраф ({ 8}) отверг ({ 9 10 }) конституционную ({ 14 15 }) систему ({ }) Пакистана ({ 11 12 13 }) и ({ 16 }) объявил ({ 17 }) о ({ 18 }) введении ({ }) чрезвычайного ({ 19 21 }) положения ({ }) . ({ 22 })
  • 33. Таблица соответствий слов NULL of отчаянном Desperate to hold стремлении to власть power , , Первез Pervez Мушарраф Musharraf отверг has discarded конституционную constitutional framework Пакистана Pakistan ’ s и and объявил declared о a чрезвычайного state emergency . .
  • 34. Схема алгоритма GIZA++ Переводной || корпус merging семантический словарь Семантический анализатор
  • 35. Выдержка из словаря В Y1>HabU(Y1:,ПРЕД:Z1) <149>--->Within В Y1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) <146>--->at В Y1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) <208>--->In В Y1>Loc(Y1:,ПРЕД:Z1) <224>--->Throughout ... МАРШАЛЛ S1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) <2> --->Marshall ... НА Y1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) <67>--->at НА Y1>Direkt(Y1:,РОД:Z1) <100>--->on НА Y1>Direkt(Y1:,РОД:Z1) <69>--->for НА Y1>Direkt(Y1:,РОД:Z1) <74>--->for the ... ОБРАЗ (РОД:Z1) <2>--->a way ОБЩЕМИРОВОЙ A1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227)) <1>--->global ... Всего около 18 тысяч пар слов
  • 36. Экспериментальная система МП •Словарный метод третьего уровня •Первые два: прямой с перебором всех флексий (первый уровень) и с применением морфологического анализа для перехода к леммам (второй уровень) •Третий уровень: семантический анализ, учитывающий ещё и контекст слова
  • 37. Примеры переводов Отчет, написанный рукой Распутина. Review was written hand Rasputin. В этой статье Аббас разбирает доклад Распутина. In this article Abbas review report Rasputin. Распутина скомпрометировали государственностью. Rasputin compromised by statehood. Распутин вел скрытный образ жизни. Rasputin lead secretive way of life. У Распутина скрытые доходы. have Rasputin an implicit income.
  • 38. Улучшение качества словаря Удаление дубликатов (sort | uc >> output) Добавление синтаксической информации: роли в предложении Добавление СГТ Вычисление предлогов: анализ словосочетаний с предлогами
  • 39. Moses: почему статистика не справляется? Статистическая модель – только приближение языковой модели, при том сугубо численное Зависимость от качества корпуса Перевод человека зачастую не прямолинеен и иносказателен, отсюда снижение качества Сложные пары языков: с богатой морфологией Снятие полисемии через лемматизацию – грубое отсечение семантики
  • 40. Классика: недостатки Медленная разработка Привязка к одному языку или группе схожих языков (синтаксис, порядок слов) Скрещивание!
  • 41. Перевод на русский Сборка по семантическим формулам Анализатор иностранного языка Статистический подход для en->ru
  • 42. Открытые задачи Прагматика Анализ текста: связи и свойства объектов, анафорические ссылки Hän meni kauppaan. -> Он (она?) пошёл (ла?) в магазин. Анафорические ссылки на часть текста
  • 43. Литература [1] Тузов В. А. Компьютерная семантика русского языка, СПб.: Изд-во С.- Петерб. ун-та, 2004. 400 с. [2] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203- 35979-8 [3] Мельчук И. А. Русский текст в модели «смысл<->текст». М.: Языки русской культуры, 1995. 682 с. [4] http://www.hutchinsweb.me.uk/MTJ-2000.pdf [5] http://www.hutchinsweb.me.uk/IJT-2004.pdf [6] http://www.scientific.ru/trv/2008/013/ostap_bender.html [7] Natural Language Processing, Instructor: Manning, Christopher D., Stanford School of Engineering [8] http://translate.google.com [9] http://www.translate.ru/text_Translation.aspx [10] Кан Д. А., Лебедев И. С.: Линеаризация при синтезе предложений на естественном языке // Политехнический симпозиум «Молодые ученые промышленности Северо-Западного региона»; материалы конференций. СПб.: Изд-во С.-Петерб. политехн. ун-та, 2007. С. 15-16