SlideShare une entreprise Scribd logo
1  sur  13
Achieving Open Vocabulary Neural
Machine Translation with Hybrid Word-
Character Models
Minh-Thang Luong and Christopher D. Manning
ACL2016
B4 山岸駿秀
1
Introduction
• NMTには語彙制限の問題がある
• “distinct”は高頻度語でも、”distinctiveness”は低頻度語扱い
• ソースからのコピー[Luong+ 2015b]にも問題がある
• “Christopher” (English) → “Krystof” (Czech) (翻字)
• 単語単位の翻訳+未知語処理用の文字単位翻訳
• end-to-endな学習ができる
• ただの文字ベースより速く、かつ文脈情報が使える
˘
2
Attentionを使ったNMT
• 生成確率の対数尤度の最大化
• 隠れ層のsoftmaxをとる
• クロスエントロピーを最小化
• Attentionでは、htを以下で代用
3
Hybrid NMT
• 単語レベルのencoder側で未知語になったら、
文字レベルのencoderを動かす
• 文字レベルのencoderの出力を単語レベルの
分散表現として利用
• クロスエントロピーを以下の式に変える
• Jwは、単語単位のNMTのロス
• Jcは、文字単位のdecoderのロス
• αは、今回は1.0
• ミニバッチごとに文字レベルの出力を計算
4
separate-path
文字レベルdecoderの隠れ層初期化を2パターン用意
• same-path
• 隠れ層の初期化に を用いる
• separate-path
• の代わりに以下を使う
5
Experiments
• WMT’15のEnglish-Czech翻訳タスク
• チェコ語は、英語に比べて語彙数が多い
• train set: 1580万文
• dev set: newstest2013 (3000文)
• test set: newstest2015 (2656文)
• 単語ベース、文字ベース、Hybridの3
つを比較
• BLEUとchrF3で評価
6
Settings
• Deep LSTM (4層、1024次元)
• [-0.1, 0.1]で初期化
• SGD、6 epoch (学習率は4 epochまでは1.0、それ以降は0.5)
• ミニバッチ: 128 (shuffled)
• 確率0.2でドロップアウト
• 単語単位のみ: 50単語以上の文は削除、|V|はいくつか実験
• 文字単位のみ: 150文字以上の文は削除
• 学習に単語単位は21日、文字単位は3か月、Hybridは25日
7
Result
8
Analysis (1/2)
• 語彙数が少ないときにBLEUの大きな向上 (+11.4)
• 文字レベルencoderが出力した表現間の単語類似度も、最高精
度のものと戦える水準にある
9
Examples 1
10
Examples 2
11
Analysis (2/2)
以下のことが改善
• ソースからのコピーではできなかった例 (単語ベース)
• “11-year-old” → “11-year-old” (本来は“jedenáctiletá”になるはず)
• 固有名詞を訳してしまった例 (文字ベース)
• “Martin Luther King” → “Martin Luther král”
• 複合語の出力
課題
• 高頻度語の情報を文字decoderの学習に取り込めていない
12
Conclusion
• 単語ベースのモデルへ、未知語処理用に文字ベースのモデルを
追加
• English-Czech翻訳で最高性能 (20.7 BLEU)
• 語彙数の少ない条件下では、最大で +11.4 BLEU
• 英語側の分散表現も、よいものが得られている
13

Contenu connexe

En vedette

BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)
BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)
BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)scarlett torres
 
Serm управление репутацией в поисковых системах
Serm   управление репутацией в поисковых системахSerm   управление репутацией в поисковых системах
Serm управление репутацией в поисковых системахМихаил Харченко
 
Projet Presentation
Projet PresentationProjet Presentation
Projet PresentationUttam Sahu
 

En vedette (6)

BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)
BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)
BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)
 
Seo проектирование сайта
Seo проектирование сайтаSeo проектирование сайта
Seo проектирование сайта
 
Serm управление репутацией в поисковых системах
Serm   управление репутацией в поисковых системахSerm   управление репутацией в поисковых системах
Serm управление репутацией в поисковых системах
 
Peritonitis Linda Fajardo
Peritonitis  Linda FajardoPeritonitis  Linda Fajardo
Peritonitis Linda Fajardo
 
Peritonitis linda fajardo
Peritonitis  linda fajardoPeritonitis  linda fajardo
Peritonitis linda fajardo
 
Projet Presentation
Projet PresentationProjet Presentation
Projet Presentation
 

Plus de Hayahide Yamagishi

[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...Hayahide Yamagishi
 
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳Hayahide Yamagishi
 
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...Hayahide Yamagishi
 
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...Hayahide Yamagishi
 
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
[NAACL2018読み会] Deep Communicating Agents for Abstractive SummarizationHayahide Yamagishi
 
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine TranslationHayahide Yamagishi
 
[ML論文読み会資料] Teaching Machines to Read and Comprehend
[ML論文読み会資料] Teaching Machines to Read and Comprehend[ML論文読み会資料] Teaching Machines to Read and Comprehend
[ML論文読み会資料] Teaching Machines to Read and ComprehendHayahide Yamagishi
 
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory RepresentationHayahide Yamagishi
 
[ML論文読み会資料] Training RNNs as Fast as CNNs
[ML論文読み会資料] Training RNNs as Fast as CNNs[ML論文読み会資料] Training RNNs as Fast as CNNs
[ML論文読み会資料] Training RNNs as Fast as CNNsHayahide Yamagishi
 
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析Hayahide Yamagishi
 
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?Hayahide Yamagishi
 
Why neural translations are the right length
Why neural translations are  the right lengthWhy neural translations are  the right length
Why neural translations are the right lengthHayahide Yamagishi
 
A hierarchical neural autoencoder for paragraphs and documents
A hierarchical neural autoencoder for paragraphs and documentsA hierarchical neural autoencoder for paragraphs and documents
A hierarchical neural autoencoder for paragraphs and documentsHayahide Yamagishi
 
ニューラル論文を読む前に
ニューラル論文を読む前にニューラル論文を読む前に
ニューラル論文を読む前にHayahide Yamagishi
 
ニューラル日英翻訳における出力文の態制御
ニューラル日英翻訳における出力文の態制御ニューラル日英翻訳における出力文の態制御
ニューラル日英翻訳における出力文の態制御Hayahide Yamagishi
 

Plus de Hayahide Yamagishi (15)

[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
 
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
 
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
 
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
 
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
 
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
 
[ML論文読み会資料] Teaching Machines to Read and Comprehend
[ML論文読み会資料] Teaching Machines to Read and Comprehend[ML論文読み会資料] Teaching Machines to Read and Comprehend
[ML論文読み会資料] Teaching Machines to Read and Comprehend
 
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
 
[ML論文読み会資料] Training RNNs as Fast as CNNs
[ML論文読み会資料] Training RNNs as Fast as CNNs[ML論文読み会資料] Training RNNs as Fast as CNNs
[ML論文読み会資料] Training RNNs as Fast as CNNs
 
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
 
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
 
Why neural translations are the right length
Why neural translations are  the right lengthWhy neural translations are  the right length
Why neural translations are the right length
 
A hierarchical neural autoencoder for paragraphs and documents
A hierarchical neural autoencoder for paragraphs and documentsA hierarchical neural autoencoder for paragraphs and documents
A hierarchical neural autoencoder for paragraphs and documents
 
ニューラル論文を読む前に
ニューラル論文を読む前にニューラル論文を読む前に
ニューラル論文を読む前に
 
ニューラル日英翻訳における出力文の態制御
ニューラル日英翻訳における出力文の態制御ニューラル日英翻訳における出力文の態制御
ニューラル日英翻訳における出力文の態制御
 

[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models

Notes de l'éditeur

  1. 未知語と低頻度語を同じものだと思ってほしい
  2. cはsの重み付き平均
  3. n-gramの一致数を見ていて、英語以外の翻訳タスクではいい指標?