Multi reference training with pseudo-references for neural translation and text generation

Multi-Reference Training with
Pseudo-References for Neural
Translation and Text Generation
Renji Zheng, Mingbo Ma, Liang Huang
EMNLP2018
研究室EMNLP読み会　紹介者　吉村

概要
● 複数のリファレンスでモデルを学習
○ テキスト生成の正解は1つではないので複数あったほうがいい
○ 複数のリファレンスがあるデータセットを使用
● 複数のリファレンスから lattice を作ってさらに多くの擬似リファ
レンスを作成
○ 4~5個のリファレンスでは潜在的なリファレンスをカバーできない

Main Contributions
● 機械翻訳と画像キャプションにおいてマルチリファレンスでの
学習法を3つ調査
● 複数の参照訳を lattice にするための新しいネットワークベー
スの複数の系列アラインメントモデルを提案
● 擬似リファレンスでを用いた学習でMTでBLEUが+1.5、画像
キャプションでBLEUが+3.1、CIDErで+11.7

複数のリファレンスでの学習法
● 学習データを変えるだけでモデルは変更しなくていい
● 複数のリファレンスがあるデータセットをシングルリファレンス
のデータセットに変換
● 作り方はSample One、Uniform、Shuffleの３つ

複数のリファレンスでの学習法
● Sample One
○ 各エポックでランダムに1つリファレンスを決める
● Uniform
○ 複数の各リファレンスに同じ入力をつける
● Shuffle
○ Uniformで各エポックごとにシャッフルする
xi
: source
yi
: reference
D : multiple reference dataset
D’ : single reference dataset
※ D’ は順序集合

擬似リファレンスの作り方
● 複数のリファレンスから lattice を構築してそれをたどることで
擬似リファレンスを生成
○ 似た単語をマージする
○ 元のリファレンスとBLEUを測って高いものを採用
● Hard alignと Soft align がある

Hard word Alignment
● ペアワイズで同じ表層の単語をマージしていく
● 以下の3文を考える

Hard word Alignment
● Indonesia, its, opposition, foreign をマージ

Hard word Alignment
● Indonesia, opposition, to, foreign をマージ
● (c)をたどることで 33個の擬似リファレンスができる

Hard Word Alignment の問題点
● 類義語を考慮できない
○ 例での reiterated, repeats, reiterates
● 同一の単語は他の文では異なる意味をもつ可能性がある
○ toなど（不定詞、前置詞）

Soft Word Alignment
● 文yi
と文yj
に対して semantic substitution matrix を作る
● 各セルMu,v
の値は単語yi,u
と単語yj,v
の類似度スコア
● bidirectional LMの隠れベクトルのcos類似度
● Mを使ってアラインメントする
○ M0,0
からM|yi|,|yj|
までの最適パスを動的計画法で求める

単語アラインメント
状態遷移関数 global penalty p: Mu,v
≦ p では align しない

実験（MT）
● NIST（2002-2005, 2006, 2008） zh-en
○ single ref 1Mペア（pre-train） 4 ref 5974ペア（train, valid, test）
● global penalty 0.9
○ 100文集まるまで global penalty を減らしていく　BLEUは上位50件のみ
● bi-LMはpre-training dataとtraining dataで学習, word enmmbeding は Glove
● encoderとdecoderは2層のbi-LSTMでBPEを使用
● pre-train: batch size 64, beam size 15, dropout 0.3
● multi-reference-train: batch size 100, 200, 400のベスト

Analysis of generated references
● リファレンスの文長が長いほど、生成されるリファレンスの数が増える

結果
各エポックで使うリファレンスの分散が高いため、 sample one はリファレンス数が10を越
えると急激に悪くなる

実験（Image Captioning）
● MSCOCO
● Resnet を LSTM に繋げる
● batch size: 50, 250, 500, 1000 での最適なサイズ
● beam size: 5
● global penalty: 0.6

Analysis of generated references
● MTと比べてオリジナルのリファレンスが短いので質が低く、数も少ない

MTと違ってShuffleが良くなってる
⇨　機械翻訳の参照よりも多様であるから
　　Uniform だと1つのバッチ内でリファレンスの
　　分散が大きくなるとモデルに悪影響

Case Study
BLEUが100だが
オリジナルリファレンスと
は異なる文
BLEUが0だが画像を説明
できている

Conclusion
● マルチリファレンスでの学習方法を調査
● 既存のマルチリファレンスから擬似リファレンスを生成する手法を提案
● MTと画像キャプションの両タスクでベースラインを上回る

Multi reference training with pseudo-references for neural translation and text generation

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from ryoma yoshimura

More from ryoma yoshimura (7)

Recently uploaded

Recently uploaded (8)

Multi reference training with pseudo-references for neural translation and text generation