Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Generalized data augmentation for low resource translation

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Prochain SlideShare
読解支援@2015 06-05
読解支援@2015 06-05
Chargement dans…3
×

Consultez-les par la suite

1 sur 76 Publicité

Plus De Contenu Connexe

Similaire à Generalized data augmentation for low resource translation (14)

Plus récents (20)

Publicité

Generalized data augmentation for low resource translation

  1. 1. Generalized Data Augmentation for Low-Resource Translation Mengzhou Xia, Xiang Kong, Antonios Anastasopoulos, Graham Neubig Language Technologies Institute, Carnegie Mellon University
  2. 2. Abstract • パラレルデータの少ない低資源言語から英語への機械 翻訳を対象 • 一般的に大規模モノリンガルコーパスから逆翻訳する ことで、性能改善が見られている。 低資源 (LRL) 英語 (ENG) 英語 (ENG) mono parallel 低資源 (LRL) pseudo 逆翻訳
  3. 3. Abstract • 筆者らは加えて、低資源言語と言語的に類似している 高資源言語(HRL)を介するピボット手法を提案する 低資源 (LRL) 英語 (ENG) parallel 高資源 (HRL) 逆翻訳 英語 (ENG) mono 高資源 (HRL) pseudo 逆翻訳低資源 (LRL) pseudo 逆翻訳
  4. 4. Abstract • 4つのLRL言語から英語への翻訳実験を行なった • 筆者らのデータ拡張手法は教師あり逆翻訳ベースライ ンと比較して1.5から8のBLEU改善が見られた アゼル バイジャン ベラルーシ ガリシア スロバキア ベースライン 11.84 15.72 29.19 29.79 提案手法 15.74 24.51 33.16 32.07
  5. 5. 1. Introduction
  6. 6. 1. Introduction • LRLの翻訳はデータを大量に必要とするNMTでは困難 • 以下のように研究がLow-resource NMTに効果がある • トルコ語(HRL)で事前学習して、アゼルバイジャン語(LRL) で転移学習 [Zoph 2016, Nguyen 2017] • 一つのモデルでHRL-ENG, LRL-ENGの翻訳を学習させる (joint-training) [Johnson 2017, Neubig 2018]
  7. 7. 1. Introduction • 対象言語外の言語を使ったデータ拡張の研究 • LRLとHRLでボキャブラリを共有し、HRL-ENGパラレルデータ で学習を行う [Lin 2019] • ソース側で、HRLとLRLの違いを軽減するように表現の共有を 行う[Gu 2018, Wang 2019]
  8. 8. 1. Introduction • 筆者らは、LRLとHRLの良い情報共有を行うための生成 的なデータ拡張について実験した • 実験では以下のデータが使用できる(Figure 1参照) (a) ENGモノリンガルコーパス (b) ENG-HRLパラレルコーパス (c) ENG-LRLパラレルコーパス
  9. 9. 1. Introduction (1) (1) (2) (2) Figure 1
  10. 10. 1. Introduction (1) ENGからLRL(HRL)への逆翻訳 • 一般的な逆翻訳手法[Sennrich 2016] は、 低資源の設定では有効な逆翻訳モデルが作れない • ENG-HRLの逆翻訳モデルに置き換えることで、 NMTは文構造などを学習することができる。 その後、ENG-LRLパラレルコーパスで学習が可能
  11. 11. 1. Introduction (2) HRLからLRLへの逆翻訳 • パラレルコーパスが不足する • 筆者らは以下のようにHRLからLRLへ変換を行う • 両言語の単語エンベディング空間からHRL-LRL辞書を作る • 辞書ベースでHRL文中の単語をLRLに置き換える • 機械翻訳のフレームワークで置き換えられた疑似LRL文を 実際のLRL文に近づける
  12. 12. 1. Introduction 筆者らの貢献 • 4つの低資源言語で実験を行ない、データ拡張手法の 評価をおこなった • 提案するHRL-LRL変換は、単純な教師なし翻訳と比べ て、2から10のBLEU改善が見られた • 提案するデータ拡張手法は一般的な逆翻訳と比較して 1.5から8のBLEU改善が見られた
  13. 13. 2. A Generalized Framework for Data Augmentation
  14. 14. 2.1. Datasets and Notations 目的のLRL-ENGの翻訳モデル作成には以下のデータが 利用可能 • 限られた量のLRL-ENGパラレルデータ{SLE, TLE} • 比較的多いHRL-ENGパラレルデータ{SHE, THE} • 限られた量のLRL-HRLパラレルデータ{SHL, THL} • 大規模なモノリンガルデータ{ML, MH, ME} Section3でデータ拡張で作成されたデータは ෠S 𝐴→𝐵 𝑚 “手法mを使って言語Aから言語Bに拡張されたデータ”
  15. 15. 2.2. Augmentation from English 2つの逆翻訳を行う。 英語 (ENG) mono 低資源 (LRL) pseudo 逆翻訳 高資源 (HRL) pseudo Figure 1 [1] Figure 1 [2]
  16. 16. 2.2. Augmentation from English • ここでは2つの逆翻訳を行う。 英語 (ENG) mono 低資源 (LRL) pseudo 逆翻訳 高資源 (HRL) pseudo [1] [2] パラレルコーパスが 不足 パラレルコーパスが比較的多く、 質の良い翻訳ができる
  17. 17. 2.3. Augmentation via Pivoting HRL-ENGを使うことの利点は以下の通り • HRL-ENGでLRL-ENGモデルの言語モデル(デコード側) が改善 • 言語間でボキャブラリを共有できる • LRLとHRLでjoint trainingすることができる HRLとLRLは異なる点もある(構文、ボキャブラリ) それを考慮しても、ENG-LRLより翻訳が容易
  18. 18. 2.3. Augmentation via Pivoting HRLを介したピボットによるデータ拡張手法を提案 低資源 (LRL) 英語 (ENG) parallel 高資源 (HRL) 逆翻訳 英語 (ENG) mono 高資源 (HRL) pseudo 逆翻訳低資源 (LRL) pseudo 逆翻訳 Figure 1 [3] Figure 1 [4]
  19. 19. 2.3. Augmentation via Pivoting HRLを介したピボットによるデータ拡張手法を提案 低資源 (LRL) 英語 (ENG) parallel 高資源 (HRL) 逆翻訳 英語 (ENG) mono 高資源 (HRL) pseudo 逆翻訳低資源 (LRL) pseudo 逆翻訳 Figure 1 [3] Figure 1 [4] パラレルコーパスが 不足
  20. 20. 3. LRL-HRL Translation Methods
  21. 21. 3.1. Augmentation with Word Substitution • 類似言語間で単語エンベディングを共有できる [Micolov 2013] • モノリンガルデータのみで、バイリンガル辞書を作成 [Xing 2015, Zhang 2017, Lample 2018b] →言語の特徴を考慮した質の良い辞書が作成可能 単語エンベディングを用いた辞書作成を行い、 辞書ベースのHRL→LRL変換を行う
  22. 22. 3.1. Dictionary Induction • 言語間の単語エンベディング空間のマッピング最適化 →プロクラテス問題と考える • プロクラテス問題: 対応の取れた2つの点群を並進、スケーリングを 適用して、点群同士の二乗誤差を小さくする
  23. 23. 3.1 Dictionary Induction • 以下の式を解くことに相当 min 𝑊 𝑊𝑋 − 𝑌 𝐹 2 s. t. 𝑊 𝑇 𝑊 = 𝐼, • CSLS(Cross-domain Similarity Local Scaling)類似度で 点群同士の距離を計算
  24. 24. 3.1. Dictionary Induction • HRL, LRLの各単語をLRL, HRL空間にマッピングし、 それぞれで最も近い単語が一致した場合に辞書に登録 • この辞書登録方法の分析実験はSession5.3 LRLHRL マッピング W
  25. 25. 3.1. Corpus Construction • パラレルデータ{𝑆 𝐻𝐸, 𝑇 𝐻𝐸}, { መ𝑆 𝐸→𝐻, 𝑀 𝐸}に対して、 ソース側に辞書ベースの単語置き換え • 疑似パラレルデータ{ መ𝑆H→𝐿 𝑤 , 𝑇 𝐻𝐸}, { መ𝑆 𝐸→𝐻→𝐿 𝑤 , 𝑀 𝐸}を作成 uma série de estranhos muito profissionais unha serie de estraños moito profesionais HRL→LRL 単語置き換え ポルトガル HRL ガリシア LRL
  26. 26. 3.2. Augmentation with Unsupervised MT UMT(Unsupervised Machine Translation): • 学習データ:𝑀𝐿, ෡𝑀 𝐻→𝐿 • モデル: Denoising auto-encoding, iterative Back translation • 低リソース、文構造が多様な言語に適用された研究は少 • 文構造が多様な言語は低頻出語が多い • 𝑀𝐿は{𝑆 𝐻𝐿, 𝑇 𝐻𝐿}より多いが、𝑀 𝐻より少ない
  27. 27. Denoising auto-encoding • 𝑀𝐿内のデータS 𝐿に対して、単語欠落や置換(ノイズ)を 加えて、それを修正するようなモデル 3.2. UMT dunha serie de estraños moi profesionaisS 𝐿 unha serie de estraños moito profesionaisC(S 𝐿)
  28. 28. Iterative Back-Translation(Unsupervised) • 𝑀𝐿, 𝑀 𝐻同士で対訳作成、学習を繰り返す • 初期モデルは辞書ベースで作成 3.2. UMT LRL mono HRL mono LRL Psuedo HRL Pseudo
  29. 29. Iterative Back-Translation(Unsupervised) • 𝑀𝐿, 𝑀 𝐻同士で対訳作成、学習を繰り返す • 初期モデルは辞書ベースで作成 3.2. UMT LRL mono HRL mono LRL Psuedo HRL Pseudo LRL Psuedo HRL Pseudo
  30. 30. Iterative Back-Translation(Unsupervised) • 𝑀𝐿, 𝑀 𝐻同士で対訳作成、学習、対訳作成…を繰り返す • 初期モデルは辞書ベースで作成 3.2. UMT LRL mono HRL mono LRL Psuedo HRL Pseudo LRL Psuedo HRL Pseudo
  31. 31. UMTの学習で初期化は重要な役割を持つ[Lample 2018] 提案されてきた初期化手法は以下の通り • 辞書ベースのword-by-word翻訳のペアで初期学習 [Lample 2018, Artetxe 2018] • パラメータを合理的に学習できる • 前処理でBPEをソース側、ターゲット側に適用する • ソース側とターゲット側で似た言語の場合、ボキャブラリを 共有することが効果的 3.2. Modified Initialization
  32. 32. 3.2. Modified Initialization • 筆者らは新たな初期化手法を提案 1. HRL-LRL辞書ベースの単語置き換え 2. モノリンガルコーパス𝑀L, ෡𝑀𝐿で Word Segmentation modelを学習 3. Segmented モノリンガルコーパスでUMTを学習
  33. 33. 3.2. Modified Initialization denoising auto-encoding Iterative Back-translation • 𝑢∗はgreedy decodingで翻訳することを表す • Cは単語欠落、ランダムな置換を行う • λ1, λ2は重みパラメータ
  34. 34. 3.2. Corpus Construction • 単語置きかえで拡張された መ𝑆H→𝐿 𝑤 , 𝑇 𝐻𝐸 , { መ𝑆 𝐸→𝐻→𝐿 𝑤 , 𝑀 𝐸}に 提案するUMTを適用する。 • 新たなパラレルデータ መ𝑆H→𝐿 𝑚 , 𝑇 𝐻𝐸 , { መ𝑆 𝐸→𝐻→𝐿 𝑚 , 𝑀 𝐸}を作成 • 上付き文字mはmodified UMTで拡張したことを表す • 上付き文字uはun-modified UMT(一般的なUMT)を表す
  35. 35. 3.3. Why Pivot for Back-Translation? HRLを介したピボット手法が適する条件は以下の通り 1. HRLとLRL間に十分な関連があり、良い辞書がある 2. 大量のHRL-ENGパラレルコーパスがある 3. LRL-ENG辞書は言語類似性、希少性により作成困難
  36. 36. 3.3. Why Pivot for Back-Translation? 例: 膠着語(接頭辞, 接尾辞をつけて意味を持たせる) アゼルバイジャン語はいくつかの形態素で単語を形成 トルコ語は同じような膠着語を持つ アゼルバイジャン : dü¸süncәlәrim トルコ語 : dü¸süncelerim 英語 : my thoughts
  37. 37. 4. Experimental Setup
  38. 38. 4.1. Data • 実験にはマルチリンガルTEDコーパスを使用 LRL AZE:アゼルバイジャン語 BEL:ベラルーシ語 GLG:ガリシア語 SLK:スロバキア語 HRL TUR:トルコ語 RUS:ロシア語 POR:ポルトガル語 CES:チェコ語
  39. 39. • Wikipedia dumpよりモノリンガルコーパスを作成 • AZE, BEL, GLGは全てのデータを使用したが、他言語は サンプリングしてコーパスを作成 4.1. Data
  40. 40. • 英語モノリンガルコーパスは2種類 • 2MをベースラインUMTの学習に使用 • 200Kをデータ拡張用データに使用 4.1. Data
  41. 41. 4.2. Pre-processing SentencePiece • 実験では以下のSentencePieceモデルを学習 • 𝑀𝐿, 𝑀 𝐻を組み合わせたデータで学習したモデル • 𝑀 𝐸で学習したモデル • ボキャブラリは20Kで統一
  42. 42. 4.2. Pre-processing Word(Subword) Embedding • FastTextを用いて、256次元のエンベディングを学習 • Word Embedding: • 𝑀𝐿, 𝑀 𝐻で学習 • LRL-HRL辞書作成に使用される • Subword Embedding: • 𝑀𝐿, ෡𝑀𝐿, 𝑀 𝐻で学習 • MT, UMTで使用
  43. 43. 4.3. Model Architecture Supervised NMT • OpenNMTでTransformerモデルを学習 • エンコーダ、デコーダを4層 • エンベディング、隠れ層は256次元 • バッチサイズは8096トークン
  44. 44. 4.3. Model Architecture Unsupervised NMT • UnsupervisedMTを使ってTransformerモデルを学習 • モデルパラメータはSupervisedと同じ • エンコーダ、デコーダの最初の3層は共有 • エンベディング層は事前学習したSubword Embedding で初期化 • Section3.2の重みパラメータλ1, λ2は1
  45. 45. 4.4. Training and Model Selection • 学習ではベースデータで学習後、拡張データで Fine-tuning [Zoph 2016, Nguyen 2017] • Fine-tuningでは、ベースデータと拡張データを合わせ て学習させる [Chu 2017] • ベースデータ{𝑆 𝐿𝐸, 𝑇𝐿𝐸}, {𝑆 𝐻𝐸, 𝑇 𝐻𝐸}で学習したモデルを 共通のベースNMTモデルとする。
  46. 46. 5. Results and Analysis
  47. 47. 5.1. Baseline • Table2の実験結果を参照する • ベースNMTモデル(row 1)の性能は11.83~29.5 • ソース言語と英語で距離があるほど性能は悪い • ベースUMTは極端に低くかった
  48. 48. 5.1. Baseline • 𝑀 𝐸から教師ありENG-LRL逆翻訳モデルでデータ拡張 • わずかな性能改善 • データ不足によりLRL-ENG逆翻訳モデルの性能が悪い
  49. 49. 5.2. HRL-LRL • HRL-ENGパラレルデータのソース側をLRLに変換 • 教師ありMT, 教師なしMTによるデータ拡張で悪化 (row5, row6) • 単語置き換え、modified UMTのデータ拡張で改善 (row7, row8)
  50. 50. 5.2. HRL-LRL • 単語置き換え、modified UMTで拡張したデータを 両方使った場合、さらにBLEU改善 (row 9) • row5~9は同じパラレルデータから拡張しているが データ拡張手法によって、性能に大きな差がある
  51. 51. 5.2. ENG-HRL-LRL • 𝑀𝐿をHRLに翻訳して、単語置き換えでLRLに変換 (row 10) • 𝑀𝐿をHRLに翻訳して、単語置き換えでLRLに変換 (row 11)
  52. 52. 5.2. ENG-HRL-LRL • HRL-ENGパラレルデータを逆翻訳した場合(row 7, 8)と 比較して、性能は若干悪い • 一方で、単純なENG-LRL逆翻訳(row3)より性能は良い
  53. 53. 5.2. Combination • 2つデータ拡張手法を組み合わせる • row12は(row7 + row10) 全ての場合で最高性能 • row13は(row7 + row8 + row10 + row11) AZEのみ改善
  54. 54. 5.2. Combination • State-of-the-artと比較 • 複数言語で共通の文脈情報を用いるSDE [Wang 2019] • 多言語入力、多言語出力が可能な翻訳モデル [Aharoni 2019] • 筆者らのモデルの方が高い性能
  55. 55. 5.3. Analysis • modified UMTが従来のUMTを上回ったことを考察 • 開発セットに対するHRL-LRL変換の性能を評価 • Pivot BLEU: 開発セットの𝑆 𝐻𝐿を変換した መ𝑆 𝐻→𝐿と𝑇 𝐻𝐿のBLEU • Translation BLEU: 開発セットの𝑆 𝐿𝐸の翻訳結果と𝑇𝐿𝐸のBLEU
  56. 56. 5.3. Analysis • Figure 2にPivot BLEUとTranslation BLEUの関係を示す • 全言語でBASE-UMTよりM-UMTが両指標で高い(☆<□)
  57. 57. 5.3. Analysis • AZE, SLKではPivot BLEUではmodified UMT (○<□) Translation BLEUでは単語置き換え (○>□)
  58. 58. 5.3. Analysis
  59. 59. 5.3. Analysis • modified UMTは前処理に単語置き換えを行っている →HRL-LRL辞書に制限を受ける • row 9が改善した理由は、学習においてはそれぞれが 独立に学習されるため
  60. 60. 5.3. Analysis • ピボット手法のHRL-LRL変換で明らかに 単語置き換え > modified UMT 単語置き換え: ENG-HRL逆翻訳ノイズ modified UMT: ENG-HRL逆翻訳ノイズ+単語置き換えノイズ
  61. 61. 5.3. Analysis • Table 3に単語置き換え、modified UMTを適用した例 • 表中の𝑆 𝐻𝐸を𝑆 𝐿𝐸に近づけることが目的
  62. 62. 5.3. Rare Word Coverage • ピボット手法によるレアワードと翻訳性能の関係 • レアワード :テストセット中の単語 学習データの出現頻度下位10% • address レアワード: データ拡張の結果、 下位10%外になったレアワード • address rate : テストセット中の単語数と addressレアワードの比率 →データ拡張で解消されたレアワードの比率
  63. 63. 5.3. Rare Word Coverage • address rateとTranslation BLEUの関係をFigure 3に示す • バーはaddress rate, プロットがTranslation BLEU, 左上の数字はピアソンの相関係数
  64. 64. 5.3. Rare Word Coverage • 筆者らのデータ拡張手法はレアワード問題を解消、 翻訳性能の改善に貢献 • Table 2との対応 ■row1 ■row7 ■row8 ■row9 ■row12
  65. 65. 5.3. Dictionary Induction Uni-directional HRLの各単語をLRL空間にマッピングし、 最も近いLRL単語との単語ペアを辞書に登録する LRLHRL マッピング W
  66. 66. 5.3. Dictionary Induction Bi-directional HRL, LRLの各単語をLRL, HRL空間にマッピングし、 それぞれで最も近い単語が一致した場合に辞書に登録 LRLHRL マッピング W
  67. 67. 5.3. Dictionary Induction それぞれの辞書作成方法で、HRLコーパス中で • 何種類の単語を置き換えられたか(WT: Word type) • 何回、単語を置き換えられたか(WN: Word number) • データ拡張した結果のBLEU を計算
  68. 68. 5.3. Dictionary Induction • 両手法でWord numberの比率が高い • 手法で比較すると、Biの方が比較的高い
  69. 69. 5.3. Dictionary Induction • BLEUを比較すると、Biの方が若干高め • HRL側のみを見て辞書登録するUni-directionalは 低資源翻訳に不向きな辞書を作る
  70. 70. 6. Related Work
  71. 71. 6. Related Work (多言語翻訳) 多言語パラレルコーパスを使って、エンコーダで 言語非依存の単語表現、文表現を共有する [Gu 2018] 多言語パラレルコーパスで入力単語をn-gram分割して、 エンコードする。言語非依存文脈情報を得る [Wang 2019] 複数言語入力が可能なマルチエンコーダを持つNMTで 欠落した対訳文を補填する [Nishimura 2018]
  72. 72. 6. Related Work (教師なし翻訳) • 教師なしNMTとフレーズベースSMTを組み合わせる SMTは教師なし翻訳モデルの制約として使う [Ren 2019] • SMTとNMTのフレームワークで、style transferモデル を実装 [subraman2018, Zhang 2018]
  73. 73. 6. Related Work (辞書利用) • バイリンガル辞書を使って、 クロスリンガル固有名詞認識 [Xie 2018] クロスリンガル情報検索 [Listschoko 2018] • スラング、方言への翻訳 [Hassan 2017] • 筆者らと同様に中継の言語を使っている • ENG-HRL, HRL-LRLのように2つの辞書が必要
  74. 74. 6. Related Work (ピボット手法) • ピボット手法はフレーズベース機械翻訳で提案 [De Gispert 2006, Cohn 2007] • ピボットベースのNMT学習 [Cheng 2017] • Pivot-TargetNMTをTeacher, Source-TargetをStudent [Chen 2017] • ピボット言語を中継とするZero-shot翻訳 [Lakew 2018]
  75. 75. 7. Conclusion
  76. 76. 7. Conclusion • 低資源言語に対するデータ拡張手法を提案 • ピボット手法を提案し、性能改善を確認 Future Work • バイリンガル辞書の制御を行い、単語置き換え、 modified UMTの性能改善 • Modifed UMTを組み込んだピボットシステムのE2E化

×