Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité

Consultez-les par la suite

1 sur 21 Publicité

Plus De Contenu Connexe

Diaporamas pour vous (15)

Les utilisateurs ont également aimé (12)

Publicité

Plus récents (20)

複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳

  1. 1. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 1 複数の事前並べ替え候補を用いた 句に基づく統計的機械翻訳 小田 悠介 (NAIST) 工藤 拓 (Google) 中川 哲治 (Google) 渡辺 太郎 (Google) 2016/03/09 言語処理学会 第22回全国大会
  2. 2. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 2 機械翻訳における語順の違い (1) は (PT) いい good ね (PT) 。 . 天気 weather です is 今日 today Japanese It weather today . English niceis Reordering ● 2言語間の語順の違い (reordering) →   機械翻訳が対処すべき問題
  3. 3. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 3 機械翻訳における語順の違い (2) は (PT) いい good ね (PT) 。 . 天気 weather です is 今日 today Japanese Pre-reordering It weather today . English niceis いい good ね (PT) 。 . 天気 weather です is 今日 today は (PT) ● 2言語間の語順の違い (reordering) →   機械翻訳が対処すべき問題 ● 事前並べ替え (pre-reordering) – デコード開始前に 原言語の単語並びを 目的言語に近づける – 原言語の大域的な情報・ 構文情報を利用可能 – 並べ替え誤りを デコード時に取り扱うのが 難しい – 手法によっては 複数の並べ替え候補と その信頼度を計算可能
  4. 4. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 4 機械翻訳における語順の違い (3) は (PT) いい good ね (PT) 。 . 天気 weather です is 今日 today Japanese It weather today . English niceis いい good ね (PT) 。 . 天気 weather です is 今日 today は (PT) Distortion Pre-reordering ● 2言語間の語順の違い (reordering) →   機械翻訳が対処すべき問題 ● 並べ替えモデル (distortion/reordering model) – デコード中に 原言語の単語が 目的言語のどこに 挿入されるか推定 – あらゆる局所的な並べ替えを 考慮可能 – 統語的に妥当性の低い 並べ替えになる可能性 – 事前並べ替えと併用した場合 どのような効果があるのかが 明確でない
  5. 5. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 5 複数の事前並べ替え候補を用いた翻訳 It is nice weather quuz .It is nice weather tquz .It is nice weather tbaz .It is nice weather tbar .It is nice weather t foo .It is nice weather tnice .It is nice weather today . 今日 0 は 1 いい 2 天気 3 です 4 ね 5 。 6 5-4-3-2-1-0-65-0-3-4-2-1-65-4-2-3-1-3-65-4-2-3-1-2-65-4-2-3-1-1-65-4-2-3-1-2-65-4-2-3-1-0-6 Decoding Pre-reordering It is nice weather today . Select the Best ● 提案手法: 複数の事前並べ替え候補を同時に使用して翻訳 – 複数の並べ替え候補が得られる場合 これらを組み合わせることで より良い翻訳が可能 – 並べ替えの頑健性を 事前並べ替え側で担保 ● 手法への要求 – デコード処理の簡素化 – 事前並べ替え手法とは 独立した処理
  6. 6. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 6 提案手法の概要 並べ替えグラフの 構築 並べ替えグラフ上の デコード 複数の事前並べ替え候補を コンパクトに表現 並べ替えグラフの特徴に基づいて 高速に処理
  7. 7. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 7 並べ替えグラフの構築 (1) ● 並べ替えグラフ …   事前並べ替え候補の情報を表現した有向非巡回グラフ ● 構築方法 1. 各事前並べ替え候補から1本のパスを生成 2. 同じ情報のノードを統合 • ノードの情報 = 読んだ単語の位置の集合 0123456 (1-best) ね です いい 天気 は 今日 。 1. 5-4-2-3-1-0-6 = ね です いい 天気 は 今日 。
  8. 8. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 8 並べ替えグラフの構築 (2) ● 並べ替えグラフ …   事前並べ替え候補の情報を表現した有向非巡回グラフ ● 構築方法 1. 各事前並べ替え候補から1本のパスを生成 2. 同じ情報のノードを統合 ● ノードの情報 = 読んだ単語の集合 0123456 (1-best) ね です いい 天気 は 今日 。 Integrate (same word coverage) Integrate (same word coverage) 1. 5-4-2-3-1-0-6 = ね です いい 天気 は 今日 。 2. 5-0-3-4-2-1-6 = ね 今日 天気 です いい は 。
  9. 9. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 9 並べ替えグラフの構築 (3) ● 並べ替えグラフ …   事前並べ替え候補の情報を表現した有向非巡回グラフ ● 構築方法 1. 各事前並べ替え候補から1本のパスを生成 2. 同じ情報のノードを統合 ● ノードの情報 = 読んだ単語の集合 – 事前並べ替えの手法に関わらず 並べ替え候補が分かれば構築可能 0123456 (1-best) ね です いい 天気 は 今日 。 1. 5-4-2-3-1-0-6 = ね です いい 天気 は 今日 。 2. 5-0-3-4-2-1-6 = ね 今日 天気 です いい は 。 3. 5-4-3-2-1-0-6 = ね です 天気 いい は 今日 。 4. 5-1-3-4-2-0-6 = ね は 天気 です いい 今日 。 5. 5-4-1-3-2-0-6 = ね です は 天気 いい 今日 。
  10. 10. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 10 並べ替えグラフの例 ● 26単語の日本語文 + 128個の事前並べ替え候補を統合 Highly integrated Highly integrated Variation Variation
  11. 11. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 11 並べ替え信頼度によるスコア ● 並べ替えグラフ上のパスにスコアを付与 – デコード時に素性として使用 – 様々なスコアが考えられるが、本研究では事前実験で最も性能が良かった 事前並べ替え候補の信頼度の最大値を使用 Confidence of 1st reordering Confidence of 2nd reordering 3rd 4th 5th
  12. 12. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 12 デコード (1) ● 並べ替えグラフ上のデコード – 左のノードから順に翻訳結果を確定 – グラフ自体が並べ替えに関する情報を持っているため、 デコード時の並べ替えは行わない – 単純な動的計画法 1 2 3 4 5 6 70Decoding order
  13. 13. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 13 デコード (2) ● 並べ替えグラフ上のデコード – 左のノードから順に翻訳結果を確定 – グラフ自体が並べ替えに関する情報を持っているため、 デコード時の並べ替えは行わない – 単純な動的計画法 Decoding phrase phrase phrase phrase phrase phrase phrase phrase phrase phrase phrase phrase 翻訳結果の 確定したノード 次に翻訳結果を 確定するノード ノード間の単語の差分に 対応するフレーズ
  14. 14. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 14 実験 ● 実験設定 ● 比較対象 ※再ランキング ● 並べ替え信頼度とデコーダのスコアを単純に線形補間 (PBMTを複数回実行) 原言語 Ar, Zh, Fr, De, It, Ja, Ru, Es 目的言語 En コーパス Train Webから無作為に収集 Dev Webから無作為に収集後、人手翻訳 3000文 Test Webから無作為に収集後、人手翻訳 5000文 事前並べ替え Bracketing Transduction Grammar [*] + ビームサーチ [*] Tetsuji Nakagawa. Efficient Top-down BTG Parsing for Machine Translation Preordering. In Proc. ACL-IJCNLP, pp. 208-218, 2015. 手法 事前並べ替え数 並べ替えモデル 評価 PBMT 1-best あり BLEU+主観(400文・7段階) 提案手法 1,2,4,8,16,32,64 なし BLEU+主観(400文・7段階) 再ランキング※ 2,4,8,16,32,64 あり+なし BLEU
  15. 15. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 15 実験結果 (1) BLEU % 言語対 PBMT 提案手法 再ランキング 並べ替えあり 再ランキング 並べ替えなし Ar-En 36.47 36.99 (+0.52) 37.26 (+0.79) 36.88 (+0.41) Zh-En 29.93 31.14 (+1.21) 30.96 (+1.03) 31.35 (+1.42) Fr-En 33.19 34.03 (+0.84) 33.87 (+0.68) 33.93 (+0.74) De-En 30.45 31.05 (+0.60) 31.53 (+1.08) 31.27 (+0.82) It-En 37.59 38.22 (+0.63) 38.62 (+1.03) 38.31 (+0.72) Ja-En 15.66 16.68 (+1.02) 17.00 (+1.34) 16.53 (+0.87) Ru-En 25.58 25.79 (+0.21) 26.12 (+0.54) 25.54 (-0.04) Es-En 34.41 36.11 (+1.70) 36.06 (+1.65) 36.36 (+1.95) ● 提案手法は全ての言語対で一定のBLEU向上 ● 提案手法と再ランキング法は概ね同様の傾向 – アルゴリズムが簡単である分、提案法の方が優秀 ● 再ランキング法+並べ替えでBLEUが向上しない場合もある – 事前並べ替えと並べ替えモデルの関係が明確でない
  16. 16. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 16 実験結果 (2) 主観評価 言語対 提案手法による 平均評価値の上昇 p (両側t検定) 翻訳結果の 異なり率 % Ar-En +0.066 0.063 64.55 Zh-En +0.096 0.070 78.44 Fr-En +0.157 < 0.001 27.56 De-En +0.111 < 0.001 30.10 It-En +0.074 0.001 25.66 Ja-En +0.238 < 0.001 73.35 Ru-En +0.057 0.017 29.74 Es-En +0.133 < 0.001 40.44 ● Ar, Zh 以外の言語対で有意性 (p < 0.05) – Ar, Zh, Ja →は翻訳結果の大半が提案手法により変化   ばらつきが大きい ● Ja は翻訳の変化が大きいにも関わらず強い有意性 (p < 0.001) – 入力の語順が曖昧な言語ほど提案手法が有効である可能性
  17. 17. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 17 実験結果 (3) 事前並べ替え候補数とBLEU (1) ● 考慮する事前並べ替え候補を増加させると基本的にBLEUが向上
  18. 18. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 18 実験結果 (3) 事前並べ替え候補数とBLEU (2) ● 考慮する事前並べ替え候補を増加させると基本的にBLEUが向上 ● 並べ替えの信頼度を考慮しない場合はBLEUが低下 – 並べ替えの信頼度を考慮することで翻訳精度を担保
  19. 19. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 19 実験結果 (4) デコード時間とBLEU (Ja-En) ● 提案手法は従来のPBMTよりも高速かつ高精度 – 固定された探索空間 – 並べ替えモデルによる複雑な計算が発生しない 事前並べ替え 候補数 並べ替え制限長
  20. 20. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 20 翻訳例 ● 成功例1 – 原文: では, この問題をどうやって解決するつもりですか. – PBMT: So, are you going to solve how this problem. – 提案手法: So, how do you intend to solve this problem. ● 成功例2 – 原文: 私の車は, 私を含む全員がシートベルトを着用するまで駆動しません. – PBMT: My car, everyone including the I does not drive up to wear a seat belt. – 提案手法: My car does not drive until everyone, including me to wear a seat belt. ● 失敗例 – 原文: 技術革新により, 情報と画像をカードの表面に印刷できます. – PBMT: By technological innovation, you can print the information and images on the card surface. – 提案手法: By technological innovation, you can print the image information on the surface of the card.
  21. 21. 16/03/21 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 21 まとめ ● 提案手法 – 複数の事前並べ替え候補を用いた高速・高精度なPBMT – 事前並べ替え候補をグラフ化、一度に処理が可能 – 事前並べ替え手法から独立したグラフ構築法 ● 実験結果 – 8言語対(Ar/Zh/Fr/De/It/Ja/Ru/Es → En)で翻訳精度向上 (BLEU・主観評価) – 既存のPBMTよりも高速 ● 今後の課題 – 他の事前並べ替え手法による検証 – 複数の事前並べ替え手法の組み合わせ – グラフ構造に適用しにくい素性(NNJMなど)を適用する方法の考案

×