構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価

構⽂情報に基づく
機械翻訳のための能動学習⼿法と
⼈⼿翻訳による評価
三浦明波*1 Graham Neubig*1 Michael Paul*2 中村哲*1
*1 奈良先端科学技術⼤学院⼤学
*2 株式会社ATR-Trek
16/03/09 Akiva Miura AHC-Lab, IS, NAIST 1
⾔語処理学会第22回年次⼤会

⽬次
1.  研究背景・概要
2.  翻訳対象データ選択⼿法
3.  ⼈⼿翻訳実験
4.  実験結果・分析
5.  まとめ
6.  Appendix

1. 研究背景・概要

•  対訳コーパスの質と量が不可⽋
•  学習データの分野外の翻訳は苦⼿
統計的機械翻訳
l  統計的機械翻訳（Statistical Machine Translation ; SMT)
[Brown et al., 1993]
対訳コーパス
⽬的⾔語
コーパス
翻訳モデル
⾔語モデル
デコーダ
（翻訳機）
学習データ
⼊⼒⽂
翻訳結果
翻訳システム

能動学習による対訳データの作成
l  能動学習を⽤いて対訳データを効率的に作成
翻訳済み
未翻訳
翻訳済み
原⾔語データ⽬的⾔語データ
対訳
⼈⼿翻訳
ü  ⼈⼿翻訳のコスト（〜単語数）を⼤幅削減
ü  既存の対訳データを元に効率的に分野適応が可能
翻訳候補翻訳結果
追加追加
翻訳精度向上に役⽴てられそうな
部分を逐次的に選択

l  研究⽬的：
•  能動学習⼿法を⽤いることで翻訳モデル構築の
費⽤対効果を向上
l  既知の事項：
•  対訳データを⼈⼿で作るには時間と費⽤の⾯でコスト⼤
•  外部委託の場合、通常は単語数に応じた費⽤がかかる
l  研究概要：
•  能動学習を⽤いた対訳データ構築における、
既存の⼿法を調査し、問題点を解消することで、
機械翻訳の精度向上効率を改善させる
研究概要

2. 翻訳対象データ選択⼿法

研究概要
l  従来法1: n-gram頻度に基づく⽂選択 [Bloodgood et al., 2010]
A housewrap made from any one of the preceding claims .
（⾼頻度）
l  従来法2: n-gram頻度に基づくフレーズ選択 [Bloodgood et al., 2010]
（⾼頻度）
l  提案法: 構⽂情報に基づくフレーズ選択 [三浦他, 2015]
any one of the preceding claims
DT CD IN DT NNS JJ
NP
PP
NP
NP ・・・
・・・
・・・
l  より少ない追加単語数で
カバレッジ向上と
⾼品質な対訳取得を期待
（⾼頻度）

シミュレーション実験結果 (英→仏)
ü  提案⼿法により
精度向上効率を⼤幅に改善
← 4-gramに基づく⽂選択
← 4-gramに基づくフレーズ選択
← 構⽂⽊に基づくフレーズ選択
← (重複フレーズを事前に削減)
l  ⼈⼿翻訳の代わりにSMTでフレーズの対訳を得る能動学習実験を実施
（2015年12⽉ NL研で発表）
翻訳精度→
提案⼿法

l  シミュレーション実験による翻訳精度への影響
Ø  提案法で、追加単語数に対する精度向上幅を改善
l  選択されるフレーズの傾向、カバレッジへの影響
Ø  提案法は⾼頻度の専⾨⽤語を優先して選択する傾向
新規の調査内容
調査済み
新規の調査項⽬
l  本当に⼈⼿翻訳を⾏う際に有効か？
l  得られる対訳の質、翻訳のしやすさは？
l  翻訳作業に要する時間は？

3. ⼈⼿翻訳実験

⽐較するデータ選択⼿法
データ選択⼿法選択順対象
sent-by-4gram-freq
（ベースライン１）
4-gram頻度順⽂
4gram-freq
（ベースライン２）
頻度順
4-gramフレーズ
reduced-struct-freq
（提案法）
部分⽊フレーズ
（重複を統合）

Phrase to be translated:
3: sure about the translation
Translation input form:
⾛査型電⼦顕微鏡 (SEM)
Conﬁdence level:
2: not so sure about the translation
1: not sure at all
The morphologies using scanning electron
microscopy ( SEM ) were studied .
⼈⼿翻訳データの収集
l  Web UIを作成し、プロの翻訳者に翻訳作業を依頼
l  翻訳に対する確信度も併せて評価

実験設定
使⽤ツール
単語アラインメント推定 inc-giza-pp
(GIZA++の逐次学習対応版）
⾔語モデル学習 KenLM (5-gram)
翻訳モデル学習 Moses-MMSAPT
(接尾辞配列を⽤いたフレーズテーブルの動的⽣成)
デコーダ Moses (PBMT)
句構造解析 Ckylark
⾃動評価尺度 BLEU-4
データセット
英語 → ⽇本語ベース (⼀般分野): 英辞郎例⽂データ (414k ⽂)
追加 (科学論⽂): ASPEC (1.87M ⽂)
評価: ASPEC (1,790 ⽂)

4. 実験結果・分析

追加単語数あたりのBLEUスコア推移
ü  構⽂⽊を⽤いる提案⼿法で最⾼精度

累計作業時間あたりのBLEUスコア推移
✗  構⽂⽊に基づくフレーズ選択⼿法で従来より⻑い作業時間
Ø  専⾨⽤語を優先的に選択する傾向を確認済み

合計実作業時間と平均信頼度
ü  reduced-struct-freq で最⾼平均信頼度
⼿法合計作業時間 [時間] 平均信頼度 [3段階]
sent-by-4gram-freq 25.22 2.689
4gram-freq 32.70 2.601
reduced-struct-freq 59.97 2.771

フレーズの翻訳に要する平均時間
l  1単語の翻訳時間が2〜4単語の翻訳時間を上回る
⼿法
平均作業時間 [秒]
1単語 2単語 3単語 4単語 5単語+
sent-by-4gram-freq - - - - 160.64
4gram-freq 30.14 24.76 21.77 21.12 -
reduced-struct-freq 35.61 25.23 21.72 28.13 22.82

信頼度帯による翻訳精度
ü  構⽂⽊を利⽤かつ信頼度2以上の時に最⾼精度
⼿法
BLEUスコア
(丸括弧は収集データの利⽤率）
信頼度 ≧ 1 信頼度 ≧ 2 信頼度 = 3
sent-by-4gram-freq 9.88
(100%)
9.92
(99.6%)
9.85
(67.1%)
4gram-freq 10.48
(100%)
10.54
(97.5%)
10.36
(55.0%)
reduced-struct-freq 10.70
(100%)
10.72
(98.5%)
10.67
(78.8%)
※ ベースシステムのBLEUスコアは 9.37 [%]

5. まとめ、今後の計画

まとめ、今後の計画
Ø 今後の計画:
翻訳作業時間を短縮しつつ有効にモデルを⾼度化する⼿法を考案
調査結果
l  本当に⼈⼿翻訳を⾏う際に有効か？
ü  従来⼿法よりも効率的に精度向上
l  得られる対訳の質、翻訳のしやすさは？
ü  作業者が最も⾃信をもって翻訳を実施
l  翻訳作業に要する時間は？
✗  作業時間あたりの効率は改善せず
l  構⽂情報を⽤いて翻訳対象を選択するデータ選択⼿法を提案
Ø ⼈⼿翻訳によって能動学習の効率を⽐較

ご清聴ありがとうございました
謝辞
l 本研究は、
（株）ATRーTrekの助成を受けて実施されました
l ⼈⼿翻訳実験のための翻訳作業は、
（株）バオバブに⽀援して頂きました

⽬次
1.  研究背景・概要
2.  翻訳対象データ選択⼿法
3.  ⼈⼿翻訳実験
4.  実験結果・分析
5.  まとめ
6.  Appendix

6. Appendix

能動学習
ü  少ないアノテーションコストによってモデルの性能を向上
•  オンライン学習との相性が良い
l  能動学習（Active Learning)
能動学習アルゴリズム
プールデータ
（ラベルなし）
データ点を1つ選択
データ点にラベルを付与
モデルを
更新
正解ラベル
を要求
学習データ
（ラベル付き）
モデル
オラクル
（教師）
データ選択基準
が特に重要

n-gram頻度に基づく⽂選択⼿法
ü  少ない⽂数で原⾔語データの全n-gramフレーズをカバー可能
✗ 翻訳済みフレーズも多く再選択されるために無駄が多い
l  最⾼頻度の未カバーn-gramフレーズを含む⽂を選択
[Bloodgood et al., 2010]
350,000
(times)
200,000 100,000 (times)

n-gram頻度に基づくフレーズ選択⼿法
ü  ⽂選択⼿法よりも少ない単語数でn-gramカバレッジを向上
✗ 選択されるフレーズどうしの重複多数
✗ フレーズの断⽚化が発⽣し、⼈⼿翻訳が困難
✗ 単語数 n > 4 のフレーズ対応を学習できない
l  最⾼頻度の未カバーn-gramフレーズそのものを選択
[Bloodgood et al., 2010]
sorting
350,000 200,000 100,000 (times)
•  any one of the　　　　　　　　350,000
•  one of the preceding　　　　200,000
•  of the preceding claims　　100,000
翻訳が困難
提案手法で解決

構⽂⽊に基づくフレーズ選択
l 構⽂解析結果から部分⽊をなすフレーズを頻度順に追加
[三浦他, 2015]
are proposed and discussed
VBZ VBN CC VBN
VP
VP
VP
VP
two methods are proposed
CD NNS VBP
VP
NP
S
VBN
VP
ü  構⽂解析結果を⽤いることで、断⽚化の問題を解消
ü  包含関係にあるフレーズを⼀定条件で統合して重複を削除
Ø  ⼈⼿翻訳時の品質にも好影響？（本研究で調査）
カウントするカウントしない
✔

対訳データの内訳
トされる
トされない
ズカウント条件
層的な単語列を数え
言語対分野データセット文数/単語数
414k 文
一般 (ベース) Train En: 6.72M 単語
Ja: 9.69M 単語
En-Ja 1.87M 文
Train En: 46.4M 単語
科学論文 (追加) Ja: 57.6M 単語
Test 1790 文
Dev 1790 文
1.89M 文
一般 (ベース) Train En: 47.6M 単語
Fr: 49.4M 単語
En-Fr 15.5M 文
Train En: 393M 単語
医療 (追加) Fr: 418M 単語
Test 1000 文
Dev 500 文
表 1 対訳コーパスのデータ内訳 (有効数字 3 桁)

⼿法ごとに選択されるデータ内訳
報処理学会研究報告
SJ SIG Technical Report
全フレーズ追加 1 万単語追加
言語対データ選択手法フレーズ数単語数平均フレーズ長フレーズ数平均フレーズ長
sent-by-4gram-freq 1.28M 33.6M 26.3 560 17.8
4gram-freq 8.48M 26.0M 3.07 4.70k 2.13
En-Ja maxsubst-freq 7.29M 25.8M 3.54 4.51k 2.22
reduced-maxsubst-freq 6.06M 21.7M 3.58 4.76k 2.10
struct-freq 1.45M 4.85M 3.34 6.64k 1.51
reduced-struct-freq 1.10M 3.33M 3.03 6.73k 1.49
sent-by-4gram-freq 10.6M 269M 25.4 310 32.1
4gram-freq 40.1M 134M 3.34 3.62k 2.76
En-Fr maxsubst-freq 62.4M 331M 5.30 2.39k 4.17
reduced-maxsubst-freq 45.9M 246M 5.36 2.95k 3.39
struct-freq 14.1M 94.2M 6.68 4.01k 2.49
reduced-struct-freq 7.33M 41.3M 5.63 4.55k 2.20
表 2 手法ごとに選択されるデータ内訳 (有効数字 3 桁)
1-gram / 4-gram カバレッジ [%]
言語対データ選択手法追加なし 1 万単語 10 万単語 100 万単語
sent-rand 94.81 / 5.63 95.99 / 6.59 97.54 / 10.06

機械翻訳のための能動学習⼿法
l  機械翻訳のための能動学習アルゴリズム
•  どのように次の翻訳候補を選択するかが重要
Ø  SrcPool を効率的にカバーする⼿法を考案
ととする．翻訳対象の候補となるデータを含む原言語コー
パスから，逐次的に新しい原言語フレーズを選択し翻訳，
正解データとして対訳コーパスに加える手順をまとめると
下表のように一般化できる．
Algorithm 1 能動学習手法
1: Init:
2: SrcPool ← 翻訳候補の原言語コーパス
3: Translated ← 翻訳済みの対訳コーパス
4: Oracle ← 入力フレーズの正解訳を与えるオラクル
5: Loop Until 停止条件:
6: TM ← TrainTranslationModel(Translated)
7: NewSrc ← SelectNextPhrase(SrcPool, Translated, TM)
8: NewTrg ← GetTranslation(Oracle, NewSrc)
9: Translated ← Translated {⟨NewSrc, NewTrg⟩}
1 行目から 4 行目でデータの定義，初期化を行う．
SrcPool は原言語コーパスの各行を要素とする集合で
ある．Translated は翻訳済みの原言語フレーズと目的言
ものを含む文を
訳済みのデータ
カバーした時点
最頻出の n-gr
翻訳コストを抑
らは，n = 4 の
能動学習のシミ
全てを翻訳す
BLEU スコア
しかし，文全
にカバーされて
の単語数だけ余
のため，文全体
手法を 3.2 節か
3.2 n-gram
n-gram 頻度

極⼤性の導⼊
l 極⼤部分⽂字列 [Okanohara et al, 2009]
•  半順序関係を定義:
「s1がs2の部分文字列」かつ「occ(s1) = occ(s2) 」
⇔　s1 ≼ s2
•  極大元が存在:
s1について、s1 ≼ s2 となるような s2 は s1 自身のみ
⇔ s1 を極大部分文字列と定義
l 部分フレーズ（単語列）に適⽤、α による⼀般化
•  半順序関係を定義:
「s1がs2の部分単語列」かつ「α・occ (s1) ≦ occ (s2) 」
⇔　s1 ≼ s2
•  極大元が存在:
α = 1 の場合の極大元: 極大フレーズ
α = 0.5 の場合の極大元: 半極大フレーズ

フレーズの極⼤性に基づくデータ選択
l 極⼤性を持つ未カバーのフレーズを抽出し、頻度順に選択
•  極大フレーズの選択:
p2とp3が極大性を持つ（p1 ≼ p2)
•  半極大フレーズの選択:
p3が極大性を持つ（p1 ≼ p2 ≼ p3）

ü  フレーズの重複部分を効果的に統合
△ すべての重複を統合できるわけではない
✗ 統語情報を⽤いていないので、断⽚化の問題が残る
p1 = “one of the preceding”, occ(p1) = 200,000
p2 = “one of the preceding claims”, occ(p2) = 200,000
p3 = “any one of the preceding claims”, occ(p3) = 190,000

シミュレーションタスク
タスク名選択順対象備考
sent-rand
ランダム
文
4gram-rand 4-gramフレーズ
sent-by-4gram-freq 4-gram頻度順文ベースライン1
4gram-freq
頻度順
4-gramフレーズベースライン2
maxsubst-freq 極大フレーズ
提案法
reduced-maxsubst-freq 半極大フレーズ
struct-freq 部分木フレーズ
reduced-struct-freq 半極大・部分木フレーズ

シミュレーション結果 En→Fr (〜10万単語）
reduced-struct-freq > struct-freq > 他の⼿法

シミュレーション結果 En→Fr (〜100万単語）
reduced-struct-freq > struct-freq > 他の⼿法

シミュレーション結果 En→Ja (〜10万単語）
⼤部分で提案法とベースラインで⼤差なし
途中から僅差だが、reduced-struct-freq > 他の⼿法

シミュレーション結果 En→Ja (〜100万単語）
途中からは *struct-freq > 他の⼿法

カバレッジへの影響 (En→Fr)
reduced-struct-freq で 1-gramカバレッジ最⼤
sent-by-4gram-freq で 4-gramカバレッジ最⼤
⾔語対データ選択⼿法
追加なし 1万単語 10万単語 100万単語
En-Fr
sent-rand
92.72 / 10.60
92.93 / 10.60 93.73 / 10.71 95.94 / 11.30
4gram-rand 92.95 / 10.60 93.99 / 10.60 96.42 / 10.64
sent-by-4gram-freq 92.95 / 10.60 93.96 / 10.72 96.25 / 11.55
4gram-freq 92.92 / 10.60 94.46 / 10.66 96.60 / 11.16
maxsubst-freq 92.79 / 10.60 93.61 / 10.62 95.99 / 10.92
reduced-maxsubst-freq 92.92 / 10.60 94.38 / 10.66 96.55 / 11.13
struct-freq 93.63 / 10.60 96.15 / 10.65 97.84 / 11.28
reduced-struct-freq 94.02 / 10.60 96.38 / 10.69 98.00 / 11.38

カバレッジへの影響 (En→Ja)
reduced-struct-freq で 1-gramカバレッジ最⼤
sent-by-4gram-freq で 4-gramカバレッジ最⼤
⾔語対データ選択⼿法
追加なし 1万単語 10万単語 100万単語
En-Ja
sent-rand
94.36 / 5.38
94.81 / 5.63 95.99 / 6.59 97.54 / 10.06
4gram-rand 94.80 / 5.38 96.10 / 5.46 97.67 / 5.98
sent-by-4gram-freq 95.10 / 5.84 96.28 / 7.23 97.64 / 11.39
4gram-freq 95.64 / 5.97 96.87 / 7.14 97.97 / 10.43
maxsubst-freq 95.59 / 5.96 96.83 / 7.07 97.91 / 10.20
reduced-maxsubst-freq 95.73 / 6.00 96.97 / 7.19 98.00 / 10.57
struct-freq 96.60 / 5.44 97.80 / 5.79 98.58 / 7.02
reduced-struct-freq 96.64 / 5.44 97.84 / 5.80 98.61 / 7.14

構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価

Recommended

Recommended

More Related Content

Similar to 構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価

Similar to 構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価 (20)

構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価