8. 研究概要
16/03/09 Akiva Miura AHC-Lab, IS, NAIST 8
l 従来法1: n-gram頻度に基づく⽂選択 [Bloodgood et al., 2010]
A housewrap made from any one of the preceding claims .
(⾼頻度)
l 従来法2: n-gram頻度に基づくフレーズ選択 [Bloodgood et al., 2010]
A housewrap made from any one of the preceding claims .
(⾼頻度)
l 提案法: 構⽂情報に基づくフレーズ選択 [三浦 他, 2015]
any one of the preceding claims
DT CD IN DT NNS JJ
NP
PP
NP
NP ・・・
・・・
・・・
l より少ない追加単語数で
カバレッジ向上と
⾼品質な対訳取得を期待
(⾼頻度)
9. シミュレーション実験結果 (英→仏)
16/03/09 Akiva Miura AHC-Lab, IS, NAIST 9
ü 提案⼿法により
精度向上効率を⼤幅に改善
← 4-gramに基づく⽂選択
← 4-gramに基づくフレーズ選択
← 構⽂⽊に基づくフレーズ選択
← (重複フレーズを事前に削減)
l ⼈⼿翻訳の代わりにSMTでフレーズの対訳を得る能動学習実験を実施
(2015年12⽉ NL研で発表)
翻訳精度→
提案⼿法
10. 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 10
l シミュレーション実験による翻訳精度への影響
Ø 提案法で、追加単語数に対する精度向上幅を改善
l 選択されるフレーズの傾向、カバレッジへの影響
Ø 提案法は⾼頻度の専⾨⽤語を優先して選択する傾向
新規の調査内容
調査済み
新規の調査項⽬
l 本当に⼈⼿翻訳を⾏う際に有効か?
l 得られる対訳の質、翻訳のしやすさは?
l 翻訳作業に要する時間は?
13. 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 13
Phrase to be translated:
3: sure about the translation
Translation input form:
⾛査型電⼦顕微鏡 (SEM)
Confidence level:
2: not so sure about the translation
1: not sure at all
The morphologies using scanning electron
microscopy ( SEM ) were studied .
⼈⼿翻訳データの収集
l Web UIを作成し、プロの翻訳者に翻訳作業を依頼
l 翻訳に対する確信度も併せて評価
22. まとめ、今後の計画
16/03/09 Akiva Miura AHC-Lab, IS, NAIST 22
Ø 今後の計画:
翻訳作業時間を短縮しつつ有効にモデルを⾼度化する⼿法を考案
調査結果
l 本当に⼈⼿翻訳を⾏う際に有効か?
ü 従来⼿法よりも効率的に精度向上
l 得られる対訳の質、翻訳のしやすさは?
ü 作業者が最も⾃信をもって翻訳を実施
l 翻訳作業に要する時間は?
✗ 作業時間あたりの効率は改善せず
l 構⽂情報を⽤いて翻訳対象を選択するデータ選択⼿法を提案
Ø ⼈⼿翻訳によって能動学習の効率を⽐較
26. 能動学習
16/03/09 Akiva Miura AHC-Lab, IS, NAIST 26
ü 少ないアノテーションコストによってモデルの性能を向上
• オンライン学習との相性が良い
l 能動学習(Active Learning)
能動学習アルゴリズム
プールデータ
(ラベルなし)
データ点を1つ選択
データ点にラベルを付与
モデルを
更新
正解ラベル
を要求
学習データ
(ラベル付き)
モデル
オラクル
(教師)
データ選択基準
が特に重要
27. n-gram頻度に基づく⽂選択⼿法
16/03/09 Akiva Miura AHC-Lab, IS, NAIST 27
ü 少ない⽂数で原⾔語データの全n-gramフレーズをカバー可能
✗ 翻訳済みフレーズも多く再選択されるために無駄が多い
l 最⾼頻度の未カバーn-gramフレーズを含む⽂を選択
[Bloodgood et al., 2010]
350,000
(times)
200,000 100,000 (times)
A housewrap made from any one of the preceding claims .
any one of the preceding claims
28. n-gram頻度に基づくフレーズ選択⼿法
16/03/09 Akiva Miura AHC-Lab, IS, NAIST 28
ü ⽂選択⼿法よりも少ない単語数でn-gramカバレッジを向上
✗ 選択されるフレーズどうしの重複多数
✗ フレーズの断⽚化が発⽣し、⼈⼿翻訳が困難
✗ 単語数 n > 4 のフレーズ対応を学習できない
l 最⾼頻度の未カバーn-gramフレーズそのものを選択
[Bloodgood et al., 2010]
sorting
350,000 200,000 100,000 (times)
any one of the preceding claims
• any one of the 350,000
• one of the preceding 200,000
• of the preceding claims 100,000
翻訳が困難
提案手法で解決
29. 構⽂⽊に基づくフレーズ選択
16/03/09 Akiva Miura AHC-Lab, IS, NAIST 29
l 構⽂解析結果から部分⽊をなすフレーズを頻度順に追加
[三浦 他, 2015]
are proposed and discussed
VBZ VBN CC VBN
VP
VP
VP
VP
two methods are proposed
CD NNS VBP
VP
NP
S
VBN
VP
ü 構⽂解析結果を⽤いることで、断⽚化の問題を解消
ü 包含関係にあるフレーズを⼀定条件で統合して重複を削除
Ø ⼈⼿翻訳時の品質にも好影響?(本研究で調査)
カウントする カウントしない
✔
34. フレーズの極⼤性に基づくデータ選択
16/03/09 Akiva Miura AHC-Lab, IS, NAIST 34
l 極⼤性を持つ未カバーのフレーズを抽出し、頻度順に選択
• 極大フレーズの選択:
p2とp3が極大性を持つ(p1 ≼ p2)
any one of the preceding claims
any one of the preceding claims
• 半極大フレーズの選択:
p3が極大性を持つ(p1 ≼ p2 ≼ p3)
ü フレーズの重複部分を効果的に統合
△ すべての重複を統合できるわけではない
✗ 統語情報を⽤いていないので、断⽚化の問題が残る
p1 = “one of the preceding”, occ(p1) = 200,000
p2 = “one of the preceding claims”, occ(p2) = 200,000
p3 = “any one of the preceding claims”, occ(p3) = 190,000