3. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 3
同時音声翻訳
●
同時音声翻訳 (Simultaneous Speech Translation: SST)
– 音声→音声の機械翻訳
– 話者の発話を連続的に翻訳・出力
– 同時性(訳出時間の短さ)を重視 … 発話の途中でも結果を随時出力
同時音声翻訳システム
今から18分間で
皆様を旅にご案内します
In the next 18 minutes
I'm going to take you on a journey
可能な限り短時間で訳出
→会話の途中でも出力
4. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 4
同時音声翻訳の手法
●
逐次デコーディング (Sankaran+2010 Yarmohammadi+2013; Finch+2014)
– 前回の翻訳過程+入力単語 → 次回の翻訳過程
– 翻訳過程が条件を満たせば結果を出力
– 翻訳時の履歴を考慮可能 but 翻訳器の大幅な修正
●
文分割 (Fügen+2007; Bangalore+2012; Sridhar+2013; Fujita+2013; Oda+2014)
– 入力単語列を予め翻訳するべき単位で分割
– 分割で得た単位をそのまま翻訳
– 通常の翻訳器を使用可能 but 構文的に問題のある分割が発生
→ 統語情報に基づく翻訳法と相性が悪い
this is a pen
MT MT MT MT
これはペンです
OKmore more more
that this is a pen and ...
MT これはペンです
and
MT
5. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 5
文分割による構文情報の欠落
●
例: in the next 18 minutes I 'm going to take …
●
本来なら「I」の後ろに動詞句が続くことが予想されるが、分割によって欠落
●
翻訳単位だけでは正しい構文情報が得られない
VP (動詞句)
6. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 6
本研究の目的 (1)
●
文分割による翻訳単位に欠落した構文情報を補完
In the next 18 minutes I VP
翻訳単位 追加の構文情報
推定
7. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 7
本研究の目的 (2)
●
文分割による翻訳単位に欠落した構文情報を補完
●
補完された構文情報を用いて、構文的に妥当な翻訳の実現
In the next 18 minutes I VP
翻訳単位 追加の構文情報
推定
今から18分で、私はVP
今から18分私補完なし
補完あり
8. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 8
同時音声翻訳の構成
●
文分割に基づく同時音声翻訳システム
音
声
認
識
な
ど
this is
a pen
this
is
a
pen
文
分
割
翻
訳
これです
出
力
ペン
単語単位で
入力発話を取得
入力発話を
適切な位置で
グループ化
翻訳単位を生成
翻訳単位を
個別に変換
9. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 9
提案法 (1)
●
提案法1: 構文情報の補完
– 翻訳単位が正しい構文となるよう補正
音
声
認
識
な
ど
構
文
補
完
構
文
解
析
this is NPthis is
a pen
this
is
a
pen
文
分
割
翻
訳
これは NP です
出
力
ペンa pen
提案法1
10. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 10
提案法 (2)
●
提案法1: 構文情報の補完
– 翻訳単位が正しい構文となるよう補正
●
提案法2: 構文情報に基づく翻訳待機
– 翻訳結果が特定の条件を満たすときに翻訳を待機
– 次の翻訳単位と結合
音
声
認
識
な
ど
構
文
補
完
構
文
解
析
this is NPthis is
a pen
this
is
a
pen
文
分
割
翻
訳
これは NP です
出
力
これはペンですthis is a pen
待 機
this is
提案法1
提案法2
12. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 12
構文情報の補完 (1)
●
文分割により得られた構文単位から構文情報を補完
VP
翻訳単位 追加の構文情報
推定
in the next 18 min. I
13. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 13
構文情報の補完 (2)
●
文分割により得られた構文単位から構文情報を補完
翻訳単位
in the next 18 min. I
IN DT JJ CD NNS NN
NP NP
NP
PP
1. 翻訳単位を無理やり構文解析
14. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 14
構文情報の補完 (3)
●
文分割により得られた構文単位から構文情報を補完
翻訳単位
in the next 18 min. I
IN DT JJ CD NNS NN
NP NP
NP
PP
2. 素性の抽出
単語:R1=I
品詞:R1=NN
単語:R1-2=I,min.
品詞:R1-2=NN,NNS
...
ROOT=PP
ROOT-L=IN
ROOT-R=NP
...
1. 翻訳単位を無理やり構文解析
15. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 15
構文情報の補完 (4)
●
文分割により得られた構文単位から構文情報を補完
翻訳単位
in the next 18 min. I
IN DT JJ CD NNS NN
NP NP
NP
PP
3. 多値分類
単語:R1=I
品詞:R1=NN
単語:R1-2=I,min.
品詞:R1-2=NN,NNS
...
ROOT=PP
ROOT-L=IN
ROOT-R=NP
...
VP ... 0.65
NP ... 0.28
nil ... 0.04
...
1. 翻訳単位を無理やり構文解析
2. 素性の抽出
16. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 16
構文情報の補完 (5)
●
文分割により得られた構文単位から構文情報を補完
翻訳単位
in the next 18 min. I
IN DT JJ CD NNS NN
NP NP
NP
PP
3. 多値分類
単語:R1=I
品詞:R1=NN
単語:R1-2=I,min.
品詞:R1-2=NN,NNS
...
ROOT=PP
ROOT-L=IN
ROOT-R=NP
...
VP ... 0.65
NP ... 0.28
nil ... 0.04
...
1. 翻訳単位を無理やり構文解析
2. 素性の抽出
VP
4. 確率最大の文法要素を
追加
17. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 17
構文情報の補完 (6)
●
文分割により得られた構文単位から構文情報を補完
翻訳単位
in the next 18 min. I
IN DT JJ CD NNS NN
NP NP
NP
PP
3. 多値分類
単語:R1=I
品詞:R1=NN
単語:R1-2=I,min.
品詞:R1-2=NN,NNS
...
ROOT=PP
ROOT-L=IN
ROOT-R=NP
...
VP ... 0.65
NP ... 0.28
nil ... 0.04
...
1. 翻訳単位を無理やり構文解析
2. 素性の抽出
VP
4. 確率最大の文法要素を
追加
5. nilが生成されるまで反復
nil
18. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 18
学習データの生成 (1)
●
Penn Treebankの木を分解して学習データを生成
This is a pen
DT VBZ NN
NP
VP
NP
S
DT
This is
DT VBZ
NP
VP
NP
S
is a pen
VBZ NN
NP
VP
DT
is a
VBZ NN
NP
VP
DT
is a pen [nil]
is a [NN] [nil]
This is [NP] [nil]
19. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 19
学習データの生成 (2)
●
Penn Treebankの木を分解して学習データを生成
This is a pen
DT VBZ NN
NP
VP
NP
S
DT
This is
DT VBZ
NP
VP
NP
S
is a pen
VBZ NN
NP
VP
DT
is a
VBZ NN
NP
VP
DT
is a pen [nil]
is a [NN] [nil]
This is [NP] [nil]
元の構文木と
同じ部分木
↓
推定は不要
同じ部分木を
生成するのに
NN が必要
同じ部分木を
生成するのに
NP が必要
20. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 20
Tree-to-string 翻訳 (1)
●
Tree-to-string 翻訳 …
– 原言語の構文木を翻訳に使用
– 一般にフレーズベース翻訳よりも構文の異なる言語に強い
●
例:英語→日本語
This is a pen
This is a pen
DT VBZ NN
NP
VP
NP
S
DT これ は ペン で す
構文解析
翻訳
21. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 21
Tree-to-string 翻訳 (2)
●
Tree-to-string 翻訳 …
– 原言語の構文木を翻訳に使用
– 一般にフレーズベース翻訳よりも構文の異なる言語に強い
●
例:英語→日本語
– 補完した構文情報を明示的に利用することが可能
This is NP
This is
DT VBZ
NP
VP
NP
S
これ は NP で す
構文解析
翻訳
23. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 23
構文情報を用いた翻訳待機 (1)
タグ推定後の
入力文
in the next 18 minutes
翻訳結果 18 分 で あ る
24. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 24
構文情報を用いた翻訳待機 (2)
タグ推定後の
入力文
in the next 18 minutes
i 'm going to take [NP]
翻訳結果 18 分 で あ る
[NP] を 行 っ て い ま す
右側に推定された文法要素が翻訳結果の中に来ることがある
25. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 25
構文情報を用いた翻訳待機 (3)
タグ推定後の
入力文
in the next 18 minutes
i 'm going to take [NP]
you on a journey
翻訳結果 18 分 で あ る
[NP] を 行 っ て い ま す
旅 の 途中 で あ る の か
右側に推定された文法要素が翻訳結果の中に来ることがある
⇒ 前後の文の並べ替え, 恐らく 分割が失敗
26. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 26
構文情報を用いた翻訳待機 (4)
タグ推定後の
入力文
in the next 18 minutes
i 'm going to take [NP] (待機)
i 'm going to take you on a journey
翻訳結果 18 分 で あ る
[NP] を 行 っ て い ま す
皆さん を 旅 に お連れ します
右側に推定された文法要素が翻訳結果の中に来ることがある
⇒ 前後の文の並べ替え, 恐らく 分割が失敗
⇒ 翻訳結果に現れた場合、後続の断片を待機
逐次デコーディングと同様の効果を翻訳器の変更なしで実現
正しい翻訳結果