不完全な文の構文解析に基づく同時音声翻訳

15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 1
不完全な文の構文解析に基づく
同時音声翻訳
小田　悠介
Graham Neubig　　Sakriani Sakti
戸田　智基　　中村　哲
　　　　　言語処理学会第21回全国大会 (2015/3/18)

背　景
提案法の概要

同時音声翻訳
●
同時音声翻訳 (Simultaneous Speech Translation: SST)
– 音声→音声の機械翻訳
– 話者の発話を連続的に翻訳・出力
– 同時性（訳出時間の短さ）を重視　…　発話の途中でも結果を随時出力
同時音声翻訳システム
今から18分間で
皆様を旅にご案内します
In the next 18 minutes
I'm going to take you on a journey
可能な限り短時間で訳出
→会話の途中でも出力

同時音声翻訳の手法
●
逐次デコーディング (Sankaran+2010 Yarmohammadi+2013; Finch+2014)
– 前回の翻訳過程＋入力単語　→　次回の翻訳過程
– 翻訳過程が条件を満たせば結果を出力
– 翻訳時の履歴を考慮可能　but　翻訳器の大幅な修正
●
文分割 (Fügen+2007; Bangalore+2012; Sridhar+2013; Fujita+2013; Oda+2014)
– 入力単語列を予め翻訳するべき単位で分割
– 分割で得た単位をそのまま翻訳
– 通常の翻訳器を使用可能　but　構文的に問題のある分割が発生
　　　　　　　　　　　　　　　→　統語情報に基づく翻訳法と相性が悪い
this is a pen
MT MT MT MT
これはペンです
OKmore more more
that this is a pen and ...
MT これはペンです
and
MT

文分割による構文情報の欠落
●
例： in the next 18 minutes I 'm going to take …
●
本来なら「I」の後ろに動詞句が続くことが予想されるが、分割によって欠落
●
翻訳単位だけでは正しい構文情報が得られない
VP (動詞句)

本研究の目的 (1)
●
文分割による翻訳単位に欠落した構文情報を補完
In the next 18 minutes I VP
翻訳単位追加の構文情報
推定

本研究の目的 (2)
●
文分割による翻訳単位に欠落した構文情報を補完
●
補完された構文情報を用いて、構文的に妥当な翻訳の実現
In the next 18 minutes I VP
推定
今から18分で、私はVP
今から18分私補完なし
補完あり

同時音声翻訳の構成
●
文分割に基づく同時音声翻訳システム
音
声
認
識
な
ど
this is
a pen
this
is
a
pen
文
分
割
翻
訳
これです
出
力
ペン
単語単位で
入力発話を取得
入力発話を
適切な位置で
グループ化
翻訳単位を生成
翻訳単位を
個別に変換

提案法 (1)
●
提案法1: 構文情報の補完
– 翻訳単位が正しい構文となるよう補正
音
声
認
識
な
ど
構
文
補
完
構
文
解
析
this is NPthis is
a pen
this
is
a
pen
文
分
割
翻
訳
これは NP です
出
力
ペンa pen
提案法１

提案法 (2)
●
提案法1: 構文情報の補完
– 翻訳単位が正しい構文となるよう補正
●
提案法2: 構文情報に基づく翻訳待機
– 翻訳結果が特定の条件を満たすときに翻訳を待機
– 次の翻訳単位と結合
音
声
認
識
な
ど
構
文
補
完
構
文
解
析
this is NPthis is
a pen
this
is
a
pen
文
分
割
翻
訳
これは NP です
出
力
これはペンですthis is a pen
待　機
this is
提案法１
提案法2

不足した構文情報の推定

構文情報の補完 (1)
●
文分割により得られた構文単位から構文情報を補完
VP
推定
in the next 18 min. I

●
翻訳単位
IN DT JJ CD NNS NN
NP NP
NP
PP
1. 翻訳単位を無理やり構文解析

●
翻訳単位
IN DT JJ CD NNS NN
NP NP
NP
PP
2. 素性の抽出
単語:R1=I
品詞:R1=NN
単語:R1-2=I,min.
品詞:R1-2=NN,NNS
...
ROOT=PP
ROOT-L=IN
ROOT-R=NP
...

●
翻訳単位
IN DT JJ CD NNS NN
NP NP
NP
PP
3. 多値分類
単語:R1=I
品詞:R1=NN
単語:R1-2=I,min.
品詞:R1-2=NN,NNS
...
ROOT=PP
ROOT-L=IN
ROOT-R=NP
...
VP ... 0.65
NP ... 0.28
nil ... 0.04
...
2. 素性の抽出

●
翻訳単位
IN DT JJ CD NNS NN
NP NP
NP
PP
3. 多値分類
単語:R1=I
品詞:R1=NN
単語:R1-2=I,min.
品詞:R1-2=NN,NNS
...
ROOT=PP
ROOT-L=IN
ROOT-R=NP
...
VP ... 0.65
NP ... 0.28
nil ... 0.04
...
2. 素性の抽出
VP
4. 確率最大の文法要素を
　　　追加

●
翻訳単位
IN DT JJ CD NNS NN
NP NP
NP
PP
3. 多値分類
単語:R1=I
品詞:R1=NN
単語:R1-2=I,min.
品詞:R1-2=NN,NNS
...
ROOT=PP
ROOT-L=IN
ROOT-R=NP
...
VP ... 0.65
NP ... 0.28
nil ... 0.04
...
2. 素性の抽出
VP
4. 確率最大の文法要素を
　　　追加
5. nilが生成されるまで反復
nil

学習データの生成 (1)
●
Penn Treebankの木を分解して学習データを生成
This is a pen
DT VBZ NN
NP
VP
NP
S
DT
This is
DT VBZ
NP
VP
NP
S
is a pen
VBZ NN
NP
VP
DT
is a
VBZ NN
NP
VP
DT
is a pen [nil]
is a [NN] [nil]
This is [NP] [nil]

学習データの生成 (2)
●
Penn Treebankの木を分解して学習データを生成
This is a pen
DT VBZ NN
NP
VP
NP
S
DT
This is
DT VBZ
NP
VP
NP
S
is a pen
VBZ NN
NP
VP
DT
is a
VBZ NN
NP
VP
DT
is a pen [nil]
is a [NN] [nil]
This is [NP] [nil]
元の構文木と
同じ部分木
↓
推定は不要
同じ部分木を
生成するのに
NN が必要
同じ部分木を
生成するのに
NP が必要

Tree-to-string 翻訳 (1)
●
Tree-to-string 翻訳 …
– 原言語の構文木を翻訳に使用
– 一般にフレーズベース翻訳よりも構文の異なる言語に強い
●
例：英語→日本語
This is a pen
This is a pen
DT VBZ NN
NP
VP
NP
S
DT これはペンです
構文解析
翻訳

Tree-to-string 翻訳 (2)
●
Tree-to-string 翻訳 …
– 原言語の構文木を翻訳に使用
– 一般にフレーズベース翻訳よりも構文の異なる言語に強い
●
例：英語→日本語
– 補完した構文情報を明示的に利用することが可能
This is NP
This is
DT VBZ
NP
VP
NP
S
これは NP です
構文解析
翻訳

構文情報を用いた
翻訳待機

構文情報を用いた翻訳待機 (1)
タグ推定後の
入力文
in the next 18 minutes
翻訳結果 18 分である

タグ推定後の
入力文
i 'm going to take [NP]
[NP] を行っています
右側に推定された文法要素が翻訳結果の中に来ることがある

タグ推定後の
入力文
i 'm going to take [NP]
you on a journey
旅の途中であるのか
⇒　前後の文の並べ替え, 恐らく分割が失敗

タグ推定後の
入力文
i 'm going to take [NP] (待機)
i 'm going to take you on a journey
皆さんを旅にお連れします
⇒　前後の文の並べ替え, 恐らく分割が失敗
⇒　翻訳結果に現れた場合、後続の断片を待機
　　　逐次デコーディングと同様の効果を翻訳器の変更なしで実現
正しい翻訳結果

実　験

実験設定
●
ドメイン TED [WIT3]
●
言語対英語　→　日本語
●
トークン化 Stanford Tokenizer, KyTea
●
構文解析 Ckylark [小田+ 2015]
●
翻訳器 Moses(フレーズベース), Travatar(tree-to-string)
●
最終評価 BLEU・RIBES
●
文分割法 n単語で分割
手法概要
ベースライン
PBMT フレーズベース翻訳 (Moses)
T2S Tree-to-string翻訳 (Travatar)
文法要素の推定なし
提案法
T2S-tag Tree-to-string翻訳 (Travatar)
文法要素の推定
T2S-wait Tree-to-string翻訳 (Travatar)
文法要素の推定・断片の再結合

実験結果: BLEU (1)
0 2 4 6 8 10 12 14 16 18
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
T2S T2S-tag
T2S-wait PBMT
平均単語数

●
分割が少ない（グラフ右）　…　Tree-to-stringが高性能
●
分割が多い（グラフ左）　…　フレーズベースが高性能
– 分割により構文情報が欠落したためと考えられる
0 2 4 6 8 10 12 14 16 18
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
T2S T2S-tag
T2S-wait PBMT
平均単語数
PBMT
T2S
この辺りで
翻訳精度が逆転

●
構文情報の補完（T2S-tag, T2S-wait）
– 文分割=n単語で多く分割しても精度を維持　…　構文情報の補正がうまく作用
0 2 4 6 8 10 12 14 16 18
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
T2S T2S-tag
T2S-wait PBMT
平均単語数
T2S-waitT2S-tag
多く分割しても
精度を維持

実験結果: RIBES (1)
0 2 4 6 8 10 12 14 16 18
0.42
0.44
0.46
0.48
0.5
0.52
0.54
0.56
0.58
0.6
T2S T2S-tag
T2S-wait PBMT
平均単語数

実験結果: RIBES (2)
●
構文情報の補完（T2S-wait）
– 特に分割の多い条件で、他の手法より高精度
●
単語の並べ替えに関して他の手法よりも頑健
0 2 4 6 8 10 12 14 16 18
0.42
0.44
0.46
0.48
0.5
0.52
0.54
0.56
0.58
0.6
T2S T2S-tag
T2S-wait PBMT
平均単語数
T2S-wait
多く分割しても
精度を維持

まとめ
●
文法的に不完全な翻訳単位に対して、正しい構文情報を用いて翻訳
– 提案法：
●
不足している構文要素の補完
●
翻訳結果による分割単位の再結合　＝　翻訳の待機
– メリット：
●
Tree-to-string翻訳を文分割に基づく同時音声翻訳へ適用可能
●
文分割結果の良さを翻訳結果に基づいて評価可能
●
実験結果
– フレーズベース翻訳とtree-to-string翻訳の相補的な関係
– 構文木をそのまま使用した場合よりも…
●
多い分割でPBMTと同等のBLEU　＝　構文的に問題のある文分割に頑健
●
RIBES値が向上　＝　単語の並べ替えに頑健
●
今後の課題
– 構文の推定精度の向上
– 文分割法への反映　…　構文情報を明示的に考慮する文分割法の作成

不完全な文の構文解析に基づく同時音声翻訳

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (11)

Similaire à 不完全な文の構文解析に基づく同時音声翻訳

Similaire à 不完全な文の構文解析に基づく同時音声翻訳 (7)

Plus de 奈良先端大情報科学研究科

Plus de 奈良先端大情報科学研究科 (20)

Dernier

Dernier (11)