SlideShare une entreprise Scribd logo
1  sur  17
Télécharger pour lire hors ligne
Fast and Robust Neural Network Joint Models for
Statistical Machine Translation
Jacob Devlin, Rabih Zbib, Zhongqiang Huang,
Thomas Lamar, Richard Schwarts, John Mackhoul
Introducing by Yusuke Oda (@odashi_t)
2014/7/17 ACL Reading
IS, NAIST
1
2014/7/17 (ACL Reading at
NAIST)
©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
論文紹介: [Devlin et al.]
• "Fast and Robust Neural Network Joint Models for Statistical Machine
Translation"
• Best long paper award of ACL2014
• NNLMの考え方を機械翻訳プロセスへ応用
– 目的言語だけでなく、対応する原言語の単語を考慮
• "Joint Model" の由来
– NNで学習した素性をデコーダのスコアとして追加
• 今年のACLの流行り?
• そのままでは遅いので高速化を検討
– 入力層のテーブル化
– "Self Normalization"
• 何もしない場合より1万倍程度高速化
2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 2
手法の概要
• 点線部分に"the"が来たときの尤度が知りたい。
– 目的言語の「履歴」、原言語の「ある範囲」の単語を
ニューラルネットに放り込む
– 「ある範囲」
• "the"にアライメントがある…アライメント先を中心語とする
• アライメントがない…いくつかのヒューリスティクスで中心語を決定
• 中心語の左右数語を使用
2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 3
NNJM: ネットワークの構造
42014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
𝑠 𝑎 𝑖−2
𝑠 𝑎 𝑖−1
𝑠 𝑎 𝑖
𝑠 𝑎 𝑖+1
𝑠 𝑎 𝑖+2
𝑡𝑖−2
𝑡𝑖−1
𝑡𝑖−3
𝑃(𝑡𝑖)
hidden
512
hidden
512 soft-max
vocab=32k
projection
192 * #input
vocab=16k
vocab=16k
shared projection matrix
input
1-of-K
高速化
• 何が遅いのか?
• 射影層から隠れ層への遷移
– 射影層の次元が大きい
– 入力層は非常に疎なのに無駄な計算をしている
• 出力層のsoft-max演算
– 分配関数の計算に、すべての出力ノードの総和が必要
2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 5
Self-normalization - 出力層の高速化
• 分配関数の計算に時間がかかるので、これを省略したい
• 分配関数の計算が不要 ⇒ 𝑍 𝑥 = 1
⇒ log 𝑍 𝑥 = 0
• 最適化する関数に、log 𝑍 𝑥 に関する正則化項を追加
これをSGDで学習(多少の誤差は容認する)
2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 6
最大で15倍程度高速化
入力層の高速化
• 隠れ層のtanh ∙ を行う直前の値をテーブルに格納
– 計算は入力単語の個数分の総和とtanh ∙ だけでよい
2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 7
𝑠 𝑎 𝑖−2
𝑠 𝑎 𝑖−1
𝑠 𝑎 𝑖
𝑠 𝑎 𝑖+1
𝑠 𝑎 𝑖+2
𝑡𝑖−2
𝑡𝑖−1
𝑡𝑖−3
𝛴
メモリはそこそこ使うが
1000倍程度高速化
隠れ層への行列の乗算まで
完了したベクトル
𝜎
モデルのバリエーション (1)
• 履歴の方向・翻訳の方向で4種類のNNJMが定義可能。
2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 8
𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7
𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7
𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7
𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7
S2T/L2R Model
Source-to-Target / Left-to-Right
for decoding
S2T/R2L Model
for rescoring
Target History Affiliation
モデルのバリエーション (2)
• 履歴の方向・翻訳の方向で4種類のNNJMが定義可能。
2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 9
𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7
𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7
𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7
𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7
T2S/L2R Model
for rescoring
T2S/R2L Model
for rescoring
Target History Affiliation
デコーダの修正
• Tree-basedデコーダの場合
– より外側のルールで使用するので、使用した翻訳ルールの両端の
affiliationを覚えておかなければならない。
• 探索空間はそこまで増えない
2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 10
𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7
foo bar
baz qux
quux corge
NULLアライメントの考慮
• NNJMはNULLアライメントを考慮していない。
• 原言語の各単語から、NULLを含む各目的言語の単語が生成さ
れる確率を定義: Neural Network Lexical Translation Model
2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 11
S2T Model: 𝑃 𝑡 𝑠 𝑖
𝑠𝑖, 𝑠𝑖−1, 𝑠𝑖+1, …
T2S Model: 𝑃 𝑠𝑡 𝑗
𝑡𝑗, 𝑡𝑗−1, 𝑡𝑗+1, …
𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7
𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7NULL
実験設定
• 提案法をHiero系のデコーダに適用。
– Baseline 1: String-to-dependency hierarchical decoder
[Shen+ 2010]
– Baseline 2: Simple Hiero implementation
[Chiang 2007]
• NNの基本設定
– Input: 3 * 1-of-16000(history) + 11 * i-of-16000(affiliation)
– Projection: (3+11) * 192 nodes
– Hidden: 512 nodes * 2 layers
– Output: 32000 soft-max nodes
– 高速化: Self-normalizationのみ
2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 12
実験結果 (1) - NIST OpenMT 2012
2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 13
• Decodingとrescoringに
NNJM, NNLTMを使用すると
feature-richなbaselineより
BLEUが3程度向上(Ar-En)。
• より素性の少ないbaselineでは
BLEUが6程度向上(Ar-En)。
– 色々な素性を組み合わせたもの
• Ch-Enでも変化は小さいが
基本的に適用後のBLEUは向上。
実験結果 (2) - Rescoringへの影響
• NNJMによるrescoringは
RNNLMと同程度
– rescoringにRNNLMを
使う必要はもうない?
• Decodingに使用した方が
NNJMは効果的。
2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 14
実験結果 (3) - NNの設定の影響
• パラメータを小さくすれば
性能は低下する
– 大方の予想通り
• パラメータを大きくしても
大きな性能上昇はない
– 論文の設定が妥当
(個人的に気になる)
• 活性化関数が線形でも
論文の2/3程度向上
– NNの実装が面倒ならlog-linearか
何かで実装してしまってよい?
2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 15
実験結果 (4) - 高速化の影響
2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 16
• 厳密なモデル(Standard)と他のモデルで
そこまで精度に差があるわけではない。
– 速いのを使えばよい。
まとめ
• Neural Networkを使って、目的言語の履歴と原言語から単語を
推定するモデルを作成
• 色々な高速化を実装
• 結果
– Hiero系のデコーダに適用すると、従来法より高い翻訳精度
• 単独で既存の素性いくつか分の有効性
• メリット
– 既存のデコーダに適用しやすい
• 素性と内部情報の追加だけでよい
– デコード時と再ランキング時の両方で使用可能
2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 17

Contenu connexe

Tendances

Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2Jiro Nishitoba
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17Masayoshi Kondo
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstmtak9029
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence LearningDeep Learning JP
 
Tf勉強会(5)
Tf勉強会(5)Tf勉強会(5)
Tf勉強会(5)tak9029
 
Deep Learning技術の今
Deep Learning技術の今Deep Learning技術の今
Deep Learning技術の今Seiya Tokui
 
Chainer meetup20151014
Chainer meetup20151014Chainer meetup20151014
Chainer meetup20151014Jiro Nishitoba
 
Recurrent Neural Networks
Recurrent Neural NetworksRecurrent Neural Networks
Recurrent Neural NetworksSeiya Tokui
 
MS COCO Dataset Introduction
MS COCO Dataset IntroductionMS COCO Dataset Introduction
MS COCO Dataset IntroductionShinagawa Seitaro
 
Long Short-term Memory
Long Short-term MemoryLong Short-term Memory
Long Short-term Memorynishio
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)Takanori Ogata
 
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上奈良先端大 情報科学研究科
 
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳Yusuke Oda
 
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会Shotaro Sano
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)Shirou Maruyama
 
Res netと派生研究の紹介
Res netと派生研究の紹介Res netと派生研究の紹介
Res netと派生研究の紹介masataka nishimori
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてYuya Unno
 

Tendances (20)

Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstm
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
 
Tf勉強会(5)
Tf勉強会(5)Tf勉強会(5)
Tf勉強会(5)
 
Deep Learning技術の今
Deep Learning技術の今Deep Learning技術の今
Deep Learning技術の今
 
不完全な文の構文解析に基づく同時音声翻訳
不完全な文の構文解析に基づく同時音声翻訳不完全な文の構文解析に基づく同時音声翻訳
不完全な文の構文解析に基づく同時音声翻訳
 
LT@Chainer Meetup
LT@Chainer MeetupLT@Chainer Meetup
LT@Chainer Meetup
 
Chainer meetup20151014
Chainer meetup20151014Chainer meetup20151014
Chainer meetup20151014
 
Recurrent Neural Networks
Recurrent Neural NetworksRecurrent Neural Networks
Recurrent Neural Networks
 
MS COCO Dataset Introduction
MS COCO Dataset IntroductionMS COCO Dataset Introduction
MS COCO Dataset Introduction
 
Long Short-term Memory
Long Short-term MemoryLong Short-term Memory
Long Short-term Memory
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
 
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
 
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
 
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
 
Res netと派生研究の紹介
Res netと派生研究の紹介Res netと派生研究の紹介
Res netと派生研究の紹介
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 

En vedette

Pattern Recognition and Machine Learning: Section 3.3
Pattern Recognition and Machine Learning: Section 3.3Pattern Recognition and Machine Learning: Section 3.3
Pattern Recognition and Machine Learning: Section 3.3Yusuke Oda
 
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)Yusuke Oda
 
Learning to Generate Pseudo-code from Source Code using Statistical Machine T...
Learning to Generate Pseudo-code from Source Code using Statistical Machine T...Learning to Generate Pseudo-code from Source Code using Statistical Machine T...
Learning to Generate Pseudo-code from Source Code using Statistical Machine T...Yusuke Oda
 
Tree-based Translation Models (『機械翻訳』§6.2-6.3)
Tree-based Translation Models (『機械翻訳』§6.2-6.3)Tree-based Translation Models (『機械翻訳』§6.2-6.3)
Tree-based Translation Models (『機械翻訳』§6.2-6.3)Yusuke Oda
 
20160716 ICML paper reading, Learning to Generate with Memory
20160716 ICML paper reading, Learning to Generate with Memory20160716 ICML paper reading, Learning to Generate with Memory
20160716 ICML paper reading, Learning to Generate with MemoryShinagawa Seitaro
 
情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム 情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム Shinagawa Seitaro
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 

En vedette (11)

Test
TestTest
Test
 
Pattern Recognition and Machine Learning: Section 3.3
Pattern Recognition and Machine Learning: Section 3.3Pattern Recognition and Machine Learning: Section 3.3
Pattern Recognition and Machine Learning: Section 3.3
 
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
 
Learning to Generate Pseudo-code from Source Code using Statistical Machine T...
Learning to Generate Pseudo-code from Source Code using Statistical Machine T...Learning to Generate Pseudo-code from Source Code using Statistical Machine T...
Learning to Generate Pseudo-code from Source Code using Statistical Machine T...
 
Tree-based Translation Models (『機械翻訳』§6.2-6.3)
Tree-based Translation Models (『機械翻訳』§6.2-6.3)Tree-based Translation Models (『機械翻訳』§6.2-6.3)
Tree-based Translation Models (『機械翻訳』§6.2-6.3)
 
150829 kdd2015読み会
150829 kdd2015読み会150829 kdd2015読み会
150829 kdd2015読み会
 
含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識
含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識
含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識
 
20160716 ICML paper reading, Learning to Generate with Memory
20160716 ICML paper reading, Learning to Generate with Memory20160716 ICML paper reading, Learning to Generate with Memory
20160716 ICML paper reading, Learning to Generate with Memory
 
情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム 情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
 

Similaire à ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistical Machine Translation

Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Toru Fujino
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Ohsawa Goodfellow
 
20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detail20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detailYoshii Ryo
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...harmonylab
 
Neural Models for Information Retrieval
Neural Models for Information RetrievalNeural Models for Information Retrieval
Neural Models for Information RetrievalKeisuke Umezawa
 
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価Akiva Miura
 
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」Kosuke Tanabe
 
OpenStack Object Storage; Usage
OpenStack Object Storage; UsageOpenStack Object Storage; Usage
OpenStack Object Storage; Usageirix_jp
 
Fast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewritingFast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewritingYasuhide Miura
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめYasushi Hara
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会正志 坪坂
 
論文紹介 "DARTS: Differentiable Architecture Search"
論文紹介 "DARTS: Differentiable Architecture Search"論文紹介 "DARTS: Differentiable Architecture Search"
論文紹介 "DARTS: Differentiable Architecture Search"Yuta Koreeda
 
Panel Discussion@WebDB forum 2014
Panel Discussion@WebDB forum 2014Panel Discussion@WebDB forum 2014
Panel Discussion@WebDB forum 2014Makoto Yui
 
Abstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminarAbstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminarKodaira Tomonori
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generationharmonylab
 
20230105_TITECH_lecture_ishizaki_public.pdf
20230105_TITECH_lecture_ishizaki_public.pdf20230105_TITECH_lecture_ishizaki_public.pdf
20230105_TITECH_lecture_ishizaki_public.pdfKazuaki Ishizaki
 
[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNsDeep Learning JP
 

Similaire à ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistical Machine Translation (20)

Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
 
20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detail20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detail
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
Neural Models for Information Retrieval
Neural Models for Information RetrievalNeural Models for Information Retrieval
Neural Models for Information Retrieval
 
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
 
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
 
OpenStack Object Storage; Usage
OpenStack Object Storage; UsageOpenStack Object Storage; Usage
OpenStack Object Storage; Usage
 
Fast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewritingFast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewriting
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
 
論文紹介 "DARTS: Differentiable Architecture Search"
論文紹介 "DARTS: Differentiable Architecture Search"論文紹介 "DARTS: Differentiable Architecture Search"
論文紹介 "DARTS: Differentiable Architecture Search"
 
Panel Discussion@WebDB forum 2014
Panel Discussion@WebDB forum 2014Panel Discussion@WebDB forum 2014
Panel Discussion@WebDB forum 2014
 
2012/08/06 annotation WS
2012/08/06 annotation WS2012/08/06 annotation WS
2012/08/06 annotation WS
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
Abstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminarAbstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminar
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
20230105_TITECH_lecture_ishizaki_public.pdf
20230105_TITECH_lecture_ishizaki_public.pdf20230105_TITECH_lecture_ishizaki_public.pdf
20230105_TITECH_lecture_ishizaki_public.pdf
 
JAWS DAYS 2022
JAWS DAYS 2022JAWS DAYS 2022
JAWS DAYS 2022
 
[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs
 

ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistical Machine Translation

  • 1. Fast and Robust Neural Network Joint Models for Statistical Machine Translation Jacob Devlin, Rabih Zbib, Zhongqiang Huang, Thomas Lamar, Richard Schwarts, John Mackhoul Introducing by Yusuke Oda (@odashi_t) 2014/7/17 ACL Reading IS, NAIST 1 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
  • 2. 論文紹介: [Devlin et al.] • "Fast and Robust Neural Network Joint Models for Statistical Machine Translation" • Best long paper award of ACL2014 • NNLMの考え方を機械翻訳プロセスへ応用 – 目的言語だけでなく、対応する原言語の単語を考慮 • "Joint Model" の由来 – NNで学習した素性をデコーダのスコアとして追加 • 今年のACLの流行り? • そのままでは遅いので高速化を検討 – 入力層のテーブル化 – "Self Normalization" • 何もしない場合より1万倍程度高速化 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 2
  • 3. 手法の概要 • 点線部分に"the"が来たときの尤度が知りたい。 – 目的言語の「履歴」、原言語の「ある範囲」の単語を ニューラルネットに放り込む – 「ある範囲」 • "the"にアライメントがある…アライメント先を中心語とする • アライメントがない…いくつかのヒューリスティクスで中心語を決定 • 中心語の左右数語を使用 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 3
  • 4. NNJM: ネットワークの構造 42014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 𝑠 𝑎 𝑖−2 𝑠 𝑎 𝑖−1 𝑠 𝑎 𝑖 𝑠 𝑎 𝑖+1 𝑠 𝑎 𝑖+2 𝑡𝑖−2 𝑡𝑖−1 𝑡𝑖−3 𝑃(𝑡𝑖) hidden 512 hidden 512 soft-max vocab=32k projection 192 * #input vocab=16k vocab=16k shared projection matrix input 1-of-K
  • 5. 高速化 • 何が遅いのか? • 射影層から隠れ層への遷移 – 射影層の次元が大きい – 入力層は非常に疎なのに無駄な計算をしている • 出力層のsoft-max演算 – 分配関数の計算に、すべての出力ノードの総和が必要 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 5
  • 6. Self-normalization - 出力層の高速化 • 分配関数の計算に時間がかかるので、これを省略したい • 分配関数の計算が不要 ⇒ 𝑍 𝑥 = 1 ⇒ log 𝑍 𝑥 = 0 • 最適化する関数に、log 𝑍 𝑥 に関する正則化項を追加 これをSGDで学習(多少の誤差は容認する) 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 6 最大で15倍程度高速化
  • 7. 入力層の高速化 • 隠れ層のtanh ∙ を行う直前の値をテーブルに格納 – 計算は入力単語の個数分の総和とtanh ∙ だけでよい 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 7 𝑠 𝑎 𝑖−2 𝑠 𝑎 𝑖−1 𝑠 𝑎 𝑖 𝑠 𝑎 𝑖+1 𝑠 𝑎 𝑖+2 𝑡𝑖−2 𝑡𝑖−1 𝑡𝑖−3 𝛴 メモリはそこそこ使うが 1000倍程度高速化 隠れ層への行列の乗算まで 完了したベクトル 𝜎
  • 8. モデルのバリエーション (1) • 履歴の方向・翻訳の方向で4種類のNNJMが定義可能。 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 8 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7 𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7 𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7 S2T/L2R Model Source-to-Target / Left-to-Right for decoding S2T/R2L Model for rescoring Target History Affiliation
  • 9. モデルのバリエーション (2) • 履歴の方向・翻訳の方向で4種類のNNJMが定義可能。 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 9 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7 𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7 𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7 T2S/L2R Model for rescoring T2S/R2L Model for rescoring Target History Affiliation
  • 10. デコーダの修正 • Tree-basedデコーダの場合 – より外側のルールで使用するので、使用した翻訳ルールの両端の affiliationを覚えておかなければならない。 • 探索空間はそこまで増えない 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 10 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7 foo bar baz qux quux corge
  • 11. NULLアライメントの考慮 • NNJMはNULLアライメントを考慮していない。 • 原言語の各単語から、NULLを含む各目的言語の単語が生成さ れる確率を定義: Neural Network Lexical Translation Model 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 11 S2T Model: 𝑃 𝑡 𝑠 𝑖 𝑠𝑖, 𝑠𝑖−1, 𝑠𝑖+1, … T2S Model: 𝑃 𝑠𝑡 𝑗 𝑡𝑗, 𝑡𝑗−1, 𝑡𝑗+1, … 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7 𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7NULL
  • 12. 実験設定 • 提案法をHiero系のデコーダに適用。 – Baseline 1: String-to-dependency hierarchical decoder [Shen+ 2010] – Baseline 2: Simple Hiero implementation [Chiang 2007] • NNの基本設定 – Input: 3 * 1-of-16000(history) + 11 * i-of-16000(affiliation) – Projection: (3+11) * 192 nodes – Hidden: 512 nodes * 2 layers – Output: 32000 soft-max nodes – 高速化: Self-normalizationのみ 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 12
  • 13. 実験結果 (1) - NIST OpenMT 2012 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 13 • Decodingとrescoringに NNJM, NNLTMを使用すると feature-richなbaselineより BLEUが3程度向上(Ar-En)。 • より素性の少ないbaselineでは BLEUが6程度向上(Ar-En)。 – 色々な素性を組み合わせたもの • Ch-Enでも変化は小さいが 基本的に適用後のBLEUは向上。
  • 14. 実験結果 (2) - Rescoringへの影響 • NNJMによるrescoringは RNNLMと同程度 – rescoringにRNNLMを 使う必要はもうない? • Decodingに使用した方が NNJMは効果的。 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 14
  • 15. 実験結果 (3) - NNの設定の影響 • パラメータを小さくすれば 性能は低下する – 大方の予想通り • パラメータを大きくしても 大きな性能上昇はない – 論文の設定が妥当 (個人的に気になる) • 活性化関数が線形でも 論文の2/3程度向上 – NNの実装が面倒ならlog-linearか 何かで実装してしまってよい? 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 15
  • 16. 実験結果 (4) - 高速化の影響 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 16 • 厳密なモデル(Standard)と他のモデルで そこまで精度に差があるわけではない。 – 速いのを使えばよい。
  • 17. まとめ • Neural Networkを使って、目的言語の履歴と原言語から単語を 推定するモデルを作成 • 色々な高速化を実装 • 結果 – Hiero系のデコーダに適用すると、従来法より高い翻訳精度 • 単独で既存の素性いくつか分の有効性 • メリット – 既存のデコーダに適用しやすい • 素性と内部情報の追加だけでよい – デコード時と再ランキング時の両方で使用可能 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 17