SlideShare a Scribd company logo
1 of 22
Download to read offline
Multi-Reference Training with
Pseudo-References for Neural
Translation and Text Generation
Renji Zheng, Mingbo Ma, Liang Huang
EMNLP2018
研究室EMNLP読み会 紹介者 吉村
概要
● 複数のリファレンスでモデルを学習
○ テキスト生成の正解は1つではないので複数あったほうがいい
○ 複数のリファレンスがあるデータセットを使用
● 複数のリファレンスから lattice を作ってさらに多くの擬似リファ
レンスを作成
○ 4~5個のリファレンスでは潜在的なリファレンスをカバーできない
Main Contributions
● 機械翻訳と画像キャプションにおいてマルチリファレンスでの
学習法を3つ調査
● 複数の参照訳を lattice にするための新しいネットワークベー
スの複数の系列アラインメントモデルを提案
● 擬似リファレンスでを用いた学習でMTでBLEUが+1.5、画像
キャプションでBLEUが+3.1、CIDErで+11.7
複数のリファレンスでの学習法
● 学習データを変えるだけでモデルは変更しなくていい
● 複数のリファレンスがあるデータセットをシングルリファレンス
のデータセットに変換
● 作り方はSample One、Uniform、Shuffleの3つ
複数のリファレンスでの学習法
● Sample One
○ 各エポックでランダムに1つリファレンスを決める
● Uniform
○ 複数の各リファレンスに同じ入力をつける
● Shuffle
○ Uniformで各エポックごとにシャッフルする
xi
: source
yi
: reference
D : multiple reference dataset
D’ : single reference dataset
※ D’ は順序集合
擬似リファレンスの作り方
● 複数のリファレンスから lattice を構築してそれをたどることで
擬似リファレンスを生成
○ 似た単語をマージする
○ 元のリファレンスとBLEUを測って高いものを採用
● Hard alignと Soft align がある
Hard word Alignment
● ペアワイズで同じ表層の単語をマージしていく
● 以下の3文を考える
Hard word Alignment
● Indonesia, its, opposition, foreign をマージ
Hard word Alignment
● Indonesia, opposition, to, foreign をマージ
● (c)をたどることで 33個の擬似リファレンスができる
Hard Word Alignment の問題点
● 類義語を考慮できない
○ 例での reiterated, repeats, reiterates
● 同一の単語は他の文では異なる意味をもつ可能性がある
○ toなど(不定詞、前置詞)
Soft Word Alignment
● 文yi
と文yj
に対して semantic substitution matrix を作る
● 各セルMu,v
の値は単語yi,u
と単語yj,v
の類似度スコア
● bidirectional LMの隠れベクトルのcos類似度
● Mを使ってアラインメントする
○ M0,0
からM|yi|,|yj|
までの最適パスを動的計画法で求める
単語アラインメント
状態遷移関数 global penalty p: Mu,v
≦ p では align しない
Soft Word Alignment の結果
実験(MT)
● NIST(2002-2005, 2006, 2008) zh-en
○ single ref 1Mペア (pre-train) 4 ref 5974ペア (train, valid, test)
● global penalty 0.9
○ 100文集まるまで global penalty を減らしていく BLEUは上位50件のみ
● bi-LMはpre-training dataとtraining dataで学習, word enmmbeding は Glove
● encoderとdecoderは2層のbi-LSTMでBPEを使用
● pre-train: batch size 64, beam size 15, dropout 0.3
● multi-reference-train: batch size 100, 200, 400のベスト
Analysis of generated references
● リファレンスの文長が長いほど、生成されるリファレンスの数が増える
結果
結果
各エポックで使うリファレンスの分散が高いため、 sample one はリファレンス数が10を越
えると急激に悪くなる
実験(Image Captioning)
● MSCOCO
● Resnet を LSTM に繋げる
● batch size: 50, 250, 500, 1000 での最適なサイズ
● beam size: 5
● global penalty: 0.6
Analysis of generated references
● MTと比べてオリジナルのリファレンスが短いので質が低く、数も少ない
MTと違ってShuffleが良くなってる
⇨ 機械翻訳の参照よりも多様であるから
  Uniform だと1つのバッチ内でリファレンスの
  分散が大きくなるとモデルに悪影響
Case Study
BLEUが100だが
オリジナルリファレンスと
は異なる文
BLEUが0だが画像を説明
できている
Conclusion
● マルチリファレンスでの学習方法を調査
● 既存のマルチリファレンスから擬似リファレンスを生成する手法を提案
● MTと画像キャプションの両タスクでベースラインを上回る

More Related Content

What's hot

ディープラーニングゼミ TensorFlowで学ぶ理論と実践
ディープラーニングゼミ TensorFlowで学ぶ理論と実践ディープラーニングゼミ TensorFlowで学ぶ理論と実践
ディープラーニングゼミ TensorFlowで学ぶ理論と実践Yota Ishida
 
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep NetworkDeep Learning JP
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword InformationKanji Takahashi
 
ICDE2014 Session 22 Similarity Joins
ICDE2014 Session 22 Similarity JoinsICDE2014 Session 22 Similarity Joins
ICDE2014 Session 22 Similarity JoinsMasumi Shirakawa
 
TokyoRリプレイ - RからfastTextを使ってみた
TokyoRリプレイ - RからfastTextを使ってみたTokyoRリプレイ - RからfastTextを使ってみた
TokyoRリプレイ - RからfastTextを使ってみたケンタ タナカ
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTakanori Nakai
 
TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)none_toka
 
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景Deep Learning JP
 
TAPL勉強会 第1章 (2012-07-17)
TAPL勉強会 第1章 (2012-07-17)TAPL勉強会 第1章 (2012-07-17)
TAPL勉強会 第1章 (2012-07-17)none_toka
 
論文紹介: Differentiable reasoning over a virtual knowledge base
論文紹介: Differentiable reasoning over a virtual knowledge base論文紹介: Differentiable reasoning over a virtual knowledge base
論文紹介: Differentiable reasoning over a virtual knowledge basenaoto moriyama
 
Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationTakanori Nakai
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...Takanori Nakai
 
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain GeneralizationDeep Learning JP
 
モバイルネットワークと広告配信
モバイルネットワークと広告配信モバイルネットワークと広告配信
モバイルネットワークと広告配信Kazuhito Ohkawa
 
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバscapegoat06
 
Dl hacks paperreading_20150527
Dl hacks paperreading_20150527Dl hacks paperreading_20150527
Dl hacks paperreading_20150527Makoto Kawano
 
Un supervised learning
Un supervised learningUn supervised learning
Un supervised learningyuki uchida
 

What's hot (20)

ディープラーニングゼミ TensorFlowで学ぶ理論と実践
ディープラーニングゼミ TensorFlowで学ぶ理論と実践ディープラーニングゼミ TensorFlowで学ぶ理論と実践
ディープラーニングゼミ TensorFlowで学ぶ理論と実践
 
機械学習ライブラリ : TensorFlow
機械学習ライブラリ : TensorFlow機械学習ライブラリ : TensorFlow
機械学習ライブラリ : TensorFlow
 
ならば
ならばならば
ならば
 
TokyoWebmining
TokyoWebminingTokyoWebmining
TokyoWebmining
 
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information
 
ICDE2014 Session 22 Similarity Joins
ICDE2014 Session 22 Similarity JoinsICDE2014 Session 22 Similarity Joins
ICDE2014 Session 22 Similarity Joins
 
TokyoRリプレイ - RからfastTextを使ってみた
TokyoRリプレイ - RからfastTextを使ってみたTokyoRリプレイ - RからfastTextを使ってみた
TokyoRリプレイ - RからfastTextを使ってみた
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
 
TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)
 
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
 
TAPL勉強会 第1章 (2012-07-17)
TAPL勉強会 第1章 (2012-07-17)TAPL勉強会 第1章 (2012-07-17)
TAPL勉強会 第1章 (2012-07-17)
 
論文紹介: Differentiable reasoning over a virtual knowledge base
論文紹介: Differentiable reasoning over a virtual knowledge base論文紹介: Differentiable reasoning over a virtual knowledge base
論文紹介: Differentiable reasoning over a virtual knowledge base
 
Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text Representation
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
 
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
 
モバイルネットワークと広告配信
モバイルネットワークと広告配信モバイルネットワークと広告配信
モバイルネットワークと広告配信
 
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ
 
Dl hacks paperreading_20150527
Dl hacks paperreading_20150527Dl hacks paperreading_20150527
Dl hacks paperreading_20150527
 
Un supervised learning
Un supervised learningUn supervised learning
Un supervised learning
 

More from ryoma yoshimura

Courteously yours inducing courteous behavior in customer care responses usi...
Courteously yours  inducing courteous behavior in customer care responses usi...Courteously yours  inducing courteous behavior in customer care responses usi...
Courteously yours inducing courteous behavior in customer care responses usi...ryoma yoshimura
 
Beyond bleu training neural machine translation with semantic similarity
Beyond bleu  training neural machine translation with semantic similarityBeyond bleu  training neural machine translation with semantic similarity
Beyond bleu training neural machine translation with semantic similarityryoma yoshimura
 
Reinforcement learning based text style transfer without parallel training co...
Reinforcement learning based text style transfer without parallel training co...Reinforcement learning based text style transfer without parallel training co...
Reinforcement learning based text style transfer without parallel training co...ryoma yoshimura
 
Reliability and learnability of human bandit feedback for sequence to-seque...
Reliability and learnability  of human bandit feedback  for sequence to-seque...Reliability and learnability  of human bandit feedback  for sequence to-seque...
Reliability and learnability of human bandit feedback for sequence to-seque...ryoma yoshimura
 
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
Learning to Ask Good Questions:  Ranking Clarification Questions  using Neura...Learning to Ask Good Questions:  Ranking Clarification Questions  using Neura...
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...ryoma yoshimura
 
Style transfer through back transhlation
Style transfer through back transhlationStyle transfer through back transhlation
Style transfer through back transhlationryoma yoshimura
 
Query and output generating words by querying distributed word representatio...
Query and output  generating words by querying distributed word representatio...Query and output  generating words by querying distributed word representatio...
Query and output generating words by querying distributed word representatio...ryoma yoshimura
 

More from ryoma yoshimura (7)

Courteously yours inducing courteous behavior in customer care responses usi...
Courteously yours  inducing courteous behavior in customer care responses usi...Courteously yours  inducing courteous behavior in customer care responses usi...
Courteously yours inducing courteous behavior in customer care responses usi...
 
Beyond bleu training neural machine translation with semantic similarity
Beyond bleu  training neural machine translation with semantic similarityBeyond bleu  training neural machine translation with semantic similarity
Beyond bleu training neural machine translation with semantic similarity
 
Reinforcement learning based text style transfer without parallel training co...
Reinforcement learning based text style transfer without parallel training co...Reinforcement learning based text style transfer without parallel training co...
Reinforcement learning based text style transfer without parallel training co...
 
Reliability and learnability of human bandit feedback for sequence to-seque...
Reliability and learnability  of human bandit feedback  for sequence to-seque...Reliability and learnability  of human bandit feedback  for sequence to-seque...
Reliability and learnability of human bandit feedback for sequence to-seque...
 
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
Learning to Ask Good Questions:  Ranking Clarification Questions  using Neura...Learning to Ask Good Questions:  Ranking Clarification Questions  using Neura...
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
 
Style transfer through back transhlation
Style transfer through back transhlationStyle transfer through back transhlation
Style transfer through back transhlation
 
Query and output generating words by querying distributed word representatio...
Query and output  generating words by querying distributed word representatio...Query and output  generating words by querying distributed word representatio...
Query and output generating words by querying distributed word representatio...
 

Recently uploaded

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 

Recently uploaded (8)

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 

Multi reference training with pseudo-references for neural translation and text generation