Submit Search
Upload
Multi reference training with pseudo-references for neural translation and text generation
•
0 likes
•
38 views
R
ryoma yoshimura
Follow
研究室のEMNLP2018の読み会でのスライドです 何かあれば ryoma@komachi.live までお願いします
Read less
Read more
Technology
Report
Share
Report
Share
1 of 22
Download now
Download to read offline
Recommended
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
TensorFlowで遊んでみよう!
TensorFlowで遊んでみよう!
Kei Hirata
TensorFlow 入門
TensorFlow 入門
Takenori Nakagawa
Tensorflow
Tensorflow
Hakky St
開発者からみたTensor flow
開発者からみたTensor flow
Hideo Kinami
池袋物理学勉強会第一回の予習に関して
池袋物理学勉強会第一回の予習に関して
GM3D
Moocsの利用
Moocsの利用
Yoshiki Sakamoto
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Yasunori Ozaki
Recommended
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
TensorFlowで遊んでみよう!
TensorFlowで遊んでみよう!
Kei Hirata
TensorFlow 入門
TensorFlow 入門
Takenori Nakagawa
Tensorflow
Tensorflow
Hakky St
開発者からみたTensor flow
開発者からみたTensor flow
Hideo Kinami
池袋物理学勉強会第一回の予習に関して
池袋物理学勉強会第一回の予習に関して
GM3D
Moocsの利用
Moocsの利用
Yoshiki Sakamoto
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Yasunori Ozaki
ディープラーニングゼミ TensorFlowで学ぶ理論と実践
ディープラーニングゼミ TensorFlowで学ぶ理論と実践
Yota Ishida
機械学習ライブラリ : TensorFlow
機械学習ライブラリ : TensorFlow
エンジニア勉強会 エスキュービズム
ならば
ならば
Tomoaki Hiramoto
TokyoWebmining
TokyoWebmining
Ryoji Yanashima
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
Deep Learning JP
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information
Kanji Takahashi
ICDE2014 Session 22 Similarity Joins
ICDE2014 Session 22 Similarity Joins
Masumi Shirakawa
TokyoRリプレイ - RからfastTextを使ってみた
TokyoRリプレイ - RからfastTextを使ってみた
ケンタ タナカ
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
Takanori Nakai
TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)
none_toka
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
Deep Learning JP
TAPL勉強会 第1章 (2012-07-17)
TAPL勉強会 第1章 (2012-07-17)
none_toka
論文紹介: Differentiable reasoning over a virtual knowledge base
論文紹介: Differentiable reasoning over a virtual knowledge base
naoto moriyama
Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text Representation
Takanori Nakai
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
Takanori Nakai
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
Deep Learning JP
モバイルネットワークと広告配信
モバイルネットワークと広告配信
Kazuhito Ohkawa
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ
scapegoat06
Dl hacks paperreading_20150527
Dl hacks paperreading_20150527
Makoto Kawano
Un supervised learning
Un supervised learning
yuki uchida
Courteously yours inducing courteous behavior in customer care responses usi...
Courteously yours inducing courteous behavior in customer care responses usi...
ryoma yoshimura
Beyond bleu training neural machine translation with semantic similarity
Beyond bleu training neural machine translation with semantic similarity
ryoma yoshimura
More Related Content
What's hot
ディープラーニングゼミ TensorFlowで学ぶ理論と実践
ディープラーニングゼミ TensorFlowで学ぶ理論と実践
Yota Ishida
機械学習ライブラリ : TensorFlow
機械学習ライブラリ : TensorFlow
エンジニア勉強会 エスキュービズム
ならば
ならば
Tomoaki Hiramoto
TokyoWebmining
TokyoWebmining
Ryoji Yanashima
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
Deep Learning JP
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information
Kanji Takahashi
ICDE2014 Session 22 Similarity Joins
ICDE2014 Session 22 Similarity Joins
Masumi Shirakawa
TokyoRリプレイ - RからfastTextを使ってみた
TokyoRリプレイ - RからfastTextを使ってみた
ケンタ タナカ
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
Takanori Nakai
TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)
none_toka
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
Deep Learning JP
TAPL勉強会 第1章 (2012-07-17)
TAPL勉強会 第1章 (2012-07-17)
none_toka
論文紹介: Differentiable reasoning over a virtual knowledge base
論文紹介: Differentiable reasoning over a virtual knowledge base
naoto moriyama
Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text Representation
Takanori Nakai
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
Takanori Nakai
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
Deep Learning JP
モバイルネットワークと広告配信
モバイルネットワークと広告配信
Kazuhito Ohkawa
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ
scapegoat06
Dl hacks paperreading_20150527
Dl hacks paperreading_20150527
Makoto Kawano
Un supervised learning
Un supervised learning
yuki uchida
What's hot
(20)
ディープラーニングゼミ TensorFlowで学ぶ理論と実践
ディープラーニングゼミ TensorFlowで学ぶ理論と実践
機械学習ライブラリ : TensorFlow
機械学習ライブラリ : TensorFlow
ならば
ならば
TokyoWebmining
TokyoWebmining
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information
ICDE2014 Session 22 Similarity Joins
ICDE2014 Session 22 Similarity Joins
TokyoRリプレイ - RからfastTextを使ってみた
TokyoRリプレイ - RからfastTextを使ってみた
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
TAPL勉強会 第1章 (2012-07-17)
TAPL勉強会 第1章 (2012-07-17)
論文紹介: Differentiable reasoning over a virtual knowledge base
論文紹介: Differentiable reasoning over a virtual knowledge base
Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text Representation
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
モバイルネットワークと広告配信
モバイルネットワークと広告配信
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ
Dl hacks paperreading_20150527
Dl hacks paperreading_20150527
Un supervised learning
Un supervised learning
More from ryoma yoshimura
Courteously yours inducing courteous behavior in customer care responses usi...
Courteously yours inducing courteous behavior in customer care responses usi...
ryoma yoshimura
Beyond bleu training neural machine translation with semantic similarity
Beyond bleu training neural machine translation with semantic similarity
ryoma yoshimura
Reinforcement learning based text style transfer without parallel training co...
Reinforcement learning based text style transfer without parallel training co...
ryoma yoshimura
Reliability and learnability of human bandit feedback for sequence to-seque...
Reliability and learnability of human bandit feedback for sequence to-seque...
ryoma yoshimura
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
ryoma yoshimura
Style transfer through back transhlation
Style transfer through back transhlation
ryoma yoshimura
Query and output generating words by querying distributed word representatio...
Query and output generating words by querying distributed word representatio...
ryoma yoshimura
More from ryoma yoshimura
(7)
Courteously yours inducing courteous behavior in customer care responses usi...
Courteously yours inducing courteous behavior in customer care responses usi...
Beyond bleu training neural machine translation with semantic similarity
Beyond bleu training neural machine translation with semantic similarity
Reinforcement learning based text style transfer without parallel training co...
Reinforcement learning based text style transfer without parallel training co...
Reliability and learnability of human bandit feedback for sequence to-seque...
Reliability and learnability of human bandit feedback for sequence to-seque...
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
Style transfer through back transhlation
Style transfer through back transhlation
Query and output generating words by querying distributed word representatio...
Query and output generating words by querying distributed word representatio...
Recently uploaded
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
Recently uploaded
(8)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
Multi reference training with pseudo-references for neural translation and text generation
1.
Multi-Reference Training with Pseudo-References
for Neural Translation and Text Generation Renji Zheng, Mingbo Ma, Liang Huang EMNLP2018 研究室EMNLP読み会 紹介者 吉村
2.
概要 ● 複数のリファレンスでモデルを学習 ○ テキスト生成の正解は1つではないので複数あったほうがいい ○
複数のリファレンスがあるデータセットを使用 ● 複数のリファレンスから lattice を作ってさらに多くの擬似リファ レンスを作成 ○ 4~5個のリファレンスでは潜在的なリファレンスをカバーできない
3.
Main Contributions ● 機械翻訳と画像キャプションにおいてマルチリファレンスでの 学習法を3つ調査 ●
複数の参照訳を lattice にするための新しいネットワークベー スの複数の系列アラインメントモデルを提案 ● 擬似リファレンスでを用いた学習でMTでBLEUが+1.5、画像 キャプションでBLEUが+3.1、CIDErで+11.7
4.
複数のリファレンスでの学習法 ● 学習データを変えるだけでモデルは変更しなくていい ● 複数のリファレンスがあるデータセットをシングルリファレンス のデータセットに変換 ●
作り方はSample One、Uniform、Shuffleの3つ
5.
複数のリファレンスでの学習法 ● Sample One ○
各エポックでランダムに1つリファレンスを決める ● Uniform ○ 複数の各リファレンスに同じ入力をつける ● Shuffle ○ Uniformで各エポックごとにシャッフルする xi : source yi : reference D : multiple reference dataset D’ : single reference dataset ※ D’ は順序集合
6.
擬似リファレンスの作り方 ● 複数のリファレンスから lattice
を構築してそれをたどることで 擬似リファレンスを生成 ○ 似た単語をマージする ○ 元のリファレンスとBLEUを測って高いものを採用 ● Hard alignと Soft align がある
7.
Hard word Alignment ●
ペアワイズで同じ表層の単語をマージしていく ● 以下の3文を考える
8.
Hard word Alignment ●
Indonesia, its, opposition, foreign をマージ
9.
Hard word Alignment ●
Indonesia, opposition, to, foreign をマージ ● (c)をたどることで 33個の擬似リファレンスができる
10.
Hard Word Alignment
の問題点 ● 類義語を考慮できない ○ 例での reiterated, repeats, reiterates ● 同一の単語は他の文では異なる意味をもつ可能性がある ○ toなど(不定詞、前置詞)
11.
Soft Word Alignment ●
文yi と文yj に対して semantic substitution matrix を作る ● 各セルMu,v の値は単語yi,u と単語yj,v の類似度スコア ● bidirectional LMの隠れベクトルのcos類似度 ● Mを使ってアラインメントする ○ M0,0 からM|yi|,|yj| までの最適パスを動的計画法で求める
12.
単語アラインメント 状態遷移関数 global penalty
p: Mu,v ≦ p では align しない
13.
Soft Word Alignment
の結果
14.
実験(MT) ● NIST(2002-2005, 2006,
2008) zh-en ○ single ref 1Mペア (pre-train) 4 ref 5974ペア (train, valid, test) ● global penalty 0.9 ○ 100文集まるまで global penalty を減らしていく BLEUは上位50件のみ ● bi-LMはpre-training dataとtraining dataで学習, word enmmbeding は Glove ● encoderとdecoderは2層のbi-LSTMでBPEを使用 ● pre-train: batch size 64, beam size 15, dropout 0.3 ● multi-reference-train: batch size 100, 200, 400のベスト
15.
Analysis of generated
references ● リファレンスの文長が長いほど、生成されるリファレンスの数が増える
16.
結果
17.
結果 各エポックで使うリファレンスの分散が高いため、 sample one
はリファレンス数が10を越 えると急激に悪くなる
18.
実験(Image Captioning) ● MSCOCO ●
Resnet を LSTM に繋げる ● batch size: 50, 250, 500, 1000 での最適なサイズ ● beam size: 5 ● global penalty: 0.6
19.
Analysis of generated
references ● MTと比べてオリジナルのリファレンスが短いので質が低く、数も少ない
20.
MTと違ってShuffleが良くなってる ⇨ 機械翻訳の参照よりも多様であるから Uniform だと1つのバッチ内でリファレンスの 分散が大きくなるとモデルに悪影響
21.
Case Study BLEUが100だが オリジナルリファレンスと は異なる文 BLEUが0だが画像を説明 できている
22.
Conclusion ● マルチリファレンスでの学習方法を調査 ● 既存のマルチリファレンスから擬似リファレンスを生成する手法を提案 ●
MTと画像キャプションの両タスクでベースラインを上回る
Download now