SlideShare a Scribd company logo
1 of 18
Download to read offline
Deep Communicating Agents
for Abstractive Summarization
Asli Celikyilmaz, Antoine Bosselut, Xiaodong He and Yejin Choi
M2 山岸駿秀 @ NAACL2018 読み会
Introduction
● 抽象型要約(要約文生成)→ Seq2Seqで解くのが一般的に
○ Seq2Seqは長文をencodeすることが苦手
○ 要約は長文をencodeする必要があることが問題
● 長文をparagraph xi
に分割し、細かくencodeすることで対処
○ 各xi
はAgent(強化学習的な意味でない)が担当
○ Agent間は連携をとりつつ、AgentにAttentionを張ることで統合
Model
Multi-Agent Encoder
● k-layer Bi-LSTM / agent (k=2で実験)
● 下層(k=1)は一般的なEncoderと同様
● 上層(k>1)は以下の通りに計算
○ zはそれぞれのAgentの最後のstateの平均
○ fはMLP型っぽい式で計算
Word Attention & Agent Attention
● Word attention
○ Agent a 内の単語に対してAttentionを計算
○ Bahdanau型のMLP Attention
○ ct
a
: word context vector
● Agent Attention (caa)
○ Agent に対してAttentionを計算
○ c*
t
: context agent vector
Decoder with Agent Attention
● 単語の生成確率は以下で導出
● 要約されても文の流れの順番は入れ替わらないはず
○ Agent attentionが何度もスイッチすることはなさそう
○ 前時刻のagent attentionは有用な素性っぽい
○ 式(13)で計算する
Multi-Agent Pointer Networks
● 単語を生成するか、Encoder側から持ってくるかをスイッチ
○ ut
a,w
: input中のwに張られているAttention scoreの合計
● 以上を各Agentで計算し、Agent attentionをかけて統合
Mixed Objective Learning(Loss)
● 目的関数を3つ用意
● MLE(Maximum Likelihood)
○ 文の生起確率の対数尤度を最小化
● SEM(SEMantic Cohesion)
○ 出力文を‘.’(period)で分割し、要約文書を文に分割する
○ periodを生成したときのhidden state sq
を文の意味ベクトルとし、
sq-1
との類似度を最小化(距離を最大化)する
Mixed Objective Learning(Loss)
● RL(Reinforcement Learning Loss)
○ Reward ROUGE
○ r(y^
) 単語の生成確率からサンプリングしたときのreward
○ r(y~
) greedyに探索したときのreward
● 実際は文分割した後の文に対してrewardを計算
○ 「その1文でどれだけROUGEが上がったか」を測る
Mixed Objective Learning(Objectives)
● MLEとSEMは混ぜて使用
● MLEとRLも混ぜて使用
○ MLEとSEMを混ぜて使うときは、MLEをMLE-SEMで代用
● λとγはそれぞれhyper-parameter
Experimental Setup (Data)
● Corpus(詳細はTable 6)
○ CNN/Daily Mail
○ New York Times
● 名前をAnnonymizing
● 800単語でLoadを止める
● 800単語/Agent数に近い
文境界でParagraphを分割
● Agent数はhyper-parameter
Experimental Setup (Others)
● Vocabulary 50,000
● Hidden size 128
● Embed size 200(GloVeで初期化(固定しない))
● Optimizer Adam
● λ(RL) 0.1
● γ(SEM) 0.97
● Time P100 で 4-5 days(Agent数が2~3のとき)
● Evaluation ROUGE-{1, 2, L}、人手評価
Result (CNN/DailyMail)
● m1 ~ m3はagentが1つ → 複数あった方がいい
● Agent間のCommunicationはあった方がいい
● Agentの数は3がちょうどいい
○ Documentのトークン数にもよるはずなので調査が必要
Result (New York Times)
● 目的関数を複数組み合わせた方が性能が高い
● ROUGE-Lは先行研究に負けている(CNN/DailyMailも)
○ [Paulus et al., 2018] でROUGE-Lと人手評価に相関があまりないことが示
されているから、問題ない(?)
Human Evaluation
● いい方を選んでもらう(Head-to-Head)
● 以下の4つをそれぞれ5段階評価(Score based)
○ non-redundancy 無駄がないかどうか
○ coherence 出力文書に一貫性があるか
○ focus 正しい論点で要約されているか
○ overall 全体的な評価
Communication improves focus
● 各出力のAgent Attentionの平均
ごとのROUGEの平均
● 30%前後のときにROUGEが高い
→ 均等にattentionが張られると性
能が高い可能性
Example
Conclusion
● DCA(Document Communication Agent)を提案
○ AgentがそれぞれParagraphを読み込む
○ Agentはコミュニケーションを取る
● ROUGEの向上
● 人手評価のスコアも向上した

More Related Content

More from Hayahide Yamagishi

入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析Hayahide Yamagishi
 
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?Hayahide Yamagishi
 
Why neural translations are the right length
Why neural translations are  the right lengthWhy neural translations are  the right length
Why neural translations are the right lengthHayahide Yamagishi
 
A hierarchical neural autoencoder for paragraphs and documents
A hierarchical neural autoencoder for paragraphs and documentsA hierarchical neural autoencoder for paragraphs and documents
A hierarchical neural autoencoder for paragraphs and documentsHayahide Yamagishi
 
ニューラル論文を読む前に
ニューラル論文を読む前にニューラル論文を読む前に
ニューラル論文を読む前にHayahide Yamagishi
 
ニューラル日英翻訳における出力文の態制御
ニューラル日英翻訳における出力文の態制御ニューラル日英翻訳における出力文の態制御
ニューラル日英翻訳における出力文の態制御Hayahide Yamagishi
 
[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation
[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation
[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine TranslationHayahide Yamagishi
 
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...Hayahide Yamagishi
 

More from Hayahide Yamagishi (8)

入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
 
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
 
Why neural translations are the right length
Why neural translations are  the right lengthWhy neural translations are  the right length
Why neural translations are the right length
 
A hierarchical neural autoencoder for paragraphs and documents
A hierarchical neural autoencoder for paragraphs and documentsA hierarchical neural autoencoder for paragraphs and documents
A hierarchical neural autoencoder for paragraphs and documents
 
ニューラル論文を読む前に
ニューラル論文を読む前にニューラル論文を読む前に
ニューラル論文を読む前に
 
ニューラル日英翻訳における出力文の態制御
ニューラル日英翻訳における出力文の態制御ニューラル日英翻訳における出力文の態制御
ニューラル日英翻訳における出力文の態制御
 
[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation
[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation
[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation
 
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
 

[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization

  • 1. Deep Communicating Agents for Abstractive Summarization Asli Celikyilmaz, Antoine Bosselut, Xiaodong He and Yejin Choi M2 山岸駿秀 @ NAACL2018 読み会
  • 2. Introduction ● 抽象型要約(要約文生成)→ Seq2Seqで解くのが一般的に ○ Seq2Seqは長文をencodeすることが苦手 ○ 要約は長文をencodeする必要があることが問題 ● 長文をparagraph xi に分割し、細かくencodeすることで対処 ○ 各xi はAgent(強化学習的な意味でない)が担当 ○ Agent間は連携をとりつつ、AgentにAttentionを張ることで統合
  • 4. Multi-Agent Encoder ● k-layer Bi-LSTM / agent (k=2で実験) ● 下層(k=1)は一般的なEncoderと同様 ● 上層(k>1)は以下の通りに計算 ○ zはそれぞれのAgentの最後のstateの平均 ○ fはMLP型っぽい式で計算
  • 5. Word Attention & Agent Attention ● Word attention ○ Agent a 内の単語に対してAttentionを計算 ○ Bahdanau型のMLP Attention ○ ct a : word context vector ● Agent Attention (caa) ○ Agent に対してAttentionを計算 ○ c* t : context agent vector
  • 6. Decoder with Agent Attention ● 単語の生成確率は以下で導出 ● 要約されても文の流れの順番は入れ替わらないはず ○ Agent attentionが何度もスイッチすることはなさそう ○ 前時刻のagent attentionは有用な素性っぽい ○ 式(13)で計算する
  • 7. Multi-Agent Pointer Networks ● 単語を生成するか、Encoder側から持ってくるかをスイッチ ○ ut a,w : input中のwに張られているAttention scoreの合計 ● 以上を各Agentで計算し、Agent attentionをかけて統合
  • 8. Mixed Objective Learning(Loss) ● 目的関数を3つ用意 ● MLE(Maximum Likelihood) ○ 文の生起確率の対数尤度を最小化 ● SEM(SEMantic Cohesion) ○ 出力文を‘.’(period)で分割し、要約文書を文に分割する ○ periodを生成したときのhidden state sq を文の意味ベクトルとし、 sq-1 との類似度を最小化(距離を最大化)する
  • 9. Mixed Objective Learning(Loss) ● RL(Reinforcement Learning Loss) ○ Reward ROUGE ○ r(y^ ) 単語の生成確率からサンプリングしたときのreward ○ r(y~ ) greedyに探索したときのreward ● 実際は文分割した後の文に対してrewardを計算 ○ 「その1文でどれだけROUGEが上がったか」を測る
  • 10. Mixed Objective Learning(Objectives) ● MLEとSEMは混ぜて使用 ● MLEとRLも混ぜて使用 ○ MLEとSEMを混ぜて使うときは、MLEをMLE-SEMで代用 ● λとγはそれぞれhyper-parameter
  • 11. Experimental Setup (Data) ● Corpus(詳細はTable 6) ○ CNN/Daily Mail ○ New York Times ● 名前をAnnonymizing ● 800単語でLoadを止める ● 800単語/Agent数に近い 文境界でParagraphを分割 ● Agent数はhyper-parameter
  • 12. Experimental Setup (Others) ● Vocabulary 50,000 ● Hidden size 128 ● Embed size 200(GloVeで初期化(固定しない)) ● Optimizer Adam ● λ(RL) 0.1 ● γ(SEM) 0.97 ● Time P100 で 4-5 days(Agent数が2~3のとき) ● Evaluation ROUGE-{1, 2, L}、人手評価
  • 13. Result (CNN/DailyMail) ● m1 ~ m3はagentが1つ → 複数あった方がいい ● Agent間のCommunicationはあった方がいい ● Agentの数は3がちょうどいい ○ Documentのトークン数にもよるはずなので調査が必要
  • 14. Result (New York Times) ● 目的関数を複数組み合わせた方が性能が高い ● ROUGE-Lは先行研究に負けている(CNN/DailyMailも) ○ [Paulus et al., 2018] でROUGE-Lと人手評価に相関があまりないことが示 されているから、問題ない(?)
  • 15. Human Evaluation ● いい方を選んでもらう(Head-to-Head) ● 以下の4つをそれぞれ5段階評価(Score based) ○ non-redundancy 無駄がないかどうか ○ coherence 出力文書に一貫性があるか ○ focus 正しい論点で要約されているか ○ overall 全体的な評価
  • 16. Communication improves focus ● 各出力のAgent Attentionの平均 ごとのROUGEの平均 ● 30%前後のときにROUGEが高い → 均等にattentionが張られると性 能が高い可能性
  • 18. Conclusion ● DCA(Document Communication Agent)を提案 ○ AgentがそれぞれParagraphを読み込む ○ Agentはコミュニケーションを取る ● ROUGEの向上 ● 人手評価のスコアも向上した