Submit Search
Upload
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
•
0 likes
•
300 views
H
Hayahide Yamagishi
Follow
首都大・小町研内で開かれたNAACL2018読み会で使用した資料です。
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 18
Download now
Download to read offline
Recommended
[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
Hayahide Yamagishi
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
Hayahide Yamagishi
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
Hayahide Yamagishi
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
Hayahide Yamagishi
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
Hayahide Yamagishi
[ML論文読み会資料] Teaching Machines to Read and Comprehend
[ML論文読み会資料] Teaching Machines to Read and Comprehend
Hayahide Yamagishi
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
Hayahide Yamagishi
[ML論文読み会資料] Training RNNs as Fast as CNNs
[ML論文読み会資料] Training RNNs as Fast as CNNs
Hayahide Yamagishi
Recommended
[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
Hayahide Yamagishi
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
Hayahide Yamagishi
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
Hayahide Yamagishi
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
Hayahide Yamagishi
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
Hayahide Yamagishi
[ML論文読み会資料] Teaching Machines to Read and Comprehend
[ML論文読み会資料] Teaching Machines to Read and Comprehend
Hayahide Yamagishi
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
Hayahide Yamagishi
[ML論文読み会資料] Training RNNs as Fast as CNNs
[ML論文読み会資料] Training RNNs as Fast as CNNs
Hayahide Yamagishi
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
Hayahide Yamagishi
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
Hayahide Yamagishi
Why neural translations are the right length
Why neural translations are the right length
Hayahide Yamagishi
A hierarchical neural autoencoder for paragraphs and documents
A hierarchical neural autoencoder for paragraphs and documents
Hayahide Yamagishi
ニューラル論文を読む前に
ニューラル論文を読む前に
Hayahide Yamagishi
ニューラル日英翻訳における出力文の態制御
ニューラル日英翻訳における出力文の態制御
Hayahide Yamagishi
[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation
[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation
Hayahide Yamagishi
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
Hayahide Yamagishi
More Related Content
More from Hayahide Yamagishi
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
Hayahide Yamagishi
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
Hayahide Yamagishi
Why neural translations are the right length
Why neural translations are the right length
Hayahide Yamagishi
A hierarchical neural autoencoder for paragraphs and documents
A hierarchical neural autoencoder for paragraphs and documents
Hayahide Yamagishi
ニューラル論文を読む前に
ニューラル論文を読む前に
Hayahide Yamagishi
ニューラル日英翻訳における出力文の態制御
ニューラル日英翻訳における出力文の態制御
Hayahide Yamagishi
[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation
[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation
Hayahide Yamagishi
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
Hayahide Yamagishi
More from Hayahide Yamagishi
(8)
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
Why neural translations are the right length
Why neural translations are the right length
A hierarchical neural autoencoder for paragraphs and documents
A hierarchical neural autoencoder for paragraphs and documents
ニューラル論文を読む前に
ニューラル論文を読む前に
ニューラル日英翻訳における出力文の態制御
ニューラル日英翻訳における出力文の態制御
[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation
[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
1.
Deep Communicating Agents for
Abstractive Summarization Asli Celikyilmaz, Antoine Bosselut, Xiaodong He and Yejin Choi M2 山岸駿秀 @ NAACL2018 読み会
2.
Introduction ● 抽象型要約(要約文生成)→ Seq2Seqで解くのが一般的に ○
Seq2Seqは長文をencodeすることが苦手 ○ 要約は長文をencodeする必要があることが問題 ● 長文をparagraph xi に分割し、細かくencodeすることで対処 ○ 各xi はAgent(強化学習的な意味でない)が担当 ○ Agent間は連携をとりつつ、AgentにAttentionを張ることで統合
3.
Model
4.
Multi-Agent Encoder ● k-layer
Bi-LSTM / agent (k=2で実験) ● 下層(k=1)は一般的なEncoderと同様 ● 上層(k>1)は以下の通りに計算 ○ zはそれぞれのAgentの最後のstateの平均 ○ fはMLP型っぽい式で計算
5.
Word Attention &
Agent Attention ● Word attention ○ Agent a 内の単語に対してAttentionを計算 ○ Bahdanau型のMLP Attention ○ ct a : word context vector ● Agent Attention (caa) ○ Agent に対してAttentionを計算 ○ c* t : context agent vector
6.
Decoder with Agent
Attention ● 単語の生成確率は以下で導出 ● 要約されても文の流れの順番は入れ替わらないはず ○ Agent attentionが何度もスイッチすることはなさそう ○ 前時刻のagent attentionは有用な素性っぽい ○ 式(13)で計算する
7.
Multi-Agent Pointer Networks ●
単語を生成するか、Encoder側から持ってくるかをスイッチ ○ ut a,w : input中のwに張られているAttention scoreの合計 ● 以上を各Agentで計算し、Agent attentionをかけて統合
8.
Mixed Objective Learning(Loss) ●
目的関数を3つ用意 ● MLE(Maximum Likelihood) ○ 文の生起確率の対数尤度を最小化 ● SEM(SEMantic Cohesion) ○ 出力文を‘.’(period)で分割し、要約文書を文に分割する ○ periodを生成したときのhidden state sq を文の意味ベクトルとし、 sq-1 との類似度を最小化(距離を最大化)する
9.
Mixed Objective Learning(Loss) ●
RL(Reinforcement Learning Loss) ○ Reward ROUGE ○ r(y^ ) 単語の生成確率からサンプリングしたときのreward ○ r(y~ ) greedyに探索したときのreward ● 実際は文分割した後の文に対してrewardを計算 ○ 「その1文でどれだけROUGEが上がったか」を測る
10.
Mixed Objective Learning(Objectives) ●
MLEとSEMは混ぜて使用 ● MLEとRLも混ぜて使用 ○ MLEとSEMを混ぜて使うときは、MLEをMLE-SEMで代用 ● λとγはそれぞれhyper-parameter
11.
Experimental Setup (Data) ●
Corpus(詳細はTable 6) ○ CNN/Daily Mail ○ New York Times ● 名前をAnnonymizing ● 800単語でLoadを止める ● 800単語/Agent数に近い 文境界でParagraphを分割 ● Agent数はhyper-parameter
12.
Experimental Setup (Others) ●
Vocabulary 50,000 ● Hidden size 128 ● Embed size 200(GloVeで初期化(固定しない)) ● Optimizer Adam ● λ(RL) 0.1 ● γ(SEM) 0.97 ● Time P100 で 4-5 days(Agent数が2~3のとき) ● Evaluation ROUGE-{1, 2, L}、人手評価
13.
Result (CNN/DailyMail) ● m1
~ m3はagentが1つ → 複数あった方がいい ● Agent間のCommunicationはあった方がいい ● Agentの数は3がちょうどいい ○ Documentのトークン数にもよるはずなので調査が必要
14.
Result (New York
Times) ● 目的関数を複数組み合わせた方が性能が高い ● ROUGE-Lは先行研究に負けている(CNN/DailyMailも) ○ [Paulus et al., 2018] でROUGE-Lと人手評価に相関があまりないことが示 されているから、問題ない(?)
15.
Human Evaluation ● いい方を選んでもらう(Head-to-Head) ●
以下の4つをそれぞれ5段階評価(Score based) ○ non-redundancy 無駄がないかどうか ○ coherence 出力文書に一貫性があるか ○ focus 正しい論点で要約されているか ○ overall 全体的な評価
16.
Communication improves focus ●
各出力のAgent Attentionの平均 ごとのROUGEの平均 ● 30%前後のときにROUGEが高い → 均等にattentionが張られると性 能が高い可能性
17.
Example
18.
Conclusion ● DCA(Document Communication
Agent)を提案 ○ AgentがそれぞれParagraphを読み込む ○ Agentはコミュニケーションを取る ● ROUGEの向上 ● 人手評価のスコアも向上した
Download now