[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization

Deep Communicating Agents
for Abstractive Summarization
Asli Celikyilmaz, Antoine Bosselut, Xiaodong He and Yejin Choi
M2 山岸駿秀 @ NAACL2018 読み会

Introduction
● 抽象型要約（要約文生成）→ Seq2Seqで解くのが一般的に
○ Seq2Seqは長文をencodeすることが苦手
○ 要約は長文をencodeする必要があることが問題
● 長文をparagraph xi
に分割し、細かくencodeすることで対処
○ 各xi
はAgent（強化学習的な意味でない）が担当
○ Agent間は連携をとりつつ、AgentにAttentionを張ることで統合

Multi-Agent Encoder
● k-layer Bi-LSTM / agent （k=2で実験）
● 下層（k=1）は一般的なEncoderと同様
● 上層（k>1）は以下の通りに計算
○ zはそれぞれのAgentの最後のstateの平均
○ fはMLP型っぽい式で計算

Word Attention & Agent Attention
● Word attention
○ Agent a 内の単語に対してAttentionを計算
○ Bahdanau型のMLP Attention
○ ct
a
: word context vector
● Agent Attention (caa)
○ Agent に対してAttentionを計算
○ c*
t
: context agent vector

Decoder with Agent Attention
● 単語の生成確率は以下で導出
● 要約されても文の流れの順番は入れ替わらないはず
○ Agent attentionが何度もスイッチすることはなさそう
○ 前時刻のagent attentionは有用な素性っぽい
○ 式（13）で計算する

Multi-Agent Pointer Networks
● 単語を生成するか、Encoder側から持ってくるかをスイッチ
○ ut
a,w
: input中のwに張られているAttention scoreの合計
● 以上を各Agentで計算し、Agent attentionをかけて統合

Mixed Objective Learning（Loss）
● 目的関数を3つ用意
● MLE（Maximum Likelihood）
○ 文の生起確率の対数尤度を最小化
● SEM（SEMantic Cohesion）
○ 出力文を‘.’（period）で分割し、要約文書を文に分割する
○ periodを生成したときのhidden state sq
を文の意味ベクトルとし、
sq-1
との類似度を最小化（距離を最大化）する

Mixed Objective Learning（Loss）
● RL（Reinforcement Learning Loss）
○ Reward ROUGE
○ r(y^
) 単語の生成確率からサンプリングしたときのreward
○ r(y~
) greedyに探索したときのreward
● 実際は文分割した後の文に対してrewardを計算
○ 「その1文でどれだけROUGEが上がったか」を測る

Mixed Objective Learning（Objectives）
● MLEとSEMは混ぜて使用
● MLEとRLも混ぜて使用
○ MLEとSEMを混ぜて使うときは、MLEをMLE-SEMで代用
● λとγはそれぞれhyper-parameter

Experimental Setup (Data)
● Corpus（詳細はTable 6）
○ CNN/Daily Mail
○ New York Times
● 名前をAnnonymizing
● 800単語でLoadを止める
● 800単語/Agent数に近い
文境界でParagraphを分割
● Agent数はhyper-parameter

Experimental Setup (Others)
● Vocabulary 50,000
● Hidden size 128
● Embed size 200（GloVeで初期化（固定しない））
● Optimizer Adam
● λ（RL） 0.1
● γ（SEM） 0.97
● Time P100 で 4-5 days（Agent数が2~3のとき）
● Evaluation ROUGE-{1, 2, L}、人手評価

Result (CNN/DailyMail)
● m1 ~ m3はagentが1つ → 複数あった方がいい
● Agent間のCommunicationはあった方がいい
● Agentの数は3がちょうどいい
○ Documentのトークン数にもよるはずなので調査が必要

Result (New York Times)
● 目的関数を複数組み合わせた方が性能が高い
● ROUGE-Lは先行研究に負けている（CNN/DailyMailも）
○ [Paulus et al., 2018] でROUGE-Lと人手評価に相関があまりないことが示
されているから、問題ない（？）

Human Evaluation
● いい方を選んでもらう（Head-to-Head）
● 以下の4つをそれぞれ5段階評価（Score based）
○ non-redundancy 無駄がないかどうか
○ coherence 出力文書に一貫性があるか
○ focus 正しい論点で要約されているか
○ overall 全体的な評価

Communication improves focus
● 各出力のAgent Attentionの平均
ごとのROUGEの平均
● 30%前後のときにROUGEが高い
→ 均等にattentionが張られると性
能が高い可能性

Conclusion
● DCA（Document Communication Agent）を提案
○ AgentがそれぞれParagraphを読み込む
○ Agentはコミュニケーションを取る
● ROUGEの向上
● 人手評価のスコアも向上した

[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization

Recommended

Recommended

More Related Content

More from Hayahide Yamagishi

More from Hayahide Yamagishi (8)

[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization