【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond

九州工業大学大学院情報工学府情報工学専攻
嶋田研究室山村崇
Abstractive Text Summarization
using Sequence-to-sequence
RNNs and Beyond @CoNLL2016

Abstract
▶ Abstractive Summarization
Neural Machine Translation(NMT)ベース
• encoder-decoder + attention
翻訳と要約のタスクの違いを考慮したモデルの提案
• 要約特有の問題に対処
2
Abstractive Text Sum. using seq2seq RNNs and Beyond
（未知語）
重要語
Large Vocabulary Trick
Feature-rich Encoder
Switching Generator-Pointer
Temporal Attention
Hierarchical Attention入力文書の構造

Related Work
3
Abstractive Summarization
Rush+ 2015Hu+ 2015
Chopra+ 2016
LCSTS Gigaword DUC
CNN /
DailyMail NYT
Nallapati+ 2016
See+ 2017
Pauls+ 2017
のデータセットを構築
の問題を改善
のを改良
中国語の短文要約のためのデータセットを構築
のをにして性能向上
・
のデータセット
・
source sequence
target sequence
Encoder Decoder

MT and Summarization
▶ 単純にNMTを応用すればOK?
タスクの違いをちゃんと考慮しよう
4
Introduction
Translation Summarization
𝑠𝑜𝑢𝑟𝑐𝑒 ≒ |𝑡𝑎𝑟𝑔𝑒𝑡| 𝑠𝑜𝑢𝑟𝑐𝑒 > |𝑡𝑎𝑟𝑔𝑒𝑡|
loss-less generation lossy compression
the target covers
all the content
of the source
文長
変換
内容
the target covers
only important content
of the source

Large Vocabulary Trick (LVT)
▶ Baseline Model [Bahdanu et al., 2014]
Encoder-Decoder
• bi-directional GRU-RNN
• uni-directional GRU-RNN
Attention
▶ Large vocabulary ‘trick’(LVT) [Jean et al., 2014]
decoderの語彙を効果的に選択
• ミニバッチ内のソースの語彙
• ターゲットの高頻度語彙 (2K / 5K)
- 学習時間の削減（なるべく語彙サイズを制限したい）
- 要約は，大部分が入力文書と共通しているので適している
5
Models
source sequence
Encoder Decoder
target sequence
Attention

▶ 単純に入力系列を学習してもダメ
基本：単語ベクトル (Word Embedding)
入力系列中の重要語を学習したい
6
Models
Word Embedding
(word2vec)

▶ 単純に入力系列を学習してもダメ
基本：単語ベクトル (Word Embedding)
入力系列中の重要語を学習したい
7
Models
Word Embedding
(word2vec)
POS : Part-Of-Speech
NER : Named Entity Tag
TF : Term Frequency
IDF : Inverse Document Frequency

▶ 未知語（OOV語）のモデル化
要約では，入力のキーワードや固有表現が重要
• しかし，訓練事例にはほとんど出てこない
• Pointer Network [Vinyals et al., 2015] を適用
各単語を出力する際に「生成」か「コピー」か決定
• Switch -> on
- 通常の方法で語彙を生成
• Switch -> off
- Source側から語彙をコピー（選択）して，語彙を決定
8
Models
𝑃 𝑠𝑖 = 1 = 𝜎(𝒗 𝒔 ∙ 𝑾ℎ
𝑠
𝒉𝑖 + 𝑾 𝑒
𝑠 𝑬 𝑜𝑖−1 + 𝑾 𝑐
𝑠 𝒄𝒊 + 𝒃 𝑠 )
decoderの隠れ層直前の単語ベクトル Context vector

9
Models
G G GGP
Encoder Decoder
Input
Layer
Hidden
state
Output
Layer
𝑃 𝑝(𝑖) 𝒚−𝑖, 𝒙 (1 − 𝑃 𝑠𝑖 )
𝑃 𝑦𝑖 𝒚−𝑖, 𝒙 𝑃(𝑠𝑖) generate from vocabulary
copy input word

Hierarchical Attention [Li et al., 2015]
▶ 入力が長い場合に重要語と重要文を特定
source側で2つのbi-directional RNNsを適用
• 文レベル
• 単語レベル
- 何文目かの素性を追加
文レベルと単語レベルの２つのアテンションを考慮
10
Models
Re-scaled attention
word level sentence level

Hierarchical Attention
11
Models
Encoder Decoder
Input
Layer
Hidden
state
Output
Layer
Hidden
state
単
語
文
<eos>
1文 1文
sentence-level attention
word-level attention
new
word sentence

12
Models
Encoder Decoder
Input
Layer
Hidden
state
Output
Layer
Hidden
state
単
語
文
<eos>
1文 1文
new
word sentence

13
Models
Encoder Decoder
Input
Layer
Hidden
state
Output
Layer
Hidden
state
単
語
文
<eos>
1文 1文
new
word sentence

Temporal Attention [Sankaran et al., 2016]
▶ 同じ単語が出力されるのを防ぐ (Repeating)
どの単語が出力されるかはAttentionが鍵
これまで（過去）のAttentionの情報を使う
• 過去に多くAttentionしてるなら重みを下げる
14
Models
<s> Russia calls for
これまでの履歴
現在のAttention
𝛼 𝑡 ∝
𝛼 𝑡
′
𝛽𝑡
𝛽𝑡 = ෍
𝑘=1
𝑡−1
𝛼 𝑘
′
現在の単語tのAttention
過去の単語tのAttention
の総和
Attention Coverage Model [See+ 2017]
Intra-Attention Model [Paulus+ 2017]

Gigaword Corpus
◆ [1-5] 提案手法の各モデルが性能向上に寄与
- feats-lvt2k-2sent-ptr[5]が一番良い結果（全部入れ）
◆ [6-9] 他手法との比較 (Rushらのtest set)
- Rushらと同条件で比較（1文を学習 + 特徴なし)
- Baseline (ABS+)よりもRougeとcopy rateで良い結果
- 提案手法words-lvt5k-1sent[9]が一番良い結果
- 同じencoder-decoder RNNのChopraらよりも良い性能
15
Experiments and Results
New Article Headline

DUC Corpus
16
Document Summary
◆ 提案手法(words-lvt2k-1sent, words-lvt5k-1sent)
- Baseline (ABS+)よりも性能が上回る
- ABS : Gigawordコーパスで学習
- ABS+ : Gigawordコーパス + DUC2003で特徴量を追加
- 提案手法はGigawordコーパスの学習だけでも精度が上
- Rouge-2, Rouge-Lで最も良い精度

CNN/Daily Mail Corpus
17
Document Multi-sentence
◆ これまでのコーパスの要約は1文 (Gigaword, DUC)
- 複数の文からなる新しい要約コーパスを作成
◆ words-lvt2k-hierattがあまり上手くいかなかった
- 出力結果を分析したところRepeatingが起きていた
- 過去の出力情報(Attention)を参照するtemp-attを導入
- Repeatingが少なくなり，精度が向上
Attention Coverage Model [See+ 2017]
Intra-Attention Model [Paulus+ 2017]

Temporal Attention
18

Poor quality summary output
19
Qualitative Analysis
▶ 誤った出力例
元の文書の「意味」を「誤解」してしまう問題

▶ Pointerで正しくコピーできていた
three-month-old のようなフレーズもコピー可
しかし，精度面での大きな貢献はなかった
• 未知語が多いタスクなら，より効果的かも
20
Qualitative Analysis

Conclusion
▶ Attentional Encoder-Decoder
要約タスクの特徴を考慮した新たなモデルを追加
• 個々のモデルの追加で性能向上を確認
- Large Vocabulary Trick
- Feature-rich Encoder
- Switching Generator-Pointer
- Hierarchical Attention
- Temporal Attention
複数文からなる要約のデータセットを公開
• CNN/Daily Mail Corpus
- [See et al., 2017] や [Paulus et al., 2017]などが
これらのデータセットを使って本研究の改善手法を提案
21
Abstractive Text Sum. using seq2seq RNNs and Beyond

【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond

Recommandé

Recommandé

Contenu connexe

Similaire à 【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond

Similaire à 【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond (20)

Dernier

Dernier (8)

【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond