SlideShare une entreprise Scribd logo
1  sur  21
Télécharger pour lire hors ligne
九州工業大学大学院 情報工学府 情報工学専攻
嶋田研究室 山村 崇
Abstractive Text Summarization
using Sequence-to-sequence
RNNs and Beyond @CoNLL2016
Abstract
▶ Abstractive Summarization
Neural Machine Translation(NMT)ベース
• encoder-decoder + attention
翻訳と要約のタスクの違いを考慮したモデルの提案
• 要約特有の問題に対処
2
Abstractive Text Sum. using seq2seq RNNs and Beyond
(未知語)
重要語
Large Vocabulary Trick
Feature-rich Encoder
Switching Generator-Pointer
Temporal Attention
Hierarchical Attention入力文書の構造
Related Work
3
Abstractive Summarization
Rush+ 2015Hu+ 2015
Chopra+ 2016
LCSTS Gigaword DUC
CNN /
DailyMail NYT
Nallapati+ 2016
See+ 2017
Pauls+ 2017
のデータセットを構築
の問題を改善
の を改良
中国語の短文要約のためのデータセットを構築
の を にして性能向上
・
のデータセット
・
source sequence
target sequence
Encoder Decoder
MT and Summarization
▶ 単純にNMTを応用すればOK?
タスクの違いをちゃんと考慮しよう
4
Introduction
Translation Summarization
𝑠𝑜𝑢𝑟𝑐𝑒 ≒ |𝑡𝑎𝑟𝑔𝑒𝑡| 𝑠𝑜𝑢𝑟𝑐𝑒 > |𝑡𝑎𝑟𝑔𝑒𝑡|
loss-less generation lossy compression
the target covers
all the content
of the source
文長
変換
内容
the target covers
only important content
of the source
Large Vocabulary Trick (LVT)
▶ Baseline Model [Bahdanu et al., 2014]
Encoder-Decoder
• bi-directional GRU-RNN
• uni-directional GRU-RNN
Attention
▶ Large vocabulary ‘trick’(LVT) [Jean et al., 2014]
decoderの語彙を効果的に選択
• ミニバッチ内のソースの語彙
• ターゲットの高頻度語彙 (2K / 5K)
- 学習時間の削減(なるべく語彙サイズを制限したい)
- 要約は,大部分が入力文書と共通しているので適している
5
Models
source sequence
Encoder Decoder
target sequence
Attention
Feature-rich Encoder
▶ 単純に入力系列を学習してもダメ
基本:単語ベクトル (Word Embedding)
入力系列中の重要語を学習したい
6
Models
Word Embedding
(word2vec)
Feature-rich Encoder
▶ 単純に入力系列を学習してもダメ
基本:単語ベクトル (Word Embedding)
入力系列中の重要語を学習したい
7
Models
Word Embedding
(word2vec)
POS : Part-Of-Speech
NER : Named Entity Tag
TF : Term Frequency
IDF : Inverse Document Frequency
Switching Generator-Pointer
▶ 未知語(OOV語)のモデル化
要約では,入力のキーワードや固有表現が重要
• しかし,訓練事例にはほとんど出てこない
• Pointer Network [Vinyals et al., 2015] を適用
各単語を出力する際に「生成」か「コピー」か決定
• Switch -> on
- 通常の方法で語彙を生成
• Switch -> off
- Source側から語彙をコピー(選択)して,語彙を決定
8
Models
𝑃 𝑠𝑖 = 1 = 𝜎(𝒗 𝒔 ∙ 𝑾ℎ
𝑠
𝒉𝑖 + 𝑾 𝑒
𝑠 𝑬 𝑜𝑖−1 + 𝑾 𝑐
𝑠 𝒄𝒊 + 𝒃 𝑠 )
decoderの隠れ層 直前の単語ベクトル Context vector
Switching Generator-Pointer
9
Models
G G GGP
Encoder Decoder
Input
Layer
Hidden
state
Output
Layer
𝑃 𝑝(𝑖) 𝒚−𝑖, 𝒙 (1 − 𝑃 𝑠𝑖 )
𝑃 𝑦𝑖 𝒚−𝑖, 𝒙 𝑃(𝑠𝑖) generate from vocabulary
copy input word
Hierarchical Attention [Li et al., 2015]
▶ 入力が長い場合に重要語と重要文を特定
source側で2つのbi-directional RNNsを適用
• 文レベル
• 単語レベル
- 何文目かの素性を追加
文レベルと単語レベルの2つのアテンションを考慮
10
Models
Re-scaled attention
word level sentence level
Hierarchical Attention
11
Models
Encoder Decoder
Input
Layer
Hidden
state
Output
Layer
Hidden
state
単
語
文
<eos>
1文 1文
sentence-level attention
word-level attention
new
word sentence
Hierarchical Attention
12
Models
Encoder Decoder
Input
Layer
Hidden
state
Output
Layer
Hidden
state
単
語
文
<eos>
1文 1文
sentence-level attention
word-level attention
new
word sentence
Hierarchical Attention
13
Models
Encoder Decoder
Input
Layer
Hidden
state
Output
Layer
Hidden
state
単
語
文
<eos>
1文 1文
sentence-level attention
word-level attention
new
word sentence
Temporal Attention [Sankaran et al., 2016]
▶ 同じ単語が出力されるのを防ぐ (Repeating)
どの単語が出力されるかはAttentionが鍵
これまで(過去)のAttentionの情報を使う
• 過去に多くAttentionしてるなら重みを下げる
14
Models
<s> Russia calls for
これまでの履歴
現在のAttention
𝛼 𝑡 ∝
𝛼 𝑡
′
𝛽𝑡
𝛽𝑡 = ෍
𝑘=1
𝑡−1
𝛼 𝑘
′
現在の単語tのAttention
過去の単語tのAttention
の総和
Attention Coverage Model [See+ 2017]
Intra-Attention Model [Paulus+ 2017]
Gigaword Corpus
◆ [1-5] 提案手法の各モデルが性能向上に寄与
- feats-lvt2k-2sent-ptr[5]が一番良い結果(全部入れ)
◆ [6-9] 他手法との比較 (Rushらのtest set)
- Rushらと同条件で比較(1文を学習 + 特徴なし)
- Baseline (ABS+)よりもRougeとcopy rateで良い結果
- 提案手法words-lvt5k-1sent[9]が一番良い結果
- 同じencoder-decoder RNNのChopraらよりも良い性能
15
Experiments and Results
New Article Headline
DUC Corpus
16
Experiments and Results
Document Summary
◆ 提案手法(words-lvt2k-1sent, words-lvt5k-1sent)
- Baseline (ABS+)よりも性能が上回る
- ABS : Gigawordコーパスで学習
- ABS+ : Gigawordコーパス + DUC2003で特徴量を追加
- 提案手法はGigawordコーパスの学習だけでも精度が上
- Rouge-2, Rouge-Lで最も良い精度
CNN/Daily Mail Corpus
17
Experiments and Results
Document Multi-sentence
◆ これまでのコーパスの要約は1文 (Gigaword, DUC)
- 複数の文からなる新しい要約コーパスを作成
◆ words-lvt2k-hierattがあまり上手くいかなかった
- 出力結果を分析したところRepeatingが起きていた
- 過去の出力情報(Attention)を参照するtemp-attを導入
- Repeatingが少なくなり,精度が向上
Attention Coverage Model [See+ 2017]
Intra-Attention Model [Paulus+ 2017]
Temporal Attention
18
Experiments and Results
Poor quality summary output
19
Qualitative Analysis
▶ 誤った出力例
元の文書の「意味」を「誤解」してしまう問題
Switching Generator-Pointer
▶ Pointerで正しくコピーできていた
three-month-old のようなフレーズもコピー可
しかし,精度面での大きな貢献はなかった
• 未知語が多いタスクなら,より効果的かも
20
Qualitative Analysis
Conclusion
▶ Attentional Encoder-Decoder
要約タスクの特徴を考慮した新たなモデルを追加
• 個々のモデルの追加で性能向上を確認
- Large Vocabulary Trick
- Feature-rich Encoder
- Switching Generator-Pointer
- Hierarchical Attention
- Temporal Attention
複数文からなる要約のデータセットを公開
• CNN/Daily Mail Corpus
- [See et al., 2017] や [Paulus et al., 2017]などが
これらのデータセットを使って本研究の改善手法を提案
21
Abstractive Text Sum. using seq2seq RNNs and Beyond

Contenu connexe

Similaire à 【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond

最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17Masayoshi Kondo
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...harmonylab
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...Deep Learning JP
 
Fast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewritingFast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewritingYasuhide Miura
 
Abstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminarAbstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminarKodaira Tomonori
 
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...Yuta Kikuchi
 
Interop2017
Interop2017Interop2017
Interop2017tak9029
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...禎晃 山崎
 
ドメインロジックの実装方法とドメイン駆動設計
ドメインロジックの実装方法とドメイン駆動設計ドメインロジックの実装方法とドメイン駆動設計
ドメインロジックの実装方法とドメイン駆動設計Tadayoshi Sato
 
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)MKT International Inc.
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27Kensuke Mitsuzawa
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Hironori Washizaki
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」Shuji Morisaki
 
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...広樹 本間
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phraseTatsuya Shirakawa
 

Similaire à 【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond (20)

Extract and edit
Extract and editExtract and edit
Extract and edit
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
 
Fast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewritingFast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewriting
 
Abstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminarAbstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminar
 
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
 
Interop2017
Interop2017Interop2017
Interop2017
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
 
ドメインロジックの実装方法とドメイン駆動設計
ドメインロジックの実装方法とドメイン駆動設計ドメインロジックの実装方法とドメイン駆動設計
ドメインロジックの実装方法とドメイン駆動設計
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
 
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
 

Dernier

PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 

Dernier (8)

PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 

【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond

  • 1. 九州工業大学大学院 情報工学府 情報工学専攻 嶋田研究室 山村 崇 Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond @CoNLL2016
  • 2. Abstract ▶ Abstractive Summarization Neural Machine Translation(NMT)ベース • encoder-decoder + attention 翻訳と要約のタスクの違いを考慮したモデルの提案 • 要約特有の問題に対処 2 Abstractive Text Sum. using seq2seq RNNs and Beyond (未知語) 重要語 Large Vocabulary Trick Feature-rich Encoder Switching Generator-Pointer Temporal Attention Hierarchical Attention入力文書の構造
  • 3. Related Work 3 Abstractive Summarization Rush+ 2015Hu+ 2015 Chopra+ 2016 LCSTS Gigaword DUC CNN / DailyMail NYT Nallapati+ 2016 See+ 2017 Pauls+ 2017 のデータセットを構築 の問題を改善 の を改良 中国語の短文要約のためのデータセットを構築 の を にして性能向上 ・ のデータセット ・ source sequence target sequence Encoder Decoder
  • 4. MT and Summarization ▶ 単純にNMTを応用すればOK? タスクの違いをちゃんと考慮しよう 4 Introduction Translation Summarization 𝑠𝑜𝑢𝑟𝑐𝑒 ≒ |𝑡𝑎𝑟𝑔𝑒𝑡| 𝑠𝑜𝑢𝑟𝑐𝑒 > |𝑡𝑎𝑟𝑔𝑒𝑡| loss-less generation lossy compression the target covers all the content of the source 文長 変換 内容 the target covers only important content of the source
  • 5. Large Vocabulary Trick (LVT) ▶ Baseline Model [Bahdanu et al., 2014] Encoder-Decoder • bi-directional GRU-RNN • uni-directional GRU-RNN Attention ▶ Large vocabulary ‘trick’(LVT) [Jean et al., 2014] decoderの語彙を効果的に選択 • ミニバッチ内のソースの語彙 • ターゲットの高頻度語彙 (2K / 5K) - 学習時間の削減(なるべく語彙サイズを制限したい) - 要約は,大部分が入力文書と共通しているので適している 5 Models source sequence Encoder Decoder target sequence Attention
  • 6. Feature-rich Encoder ▶ 単純に入力系列を学習してもダメ 基本:単語ベクトル (Word Embedding) 入力系列中の重要語を学習したい 6 Models Word Embedding (word2vec)
  • 7. Feature-rich Encoder ▶ 単純に入力系列を学習してもダメ 基本:単語ベクトル (Word Embedding) 入力系列中の重要語を学習したい 7 Models Word Embedding (word2vec) POS : Part-Of-Speech NER : Named Entity Tag TF : Term Frequency IDF : Inverse Document Frequency
  • 8. Switching Generator-Pointer ▶ 未知語(OOV語)のモデル化 要約では,入力のキーワードや固有表現が重要 • しかし,訓練事例にはほとんど出てこない • Pointer Network [Vinyals et al., 2015] を適用 各単語を出力する際に「生成」か「コピー」か決定 • Switch -> on - 通常の方法で語彙を生成 • Switch -> off - Source側から語彙をコピー(選択)して,語彙を決定 8 Models 𝑃 𝑠𝑖 = 1 = 𝜎(𝒗 𝒔 ∙ 𝑾ℎ 𝑠 𝒉𝑖 + 𝑾 𝑒 𝑠 𝑬 𝑜𝑖−1 + 𝑾 𝑐 𝑠 𝒄𝒊 + 𝒃 𝑠 ) decoderの隠れ層 直前の単語ベクトル Context vector
  • 9. Switching Generator-Pointer 9 Models G G GGP Encoder Decoder Input Layer Hidden state Output Layer 𝑃 𝑝(𝑖) 𝒚−𝑖, 𝒙 (1 − 𝑃 𝑠𝑖 ) 𝑃 𝑦𝑖 𝒚−𝑖, 𝒙 𝑃(𝑠𝑖) generate from vocabulary copy input word
  • 10. Hierarchical Attention [Li et al., 2015] ▶ 入力が長い場合に重要語と重要文を特定 source側で2つのbi-directional RNNsを適用 • 文レベル • 単語レベル - 何文目かの素性を追加 文レベルと単語レベルの2つのアテンションを考慮 10 Models Re-scaled attention word level sentence level
  • 14. Temporal Attention [Sankaran et al., 2016] ▶ 同じ単語が出力されるのを防ぐ (Repeating) どの単語が出力されるかはAttentionが鍵 これまで(過去)のAttentionの情報を使う • 過去に多くAttentionしてるなら重みを下げる 14 Models <s> Russia calls for これまでの履歴 現在のAttention 𝛼 𝑡 ∝ 𝛼 𝑡 ′ 𝛽𝑡 𝛽𝑡 = ෍ 𝑘=1 𝑡−1 𝛼 𝑘 ′ 現在の単語tのAttention 過去の単語tのAttention の総和 Attention Coverage Model [See+ 2017] Intra-Attention Model [Paulus+ 2017]
  • 15. Gigaword Corpus ◆ [1-5] 提案手法の各モデルが性能向上に寄与 - feats-lvt2k-2sent-ptr[5]が一番良い結果(全部入れ) ◆ [6-9] 他手法との比較 (Rushらのtest set) - Rushらと同条件で比較(1文を学習 + 特徴なし) - Baseline (ABS+)よりもRougeとcopy rateで良い結果 - 提案手法words-lvt5k-1sent[9]が一番良い結果 - 同じencoder-decoder RNNのChopraらよりも良い性能 15 Experiments and Results New Article Headline
  • 16. DUC Corpus 16 Experiments and Results Document Summary ◆ 提案手法(words-lvt2k-1sent, words-lvt5k-1sent) - Baseline (ABS+)よりも性能が上回る - ABS : Gigawordコーパスで学習 - ABS+ : Gigawordコーパス + DUC2003で特徴量を追加 - 提案手法はGigawordコーパスの学習だけでも精度が上 - Rouge-2, Rouge-Lで最も良い精度
  • 17. CNN/Daily Mail Corpus 17 Experiments and Results Document Multi-sentence ◆ これまでのコーパスの要約は1文 (Gigaword, DUC) - 複数の文からなる新しい要約コーパスを作成 ◆ words-lvt2k-hierattがあまり上手くいかなかった - 出力結果を分析したところRepeatingが起きていた - 過去の出力情報(Attention)を参照するtemp-attを導入 - Repeatingが少なくなり,精度が向上 Attention Coverage Model [See+ 2017] Intra-Attention Model [Paulus+ 2017]
  • 19. Poor quality summary output 19 Qualitative Analysis ▶ 誤った出力例 元の文書の「意味」を「誤解」してしまう問題
  • 20. Switching Generator-Pointer ▶ Pointerで正しくコピーできていた three-month-old のようなフレーズもコピー可 しかし,精度面での大きな貢献はなかった • 未知語が多いタスクなら,より効果的かも 20 Qualitative Analysis
  • 21. Conclusion ▶ Attentional Encoder-Decoder 要約タスクの特徴を考慮した新たなモデルを追加 • 個々のモデルの追加で性能向上を確認 - Large Vocabulary Trick - Feature-rich Encoder - Switching Generator-Pointer - Hierarchical Attention - Temporal Attention 複数文からなる要約のデータセットを公開 • CNN/Daily Mail Corpus - [See et al., 2017] や [Paulus et al., 2017]などが これらのデータセットを使って本研究の改善手法を提案 21 Abstractive Text Sum. using seq2seq RNNs and Beyond