自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Networks
1. 1
“Fast Abstractive Summarization with Reinforce-Selected
Sentence Rewriting (NAACL2018)”
Atsushi Kayama M3.Inc
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Abstractive Summarization of Reddit Posts with Multi-
level Memory Networks ”
Atsushi Kayama M3.Inc
2. Abstractive Summarization of Reddit Posts with Multi-level Memory Networks
Byeongchang Kim, Hyunwoo Kim, Gunhee Kim :Seoul National Univ, Dept of CS
arXiv 2 Nov 2018
Reddit TIFU dataset (提案したデータセット)
既存のデータセットの欠点を補うデータセットを提案,そのデータセットに対し
てSOTA な Abstract 要約モデルを提案
非news text を用いた Abstract 要約データセット Reddit TIFU を提案
Memory network (階層的な1次元畳み込み + attention ) を用いた Abstract 要約モデルを提案
提案した Reddit TIFU dataset, 既存の Newsroom dataset に対して SOTA
書誌情報・概要
2
3. 文章(ドキュメント)要約タスク概要
Extract 要約
ドキュメントの中からセンテンスを抜き出したものを要約とする
- 各センテンスをドキュメント全体を表す情報を多く含んでいるか等でスコアリング
- スコア上位から数センテンス抜き出したものを要約とみなす
Abstract 要約
ドキュメントから新しいセンテンスを1単語ずつ生成し,生成されたセンテンス群を要約とする
- Seq2Seq による翻訳文生成と基本同じ
3
Article Reference Summary
Created Abstract Summary
出典: A.See et al, Get To The Point: Summarization with Pointer-Generator Networks (2017)
例
4. ROUGE-N
参照要約(正解)に含まれる n-gram が 生成した要約にどれくらい含まれるかで生成された要約
の良さを定量化した指標
- precision, recall, f1 score の3種類存在
- N = 1, 2 が一般的に用いられている
ROUGE-L
一致する最大のシーケンス (Longest common subsequence) の長さを評価
- precision, recall, f1 score の3種類存在
文章(ドキュメント)要約タスク評価指標
4
Japan defeated Columbia 2-1, first game in 2018 FIFA world cup Russia.
Surprise in world cup group stage, Japan scored 2 goal and defeated Columbia.
Japan defeated Columbia 2-1, first game in 2018 FIFA world cup Russia.
Surprise in world cup group stage, Japan scored 2 goal and defeated Columbia.
Recall例
ROUGE 2
ROUGE L