4. MT and Summarization
▶ 単純にNMTを応用すればOK?
タスクの違いをちゃんと考慮しよう
4
Introduction
Translation Summarization
𝑠𝑜𝑢𝑟𝑐𝑒 ≒ |𝑡𝑎𝑟𝑔𝑒𝑡| 𝑠𝑜𝑢𝑟𝑐𝑒 > |𝑡𝑎𝑟𝑔𝑒𝑡|
loss-less generation lossy compression
the target covers
all the content
of the source
文長
変換
内容
the target covers
only important content
of the source
5. Large Vocabulary Trick (LVT)
▶ Baseline Model [Bahdanu et al., 2014]
Encoder-Decoder
• bi-directional GRU-RNN
• uni-directional GRU-RNN
Attention
▶ Large vocabulary ‘trick’(LVT) [Jean et al., 2014]
decoderの語彙を効果的に選択
• ミニバッチ内のソースの語彙
• ターゲットの高頻度語彙 (2K / 5K)
- 学習時間の削減(なるべく語彙サイズを制限したい)
- 要約は,大部分が入力文書と共通しているので適している
5
Models
source sequence
Encoder Decoder
target sequence
Attention
7. Feature-rich Encoder
▶ 単純に入力系列を学習してもダメ
基本:単語ベクトル (Word Embedding)
入力系列中の重要語を学習したい
7
Models
Word Embedding
(word2vec)
POS : Part-Of-Speech
NER : Named Entity Tag
TF : Term Frequency
IDF : Inverse Document Frequency