【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
1. DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding
Makoto Kawano, Keio University
2. 書誌情報
●タイトル:BERT: Pre-training of Deep Bidirectional Transformers
for Language Understanding
●著者:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina
Toutanova
●投稿日:2018/10/11
●選定理由:Twitterでバズってた
‣ NLP界隈のImageNet Pre-trainedモデル(VGGやResNet)的存在になるか
もらしい
‣ Transformerって良くわかってない
2
14. タスク1:Masked Language Model
●pre-traininig時とfine-tuning時で違いが生じてしまう
‣ Fine-tuningの時に[MASK]トークンは見ない
‣ 常に置換するのではなく,系列のうち15%の単語を置き換える
• 例:my dog is hairy -> hairyが選択される
• 80%:[MASK]トークンに置換
• my dog is hairy -> my dog is [MASK]
• 10%:ランダムな別の単語に置換
• my dog is hairy -> my dog is apple
• 10%:置き換えない(モデルに実際に観測される言葉表現に偏らせる)
• my dog is hairy -> my dog is hairy
14