[DL輪読会]Are Sixteen Heads Really Better than One?

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Are Sixteen Heads Really Better than One?
MasakiTashiro, Keio University

書誌情報
• Are Sixteen Heads Really Better than One?
• https://arxiv.org/abs/1905.10650
• Paul Michel, Omer Levy, Graham Neubig.
2
選んだ理由
• BERT等のattentionの挙動について興味があったから
＊断りのない限り, 図は論文より引用

概要
背景・課題
• 近年のNLPで流行のmulti-head attention(MHA)を用いたモデル
はメモリを大量に消費し時間もかかる
提案
• Multi-headで訓練したモデルの中のheadの多くは精度を落とさず
に取り去ることができる
結論
• MHAは学習初期段階の相互作用のために重要であるが、一度学
習できたら推論時にはいらないことがある
3

背景
• BERT (Bidirectional Encoder Representations from
Transformers)
• 汎用的な言語表現モデルで総合的な言語理解能力を試すGLUE
において飛躍的なスコアの向上を達成
詳しくはこちらを参考
• https://qiita.com/Kosuke-Szk/items/4b74b5cce84f423b7125
4
出典 : https://arxiv.org/abs/1810.04805

背景
Transformer
• 2017年にAttention Is All You Need にて
提案されたモデル
• 機械翻訳において主流であった
RNNやLSTMを用いずにSOTAを達成した
5

背景
• Single-Headed Attention
6

背景
• Multi-headed Attention
• Masking Attention Heads
7

課題
• MHAが具体的にどのような役割を果たしているかわかってない
• MHAによってモデルのパラメータは大きく増大する。それに伴って
メモリを大量に消費し推論に時間がかかる
8

関連研究
• Elena Voita, David Talbot, Fedor Moiseev, Rico Sennrich, Ivan
Titov. Analyzing multi-head self-attention: Specialized heads do
the heavy lifting, the rest can be pruned. In ACL, 2019.
• Kevin Clark, Urvashi Khandelwal, Omer Levy, Christopher D.
Manning. What Does BERT Look At? An Analysis of BERT's
Attention. In BlackBoxNLP, 2019
9

実験
基本的には二つのタスク
• WMT2014 English to French corpusで訓練したlarge transformer
のnewstest2013 test setでの評価
• MultiNLIデータにおいてfinetuningをしたBERTの”base-uncased”
モデルの”matched” validation setにおける評価
10

実験1 : 一つの層からheadを削除する
条件1 : 削除したheadは一つ
結果 : ほとんどのheadは削除しても
統計的に優位な差を見せなかった
11

条件2 : 一つのhead以外を削除
結果 : 多くの層で一つのheadは十分なスコアを出せる
ただ、層によっての複数のheadが必要な層もある
12

条件3 : 違うデータセットでheadを削除したモデルを試す
結果 : データセット間でスコアには正の相関が見られ、
重要であると考えられたheadはデータセットに
関わらず重要であると考えられる
13

実験2 : 複数の層からheadを削除する
目的
• 複数の層のheadによる複合効果があるかを検証する
方向性
• Importance scoreによって全てのattention head をソートし重要で
ないものから貪欲的に枝刈りしていく
14

Head Importance score for Pruning
• 勾配ベースで重要度を決定
• 重要度は層別にnormalizeする
15

Pruningと精度(BLEU/Accuracy)の関係
• 実験1で求めたaccuracyベースのもの(緑)と勾配ベース(青)のもの
を比較
• 勾配ベースの方が良い
• 一定までは精度の低下が小さいが一定以上で大きく減少
16

Pruningと推論効率の関係
• 約3分の1のパラメータがMHAに使われている
• 時間に関してはsingle exampleの推論において大きな速度向上を
もたらした
17

層の種類によるhead削減の効果
• 実験1で層によって必要なheadの数が異なることがわかった
• Enc-Dec間ではmulti-headsがより重要であると考えられる
18

Headの重要性の変化
• 各epochでのheadの削減率とscoreの減少度を比較した
• 初期段階ではheadの削減が与える影響が大きいが学習が進むに
つれて影響が小さくなる
• 初期段階で重要なheadは決定される
19

結論
• MHAは常にモデルの表現力を上げるという訳ではない
• 層によって削除できるheadの割合は変わっている
• 学習の初期段階で重要なheadは決まってくる
20

Appendix
著者のTwitterより
• Lottery ticket hypothesisとの関係について
• 重要なheadは単に初期値が良かった訳ではないことを主張
21

Appendix
重要であると考えられたheadについて
• 同様の研究がAnalyzing multi-head self-attention: Specialized
heads do the heavy lifting, the rest can be pruned. でも行われて
いて具体的に重要なheadがどのような役割をしているのかを調べ
た
• Syntax的な役割, positionalな役割, rare wordへの対処に関する
役割などが観察された
22

Appendix
Headの役割に関して
• より具体的なheadの役割(文法的)についてはWhat Does BERT
Look At? An Analysis of BERT‘s Attention で研究されていた
23

[DL輪読会]Are Sixteen Heads Really Better than One?

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

Dernier

Dernier (12)

[DL輪読会]Are Sixteen Heads Really Better than One?