More Related Content
More from Deep Learning JP (20)
[DL輪読会]When Does Label Smoothing Help?
- 1. 1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
When Does Label Smoothing help? (NeurIPS2019)
MasashiYokota, RESTAR Inc.
- 2. 書誌情報
• 著者
– Rafael Müller, Simon Kornblith, Geoffrey Hintonら
Google Brainの研究チーム
– NeurIPS2019 採択
• Penultimate layer(Softmax層の一つ前の層) を線形な方法で二次
元平面に可視化。それによりLabel Smoothingの効果の直感的な
理解を可能にし、さらにLabel Smoothingについて深く分析した。
2
- 9. Label Smoothing再考
Label Smoothing
– xはPenultimate layerの出力, 𝒘 𝒌 はk 番目クラスのtemplate(重み)とする
とk番目のクラスのlogit ( 𝒙 𝑻
𝒘 𝒌 )は以下のようにユークリッド距離の二乗
𝒙 − 𝒘 𝒌
2
と考えられる:
LSでは 𝒙 − 𝒘 𝒌
2
がパラメータαに依存した定数となるように学習されるの
で「正解クラスのtemplateと全ての不正解クラスのtemplateが等距離にな
るように学習している」と考えられる
9
重みによらないので
Factored out
k番目クラスのとき
常に同じなので
Factored out
- 15. • Beaver, Dolphin, Otterの3クラスをvisualize
• w/ LSの場合、明確に密集したクラスタがつくられ、各クラスタは
等距離に写像されるように学習されている 15
Penultimate Layersの可視化
ResNet-56/CIFAR-100
- 16. • Tench, Meercat, cleaverをvisualize
• 各クラスタは先と同様にw/ LSの場合、各クラスごとに密なクラス
タを形成するように学習されている。 16
Penultimate Layersの可視化
Inception-v4/CIFAR-100 (類似クラス×2、非類似クラス×1)
- 17. • Tench, toy poodle, miniature poodleの3クラスをvisualize
• w/o LSでは、似ているクラス同士が一つのクラスタになってしまう。一方で、w/LSで
は異なるクラスのクラスタを中心とした円弧上に配置される。
• クラス間の情報は仮想的に消されてしまっている 17
Penultimate Layersの可視化
Inception-v4/CIFAR-100 (類似クラス×2、非類似クラス×1)
- 18. • Tench, toy poodle, miniature poodleの3クラスをvisualize
• w/o LSでは、似ているクラス同士が一つのクラスタになってしまう。一方で、w/LSで
は異なるクラスのクラスタを中心とした円弧上に配置される。
• クラス間の情報は仮想的に消されてしまっている 18
Penultimate Layersの可視化
Inception-v4/CIFAR-100 (類似クラス×2、非類似クラス×1)
- 23. Implicit model calibrationの検証
検証したいこと: LSによりcalibrationができたかどうか
• 実験条件
– ECEの計算に用いるbin数: 15
• 比較手法
① w/o LS (baseline)
② w/ LS
③ w/ temperature scaling
(以下、TSと表記。なお、先行研究でCalibrationに有効と検証済み)
• 実験内容
1. Image Classification
• ResNet-56/CIFAR-100
• Inception-v4/ImageNet
2. Machine Translation
• Transformer architecture / English-German translation
23
- 29. Implicit model calibration
w/o LSの場合の温度変化とBLEUとECEの関係
• w/o LSのときにTSの温度を変
化させたときに各スコアの変
化をみる
• 赤線はECE、青線はBLEUをそ
れぞれ表す。
• 温度が1.13あたりでBLEUと
ECE双方が最も良くなっている
29
- 30. Implicit model calibration
w/ LSの場合の温度変化とBLEUとECEの関係
• α=0.1でのLS時にTSの温度
を変化させたときに各スコア
の変化をみる
• TSとLSを一緒に使うとECEも
BLEUも悪くなる
→ TSとLSの共存は性能を悪
くすることがわかった
30
- 34. Knowledge distillation
• ここで確かめたいこと
– LSはlogit間の相互情報量まで落としていると考えられ相互情報量が重
要な蒸留では、LSは悪影響を与えるのではないか?
• 上記は筆者らは以下の簡易的な実験でもその傾向はわかる
– MLPのteacherモデルを使ってMNISTを学習。学習したteacherモデルを
studentモデルに蒸留すると以下のような結果になる。
w/o LS teacherで蒸留 : train: 0.67%, test: 0.74%
w/ LS LS teacherで蒸留: train: 0.59%, test: 0.91%
→ LSは蒸留に良くない影響を与えていることがわかる
34
- 40. Logit間の相互情報量を考える 1 / 2
Inputとlogitの多次元かつ分布不明なデータの相互情報量を計算す
るのは困難。以下の仮定を元に簡易的に相互情報量を計算
– X: 入力画像, Y: 2クラス間のロジットの差
– Yの分布をガウス分布とし、Xをランダムにshiftしてモンテカルロサンプリ
ングすることで平均𝜇 𝑥と分散𝜎2を求める
– d(・): 画像をランダムにshiftする関数, f(・): 学習済みモデル,
L: モンテカルロのサンプル数, N: Trainingデータのサンプル数
40
- 41. Logit間の相互情報量を考える 2 / 2
• 上記の式の値は、0からlog(N)の範囲に収まる
• 0の時は、全てのデータ点が1つのポイントに集まった状態で、そ
れは相対エントロピーが0であることを示す。
• log(N)の時は、N個全てのデータ点がバラバラになっている状態。
41
- 44. Do Better ImageNet Models Transfer Better?
[Kornblith+ 2019]
ImageNetで良い性能を出しているモデルを転移学習させても良い性能が出るのかを調査。(この論文
では他にも調査しているが)LSは転移学習に良い影響を与えないことが実験的にわかった。おそらくこ
れもLSが何かしらの情報量を落としてしまっていると考えられる。 44
- 46. まとめ
• Penultimate layerを可視化し、Label Smoothingの定性的な効果と
して「正解クラスと他の他の不正解クラスの距離が全て等距離に
なるように学習する」ことを発見した
• Label Smoothingにはcalibration効果があることを発見した
• 画像分類や翻訳タスクにはLabel Smoothingの効果がある一方で、
蒸留には不向きであることがわかった
• 蒸留には不向きである理由として、logit間の相互情報量が落ちて
いることが原因であることがわかった
• これらの発見は、いろんな研究分野で有益な発見である
46
Editor's Notes
- Penultimate Layersの可視化
Inception-v4/CIFAR-100 (非類似クラス×3)