論文輪読資料「Why regularized Auto-Encoders learn Sparse Representation?」DL Hacks

"Why regularized Auto-Encoders learn Sparse
Representation?"
@ DL Hacks paper reading session
2015/06/05
東京大学大学院工学系研究科
技術経営戦略学専攻松尾研究室
黒滝紘生
kurotaki@weblab.t.u-tokyo.ac.jp

目次
2
1. Introduction
2. Auto-Encoders and Sparse Representation
3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)
4. Empirica Analysis and Observations
5. Conclusion

目次
3
1. Introduction
5. Conclusion

概要
・基本情報
- Why regularized Auto-Encoders learn Sparse Representation?
- Devansh Arpit, Yingbo Zhou, Hung Ngo, Venu Govindaraju
Department of Computer Science
SUNY Buffalo
- http://arxiv.org/pdf/1505.05561.pdf
・論文の内容
- AEで学習した素性が、なぜsparseになるのか、形式的な分析をした。
- sparseになる十分条件を与え、既存のAEがそれを満たすことを示した。
- 正則化項と、活性化関数の、両方が関係していることがわかった。
- 分析に基づいて、よりsparseになりやすい、新たな活性化関数を提案した。
4

筆者について
5http://www.acsu.buffalo.edu/~devansha/

先行研究
・経験的 / 実験的に、sparsenessを得るための条件を示している研究はある
- Why does the unsupervised pretraning encourage moderate-sparseness? [Li,
2013]
- Zero-bias autoencoders and the benefits of co-adapting features
[Memisevic, 2014] (ICLR)
- Rectified linear units improve restricted boltzmann machines
[Nair, 2010] (ICML)
・しかし、形式的(formally)に、なぜAutoencoderがsparseな表現を得られるのか
を分析した論文は、筆者の知る限り、見つかっていない。
・これは、目的関数が、非線形、非凸の場合の分析が難しいためであるが、
筆者らはこれに挑戦している。
6

論文の構成
2.1 Part I: What encourages sparsity during Auto-Encoder training?
・Auto-Encoder(AE)が、Sparseな表現を学習する条件を、定式化
した
2.2 Part II: Do existing Auto-Encoders learn Sparse Representation?
・既存のAEが、2.1の条件を満たすことを示した
3. Improving Bias Gradient of ReLU with Rectified Softplus (ReS)
2.1の分析を活かして、新しい活性化関数を提案した
4. Empirical Analysis and Observations
2と3の内容を、実験によって確かめた
7

目次
8
1. Introduction
5. Conclusion

Auto-Encoderの数式
9
隠れ層
再構成層
正則化なしの
AEの誤差関数
正則化有りの
AEの誤差関数

AEがSparseな表現を学習する、とは?
・得られた表現がsparseである
= hidden unitの値が小さい
= pre-activation (a)が小さく、活性化関数が負の極限でゼロならOK
10
隠れ層の
活性化前
(pre-activation)
正則化有りの
AEの誤差関数

AEがSparseな表現を学習するための条件 1/2
11
隠れ層の
活性化前
(pre-activation)
正則化有りの
AEの誤差関数
かつ
とが成り立つ。
ならば

AEがSparseな表現を学習するための条件 2/2
12
隠れ層の
活性化前
(pre-activation)
正則化有りの
AEの誤差関数
かつ
ならば
bias gradientが正 jは、隠れ層のユニット番号データの平均がゼロ
pre-activationの平均は減少し続ける。 pre-activationの分散には上界がある。
以降、「どうやってbias gradientを正にするか」が焦点になる。
( は、λを一定以上に上げると、効果が減るので、考えなくてよい。)

"AEがSparseな表現を学習するための条件"の系
・この後の、Auto-Encoderに対する証明では、
前ページの定理を直接使わずに、こちらの系(Corollary)の方を使う。
13
隠れ層の
活性化前
(pre-activation)
正則化有りの
AEの誤差関数
系1. 活性化関数S_eが単調増加、かつ、正則化項の形が
ならば、前ページの条件が成り立つ。
系2. 活性化関数S_eが単調増加で凸、かつ、正則化項の形が
つまり

条件を満たす活性化関数
・ReLU、Softplus、前ページの系1や系2の「単調増加で凸関数」を満たす。
・Sigmoidは、一般には満たさない。
- しかし、AEでは、凸関数の部分しか使われない。結果としてsparseになる
- これは、4章の実験で示される。
・Maxout、tanhは、満たさない。
14
つまり

条件を満たす活性化関数
・ReLU、Softplus、Sigmoidのような、「単調増加で凸関数」かつ「負の無限大を
取ると、ゼロになる」ような性質をもっている活性化関数を使うと、
発火しないユニットがどんどん増えていく。(de-activationが進む)
・「負の無限大でゼロ」の中でも、「ほとんどゼロ」より「完全にゼロ」の方が、
性能が優れていることが、他の研究で明らかになっている。(hard zero)
・上の3つの中では、ReLUがhard zeroを強制する性質をもっている。
・hard zeroが実際に効いていることは、4章の実験でも確認される。
15

条件を満たす活性化関数の性質
・ReLUの場合
- 系1(単調増加)と系2(単調増加&凸関数)の条件を満たす
- 2次微分をもたないので、系2のR項の条件を満たさず、sparsityが下がる
- hard zeroを強制する
・Softplusの場合
- 系1と2を満たす
- ただし、hard zeroを強制しない
・sigmoidの場合
- 系1を無条件で満たすが、系2は満たしていない
- ただし、後述の実験によれば、AEはsigmoidの凸関数の部分だけを使って
いる
- hard zeroを強制しない
- Theorem1の2番目が適用しにくい (割愛)
16

既存のAEが条件を満たす証明
・系1と系2は、「活性化関数」と「正則化項」の組み合わせに関する条件
・いま、「どの活性化関数を使えばよいか」はわかった
・では、どの活性化関数&正則化項の組み合わせを使えばよいのか?
17
つまり

既存のAEが条件を満たす証明
Denoising AE (DAE) → 系2
Contractive AE (CAE) → 系2
Merginalized Denoising AE (mDAE) → 系2
Sparse AE (SAE) → 系1
によって、条件を満たすことを示した。(割愛)
・DAEは、そのままでは正則化項が分離されていない。
2次のTaylor展開によって分離することで、解析できた。
・SAEでは、ρ=0を仮定したときについて示した。
18

目次
19
1. Introduction
5. Conclusion

新しい活性化関数、Rectified Softplus (ReS)
・Maxoutとtanhは、sparsityを保証しない。
・ReLUは、系2の場合にbias gradを持たないので、sparsityが下がる。
・softplusとsigmoidは、hard zeroを作らない。
・そこで、筆者らは、新たな活性化関数として、
Rectified Softplus(ReS)を提案した。
・ReSは、
20

目次
21
1. Introduction
4. Empirical Analysis and Observations
5. Conclusion

実験
・実験は、MNISTとCIFAR-10の全データで行われた。
・二乗和誤差と、linear decodingを用いた。
・バイアス項はゼロで初期化した。
・各訓練データから、平均値を引いた。
22

実験1 : AEにおけるSigmoid関数の性質
AEにおけるSigmoid関数が、
・実際には、系2の条件(単調増加の凸関数)を満たす
・sigmoidのlinearな部分のみを使っている
ことを示すため、
・系2の条件を満たしているユニットの数をカウントした。 (図はなし)
・値が0.1 < h_j <= 0.9 の範囲になっている隠れユニットの%を計測した (下
図)
23

実験2 : 正則化係数の影響、活性化関数の比較 1/2
・直感的には、正則化係数が高ければ、pre-activationが減少する
・しかし、CAE/mDAEと、ReLUの組み合わせでは、不安定
・活性化関数の観点では、正則化項からのbias grad.がなく、誤差関数に頼っている
からと考えられる
24

実験2 : 正則化係数の影響、活性化関数の比較 2/2
・この推測を、平均と分散の直接計測で示した。
・ReLUで、biasのgrad.が低く、平均が高く保たれてしまっていると確認できる
25

実験3 : AEの目的関数の、正則化係数への感度比較
・目的関数が、正則化係数の変化でどういう影響を受けるか
・正則化係数の増加と共に、発火しているユニット数が減少してほしい(sparsity)
・しかし、CAEとmDAEでは、正則化係数の増加に対して不安定 (ReLU以外でも)
・目的関数の観点では、係数がnon-linearに効いてくるから
26

実験4 : True Sparsity(hard zero)の効果
・教師あり学習に、True Sparsityが貢献するのかどうかを、実験した
・単層AEの教師無し学習の効力に注目するため、fine-tuneは行わなかった
・AEで得られた素性に、SVMをかけて、MNISTのラベリングで教師データと比較
1) CAE / mDAEについて、ReLUはSigmoid / Softplusより誤差が大きい。
これは、true sparsityよりも、bias grad.がない方が大きいと考えられる。
2) DAE / SAEで、ReLUはSigmoid / Softplusより誤差が小さい。
これは、true sparsityが効いているからと考えられる。
3) ReSは全体的に性能が良い。
27

目次
28
1. Introduction
5. Conclusion

まとめ (論文の貢献)
・Autoencoderの理論面からの分析を行った。
・新しい活性化関数/正則化が、sparsityをもたらすか予測するための、新たな方法を
作った。
・分析面
a) encode側のbias grad.が正になるようなAE正則化は、sparsityをもたらす
b) 活性化関数が、単調増加 / 凸関数 / 負の無限大で0 だと、sparsityをもたらす
c) 既存のAEの正則化は、sparsityの条件を満たす。
d) 新たな活性化関数Rectified Softplus(ReS)を提案した。
・実験面
a) AEは、シグモイド関数のconvexな部分のみを使っている
b) ReLUは、CAE / mDAEと組み合わせると、bias grad.が無いため、
sparsityに欠ける。
c) DAE / SAEは、CAE / mDAEに比べて、sparsityの正則化項係数への
感度が低い。
d) DAEは、mDAEよりもsparsityが高い。1次と2次の効果を共に
捉えているから。
29

参考文献
[Arpit 2015] Why Regularized Auto-Encoders learn Sparse Representation? Devansh Arpit, Yingbo Zhou,
Hung Ngo, Venu Govindaraju. http://arxiv.org/abs/1505.05561
[Li, 2013] Unsupervised Pretraining Encourages Moderate-Sparseness. Jun Li, Wei Luo, Jian Yang, Xiaotong
Yuan. http://arxiv.org/abs/1312.5813
[Memisevic, 2014] Zero-bias autoencoders and the benefits of co-adapting features. Kishore Konda, Roland
Memisevic, David Krueger. http://arxiv.org/abs/1402.3337
[Nair, 2010] Rectified linear units improve restricted boltzmann machines. Vinod Nair, Geoffrey E. Hinton.
ICML 2010.
30

論文輪読資料「Why regularized Auto-Encoders learn Sparse Representation?」DL Hacks

論文輪読資料「Why regularized Auto-Encoders learn Sparse Representation?」DL Hacks

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (18)

Dernier

Dernier (7)

論文輪読資料「Why regularized Auto-Encoders learn Sparse Representation?」DL Hacks

Notes de l'éditeur