論文輪読資料「Why regularized Auto-Encoders learn Sparse Representation?」DL Hacks
- 1. "Why regularized Auto-Encoders learn Sparse
Representation?"
@ DL Hacks paper reading session
2015/06/05
東京大学大学院工学系研究科
技術経営戦略学専攻 松尾研究室
黒滝 紘生
kurotaki@weblab.t.u-tokyo.ac.jp
- 4. 概要
・基本情報
- Why regularized Auto-Encoders learn Sparse Representation?
- Devansh Arpit, Yingbo Zhou, Hung Ngo, Venu Govindaraju
Department of Computer Science
SUNY Buffalo
- http://arxiv.org/pdf/1505.05561.pdf
・論文の内容
- AEで学習した素性が、なぜsparseになるのか、形式的な分析をした。
- sparseになる十分条件を与え、既存のAEがそれを満たすことを示した。
- 正則化項と、活性化関数の、両方が関係していることがわかった。
- 分析に基づいて、よりsparseになりやすい、新たな活性化関数を提案した。
4
- 6. 先行研究
・経験的 / 実験的に、sparsenessを得るための条件を示している研究はある
- Why does the unsupervised pretraning encourage moderate-sparseness? [Li,
2013]
- Zero-bias autoencoders and the benefits of co-adapting features
[Memisevic, 2014] (ICLR)
- Rectified linear units improve restricted boltzmann machines
[Nair, 2010] (ICML)
・しかし、形式的(formally)に、なぜAutoencoderがsparseな表現を得られるのか
を分析した論文は、筆者の知る限り、見つかっていない。
・これは、目的関数が、非線形、非凸の場合の分析が難しいためであるが、
筆者らはこれに挑戦している。
6
- 7. 論文の構成
2. Auto-Encoders and Sparse Representation
2.1 Part I: What encourages sparsity during Auto-Encoder training?
・Auto-Encoder(AE)が、Sparseな表現を学習する条件を、定式化
した
2.2 Part II: Do existing Auto-Encoders learn Sparse Representation?
・既存のAEが、2.1の条件を満たすことを示した
3. Improving Bias Gradient of ReLU with Rectified Softplus (ReS)
2.1の分析を活かして、新しい活性化関数を提案した
4. Empirical Analysis and Observations
2と3の内容を、実験によって確かめた
7
- 12. AEがSparseな表現を学習するための条件 2/2
・得られた表現がsparseである
= hidden unitの値が小さい
= pre-activation (a)が小さく、活性化関数が負の極限でゼロならOK
12
隠れ層の
活性化前
(pre-activation)
正則化有りの
AEの誤差関数
かつ
と が成り立つ。
ならば
bias gradientが正 jは、隠れ層のユニット番号 データの平均がゼロ
pre-activationの平均は減少し続ける。 pre-activationの分散には上界がある。
以降、「どうやってbias gradientを正にするか」が焦点になる。
( は、λを一定以上に上げると、効果が減るので、考えなくてよい。)
- 18. 既存のAEが条件を満たす証明
Denoising AE (DAE) → 系2
Contractive AE (CAE) → 系2
Merginalized Denoising AE (mDAE) → 系2
Sparse AE (SAE) → 系1
によって、条件を満たすことを示した。(割愛)
・DAEは、そのままでは正則化項が分離されていない。
2次のTaylor展開によって分離することで、解析できた。
・SAEでは、ρ=0を仮定したときについて示した。
18
- 24. 実験2 : 正則化係数の影響、活性化関数の比較 1/2
・直感的には、正則化係数が高ければ、pre-activationが減少する
・しかし、CAE/mDAEと、ReLUの組み合わせでは、不安定
・活性化関数の観点では、正則化項からのbias grad.がなく、誤差関数に頼っている
からと考えられる
24
- 27. 実験4 : True Sparsity(hard zero)の効果
・教師あり学習に、True Sparsityが貢献するのかどうかを、実験した
・単層AEの教師無し学習の効力に注目するため、fine-tuneは行わなかった
・AEで得られた素性に、SVMをかけて、MNISTのラベリングで教師データと比較
1) CAE / mDAEについて、ReLUはSigmoid / Softplusより誤差が大きい。
これは、true sparsityよりも、bias grad.がない方が大きいと考えられる。
2) DAE / SAEで、ReLUはSigmoid / Softplusより誤差が小さい。
これは、true sparsityが効いているからと考えられる。
3) ReSは全体的に性能が良い。
27
- 30. 参考文献
[Arpit 2015] Why Regularized Auto-Encoders learn Sparse Representation? Devansh Arpit, Yingbo Zhou,
Hung Ngo, Venu Govindaraju. http://arxiv.org/abs/1505.05561
[Li, 2013] Unsupervised Pretraining Encourages Moderate-Sparseness. Jun Li, Wei Luo, Jian Yang, Xiaotong
Yuan. http://arxiv.org/abs/1312.5813
[Memisevic, 2014] Zero-bias autoencoders and the benefits of co-adapting features. Kishore Konda, Roland
Memisevic, David Krueger. http://arxiv.org/abs/1402.3337
[Nair, 2010] Rectified linear units improve restricted boltzmann machines. Vinod Nair, Geoffrey E. Hinton.
ICML 2010.
30
Notes de l'éditeur
- TOK-AAA123-20100706-
-
----- 会議メモ (2014/02/10 18:36) -----
あまり体系だっていない
人工知能 = 深層学習とかよくわからん
雑誌の1行目をそのまま書いたみたいになっている
深層学習と人工知能の結びつけ