SlideShare une entreprise Scribd logo
1  sur  31
"Why regularized Auto-Encoders learn Sparse
Representation?"
@ DL Hacks paper reading session
2015/06/05
東京大学大学院工学系研究科
技術経営戦略学専攻 松尾研究室
黒滝 紘生
kurotaki@weblab.t.u-tokyo.ac.jp
目次
2
1. Introduction
2. Auto-Encoders and Sparse Representation
3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)
4. Empirica Analysis and Observations
5. Conclusion
目次
3
1. Introduction
2. Auto-Encoders and Sparse Representation
3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)
4. Empirica Analysis and Observations
5. Conclusion
概要
・基本情報
- Why regularized Auto-Encoders learn Sparse Representation?
- Devansh Arpit, Yingbo Zhou, Hung Ngo, Venu Govindaraju
Department of Computer Science
SUNY Buffalo
- http://arxiv.org/pdf/1505.05561.pdf
・論文の内容
- AEで学習した素性が、なぜsparseになるのか、形式的な分析をした。
- sparseになる十分条件を与え、既存のAEがそれを満たすことを示した。
- 正則化項と、活性化関数の、両方が関係していることがわかった。
- 分析に基づいて、よりsparseになりやすい、新たな活性化関数を提案した。
4
筆者について
5http://www.acsu.buffalo.edu/~devansha/
先行研究
・経験的 / 実験的に、sparsenessを得るための条件を示している研究はある
- Why does the unsupervised pretraning encourage moderate-sparseness? [Li,
2013]
- Zero-bias autoencoders and the benefits of co-adapting features
[Memisevic, 2014] (ICLR)
- Rectified linear units improve restricted boltzmann machines
[Nair, 2010] (ICML)
・しかし、形式的(formally)に、なぜAutoencoderがsparseな表現を得られるのか
を分析した論文は、筆者の知る限り、見つかっていない。
・これは、目的関数が、非線形、非凸の場合の分析が難しいためであるが、
筆者らはこれに挑戦している。
6
論文の構成
2. Auto-Encoders and Sparse Representation
2.1 Part I: What encourages sparsity during Auto-Encoder training?
・Auto-Encoder(AE)が、Sparseな表現を学習する条件を、定式化
した
2.2 Part II: Do existing Auto-Encoders learn Sparse Representation?
・既存のAEが、2.1の条件を満たすことを示した
3. Improving Bias Gradient of ReLU with Rectified Softplus (ReS)
2.1の分析を活かして、新しい活性化関数を提案した
4. Empirical Analysis and Observations
2と3の内容を、実験によって確かめた
7
目次
8
1. Introduction
2. Auto-Encoders and Sparse Representation
3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)
4. Empirica Analysis and Observations
5. Conclusion
Auto-Encoderの数式
9
隠れ層
再構成層
正則化なしの
AEの誤差関数
正則化有りの
AEの誤差関数
AEがSparseな表現を学習する、とは?
・得られた表現がsparseである
= hidden unitの値が小さい
= pre-activation (a)が小さく、活性化関数が負の極限でゼロならOK
10
隠れ層の
活性化前
(pre-activation)
正則化有りの
AEの誤差関数
AEがSparseな表現を学習するための条件 1/2
・得られた表現がsparseである
= hidden unitの値が小さい
= pre-activation (a)が小さく、活性化関数が負の極限でゼロならOK
11
隠れ層の
活性化前
(pre-activation)
正則化有りの
AEの誤差関数
かつ
と が成り立つ。
ならば
AEがSparseな表現を学習するための条件 2/2
・得られた表現がsparseである
= hidden unitの値が小さい
= pre-activation (a)が小さく、活性化関数が負の極限でゼロならOK
12
隠れ層の
活性化前
(pre-activation)
正則化有りの
AEの誤差関数
かつ
と が成り立つ。
ならば
bias gradientが正 jは、隠れ層のユニット番号 データの平均がゼロ
pre-activationの平均は減少し続ける。 pre-activationの分散には上界がある。
以降、「どうやってbias gradientを正にするか」が焦点になる。
( は、λを一定以上に上げると、効果が減るので、考えなくてよい。)
"AEがSparseな表現を学習するための条件"の系
・この後の、Auto-Encoderに対する証明では、
前ページの定理を直接使わずに、こちらの系(Corollary)の方を使う。
13
隠れ層の
活性化前
(pre-activation)
正則化有りの
AEの誤差関数
系1. 活性化関数S_eが単調増加、かつ、正則化項の形が
ならば、前ページの条件が成り立つ。
系2. 活性化関数S_eが単調増加で凸、かつ、正則化項の形が
ならば、前ページの条件が成り立つ。
と が成り立つ。
pre-activationの平均は減少し続ける。 pre-activationの分散には上界がある。
つまり
条件を満たす活性化関数
・ReLU、Softplus、前ページの系1や系2の「単調増加で凸関数」を満たす。
・Sigmoidは、一般には満たさない。
- しかし、AEでは、凸関数の部分しか使われない。結果としてsparseになる
- これは、4章の実験で示される。
・Maxout、tanhは、満たさない。
14
系1. 活性化関数S_eが単調増加、かつ、正則化項の形が
ならば、前ページの条件が成り立つ。
系2. 活性化関数S_eが単調増加で凸、かつ、正則化項の形が
ならば、前ページの条件が成り立つ。
と が成り立つ。
pre-activationの平均は減少し続ける。 pre-activationの分散には上界がある。
つまり
条件を満たす活性化関数
・ReLU、Softplus、Sigmoidのような、「単調増加で凸関数」かつ「負の無限大を
取ると、ゼロになる」ような性質をもっている活性化関数を使うと、
発火しないユニットがどんどん増えていく。(de-activationが進む)
・「負の無限大でゼロ」の中でも、「ほとんどゼロ」より「完全にゼロ」の方が、
性能が優れていることが、他の研究で明らかになっている。(hard zero)
・上の3つの中では、ReLUがhard zeroを強制する性質をもっている。
・hard zeroが実際に効いていることは、4章の実験でも確認される。
15
条件を満たす活性化関数の性質
・ReLUの場合
- 系1(単調増加)と系2(単調増加&凸関数)の条件を満たす
- 2次微分をもたないので、系2のR項の条件を満たさず、sparsityが下がる
- hard zeroを強制する
・Softplusの場合
- 系1と2を満たす
- ただし、hard zeroを強制しない
・sigmoidの場合
- 系1を無条件で満たすが、系2は満たしていない
- ただし、後述の実験によれば、AEはsigmoidの凸関数の部分だけを使って
いる
- hard zeroを強制しない
- Theorem1の2番目が適用しにくい (割愛)
16
既存のAEが条件を満たす証明
・系1と系2は、「活性化関数」と「正則化項」の組み合わせに関する条件
・いま、「どの活性化関数を使えばよいか」はわかった
・では、どの活性化関数&正則化項の組み合わせを使えばよいのか?
17
系1. 活性化関数S_eが単調増加、かつ、正則化項の形が
ならば、前ページの条件が成り立つ。
系2. 活性化関数S_eが単調増加で凸、かつ、正則化項の形が
ならば、前ページの条件が成り立つ。
と が成り立つ。
pre-activationの平均は減少し続ける。 pre-activationの分散には上界がある。
つまり
既存のAEが条件を満たす証明
Denoising AE (DAE) → 系2
Contractive AE (CAE) → 系2
Merginalized Denoising AE (mDAE) → 系2
Sparse AE (SAE) → 系1
によって、条件を満たすことを示した。(割愛)
・DAEは、そのままでは正則化項が分離されていない。
2次のTaylor展開によって分離することで、解析できた。
・SAEでは、ρ=0を仮定したときについて示した。
18
目次
19
1. Introduction
2. Auto-Encoders and Sparse Representation
3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)
4. Empirica Analysis and Observations
5. Conclusion
新しい活性化関数、Rectified Softplus (ReS)
・Maxoutとtanhは、sparsityを保証しない。
・ReLUは、系2の場合にbias gradを持たないので、sparsityが下がる。
・softplusとsigmoidは、hard zeroを作らない。
・そこで、筆者らは、新たな活性化関数として、
Rectified Softplus(ReS)を提案した。
・ReSは、
20
目次
21
1. Introduction
2. Auto-Encoders and Sparse Representation
3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)
4. Empirical Analysis and Observations
5. Conclusion
実験
・実験は、MNISTとCIFAR-10の全データで行われた。
・二乗和誤差と、linear decodingを用いた。
・バイアス項はゼロで初期化した。
・各訓練データから、平均値を引いた。
22
実験1 : AEにおけるSigmoid関数の性質
AEにおけるSigmoid関数が、
・実際には、系2の条件(単調増加の凸関数)を満たす
・sigmoidのlinearな部分のみを使っている
ことを示すため、
・ 系2の条件を満たしているユニットの数をカウントした。 (図はなし)
・値が0.1 < h_j <= 0.9 の範囲になっている隠れユニットの%を計測した (下
図)
23
実験2 : 正則化係数の影響、活性化関数の比較 1/2
・直感的には、正則化係数が高ければ、pre-activationが減少する
・しかし、CAE/mDAEと、ReLUの組み合わせでは、不安定
・活性化関数の観点では、正則化項からのbias grad.がなく、誤差関数に頼っている
からと考えられる
24
実験2 : 正則化係数の影響、活性化関数の比較 2/2
・この推測を、平均と分散の直接計測で示した。
・ReLUで、biasのgrad.が低く、平均が高く保たれてしまっていると確認できる
25
実験3 : AEの目的関数の、正則化係数への感度比較
・目的関数が、正則化係数の変化でどういう影響を受けるか
・正則化係数の増加と共に、発火しているユニット数が減少してほしい(sparsity)
・しかし、CAEとmDAEでは、正則化係数の増加に対して不安定 (ReLU以外でも)
・目的関数の観点では、係数がnon-linearに効いてくるから
26
実験4 : True Sparsity(hard zero)の効果
・教師あり学習に、True Sparsityが貢献するのかどうかを、実験した
・単層AEの教師無し学習の効力に注目するため、fine-tuneは行わなかった
・AEで得られた素性に、SVMをかけて、MNISTのラベリングで教師データと比較
1) CAE / mDAEについて、ReLUはSigmoid / Softplusより誤差が大きい。
これは、true sparsityよりも、bias grad.がない方が大きいと考えられる。
2) DAE / SAEで、ReLUはSigmoid / Softplusより誤差が小さい。
これは、true sparsityが効いているからと考えられる。
3) ReSは全体的に性能が良い。
27
目次
28
1. Introduction
2. Auto-Encoders and Sparse Representation
3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)
4. Empirica Analysis and Observations
5. Conclusion
まとめ (論文の貢献)
・Autoencoderの理論面からの分析を行った。
・新しい活性化関数/正則化が、sparsityをもたらすか予測するための、新たな方法を
作った。
・分析面
a) encode側のbias grad.が正になるようなAE正則化は、sparsityをもたらす
b) 活性化関数が、単調増加 / 凸関数 / 負の無限大で0 だと、sparsityをもたらす
c) 既存のAEの正則化は、sparsityの条件を満たす。
d) 新たな活性化関数Rectified Softplus(ReS)を提案した。
・実験面
a) AEは、シグモイド関数のconvexな部分のみを使っている
b) ReLUは、CAE / mDAEと組み合わせると、bias grad.が無いため、
sparsityに欠ける。
c) DAE / SAEは、CAE / mDAEに比べて、sparsityの正則化項係数への
感度が低い。
d) DAEは、mDAEよりもsparsityが高い。1次と2次の効果を共に
捉えているから。
29
参考文献
[Arpit 2015] Why Regularized Auto-Encoders learn Sparse Representation? Devansh Arpit, Yingbo Zhou,
Hung Ngo, Venu Govindaraju. http://arxiv.org/abs/1505.05561
[Li, 2013] Unsupervised Pretraining Encourages Moderate-Sparseness. Jun Li, Wei Luo, Jian Yang, Xiaotong
Yuan. http://arxiv.org/abs/1312.5813
[Memisevic, 2014] Zero-bias autoencoders and the benefits of co-adapting features. Kishore Konda, Roland
Memisevic, David Krueger. http://arxiv.org/abs/1402.3337
[Nair, 2010] Rectified linear units improve restricted boltzmann machines. Vinod Nair, Geoffrey E. Hinton.
ICML 2010.
30
論文輪読資料「Why regularized Auto-Encoders learn Sparse Representation?」DL Hacks

Contenu connexe

En vedette

(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
Masahiro Suzuki
 
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
Takashi Abe
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
 

En vedette (18)

[DL輪読会]Semi supervised qa with generative domain-adaptive nets
[DL輪読会]Semi supervised qa with generative domain-adaptive nets[DL輪読会]Semi supervised qa with generative domain-adaptive nets
[DL輪読会]Semi supervised qa with generative domain-adaptive nets
 
[DL輪読会]Unsupervised Cross-Domain Image Generation
[DL輪読会]Unsupervised Cross-Domain Image Generation[DL輪読会]Unsupervised Cross-Domain Image Generation
[DL輪読会]Unsupervised Cross-Domain Image Generation
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
 
(DL hacks輪読) Variational Inference with Rényi Divergence
(DL hacks輪読) Variational Inference with Rényi Divergence(DL hacks輪読) Variational Inference with Rényi Divergence
(DL hacks輪読) Variational Inference with Rényi Divergence
 
[Dl輪読会]dl hacks輪読
[Dl輪読会]dl hacks輪読[Dl輪読会]dl hacks輪読
[Dl輪読会]dl hacks輪読
 
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
 
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
 
ディープラーニングが活かすIoT
ディープラーニングが活かすIoTディープラーニングが活かすIoT
ディープラーニングが活かすIoT
 
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアルscikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル
 
Chainerチュートリアル -v1.5向け- ViEW2015
Chainerチュートリアル -v1.5向け- ViEW2015Chainerチュートリアル -v1.5向け- ViEW2015
Chainerチュートリアル -v1.5向け- ViEW2015
 
[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization
 
機械学習概論 講義テキスト
機械学習概論 講義テキスト機械学習概論 講義テキスト
機械学習概論 講義テキスト
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
 
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 

Dernier

Dernier (7)

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

論文輪読資料「Why regularized Auto-Encoders learn Sparse Representation?」DL Hacks

Notes de l'éditeur

  1. TOK-AAA123-20100706-
  2. ----- 会議メモ (2014/02/10 18:36) ----- あまり体系だっていない 人工知能 = 深層学習とかよくわからん 雑誌の1行目をそのまま書いたみたいになっている 深層学習と人工知能の結びつけ