Contenu connexe Similaire à Improving neural networks by preventing co adaptation of feature detectors Similaire à Improving neural networks by preventing co adaptation of feature detectors (10) Improving neural networks by preventing co adaptation of feature detectors1. Improving neural networks
by preventing co-adaptation
of feature detectors
[arXiv 2013]
G. E. Hinton, N. Srivastava, A. Krizhevsky,
I. Sutskever and R. R. Salakhutdinov
(University of Toronto)
斎藤 淳哉
間違い等ありましたらご連絡ください
junya【あっと】fugaga.info
論文紹介
3. 目次
• Dropout
• 適用事例
– 手書き数字認識データMNIST
• データ仕様
• ニューラルネットワーク+Dropout
– 実装技術
» 【実装技術1】Cross-Entropy
» 【実装技術2】Momentum
» 【実装技術3】重み正則化
– 実験
• Fine-Tuning+Dropout
• まとめ
2/13
8. 【実装技術2】 Momentum
• 勾配法の高速化手法
– Momentum[Polyak 1964]
𝑤 𝑡
= 𝑤 𝑡−1
+ ∆𝑤 𝑡
∆𝑤 𝑡
= 𝜇∆𝑤 𝑡−1
− 𝜖𝛻𝐸 𝑤
𝜇:Momentum係数
重みの振動を抑えてくれる
7/13
𝑤 𝑡
𝑤 𝑡−1
𝑤 𝑡−2
𝑤 𝑡
𝑤 𝑡−1
𝑤 𝑡−2
9. 【参考】Weight Decay
• 汎化能力向上手法
– Weight Decay(L2正則化と同じ)
𝑤 𝑡
= 𝑤 𝑡−1
+ ∆𝑤 𝑡
∆𝑤 𝑡
= −𝜖𝜆𝑤 𝑡−1
− 𝜖𝛻𝐸 𝑤
𝜆:Weight Decay係数
8/13
本論文では、この正則化は行わず、
次スライドの正則化を行う
13. Fine-Tuning+Dropout
• Deep Brief Network
– Pre-Training
• 784-500-500-2000 units
• RBM learned by Contrastive Divergence
– Fine-Tuning
• Dropout:50% dropout in hidden layers and 20% in input layer
• 学習率:𝜖 = 1.0(固定)
• 重み正則化:なし
• Epoches:1,000
• その他のパラメータ:前スライドと同じ
MNIST実験結果:
118 error → 92 error
(Fine-Tuning by standard back prop) (by back prop with dropout)
12/13前スライドのDropoutのみの結果と大きな差がない(というよりむしろDropoutが強力)