Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

岡谷貴之「深層学習」の解説

922 vues

Publié le

This slide share explain the book 'Shinsou-Gakushuu' written by Takayuki Okatani. You can learn clearly section 4.4.2, 4.4.3, 3.6.6 using this.

Publié dans : Technologie
  • Soyez le premier à commenter

岡谷貴之「深層学習」の解説

  1. 1. 岡谷貴之「深層学習」(講談社) を勝手に解説 株式会社ウェブファーマー 大政孝充
  2. 2. 内容 4.4.2 順伝播と逆伝播の行列計算(後半) 3.6.5 モーメンタム 4.4.3 勾配の差分近似計算 を解説
  3. 3. 4.4.2 順伝播と逆伝播の行列計算(後半) 目標:それぞれの行列計算式がこれまでの成分 計算に対応することを示す
  4. 4. まず(4.15)式が(4.12)式に対応することを示す の各成分が となればいい
  5. 5. まず、それぞれの行列を確認 (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  6. 6. (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  7. 7. (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  8. 8. l+1層のΔは (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  9. 9. (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  10. 10. Wの転置行列は (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  11. 11. (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  12. 12. (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  13. 13. (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : : djn (l) = f ' ujn (l) ( ) wkj (l+1) dkn (l+1) k å djn (l) = djn (l+1) wkj (l+1) f ' ujn (l) ( )( )k å f ’ はkに無関係なので Σの中に入れる 一致 ここに注目
  14. 14. 次に の各成分が ¶W(l) = 1 N D(l) Z(l-1)T ¶b(l) = 1 N D(l) 1N T ì í ï ï î ï ï となることを示す
  15. 15. ¶W(l) = 1 N D(l) Z(l-1)T ¶b(l) = 1 N D(l) 1N T ì í ï ï î ï ï (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  16. 16. ¶W(l) = 1 N D(l) Z(l-1)T ¶b(l) = 1 N D(l) 1N T ì í ï ï î ï ï (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : : 一致
  17. 17. ¶W(l) = 1 N D(l) Z(l-1)T ¶b(l) = 1 N D(l) 1N T ì í ï ï î ï ï (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : : 一致
  18. 18. 最後に求めた勾配からWとbを更新する この更新量で DW(l) = -e¶W(l) Db(l) = -e¶b(l) ì í ï îï と更新 W(l) ¬W(l) +DW(l) b(l) ¬ b(l) +Db(l) ì í ï îï
  19. 19. 3.6.5 モメンタム モメンタム(勢い)・・・重みの修正量がこれまでの勢 いに引っ張られる
  20. 20. モメンタムが無い場合・・・・ このような w – Eの関係の場合、 更新の度に谷底を挟んで行き来 し、収束しない t−1 の更新量 −0.5 t の更新量 +0.5 E w
  21. 21. モメンタムを使う そこで前回の更新料を反映させ れば、谷底に落ちるだろう t−1 の更新量 −0.5 t の更新量 +0.5+μ・(−0.5) E w 前回の更新量
  22. 22. モメンタムの式 Dw(l,t) = m·Dw(l,t-1) -eÑEt 今回の更新量 Dw(l,t) = -eÑEt モメンタム無し: 今回誤差逆伝播によ り求めた値 モメンタム有り: 前回の更新量 掛け率(0.5〜0.9)
  23. 23. モメンタムの式を行列で書くと Dw(l,t) = m·Dw(l,t-1) -eÑEt 成分表示: DW(l,t) = mDW(l,t-1) -e¶W(l,t) Db(l,t) = mDb(l,t-1) -e¶b(l,t) ì í ï îï 行列表示:
  24. 24. さらに重み減衰を加えると DW(l,t) = mDW(l,t-1) -e ¶W(l,t) + lW(l,t) ( ) Db(l,t) = mDb(l,t-1) -e¶b(l,t) ì í ï îï DW(l,t) = mDW(l,t-1) -e¶W(l,t) Db(l,t) = mDb(l,t-1) -e¶b(l,t) ì í ï îï 重み減衰な部分
  25. 25. 4.4.3 勾配の差分近似計算 勾配の計算は複雑だけど、プログラム は合ってるかな? 近似計算で確かめる
  26. 26. 差分近似計算とは・・・ εがそこそこ小さいと、大 体成り立つだろう 微分の 定義:
  27. 27. そのまま順伝播させて計 算できる wにεを加えた後、順伝播 させて計算できる すぐ計算できる 近似に向いてる
  28. 28. εをどの値にするか・・・・ この差が小さくないと近似にならない εを小さくすると打ち切り誤差は小さくなる が、丸め誤差が増大する ¶E ¶w
  29. 29. 打ち切り誤差・・・面倒なので1変数にして考える E w+e( ) をテイラー展開して 理論式と近似式との差は 打ち切り誤差
  30. 30. 丸め誤差・・・ 計算機イプシロンを として E w+e( )- E w( ) e - E' w( ) 丸め誤差は ここもE(w)・ くらい ec ec ここでE(w)・ くらいec 2E w( )ec e
  31. 31. 打ち切り誤差と丸め誤差からトータル誤差の最 小値を求める 誤差 ε 丸め誤差 打ち切り誤差 トータル誤差 eT = 1 2 E'' w( )e + 2E w( )ec e ® min 丸め誤差打ち切り誤差トータル誤差
  32. 32. deT de = d de 1 2 E'' w( )e + 2E w( )ec e æ è ç ö ø ÷= 0 とすると、 1 2 E'' w( )- 2E w( )ec e2 = 0 e = 2 ec E w( ) E'' w( ) e = 2 ec w ??? (p53の式)

×