Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

3.3節 変分近似法(前半)

11 614 vues

Publié le

  • Identifiez-vous pour voir les commentaires

3.3節 変分近似法(前半)

  1. 1. 『トピックモデルによる潜在的意味解析』読書会 「3.3 変分近似法 (3.3.1~3.3.3)」 #トピ本 2015.7.7 by @tn1031
  2. 2. contents • 変分法 [3.3.1] • 変分ベイズ法 [3.3.2,3.3.3] – まとめ – 因子分解 – 重要ポイント – アルゴリズムと疑似コード – (補足)アルゴリズムの幾何的解釈 • まとめ 1
  3. 3. 変分法 2
  4. 4. 変分法 • 関数 を入力とする汎関数 の極値となる関数 を求めるための方法 ⇒ 関数を関数で微分する方法 のとき   0 )()]([ dxxfxfL )cos(x )sin(x 0)cos()]([ 0    dxxxfL 2)sin()]([ 0    dxxxfL KL情報量の最適化に使う予定 L[ f (x)]f のとき 汎関数の例)積分 (3.39) 3
  5. 5. 変分法 • 関数 が関数 によって構成されている場合, と表記する )(log)(),( xqxqqxf  (変分ベイズ法で頻繁に登場する関数) 0 )( ),(    xq qxf f (x) q(x) f (x,q) (3.40) • 汎関数 の極値を与える は,以下の オイラー・ラグランジュ方程式(微分方程式)によって 与えられる  dxqxfxfL ),()]([ q 4
  6. 6. 変分ベイズ法 5
  7. 7. 変分ベイズ法まとめ • 観測 に対して,潜在変数 ,パラメータ をすべて確率変数として,その確率分布を求める (事後確率でない!) ),|(log :1 nxp     d qzq zxp qzq n nn n )()( ),|,,( log)()( ;1 ;1:1 ;1 )(qF       )(:1:1 )(:1:1:1 :1 )|,(logexp)()( )|,(logexp)( nzqnn qnnn zxppq zxpzq     dzxp nn ),|,,(log ;1:1 )|(~ izii xpx  )|(~ ii zMultiz )|(~  kk p )|(~  Dir 生成過程(今回扱うモデル) n K  iz k  ix  潜在変数とパラメータの分布を交互に更新 z1:n },{   • を , について最大化F(q) )(q q(z1:n ) x1:n 6http://www.ism.ac.jp/~daichi/paper/vb-nlp-tutorial.pdfより
  8. 8. 因子分解 • 解析的に解けない事後分布を,計算が可能な分布で近似する • 変分ベイズ法で必要になるのは「分解可能である」という仮定のみ ),,|,,( :1:1  nn xzp n K iz k ix   事後分布(解析的に解けない) ),|,,( :1  nzq 変分事後分布(解析的に解ける分布で近似)       ddppzpzxp ppzpzxp z k k i ikii k k i ikii )|()|()|(),|( )|()|()|(),|( 分母の組み合わせがツライ その1:共役性がある場合[3.3.2] n K iz k ix その2:共役性がない場合[3.3.3] ),,( :1 nzq n K iz k ix     )|()|()( 11   qqzq K k k n i i k                特定の確率分布を仮定しない Dir Dir ディリクレ分布を仮定 確率分布を決め打ち 因子分解 (3.72) (3.42)    K k k n i i qqzq 11 )()()(  7
  9. 9. 変分ベイズ法の最重要ポイント ),|(log :1 nxp     dd qqzq zxp qqzq n nn n )()()( ),|,,,( log)()()( ;1 ;1:1 ;1)],,([ :1 nzqF )],,|,,(||),,([)],,([ :1:1:1:1  nnnn xzpzqKLzqF  変分事後分布(近似事後分布)を実際の事後分布にできるだけ近づけたい ),,( :1 nzq )],,|,,(||),,([minarg :1:1:1 ),,( :1   nnn Qzq xzpzqKL n   ところが、式(3.43) は計算が困難な項 を含む),,|,,( :1:1  nn xzp )43.3( 対数周辺尤度について、KL情報量に関する関係を用いることで上の最適化問題は迂回可能 対数周辺尤度とKL情報量の満たす関係 変分下限 KL情報量 (3.46) (3.47) 8
  10. 10. 変分ベイズ法の最重要ポイント(続き) ),|(log :1 nxp対数周辺尤度 は,変分事後分布 と無関係),,( :1 nzq 変分下限最適化のイメージ ⇒ は の変化に影響されず一定),|(log :1 nxp ),,( :1 nzq 変分下限 最適化 ),|(log :1 nxp ][qF ]||[ pqKL ),|(log :1 nxp ]||[ pqKL ][qF 得られる解 は, とのKL情報量を最小にする),,( :1 nzq ),|(log :1 nxp 9 (一定) (一定)
  11. 11. 解きたい問題 結局、変分ベイズ法では以下の最適化問題を解くことになる )],,([maxarg),,( :1 ),,( :1 :1   n Qzq n zqFzq n    展開すると、 )],,([ :1 nzqF  nz n nn n dd zq zxp qqzq :1 )( ),|,( log)()()( :1 :1:1 :1    )]|(||)([)]|(||)([ 1  pqKLpqKL K k k   式(3.52)と式(3.53)は,それぞれが変分ベイズ法の性質を説明している • 式(3.52) ・・・ (特定の条件下で)最尤推定としてみなせる項 • 式(3.53) ・・・ 正則化項 )51.3( )52.3( )53.3( 10
  12. 12. 式から見る変分ベイズ法の性質(1) (3.52)について  nz n nn n dd zq zxp qqzq :1 )( ),|,( log)()()( :1 :1:1 :1     nz n nn n zq zxp zq :1 )( ),|,( log)( :1 :1:1 :1   一般的にイメージする連続分布 今考えている確率分布 【参考】EMアルゴリズム )),(()|(log :1:1  nn zqFxp   nz nn nn nn xzq zxp xzq :1 )ˆ,|( )|,( log)ˆ,|( :1:1 :1:1 :1:1    として下限 を について交互に最大化する)),(( :1 nzqF ),( :1 nzq • これを最大化する を求める手法はEMアルゴリズム,),( izq )52.3( (3.54) 11
  13. 13. 式から見る変分ベイズ法の性質(2) (3.53)について • この項は変分事後分布とそれぞれの事前分布のKL情報量 • 変分事後分布が事前分布から離れすぎることを防止 )]|(||)([)]|(||)([ 1  pqKLpqKL K k k  )53.3( : の類似度(離れると値が増加))|(),(  pq)]|(||)([  pqKL k )]|(||)([  pqKL : の類似度(離れると値が増加))|(),(  pq 変分事後分布(求めたい分布) 事前分布 (既知・データに依らない) 正則化の効果 ちなみに、 • データ数∞でMDL/BICと一致 ))ˆ()ˆ(log(log) 2 |ˆ| 2 |ˆ| (   ppN MDL,BIC: 12
  14. 14. アルゴリズムと疑似コード • 変分事後分布の更新式は以下のようになる • 実装上はこれらをひたすら更新することになる • Step1:初期化 – ハイパーパラメータの初期化 – 潜在変数の初期化 • Step2:以下を繰り返す – パラメータの更新(M-step) – 潜在変数の更新(E-step) )( kzq i          )|(log)(exp)|()( :1:1 :1  n z n zpzqpq n         )|(log)(exp)|()( 1 k n i iikk xpkzqpq  潜在変数の更新(E-step) パラメータの更新(M-step)     ddkzxpqq ii ),|,(log)()(exp (3.61) (3.67) (3.71) 変分ベイズ法 13
  15. 15. アルゴリズム理解のための補足 (本の内容から外れます) 14
  16. 16. 情報幾何 • ある構造をもつ空間の中で確率分布を解釈する • 統計,情報理論など異分野の問題を統一的に解釈できる • 幾何学は直感的理解を得られる可能性がある(なお実際は…) 情報幾何の分野では,確率分布(確率モデル)を点と空間で表現する 例) 正規分布  1 2 1 2 ここまで扱ってきたモデルの場合は,モデル空間は の軸で表現可能   1 2 1 2 ),,( :1 1 nzq   z ),,( :1 nzq ,,z ),,( :1 2 nzq ?),,( :1 nzq     n i K k ki qqzq 1 1 )()()(  変分事後分布 最適なモデルに対応する座標はどこか? 15 点の間隔の大きさを 表す量がKL情報量
  17. 17. 情報幾何的世界観 • 情報幾何的に解釈すると,機械学習はデータをモデル空間(部分空間)に 射影した時のモデル空間上の座標を求める問題 • この考え方は変分ベイズ法だけでなく,EMアルゴリズムやアンサンブル学 習など様々な学習アルゴリズムを説明することが可能 モデル データ 結果 世の中 部分空間M 十分統計量 射影 16 https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdfより
  18. 18. 情報幾何を用いた 変分ベイズアルゴリズムの解釈 直感的解釈 真の分布p モデルM(e平坦) S e射影 初期解 • 因子分解によってモデル空間が得られる • KL情報量から目指す座標を特定 • E/M各Stepで1変数についての最適化を繰り返す )()()(),,|,,( :1:1:1  qqzqxzp nnn  )],,|,,(||)()()([min :1:1 )()( :1 )(  nn tt n t xzpqqzqKL :モデルM(e平坦) :e射影 • Step1:初期化 – ハイパーパラメータの初期化 – 潜在変数の初期化 • Step2:以下を繰り返す – パラメータの更新(M-step) – 潜在変数の更新(E-step) 変分ベイズ法 17 https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdfより 交互最適化の軌跡
  19. 19. まとめ 18
  20. 20. まとめ • 解析的に計算不可能なモデルに対する近似解法 – 因子分解を利用して事後分布を解析可能な分布で近似 • MCMCのような確率的な手法とは異なる,決定論的なアルゴリズム – 目標とする対数周辺尤度は定数 – これの下限(変分下限)を最大化する – 変分下限の最大化 = 変分事後分布と本来の事後分布のKL情報量の最小化 • EMアルゴリズムを内包する – パラメータの分布q(z),q(θ)が求まる – q(θ)がデルタ関数のとき,EMアルゴリズムと一致する • 過学習を防止する仕組みを有する – パラメータの事前分布と変分事後分布とのKL情報量が正則化項として機能する 19
  21. 21. 参考 • トピックモデルによる統計的潜在意味解析 • パターン認識と機械学習(下) • http://www.ism.ac.jp/~daichi/paper/vb-nlp-tutorial.pdf • https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdf • http://www.cse.buffalo.edu/faculty/mbeal/papers/beal03.pdf 20

×