Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
3.4 ベイズモデル比較

        showyou(hatena, twitter:)
自己紹介
●   Twitter, hatena: showyou
●
    横浜にある電機メーカーでソフトウェアの開発
    支援をしてます
●
    大学:AI, 院:画像処理/アプリケーション
●   Python, C++, Ja...
1章では過学習の問題と交差確認(cross-validation)
による正則化パラメータの値の決定やモデルの選
択法について述べた
ここではベイズの立場からモデル選択の問題を考
える
●
    最尤推定に関連した過学習
    →モデルパラメータの値を点推定→周辺化することで回避
●
    モデル
    →確認データを用いることなく訓練データだけを使って直
    接比較できる
    →すべての利用可能なデータを訓練...
ベイズの立場からのモデル比較

モデル選択に関する不確かさを表すために確率
を用い、確率の加法・乗法定理を使う
    加法定理: p X =∑ p  X ,Y 
                      Y

   乗法定理: p...
条件:L個のモデル{Mi}(i=1,...L)を
           比較する場合
●
    モデルは観測されたD上の確率分布
●
    モデルのどれかに従って生成されるが、どのモデ
    ルかは分からない
    (多項式フィッティン...
訓練集合Dが与えられたとき、モデルの事後分布
          p  M i∣D∝ p  M i  p  D∣M i −3.66
    を評価


●
    p(D|M_i) はモデルエビデンスと呼ばれ、ベイズ
    モ...
●
    一旦モデルの事後分布がわかれば、確率の加法・
    乗法定理より予測分布は
                    L
        p t∣x , D=∑ pt∣x , M i , D p M i∣D−3.67...
例:2つのモデルの事後確率が等しく 一方はt=a近傍,
他方はt=b近傍を表す分布を予測する場合、全体の予
測分布はt = a と t = b の二箇所にモードを持つ2山の
分布
モデル選択
●
    モデル平均の単純な近似は、一番もっともらし
    いモデルを1つ選ぶ方法である
●
    これはモデル選択と呼ばれる
●
    パラメータwを持つモデルに対して、モデルエ
    ビデンスは
     p  D∣...
p  D∣M i =∫ p D∣w , M i  p w∣M i  dw−3.68
●
    標本化の観点から、周辺尤度(=モデルエビデン
    ス)はパラメータを事前分布からランダムにサ
    ンプリングされた時に、手元...
モデルエビデンスの別の解釈
●
    パラメータが一つしかないモデル(w)を考える
●
    ベイズの定理よりパラメータに関する事後分布は
    p(D|w)p(w)に比例 (Miは省略)
●
    事後分布が最頻値(モード) wMAP...
●
    さらに事前確率が平坦で幅がΔwprior( p(w) = 1/Δwprior)
    のとき
                                          w posterior
p  D=∫ p  ...
ln p D≃ln p D∣w MAP ln
                                       
                                       w posterior
 ...
●
    モデルがM個のパラメータを含むとき、それぞ
    れのパラメータに対し同様の近似が行える
●
    すべてのパラメータが同じ比Δwposterior/Δwprior
    を持つとき

     ln p D=ln p ...
●
    モデルの複雑さを増したとき
    ●
        第1項:モデルはデータにフィットしやすくなるた
        め増加(0に近づく)
    ●
        第2項:Mとの依存性のために減少(負)
●
    エビデンス...
ベイズモデル比較の更なる解釈、及びなぜ周辺尤
    度最大化により中間程度の複雑さのモデルが選ば
    れるか
●
    単純なモデルM1は自由度が少なく、分布p(D)は横
    軸の狭い領域に集中する
●
    複雑なモデルM3は多...
ある集合D0に対しては中間の複雑さを持つモデル
(この場合だとM2)のエビデンスが最大になる
期待ベイズ因子
●
    2つのモデルM1, M2 (M1が正しい分布と仮定)
●
    ベイズ因子をデータ集合の分布に関して平均
    →期待ベイズ因子が得られる
    (期待値は真のデータ分布の生成に関して取得)
         ...
●
    ベイズの枠組み:過学習を回避できると共に訓練デー
    タだけに基づいてモデル比較が行える
●
    ベイズ的なアプローチではモデルの形に関する仮定
    を置く必要
    →正しくない場合:誤った結果を導くことがある
●
...
●
    実際の応用場面ではテスト用独立なデータ集合を
    とっておき、それを用いて最終的なシステムの全
    体性能を評価するのが賢明
3.4
Prochain SlideShare
Chargement dans…5
×

3.4

2 910 vues

Publié le

PRML 3.4 ベイズモデル比較
後で上げ直します

  • Soyez le premier à commenter

3.4

  1. 1. 3.4 ベイズモデル比較 showyou(hatena, twitter:)
  2. 2. 自己紹介 ● Twitter, hatena: showyou ● 横浜にある電機メーカーでソフトウェアの開発 支援をしてます ● 大学:AI, 院:画像処理/アプリケーション ● Python, C++, Javaは読めるけど・・ ● Twitterでha_maとかdonsukeとかyuka_とか作ってます
  3. 3. 1章では過学習の問題と交差確認(cross-validation) による正則化パラメータの値の決定やモデルの選 択法について述べた ここではベイズの立場からモデル選択の問題を考 える
  4. 4. ● 最尤推定に関連した過学習 →モデルパラメータの値を点推定→周辺化することで回避 ● モデル →確認データを用いることなく訓練データだけを使って直 接比較できる →すべての利用可能なデータを訓練用に使うことがで き、交差確認による繰り返し学習を回避できる →モデルの複雑さを決めるパラメータを複数導入で き、訓練課程の一部としてそれらの値を同時に決定す ることも出来る 例:関連ベクトルマシン(RVM) M pw∣=∏ N wi∣0, ii  i=1
  5. 5. ベイズの立場からのモデル比較 モデル選択に関する不確かさを表すために確率 を用い、確率の加法・乗法定理を使う 加法定理: p X =∑ p  X ,Y  Y 乗法定理: p X , Y = pY∣X  p  X 
  6. 6. 条件:L個のモデル{Mi}(i=1,...L)を 比較する場合 ● モデルは観測されたD上の確率分布 ● モデルのどれかに従って生成されるが、どのモデ ルかは分からない (多項式フィッティングの問題:分布は目標値tの集合上に定義,入力 値の集合Xは既知/ Xとtの同時を定義するモデルもある) ● すべてのモデルの事前確率は等しい ( p(M0), p(M1), … p(Mi)が等しい? )
  7. 7. 訓練集合Dが与えられたとき、モデルの事後分布 p  M i∣D∝ p  M i  p  D∣M i −3.66 を評価 ● p(D|M_i) はモデルエビデンスと呼ばれ、ベイズ モデル比較で重要な働きをする(周辺尤度とも呼 ばれる) ● p(D|Mi)/p(D|Mj)はベイズ因子と呼ばれる
  8. 8. ● 一旦モデルの事後分布がわかれば、確率の加法・ 乗法定理より予測分布は L p t∣x , D=∑ pt∣x , M i , D p M i∣D−3.67 i=1 ● これは混合分布の一種 ●● 全体の予測分布が,個々のモデルの予測分布 p(t | x, Mi, D)の事後確率 p( Mi | D )に関する重み付き平 均で得られる ●
  9. 9. 例:2つのモデルの事後確率が等しく 一方はt=a近傍, 他方はt=b近傍を表す分布を予測する場合、全体の予 測分布はt = a と t = b の二箇所にモードを持つ2山の 分布
  10. 10. モデル選択 ● モデル平均の単純な近似は、一番もっともらし いモデルを1つ選ぶ方法である ● これはモデル選択と呼ばれる ● パラメータwを持つモデルに対して、モデルエ ビデンスは p  D∣M i =∫ p D∣w , M i  p w∣M i  dw−3.68 p D∣M i =∫ p D , w∣M i  dw 加法定理 それと乗法定理
  11. 11. p  D∣M i =∫ p D∣w , M i  p w∣M i  dw−3.68 ● 標本化の観点から、周辺尤度(=モデルエビデン ス)はパラメータを事前分布からランダムにサ ンプリングされた時に、手元にあるデータ集合 Dが生成される確率 ● モデルエビデンスはパラメータの事後確率を計 算するときの分母に現れる正規化定数そのもの つまり p  D∣w , M i  p w∣M i  p w∣D , M i = −3.69 p  D∣M i 
  12. 12. モデルエビデンスの別の解釈 ● パラメータが一つしかないモデル(w)を考える ● ベイズの定理よりパラメータに関する事後分布は p(D|w)p(w)に比例 (Miは省略) ● 事後分布が最頻値(モード) wMAP の近傍で鋭く尖っ てるとき、その幅をΔwposteriorで表せば、全体の積 分は幅Δwposteriorと最大値の積で近似できる
  13. 13. ● さらに事前確率が平坦で幅がΔwprior( p(w) = 1/Δwprior) のとき  w posterior p  D=∫ p  D∣w pw dw≃ p  D∣w MAP  −3.70  w prior 対数をとると ln p D≃ln p D∣w MAP ln   w posterior  w prior −3.71
  14. 14. ln p D≃ln p D∣w MAP ln   w posterior  w prior  ● 第1項p(D|wmap):一番もっともらしいパラメータ 値によるデータへのフィッティング度 ● 事前分布が平坦なときの対数尤度 ● 第2項:モデルの複雑さに対するペナルティ ●Δwposterior<Δwprior なので 第2項は負 ●Δwposterior/Δwpriorが小さ くなるにつれ第2項は小さく なる モデルがデータに強く ● フィットするとペナル ティは0に近づく
  15. 15. ● モデルがM個のパラメータを含むとき、それぞ れのパラメータに対し同様の近似が行える ● すべてのパラメータが同じ比Δwposterior/Δwprior を持つとき ln p D=ln p D∣w MAP M ln  w prior   w posterior −3.72 が得られる ● すなわちモデルの適応パラメータ数Mが増える と複雑なモデルに対するペナルティが強くなる
  16. 16. ● モデルの複雑さを増したとき ● 第1項:モデルはデータにフィットしやすくなるた め増加(0に近づく) ● 第2項:Mとの依存性のために減少(負) ● エビデンスを最大にする最適なモデルの複雑さ →相反する項をバランスよく小さくする
  17. 17. ベイズモデル比較の更なる解釈、及びなぜ周辺尤 度最大化により中間程度の複雑さのモデルが選ば れるか ● 単純なモデルM1は自由度が少なく、分布p(D)は横 軸の狭い領域に集中する ● 複雑なモデルM3は多様なデータを生成することが できp(D)は広範囲に広 がるが、データ集合の どれかに割り当てられ る確率は小さくなる
  18. 18. ある集合D0に対しては中間の複雑さを持つモデル (この場合だとM2)のエビデンスが最大になる
  19. 19. 期待ベイズ因子 ● 2つのモデルM1, M2 (M1が正しい分布と仮定) ● ベイズ因子をデータ集合の分布に関して平均 →期待ベイズ因子が得られる (期待値は真のデータ分布の生成に関して取得) p  D∣M 1  ∫ p D∣M 1ln p D∣M  dD−3.73 2 ● KLの例(-とln逆にすれば(1.113)) ● 二つの分布が等しい時に0、それ以外は常に正 ● 平均的には常に正しいモデルのベイズ因子の方が大
  20. 20. ● ベイズの枠組み:過学習を回避できると共に訓練デー タだけに基づいてモデル比較が行える ● ベイズ的なアプローチではモデルの形に関する仮定 を置く必要 →正しくない場合:誤った結果を導くことがある ● モデルエビデンスは事前分布の様々な特性に強く依存 ● 変則事前分布:任意のスケーリング因子を持ち正規化定 数が定義できないためエビデンスを定義できない ● まず通常の事前分布→適当な極限 ● 二つのモデルのエビデンスの比を先に考えその後極限を とることで意味ある値が取れることもある
  21. 21. ● 実際の応用場面ではテスト用独立なデータ集合を とっておき、それを用いて最終的なシステムの全 体性能を評価するのが賢明

×