SlideShare a Scribd company logo
1 of 26
2017/07/19@統計的学習のエレメンツ読み会 #7
The Elements of Statistical Learning
Chapter 8: Model Inference and Averaging
大塚 優@NTTデータ
Overview
1
■Model Inference Methods
8.2 The Bootstrap and Maximum Likelihood Methods
8.3 Bayesian Methods
8.4 Relationship Between the Bootstrap and Bayesian Inference
■Calculation Techniques in Model Inference
8.5 The EM Algorithm
8.6 MCMC for Sampling from the Posterior
■Ensemble Methods
8.7 Bagging
8.8 Model Averaging and Stacking
8.9 Stochastic Search: Bumping
Model Inference Methods
2
The Bootstrap and Maximum Likelihood Methods
スプライン平滑化の例
・スプライン平滑化の例を通して、各種モデル推定の方法論
(最小二乗法,Bootstrap,最尤法,ベイズ推定)を俯瞰する。
3
データの散布図 3次B-spline基底
生成モデル: 𝑦𝑖 = 𝜇 𝑥𝑖 + 𝜀𝑖 ,
SETUP
𝛽𝑗:回帰係数(未知パラメータ), ℎ𝑗(𝑥):B-spline基底, 𝜀𝑖:観測誤差
E 𝜀𝑖 = 0, 𝑉𝑎𝑟 𝜀𝑖 = 𝜎2(未知パラメータ) for all 𝑖
𝐲 = 𝐇𝛃 + 𝛆𝜇 𝑥𝑖 =
𝑗=1
7
𝛽𝑗ℎ𝑗 𝑥𝑖 = 𝜷 𝑇
𝒉(𝑥𝑖)
𝐲 = 𝑦𝑖, … , 𝑦 𝑁
𝑇, 𝜷 = 𝛽1, … , 𝛽7
𝑇, 𝒉 𝑥𝑖 = ℎ1 𝑥𝑖 , … , ℎ7 𝑥𝑖
𝑇, 𝐇 = 𝒉 𝑥1 , … , 𝒉 𝑥 𝑁
𝑇
The Bootstrap and Maximum Likelihood Methods
最小二乗法による平滑化
・前項のモデルの回帰係数を最小二乗法で推定
𝛃LS = argmin
𝛃
||𝐇𝛃 − 𝐲||2 = 𝐇 𝑇 𝐇 −1 𝐇 𝑇 𝐲
⇨ 平滑化曲線: 𝜇 𝑥 = 𝛃LS
𝑇
𝒉(𝑥)
・ 𝛃LSの分散は、 𝐇 𝑇 𝐇 −1 𝜎2 となり、適当な𝜎2の推定量 𝜎2を
プラグインすることで、 𝛃LSの分散の推定量を構成
𝑉𝑎𝑟 𝛃LS = 𝐇 𝑇 𝐇 −1 𝜎2 𝜎2の例:
・上記結果から平滑化曲線の標準誤差の推定値が得られる
𝑆𝐷 𝜇 𝑥 = 𝑆𝐷[ 𝛃LS
𝑇
𝒉(𝑥)] = 𝒉 𝑥 𝑇
𝐇 𝑇
𝐇 −1
𝒉 𝑥
1
2 𝜎
4
1
𝑁 − 7
𝑖=1
𝑁
𝑦𝑖 − 𝜇 𝑥𝑖
2
The Bootstrap and Maximum Likelihood Methods
最小二乗法による平滑化の結果
・最小二乗法による平滑化曲線(実線)と95%信頼区間(破線)
信頼区間を構築するため、 𝜇 𝑥 が正規分布することを仮定
(=観測誤差εに正規性を仮定)
The Bootstrap and Maximum Likelihood Methods
Bootstrapについて
・経験分布を母集団分布と見立て、経験分布からのリサンプリン
グにより統計的推測を行う方法
(例)θの推定量θに対する𝛼%信頼区間の構築
下記の手続きを𝑏 = 1, … , 𝐵回行う
1. 経験分布からN個データを復元抽出し、データセットを構成。
2. 得られたデータセットから推定量θ 𝑏を計算(Bootstrap標本)
Bootstrap標本集合の100 · 𝛼/2%点を信頼区間下限、100 · (1 − 𝛼/2)%点を信頼
区間上限の推定値とする
6
The Bootstrap and Maximum Likelihood Methods
Bootstrapによる平滑化の結果
・スプライン平滑化の例について、Bootstrapにより
平滑化曲線 𝜇 𝑥 の信頼区間を推測する
・B=200として95%信頼区間を構築
7
𝜇 𝑥 のBootstrap標本
Bootstrap標本の平均(実線)と
95%信頼区間(破線)
The Bootstrap and Maximum Likelihood Methods
平滑化結果の比較(最小二乗法 vs Bootstrap)
[Discussion]最小二乗法とBootstrap、どちらが妥当な結果?
8
最小二乗法
Bootstrap
The Bootstrap and Maximum Likelihood Methods
最尤法について
・確率変数𝑍がパラメータ𝜃を持つ確率密度𝑔 𝜃(𝑧)に従うと
仮定し、得られたデータに最もフィットする𝜃を知りたい
・𝑍の独立な𝑁個の実現値𝑧𝑖(𝑖 = 1, . . , 𝑁)が得られているとき、
尤度関数𝐿 𝑍; 𝜃 は以下で与えられる
𝐿 𝑍; 𝜃 =
𝑖=1
𝑁
𝑔 𝜃(𝑧𝑖)
・𝐿 𝑍; 𝜃 の自然対数は対数尤度関数と呼ばれる
𝑙 𝑍; 𝜃 = 𝑙𝑜𝑔𝐿 𝑍; 𝜃 =
𝑖=1
𝑁
log 𝑔 𝜃(𝑧𝑖) (𝑙 𝜃 と略記する場合あり)
・尤度関数、もしくは対数尤度関数を最大にするパラメータを
𝜃の最尤推定量と呼ぶ
𝜃MLE = argm𝑎𝑥
𝜃
𝐿 𝑍; 𝜃 = argm𝑎𝑥
𝜃
𝑙 𝑍; 𝜃
9
The Bootstrap and Maximum Likelihood Methods
最尤推定量の統計的性質
・𝑁 → ∞で真のパラメータ𝜃0に確率収束する(漸近不偏性)
𝜃MLE →
𝑃
𝜃0
・ 𝑁 → ∞で正規分布に分布収束する(漸近正規性)
𝜃MLE →
𝑑
𝑁 𝜃0, 𝐼 𝜃0
−1
, 𝐼 𝜃0 : Fisher情報行列
・ 𝑁 → ∞で不偏推定量のClassの中で最小分散となる(漸近有効性)
cf. Cramér-Raoの不等式
𝑉𝑎𝑟 𝜃MLE ≤ 𝑉𝑎𝑟 𝜃U𝐵 , 𝜃U𝐵 ⊆ (全ての不偏推定量)
10
The Bootstrap and Maximum Likelihood Methods
最尤法による平滑化
・平滑化の例について、最尤法でパラメータ推定を行う
・観測誤差εが𝑁 0, 𝜎2 に従うと仮定すると、観測変数𝑦は
𝑁 𝛃 𝑇 𝒉(𝑥𝑖) , 𝜎2 に従うので、対数尤度関数と最尤推定量は
𝑙 𝛃, 𝜎2
= −
1
𝑁
𝑙𝑜𝑔𝜎2
2𝜋 −
1
2𝜎2
𝑖=1
𝑁
(𝑦𝑖 − 𝛃 𝑇
𝒉(𝑥𝑖))
𝛃MLE = 𝐇 𝑇 𝐇 −1 𝐇 𝑇 𝐲 (最小二乗法の結果と一致)
𝜎MLE =
1
𝑁 𝑖=1
𝑁
𝑦𝑖 − 𝛃MLE
𝑇
𝒉 𝑥𝑖
2
(不偏性を持たないことに注意)
11
Bayesian Methods
ベイズ推論による事後分布の推測
・これまではパラメータ𝜃を定数として扱ってきたが、
ベイズ推論では、 𝜃が確率変動するものとして扱う
・データ𝑍が与えられたもとで、パラメータ𝜃の事後分布
Pr(𝜃|𝑍)はベイズの定理により以下で与えられる。
Pr 𝜃 𝑍 =
Pr 𝑍 𝜃 Pr(𝜃)
𝑍 Pr 𝑍 𝜃 Pr(𝜃)
Pr 𝑍 𝜃 : 𝑍の尤度, Pr(𝜃): 𝜃の事前分布
・ベイズ推論におけるパラメータの点推定の方法として、
事後分布の最大値(MAP推定量)がよく用いられる
𝜃M𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃[Pr 𝜃 𝑍 ]
12
Bayesian Methods
ベイズ推論による平滑化
・平滑化の例について、パラメータ𝛃に事前分布を導入する
ことでベイズ推論を行う。(簡単のため𝜎2
は既知とする)
・ 𝛃の事前分布として、多変量正規分布𝑁 0, 𝜏Σ を考えたとき
のパラメータ𝛃のMAP推定量は
𝛃MLE = 𝐇 𝑇 𝐇 +
𝜎2
𝜏
Σ
−1
𝐇 𝑇 𝐲 (Ridge推定量と一致)
・ 𝛃の事前分布として、ラプラス分布を考えるとパラメータ
𝛃のMAP推定量はLASSO推定量と一致する
13
Bayesian Methods
ベイズ推論による平滑化の結果
・ 𝛃の事前分布として、多変量正規分布𝑁 0, 𝜏𝐼 を考えた場合
の平滑化結果
14
Calculation Techniques
in Model Inference
15
The EM Algorithm
EMアルゴリズムについて
・不完全なデータから最尤推定量を導くアルゴリズム
・ EMアルゴリズムが用いられるケース
・混合分布のパラメータ推定
・隠れマルコフモデルのパラメータ推定
・説明変数に欠損のあるデータでの最尤推定
・目的変数に欠損のあるデータでの最尤推定(半教師あり学習)
・罰則付き最尤法のパラメータ推定
・次の2つのステップを繰り返すことで尤度関数を最大化する
E-step: 観測データ𝑦と 𝜃 の暫定値が与えられた下で、完全デー
タの対数尤度の条件付期待値(Q関数)を計算するステップ
M-step: E-stepで求めたQ関数を最大化する𝜃を求めるステップ
16
The EM Algorithm
混合正規分布の例
・以下のような多峰性を持つデータの確率分布として、混合正規
分布がよく用いられる
17
𝑌1~N(μ1, Σ1)
𝑌2~N(μ2, Σ2)
𝑌 = 1 − ∆ ⋅ 𝑌1 + ∆ ⋅ 𝑌2
⇨ 𝑔 𝑌 𝑦 = 1 − 𝜋 𝜙 𝜃1
𝑦𝑖 + 𝜋𝜙 𝜃2
𝑦𝑖
where ∆∈ 0,1 with Pr ∆= 1 = 𝜋
The EM Algorithm
混合正規分布の例
・観測データ𝑦𝑖(i = 1, … , N)が得られているときの対数尤度関数
𝑙 𝑍; 𝜃 =
𝑖=1
𝑁
𝑙𝑜𝑔[ 1 − 𝜋 𝜙 𝜃1
𝑦𝑖 + 𝜋𝜙 𝜃2
𝑦𝑖 ]
⇨ 𝑙 𝑍; 𝜃 の極値は陽に求められない
・そこで、潜在変数∆𝑖が仮に観測された場合の対数尤度
(完全対数尤度)を考えると
𝑙0 𝑍; 𝜃, ∆
=
𝑖=1
𝑁
[ 1 − ∆𝑖 𝑙𝑜𝑔𝜙 𝜃1
𝑦𝑖 + ∆𝑖 𝑙𝑜𝑔𝜙 𝜃2
𝑦𝑖 ] +
𝑖=1
𝑁
[ 1 − ∆𝑖 𝑙𝑜𝑔 1 − 𝜋 + ∆𝑖 𝑙𝑜𝑔𝜋]
⇨ 𝑙0 𝑍; 𝜃, ∆ の極値は陽に求めるられる
18
The EM Algorithm
混合正規分布の例
・もちろん潜在変数∆𝑖は観測されていないので、完全対数尤度は
計算できない
⇨ データZ, パラメータ𝜃が与えられた元での条件付き期待値
(Expectation)で代用する
⇨ EM AlgorithmのE-stepに対応
・パラメータ𝜃はどう決める?
⇨ E-stepで求めた条件付き期待値が最大(Maximization)になる
𝜃′を見つける
⇨ EM AlgorithmのM-stepに対応
・この手続きをパラメータ𝜃が収束するまで交互に繰り返す
19
The EM Algorithm
混合正規分布の例
・混合正規分布の例における具体的なアルゴリズムは以下の通り
20
The EM Algorithm
一般的なEMアルゴリズム
・一般的なEMアルゴリズムは以下の通り
21
The EM Algorithm
EMアルゴリズムの妥当性
𝑍: 観測データ, 𝑍 𝑚
: 欠損データ, 𝑇 = (𝑍, 𝑍 𝑚
) ,
𝜃′:更新パラメータ(変数), 𝜃 :更新前パラメータ(定数)
・(8.45)式から観測データに対する対数尤度関数は下記の通り
𝑙 𝜃′; 𝑍 = 𝑙0 𝜃′; 𝑇 − 𝑙1 𝜃′; 𝑍 𝑚 𝑍
= 𝐸[𝑙0 𝜃′; 𝑇 𝑍, 𝜃 − 𝐸 𝑙1 𝜃′; 𝑍 𝑚 𝑍 𝑍, 𝜃
= 𝑄 𝜃′
, 𝜃 − 𝑅 𝜃′
, 𝜃
・更新前後での尤度を比較すると
𝑙 𝜃′
; 𝑍 − 𝑙 𝜃; 𝑍 = 𝑄 𝜃′
, 𝜃 − 𝑄 𝜃, 𝜃 − [𝑅 𝜃′
, 𝜃 − 𝑅 𝜃, 𝜃 ]
・1項目はM-stepにより明らかに0以上
・2項目を評価すると
𝑅 𝜃′
, 𝜃 − 𝑅 𝜃, 𝜃 = −𝐸 𝑍 𝑚|𝑍,𝜃 log
𝑃𝑟 𝑍 𝑚 𝑍, 𝜃
𝑃𝑟 𝑍 𝑚
𝑍, 𝜃′
= −𝐾𝐿 𝑃𝑟 𝑍 𝑚
𝑍, 𝜃 , 𝑃𝑟 𝑍 𝑚
𝑍, 𝜃′
≤ 0
Hence, 𝑙 𝜃′
; 𝑍 − 𝑙 𝜃; 𝑍 ≥ 0 22
MCMC for Sampling from the Posterior
MCMCについて
・ベイズ推論において、解析的に導出が困難な事後分布をモンテ
カルロ法により求める方法
・定常分布が事後分布になるようなマルコフ連鎖を構成する
・Gibbsサンプラー(完全条件付分布からの逐次サンプリング)
・M-Hアルゴリズム(尤度比を用いた棄却法)
・他のアプリケーションとしては、数え上げ問題、分割表の確率
計算(Fisherの正確確率検定)など
23
MCMC for Sampling from the Posterior
Gibbsサンプラーについて
・同時分布の解析導出、もしくはサンプリングが困難だが、条件
付き分布からのサンプリングが容易な場合に有効なアルゴリズム
24
MCMC for Sampling from the Posterior
混合分布の例での具体的なアルゴリズム
25
事後分布の収束の様子

More Related Content

What's hot

カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足ke beck
 
マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法Koichiro Gibo
 
第六回「データ解析のための統計モデリング入門」前半
第六回「データ解析のための統計モデリング入門」前半第六回「データ解析のための統計モデリング入門」前半
第六回「データ解析のための統計モデリング入門」前半Atsushi Hayakawa
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章Shoichi Taguchi
 
クラシックな機械学習の入門 4. 学習データと予測性能
クラシックな機械学習の入門  4.   学習データと予測性能クラシックな機械学習の入門  4.   学習データと予測性能
クラシックな機械学習の入門 4. 学習データと予測性能Hiroshi Nakagawa
 
PRML輪読#11
PRML輪読#11PRML輪読#11
PRML輪読#11matsuolab
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論Akihiro Nitta
 
カステラ本勉強会 第三回
カステラ本勉強会 第三回カステラ本勉強会 第三回
カステラ本勉強会 第三回ke beck
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定Akira Masuda
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)Masaru Tokuoka
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へZansa
 
ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2you shimajiro
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章Takushi Miki
 
データ解析入門
データ解析入門データ解析入門
データ解析入門Takeo Noda
 
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)Shota Yasui
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習Kenta Ishii
 
統計的学習の基礎 3章前半
統計的学習の基礎 3章前半統計的学習の基礎 3章前半
統計的学習の基礎 3章前半Kazunori Miyanishi
 

What's hot (20)

Maeshori missing
Maeshori missingMaeshori missing
Maeshori missing
 
カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足
 
マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法
 
第六回「データ解析のための統計モデリング入門」前半
第六回「データ解析のための統計モデリング入門」前半第六回「データ解析のための統計モデリング入門」前半
第六回「データ解析のための統計モデリング入門」前半
 
ma92007id395
ma92007id395ma92007id395
ma92007id395
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章
 
クラシックな機械学習の入門 4. 学習データと予測性能
クラシックな機械学習の入門  4.   学習データと予測性能クラシックな機械学習の入門  4.   学習データと予測性能
クラシックな機械学習の入門 4. 学習データと予測性能
 
PRML輪読#11
PRML輪読#11PRML輪読#11
PRML輪読#11
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論
 
カステラ本勉強会 第三回
カステラ本勉強会 第三回カステラ本勉強会 第三回
カステラ本勉強会 第三回
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
データ解析入門
データ解析入門データ解析入門
データ解析入門
 
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
 
統計的学習の基礎 3章前半
統計的学習の基礎 3章前半統計的学習の基礎 3章前半
統計的学習の基礎 3章前半
 
PRML11章
PRML11章PRML11章
PRML11章
 

Similar to [The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging

Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)正志 坪坂
 
Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1Sho Shimauchi
 
Model seminar shibata_100710
Model seminar shibata_100710Model seminar shibata_100710
Model seminar shibata_100710Kazuya Nishina
 
機械学習理論入門 3章 最尤推定法_遠藤
機械学習理論入門 3章 最尤推定法_遠藤機械学習理論入門 3章 最尤推定法_遠藤
機械学習理論入門 3章 最尤推定法_遠藤Wataru Endo
 
Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statisticsKohta Ishikawa
 
Risk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesRisk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesKei Nakagawa
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論Kazuto Fukuchi
 
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldNaoki Hayashi
 
ITエンジニアのための機械学習理論入門 第5章
ITエンジニアのための機械学習理論入門 第5章ITエンジニアのための機械学習理論入門 第5章
ITエンジニアのための機械学習理論入門 第5章Isao Takaesu
 
深層学習(講談社)のまとめ 第8章
深層学習(講談社)のまとめ 第8章深層学習(講談社)のまとめ 第8章
深層学習(講談社)のまとめ 第8章okku apot
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙Satoshi Hara
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定Hiroshi Nakagawa
 
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
[The Elements of Statistical Learning]Chapter18: High Dimensional ProblemsYu Otsuka
 
パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩t_ichioka_sg
 
続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章hakusai
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)Takao Yamanaka
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布sleipnir002
 
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項tomitomi3 tomitomi3
 

Similar to [The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging (20)

Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
 
Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1
 
Model seminar shibata_100710
Model seminar shibata_100710Model seminar shibata_100710
Model seminar shibata_100710
 
機械学習理論入門 3章 最尤推定法_遠藤
機械学習理論入門 3章 最尤推定法_遠藤機械学習理論入門 3章 最尤推定法_遠藤
機械学習理論入門 3章 最尤推定法_遠藤
 
Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statistics
 
Risk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesRisk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matrices
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論
 
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
 
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-old
 
ITエンジニアのための機械学習理論入門 第5章
ITエンジニアのための機械学習理論入門 第5章ITエンジニアのための機械学習理論入門 第5章
ITエンジニアのための機械学習理論入門 第5章
 
深層学習(講談社)のまとめ 第8章
深層学習(講談社)のまとめ 第8章深層学習(講談社)のまとめ 第8章
深層学習(講談社)のまとめ 第8章
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定
 
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
 
パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩
 
続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布
 
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
 

Recently uploaded

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 

Recently uploaded (9)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 

[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging

  • 1. 2017/07/19@統計的学習のエレメンツ読み会 #7 The Elements of Statistical Learning Chapter 8: Model Inference and Averaging 大塚 優@NTTデータ
  • 2. Overview 1 ■Model Inference Methods 8.2 The Bootstrap and Maximum Likelihood Methods 8.3 Bayesian Methods 8.4 Relationship Between the Bootstrap and Bayesian Inference ■Calculation Techniques in Model Inference 8.5 The EM Algorithm 8.6 MCMC for Sampling from the Posterior ■Ensemble Methods 8.7 Bagging 8.8 Model Averaging and Stacking 8.9 Stochastic Search: Bumping
  • 4. The Bootstrap and Maximum Likelihood Methods スプライン平滑化の例 ・スプライン平滑化の例を通して、各種モデル推定の方法論 (最小二乗法,Bootstrap,最尤法,ベイズ推定)を俯瞰する。 3 データの散布図 3次B-spline基底 生成モデル: 𝑦𝑖 = 𝜇 𝑥𝑖 + 𝜀𝑖 , SETUP 𝛽𝑗:回帰係数(未知パラメータ), ℎ𝑗(𝑥):B-spline基底, 𝜀𝑖:観測誤差 E 𝜀𝑖 = 0, 𝑉𝑎𝑟 𝜀𝑖 = 𝜎2(未知パラメータ) for all 𝑖 𝐲 = 𝐇𝛃 + 𝛆𝜇 𝑥𝑖 = 𝑗=1 7 𝛽𝑗ℎ𝑗 𝑥𝑖 = 𝜷 𝑇 𝒉(𝑥𝑖) 𝐲 = 𝑦𝑖, … , 𝑦 𝑁 𝑇, 𝜷 = 𝛽1, … , 𝛽7 𝑇, 𝒉 𝑥𝑖 = ℎ1 𝑥𝑖 , … , ℎ7 𝑥𝑖 𝑇, 𝐇 = 𝒉 𝑥1 , … , 𝒉 𝑥 𝑁 𝑇
  • 5. The Bootstrap and Maximum Likelihood Methods 最小二乗法による平滑化 ・前項のモデルの回帰係数を最小二乗法で推定 𝛃LS = argmin 𝛃 ||𝐇𝛃 − 𝐲||2 = 𝐇 𝑇 𝐇 −1 𝐇 𝑇 𝐲 ⇨ 平滑化曲線: 𝜇 𝑥 = 𝛃LS 𝑇 𝒉(𝑥) ・ 𝛃LSの分散は、 𝐇 𝑇 𝐇 −1 𝜎2 となり、適当な𝜎2の推定量 𝜎2を プラグインすることで、 𝛃LSの分散の推定量を構成 𝑉𝑎𝑟 𝛃LS = 𝐇 𝑇 𝐇 −1 𝜎2 𝜎2の例: ・上記結果から平滑化曲線の標準誤差の推定値が得られる 𝑆𝐷 𝜇 𝑥 = 𝑆𝐷[ 𝛃LS 𝑇 𝒉(𝑥)] = 𝒉 𝑥 𝑇 𝐇 𝑇 𝐇 −1 𝒉 𝑥 1 2 𝜎 4 1 𝑁 − 7 𝑖=1 𝑁 𝑦𝑖 − 𝜇 𝑥𝑖 2
  • 6. The Bootstrap and Maximum Likelihood Methods 最小二乗法による平滑化の結果 ・最小二乗法による平滑化曲線(実線)と95%信頼区間(破線) 信頼区間を構築するため、 𝜇 𝑥 が正規分布することを仮定 (=観測誤差εに正規性を仮定)
  • 7. The Bootstrap and Maximum Likelihood Methods Bootstrapについて ・経験分布を母集団分布と見立て、経験分布からのリサンプリン グにより統計的推測を行う方法 (例)θの推定量θに対する𝛼%信頼区間の構築 下記の手続きを𝑏 = 1, … , 𝐵回行う 1. 経験分布からN個データを復元抽出し、データセットを構成。 2. 得られたデータセットから推定量θ 𝑏を計算(Bootstrap標本) Bootstrap標本集合の100 · 𝛼/2%点を信頼区間下限、100 · (1 − 𝛼/2)%点を信頼 区間上限の推定値とする 6
  • 8. The Bootstrap and Maximum Likelihood Methods Bootstrapによる平滑化の結果 ・スプライン平滑化の例について、Bootstrapにより 平滑化曲線 𝜇 𝑥 の信頼区間を推測する ・B=200として95%信頼区間を構築 7 𝜇 𝑥 のBootstrap標本 Bootstrap標本の平均(実線)と 95%信頼区間(破線)
  • 9. The Bootstrap and Maximum Likelihood Methods 平滑化結果の比較(最小二乗法 vs Bootstrap) [Discussion]最小二乗法とBootstrap、どちらが妥当な結果? 8 最小二乗法 Bootstrap
  • 10. The Bootstrap and Maximum Likelihood Methods 最尤法について ・確率変数𝑍がパラメータ𝜃を持つ確率密度𝑔 𝜃(𝑧)に従うと 仮定し、得られたデータに最もフィットする𝜃を知りたい ・𝑍の独立な𝑁個の実現値𝑧𝑖(𝑖 = 1, . . , 𝑁)が得られているとき、 尤度関数𝐿 𝑍; 𝜃 は以下で与えられる 𝐿 𝑍; 𝜃 = 𝑖=1 𝑁 𝑔 𝜃(𝑧𝑖) ・𝐿 𝑍; 𝜃 の自然対数は対数尤度関数と呼ばれる 𝑙 𝑍; 𝜃 = 𝑙𝑜𝑔𝐿 𝑍; 𝜃 = 𝑖=1 𝑁 log 𝑔 𝜃(𝑧𝑖) (𝑙 𝜃 と略記する場合あり) ・尤度関数、もしくは対数尤度関数を最大にするパラメータを 𝜃の最尤推定量と呼ぶ 𝜃MLE = argm𝑎𝑥 𝜃 𝐿 𝑍; 𝜃 = argm𝑎𝑥 𝜃 𝑙 𝑍; 𝜃 9
  • 11. The Bootstrap and Maximum Likelihood Methods 最尤推定量の統計的性質 ・𝑁 → ∞で真のパラメータ𝜃0に確率収束する(漸近不偏性) 𝜃MLE → 𝑃 𝜃0 ・ 𝑁 → ∞で正規分布に分布収束する(漸近正規性) 𝜃MLE → 𝑑 𝑁 𝜃0, 𝐼 𝜃0 −1 , 𝐼 𝜃0 : Fisher情報行列 ・ 𝑁 → ∞で不偏推定量のClassの中で最小分散となる(漸近有効性) cf. Cramér-Raoの不等式 𝑉𝑎𝑟 𝜃MLE ≤ 𝑉𝑎𝑟 𝜃U𝐵 , 𝜃U𝐵 ⊆ (全ての不偏推定量) 10
  • 12. The Bootstrap and Maximum Likelihood Methods 最尤法による平滑化 ・平滑化の例について、最尤法でパラメータ推定を行う ・観測誤差εが𝑁 0, 𝜎2 に従うと仮定すると、観測変数𝑦は 𝑁 𝛃 𝑇 𝒉(𝑥𝑖) , 𝜎2 に従うので、対数尤度関数と最尤推定量は 𝑙 𝛃, 𝜎2 = − 1 𝑁 𝑙𝑜𝑔𝜎2 2𝜋 − 1 2𝜎2 𝑖=1 𝑁 (𝑦𝑖 − 𝛃 𝑇 𝒉(𝑥𝑖)) 𝛃MLE = 𝐇 𝑇 𝐇 −1 𝐇 𝑇 𝐲 (最小二乗法の結果と一致) 𝜎MLE = 1 𝑁 𝑖=1 𝑁 𝑦𝑖 − 𝛃MLE 𝑇 𝒉 𝑥𝑖 2 (不偏性を持たないことに注意) 11
  • 13. Bayesian Methods ベイズ推論による事後分布の推測 ・これまではパラメータ𝜃を定数として扱ってきたが、 ベイズ推論では、 𝜃が確率変動するものとして扱う ・データ𝑍が与えられたもとで、パラメータ𝜃の事後分布 Pr(𝜃|𝑍)はベイズの定理により以下で与えられる。 Pr 𝜃 𝑍 = Pr 𝑍 𝜃 Pr(𝜃) 𝑍 Pr 𝑍 𝜃 Pr(𝜃) Pr 𝑍 𝜃 : 𝑍の尤度, Pr(𝜃): 𝜃の事前分布 ・ベイズ推論におけるパラメータの点推定の方法として、 事後分布の最大値(MAP推定量)がよく用いられる 𝜃M𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃[Pr 𝜃 𝑍 ] 12
  • 14. Bayesian Methods ベイズ推論による平滑化 ・平滑化の例について、パラメータ𝛃に事前分布を導入する ことでベイズ推論を行う。(簡単のため𝜎2 は既知とする) ・ 𝛃の事前分布として、多変量正規分布𝑁 0, 𝜏Σ を考えたとき のパラメータ𝛃のMAP推定量は 𝛃MLE = 𝐇 𝑇 𝐇 + 𝜎2 𝜏 Σ −1 𝐇 𝑇 𝐲 (Ridge推定量と一致) ・ 𝛃の事前分布として、ラプラス分布を考えるとパラメータ 𝛃のMAP推定量はLASSO推定量と一致する 13
  • 17. The EM Algorithm EMアルゴリズムについて ・不完全なデータから最尤推定量を導くアルゴリズム ・ EMアルゴリズムが用いられるケース ・混合分布のパラメータ推定 ・隠れマルコフモデルのパラメータ推定 ・説明変数に欠損のあるデータでの最尤推定 ・目的変数に欠損のあるデータでの最尤推定(半教師あり学習) ・罰則付き最尤法のパラメータ推定 ・次の2つのステップを繰り返すことで尤度関数を最大化する E-step: 観測データ𝑦と 𝜃 の暫定値が与えられた下で、完全デー タの対数尤度の条件付期待値(Q関数)を計算するステップ M-step: E-stepで求めたQ関数を最大化する𝜃を求めるステップ 16
  • 18. The EM Algorithm 混合正規分布の例 ・以下のような多峰性を持つデータの確率分布として、混合正規 分布がよく用いられる 17 𝑌1~N(μ1, Σ1) 𝑌2~N(μ2, Σ2) 𝑌 = 1 − ∆ ⋅ 𝑌1 + ∆ ⋅ 𝑌2 ⇨ 𝑔 𝑌 𝑦 = 1 − 𝜋 𝜙 𝜃1 𝑦𝑖 + 𝜋𝜙 𝜃2 𝑦𝑖 where ∆∈ 0,1 with Pr ∆= 1 = 𝜋
  • 19. The EM Algorithm 混合正規分布の例 ・観測データ𝑦𝑖(i = 1, … , N)が得られているときの対数尤度関数 𝑙 𝑍; 𝜃 = 𝑖=1 𝑁 𝑙𝑜𝑔[ 1 − 𝜋 𝜙 𝜃1 𝑦𝑖 + 𝜋𝜙 𝜃2 𝑦𝑖 ] ⇨ 𝑙 𝑍; 𝜃 の極値は陽に求められない ・そこで、潜在変数∆𝑖が仮に観測された場合の対数尤度 (完全対数尤度)を考えると 𝑙0 𝑍; 𝜃, ∆ = 𝑖=1 𝑁 [ 1 − ∆𝑖 𝑙𝑜𝑔𝜙 𝜃1 𝑦𝑖 + ∆𝑖 𝑙𝑜𝑔𝜙 𝜃2 𝑦𝑖 ] + 𝑖=1 𝑁 [ 1 − ∆𝑖 𝑙𝑜𝑔 1 − 𝜋 + ∆𝑖 𝑙𝑜𝑔𝜋] ⇨ 𝑙0 𝑍; 𝜃, ∆ の極値は陽に求めるられる 18
  • 20. The EM Algorithm 混合正規分布の例 ・もちろん潜在変数∆𝑖は観測されていないので、完全対数尤度は 計算できない ⇨ データZ, パラメータ𝜃が与えられた元での条件付き期待値 (Expectation)で代用する ⇨ EM AlgorithmのE-stepに対応 ・パラメータ𝜃はどう決める? ⇨ E-stepで求めた条件付き期待値が最大(Maximization)になる 𝜃′を見つける ⇨ EM AlgorithmのM-stepに対応 ・この手続きをパラメータ𝜃が収束するまで交互に繰り返す 19
  • 23. The EM Algorithm EMアルゴリズムの妥当性 𝑍: 観測データ, 𝑍 𝑚 : 欠損データ, 𝑇 = (𝑍, 𝑍 𝑚 ) , 𝜃′:更新パラメータ(変数), 𝜃 :更新前パラメータ(定数) ・(8.45)式から観測データに対する対数尤度関数は下記の通り 𝑙 𝜃′; 𝑍 = 𝑙0 𝜃′; 𝑇 − 𝑙1 𝜃′; 𝑍 𝑚 𝑍 = 𝐸[𝑙0 𝜃′; 𝑇 𝑍, 𝜃 − 𝐸 𝑙1 𝜃′; 𝑍 𝑚 𝑍 𝑍, 𝜃 = 𝑄 𝜃′ , 𝜃 − 𝑅 𝜃′ , 𝜃 ・更新前後での尤度を比較すると 𝑙 𝜃′ ; 𝑍 − 𝑙 𝜃; 𝑍 = 𝑄 𝜃′ , 𝜃 − 𝑄 𝜃, 𝜃 − [𝑅 𝜃′ , 𝜃 − 𝑅 𝜃, 𝜃 ] ・1項目はM-stepにより明らかに0以上 ・2項目を評価すると 𝑅 𝜃′ , 𝜃 − 𝑅 𝜃, 𝜃 = −𝐸 𝑍 𝑚|𝑍,𝜃 log 𝑃𝑟 𝑍 𝑚 𝑍, 𝜃 𝑃𝑟 𝑍 𝑚 𝑍, 𝜃′ = −𝐾𝐿 𝑃𝑟 𝑍 𝑚 𝑍, 𝜃 , 𝑃𝑟 𝑍 𝑚 𝑍, 𝜃′ ≤ 0 Hence, 𝑙 𝜃′ ; 𝑍 − 𝑙 𝜃; 𝑍 ≥ 0 22
  • 24. MCMC for Sampling from the Posterior MCMCについて ・ベイズ推論において、解析的に導出が困難な事後分布をモンテ カルロ法により求める方法 ・定常分布が事後分布になるようなマルコフ連鎖を構成する ・Gibbsサンプラー(完全条件付分布からの逐次サンプリング) ・M-Hアルゴリズム(尤度比を用いた棄却法) ・他のアプリケーションとしては、数え上げ問題、分割表の確率 計算(Fisherの正確確率検定)など 23
  • 25. MCMC for Sampling from the Posterior Gibbsサンプラーについて ・同時分布の解析導出、もしくはサンプリングが困難だが、条件 付き分布からのサンプリングが容易な場合に有効なアルゴリズム 24
  • 26. MCMC for Sampling from the Posterior 混合分布の例での具体的なアルゴリズム 25 事後分布の収束の様子