[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging

2017/07/19＠統計的学習のエレメンツ読み会 #7
The Elements of Statistical Learning
Chapter 8: Model Inference and Averaging
大塚優@NTTデータ

Overview
1
■Model Inference Methods
8.2 The Bootstrap and Maximum Likelihood Methods
8.3 Bayesian Methods
8.4 Relationship Between the Bootstrap and Bayesian Inference
■Calculation Techniques in Model Inference
8.5 The EM Algorithm
8.6 MCMC for Sampling from the Posterior
■Ensemble Methods
8.7 Bagging
8.8 Model Averaging and Stacking
8.9 Stochastic Search: Bumping

The Bootstrap and Maximum Likelihood Methods
スプライン平滑化の例
・スプライン平滑化の例を通して、各種モデル推定の方法論
（最小二乗法,Bootstrap,最尤法,ベイズ推定）を俯瞰する。
3
データの散布図 3次B-spline基底
生成モデル: 𝑦𝑖 = 𝜇 𝑥𝑖 + 𝜀𝑖 ,
SETUP
𝛽𝑗:回帰係数(未知パラメータ), ℎ𝑗(𝑥):B-spline基底, 𝜀𝑖:観測誤差
E 𝜀𝑖 = 0, 𝑉𝑎𝑟 𝜀𝑖 = 𝜎2(未知パラメータ) for all 𝑖
𝐲 = 𝐇𝛃 + 𝛆𝜇 𝑥𝑖 =
𝑗=1
7
𝛽𝑗ℎ𝑗 𝑥𝑖 = 𝜷 𝑇
𝒉(𝑥𝑖)
𝐲 = 𝑦𝑖, … , 𝑦 𝑁
𝑇, 𝜷 = 𝛽1, … , 𝛽7
𝑇, 𝒉 𝑥𝑖 = ℎ1 𝑥𝑖 , … , ℎ7 𝑥𝑖
𝑇, 𝐇 = 𝒉 𝑥1 , … , 𝒉 𝑥 𝑁
𝑇

最小二乗法による平滑化
・前項のモデルの回帰係数を最小二乗法で推定
𝛃LS = argmin
𝛃
||𝐇𝛃 − 𝐲||2 = 𝐇 𝑇 𝐇 −1 𝐇 𝑇 𝐲
⇨ 平滑化曲線: 𝜇 𝑥 = 𝛃LS
𝑇
𝒉(𝑥)
・ 𝛃LSの分散は、 𝐇 𝑇 𝐇 −1 𝜎2 となり、適当な𝜎2の推定量 𝜎2を
プラグインすることで、 𝛃LSの分散の推定量を構成
𝑉𝑎𝑟 𝛃LS = 𝐇 𝑇 𝐇 −1 𝜎2 𝜎2の例:
・上記結果から平滑化曲線の標準誤差の推定値が得られる
𝑆𝐷 𝜇 𝑥 = 𝑆𝐷[ 𝛃LS
𝑇
𝒉(𝑥)] = 𝒉 𝑥 𝑇
𝐇 𝑇
𝐇 −1
𝒉 𝑥
1
2 𝜎
4
1
𝑁 − 7
𝑖=1
𝑁
𝑦𝑖 − 𝜇 𝑥𝑖
2

最小二乗法による平滑化の結果
・最小二乗法による平滑化曲線(実線)と95%信頼区間(破線)
信頼区間を構築するため、 𝜇 𝑥 が正規分布することを仮定
(＝観測誤差εに正規性を仮定)

Bootstrapについて
・経験分布を母集団分布と見立て、経験分布からのリサンプリン
グにより統計的推測を行う方法
(例)θの推定量θに対する𝛼%信頼区間の構築
下記の手続きを𝑏 = 1, … , 𝐵回行う
1. 経験分布からN個データを復元抽出し、データセットを構成。
2. 得られたデータセットから推定量θ 𝑏を計算(Bootstrap標本)
Bootstrap標本集合の100 · 𝛼/2%点を信頼区間下限、100 · (1 − 𝛼/2)%点を信頼
区間上限の推定値とする
6

Bootstrapによる平滑化の結果
・スプライン平滑化の例について、Bootstrapにより
平滑化曲線 𝜇 𝑥 の信頼区間を推測する
・B=200として95%信頼区間を構築
7
𝜇 𝑥 のBootstrap標本
Bootstrap標本の平均(実線)と
95%信頼区間(破線)

平滑化結果の比較(最小二乗法 vs Bootstrap)
[Discussion]最小二乗法とBootstrap、どちらが妥当な結果？
8
最小二乗法
Bootstrap

最尤法について
・確率変数𝑍がパラメータ𝜃を持つ確率密度𝑔 𝜃(𝑧)に従うと
仮定し、得られたデータに最もフィットする𝜃を知りたい
・𝑍の独立な𝑁個の実現値𝑧𝑖(𝑖 = 1, . . , 𝑁)が得られているとき、
尤度関数𝐿 𝑍; 𝜃 は以下で与えられる
𝐿 𝑍; 𝜃 =
𝑖=1
𝑁
𝑔 𝜃(𝑧𝑖)
・𝐿 𝑍; 𝜃 の自然対数は対数尤度関数と呼ばれる
𝑙 𝑍; 𝜃 = 𝑙𝑜𝑔𝐿 𝑍; 𝜃 =
𝑖=1
𝑁
log 𝑔 𝜃(𝑧𝑖) (𝑙 𝜃 と略記する場合あり)
・尤度関数、もしくは対数尤度関数を最大にするパラメータを
𝜃の最尤推定量と呼ぶ
𝜃MLE = argm𝑎𝑥
𝜃
𝐿 𝑍; 𝜃 = argm𝑎𝑥
𝜃
𝑙 𝑍; 𝜃
9

最尤推定量の統計的性質
・𝑁 → ∞で真のパラメータ𝜃0に確率収束する(漸近不偏性)
𝜃MLE →
𝑃
𝜃0
・ 𝑁 → ∞で正規分布に分布収束する(漸近正規性)
𝜃MLE →
𝑑
𝑁 𝜃0, 𝐼 𝜃0
−1
, 𝐼 𝜃0 : Fisher情報行列
・ 𝑁 → ∞で不偏推定量のClassの中で最小分散となる(漸近有効性)
cf. Cramér-Raoの不等式
𝑉𝑎𝑟 𝜃MLE ≤ 𝑉𝑎𝑟 𝜃U𝐵 , 𝜃U𝐵 ⊆ (全ての不偏推定量)
10

最尤法による平滑化
・平滑化の例について、最尤法でパラメータ推定を行う
・観測誤差εが𝑁 0, 𝜎2 に従うと仮定すると、観測変数𝑦は
𝑁 𝛃 𝑇 𝒉(𝑥𝑖) , 𝜎2 に従うので、対数尤度関数と最尤推定量は
𝑙 𝛃, 𝜎2
= −
1
𝑁
𝑙𝑜𝑔𝜎2
2𝜋 −
1
2𝜎2
𝑖=1
𝑁
(𝑦𝑖 − 𝛃 𝑇
𝒉(𝑥𝑖))
𝛃MLE = 𝐇 𝑇 𝐇 −1 𝐇 𝑇 𝐲 (最小二乗法の結果と一致)
𝜎MLE =
1
𝑁 𝑖=1
𝑁
𝑦𝑖 − 𝛃MLE
𝑇
𝒉 𝑥𝑖
2
(不偏性を持たないことに注意)
11

Bayesian Methods
ベイズ推論による事後分布の推測
・これまではパラメータ𝜃を定数として扱ってきたが、
ベイズ推論では、 𝜃が確率変動するものとして扱う
・データ𝑍が与えられたもとで、パラメータ𝜃の事後分布
Pr(𝜃|𝑍)はベイズの定理により以下で与えられる。
Pr 𝜃 𝑍 =
Pr 𝑍 𝜃 Pr(𝜃)
𝑍 Pr 𝑍 𝜃 Pr(𝜃)
Pr 𝑍 𝜃 : 𝑍の尤度, Pr(𝜃): 𝜃の事前分布
・ベイズ推論におけるパラメータの点推定の方法として、
事後分布の最大値(MAP推定量)がよく用いられる
𝜃M𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃[Pr 𝜃 𝑍 ]
12

Bayesian Methods
ベイズ推論による平滑化
・平滑化の例について、パラメータ𝛃に事前分布を導入する
ことでベイズ推論を行う。（簡単のため𝜎2
は既知とする）
・ 𝛃の事前分布として、多変量正規分布𝑁 0, 𝜏Σ を考えたとき
のパラメータ𝛃のMAP推定量は
𝛃MLE = 𝐇 𝑇 𝐇 +
𝜎2
𝜏
Σ
−1
𝐇 𝑇 𝐲 (Ridge推定量と一致)
・ 𝛃の事前分布として、ラプラス分布を考えるとパラメータ
𝛃のMAP推定量はLASSO推定量と一致する
13

Bayesian Methods
ベイズ推論による平滑化の結果
・ 𝛃の事前分布として、多変量正規分布𝑁 0, 𝜏𝐼 を考えた場合
の平滑化結果
14

Calculation Techniques
in Model Inference
15

The EM Algorithm
EMアルゴリズムについて
・不完全なデータから最尤推定量を導くアルゴリズム
・ EMアルゴリズムが用いられるケース
・混合分布のパラメータ推定
・隠れマルコフモデルのパラメータ推定
・説明変数に欠損のあるデータでの最尤推定
・目的変数に欠損のあるデータでの最尤推定(半教師あり学習)
・罰則付き最尤法のパラメータ推定
・次の2つのステップを繰り返すことで尤度関数を最大化する
E-step: 観測データ𝑦と 𝜃 の暫定値が与えられた下で、完全デー
タの対数尤度の条件付期待値(Q関数)を計算するステップ
M-step: E-stepで求めたQ関数を最大化する𝜃を求めるステップ
16

The EM Algorithm
混合正規分布の例
・以下のような多峰性を持つデータの確率分布として、混合正規
分布がよく用いられる
17
𝑌1~N(μ1, Σ1)
𝑌2~N(μ2, Σ2)
𝑌 = 1 − ∆ ⋅ 𝑌1 + ∆ ⋅ 𝑌2
⇨ 𝑔 𝑌 𝑦 = 1 − 𝜋 𝜙 𝜃1
𝑦𝑖 + 𝜋𝜙 𝜃2
𝑦𝑖
where ∆∈ 0,1 with Pr ∆= 1 = 𝜋

The EM Algorithm
・観測データ𝑦𝑖(i = 1, … , N)が得られているときの対数尤度関数
𝑙 𝑍; 𝜃 =
𝑖=1
𝑁
𝑙𝑜𝑔[ 1 − 𝜋 𝜙 𝜃1
𝑦𝑖 + 𝜋𝜙 𝜃2
𝑦𝑖 ]
⇨ 𝑙 𝑍; 𝜃 の極値は陽に求められない
・そこで、潜在変数∆𝑖が仮に観測された場合の対数尤度
（完全対数尤度）を考えると
𝑙0 𝑍; 𝜃, ∆
=
𝑖=1
𝑁
[ 1 − ∆𝑖 𝑙𝑜𝑔𝜙 𝜃1
𝑦𝑖 + ∆𝑖 𝑙𝑜𝑔𝜙 𝜃2
𝑦𝑖 ] +
𝑖=1
𝑁
[ 1 − ∆𝑖 𝑙𝑜𝑔 1 − 𝜋 + ∆𝑖 𝑙𝑜𝑔𝜋]
⇨ 𝑙0 𝑍; 𝜃, ∆ の極値は陽に求めるられる
18

The EM Algorithm
・もちろん潜在変数∆𝑖は観測されていないので、完全対数尤度は
計算できない
⇨ データZ, パラメータ𝜃が与えられた元での条件付き期待値
(Expectation)で代用する
⇨ EM AlgorithmのE-stepに対応
・パラメータ𝜃はどう決める？
⇨ E-stepで求めた条件付き期待値が最大(Maximization)になる
𝜃′を見つける
⇨ EM AlgorithmのM-stepに対応
・この手続きをパラメータ𝜃が収束するまで交互に繰り返す
19

The EM Algorithm
・混合正規分布の例における具体的なアルゴリズムは以下の通り
20

The EM Algorithm
一般的なEMアルゴリズム
・一般的なEMアルゴリズムは以下の通り
21

The EM Algorithm
EMアルゴリズムの妥当性
𝑍: 観測データ, 𝑍 𝑚
: 欠損データ, 𝑇 = (𝑍, 𝑍 𝑚
) ,
𝜃′:更新パラメータ(変数), 𝜃 :更新前パラメータ(定数)
・(8.45)式から観測データに対する対数尤度関数は下記の通り
𝑙 𝜃′; 𝑍 = 𝑙0 𝜃′; 𝑇 − 𝑙1 𝜃′; 𝑍 𝑚 𝑍
= 𝐸[𝑙0 𝜃′; 𝑇 𝑍, 𝜃 − 𝐸 𝑙1 𝜃′; 𝑍 𝑚 𝑍 𝑍, 𝜃
= 𝑄 𝜃′
, 𝜃 − 𝑅 𝜃′
, 𝜃
・更新前後での尤度を比較すると
𝑙 𝜃′
; 𝑍 − 𝑙 𝜃; 𝑍 = 𝑄 𝜃′
, 𝜃 − 𝑄 𝜃, 𝜃 − [𝑅 𝜃′
, 𝜃 − 𝑅 𝜃, 𝜃 ]
・1項目はM-stepにより明らかに0以上
・2項目を評価すると
𝑅 𝜃′
, 𝜃 − 𝑅 𝜃, 𝜃 = −𝐸 𝑍 𝑚|𝑍,𝜃 log
𝑃𝑟 𝑍 𝑚 𝑍, 𝜃
𝑃𝑟 𝑍 𝑚
𝑍, 𝜃′
= −𝐾𝐿 𝑃𝑟 𝑍 𝑚
𝑍, 𝜃 , 𝑃𝑟 𝑍 𝑚
𝑍, 𝜃′
≤ 0
Hence, 𝑙 𝜃′
; 𝑍 − 𝑙 𝜃; 𝑍 ≥ 0 22

MCMC for Sampling from the Posterior
MCMCについて
・ベイズ推論において、解析的に導出が困難な事後分布をモンテ
カルロ法により求める方法
・定常分布が事後分布になるようなマルコフ連鎖を構成する
・Gibbsサンプラー(完全条件付分布からの逐次サンプリング)
・M-Hアルゴリズム(尤度比を用いた棄却法)
・他のアプリケーションとしては、数え上げ問題、分割表の確率
計算(Fisherの正確確率検定)など
23

Gibbsサンプラーについて
・同時分布の解析導出、もしくはサンプリングが困難だが、条件
付き分布からのサンプリングが容易な場合に有効なアルゴリズム
24

混合分布の例での具体的なアルゴリズム
25
事後分布の収束の様子

[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging

Similar to [The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging (20)

Recently uploaded

Recently uploaded (9)

[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging