Contenu connexe
Similaire à 入門パターン認識と機械学習12章 (13)
入門パターン認識と機械学習12章
- 5. 計算の流れ(1/2)
1.同時確率を求める
2.重み𝑎を積分消去して𝑦の尤度を求める
3.周辺化尤度の式を求める
5
p(y, 𝑎|X, A, B) = Ν(y|𝑎K(X), 𝛽−1)×Ν(𝑎 |0, 𝐴−1)
p y|X, A, 𝛽 = ∫ p(y, 𝑎 |X, A, β) d𝑎 = Ν(y|0, Σ)・・・12.32式
・・・12.22式
L(A, β) = log|Σ| + 𝑦 𝑇Σ−1 𝑦 + (定数) ・・・12.34式
- 6. 計算の流れ(2/2)
4.要素𝑎 𝑘ごとに微分をするため尤度をばらす
5. 12.43式で偏微分を行い𝑎 𝑘の更新式を得る
6.尤度の各項ごとをβで偏微分する(12.56, 12.59式)
7.結果をまとめて(12.60式)、βの更新式を得る
6
L(A, β) =log|Σ/𝑘| + log(1 +
𝑠 𝑘
𝛼 𝑘
) + 𝑦 𝑇Σ/𝑘
−1
𝑦 −
𝑞 𝑘
2
𝛼 𝑘+𝑠 𝑘
・・・12.40式
𝛼 𝑘 =
𝑠 𝑘
2
𝑞𝑘
2
− 𝑠 𝑘
⋯ 𝑞𝑘
2
≥ 𝑠 𝑘
∞ ⋯ 𝑞𝑘
2
< 𝑠 𝑘
・・・12.44式
𝛽 =
𝑛 − 𝑖=0
𝑛
(1 − 𝛼𝑖Σ 𝑎
𝑖𝑖
)
|𝑦 − 𝐺𝜇 𝑎|2
・・・12.61式
- 10. RVMの確率的表現(1/2)
10
a y
X
A
β
重みを制御する
ハイパーパラメータ
データ
回帰値の分散を制御する
ハイパーパラメータ
回帰値
(クラス)
RVMモデル
p(a|X, y, A, β) = p(y, a|X, A, β) / p(y)
∝ p(y, a|X, A, β)
= p(y|a, X, A, β) x p(a|A)
事後確率
尤度 事前確率
ベイズの定理
・・・同時確率
事後確率と同時確率は
比例の関係を持つ
カーネル関数の重み
- 20. エビデンス近似(1/2)
しかしながら、事後確率のパラメータを求めるのは難しい
そこで、方針を転換して事後確率に比例している
同時確率について計算をややこしくしてるaを積分消去する
20
p(a|X, y, A, β)∝Ν(a|μ, Σ)
事後確率
p(y, a|X, A, B) = p(y|a, X, A, β) x p(a|X, A, B)
= p(y|a, X, B) x p(a|A)
= Ν(y|aK(X), 𝛽−1
) x Ν(a|0, 𝐴−1
)
同時確率
- 21. エビデンス近似(2/2)
同時確率について計算をややこしくしてるaを積分消去
そうすると、周辺化した尤度が出てくる
計算すると周辺化尤度はガウス分布になっている
このように、パラメータを積分消去して周辺化尤度を求める
ことをエビデンス近似という
周辺尤度を最大化するようなハイパーパラメータを求める
21
∫ p(y, a|X, A, β) da = ∫ Ν(y|aK(X), 𝛽−1
) x Ν(a|0, 𝐴−1
) da
= Ν(y|0, Σ)
∫ p(y, a|X, A, β) da = p(y|X, A, β)
周辺尤度
- 22. 周辺化尤度の最大化
周辺尤度の対数をとり最大化を行う
Aのチューニングは𝛼0, 𝛼1, ⋯ , 𝛼 𝑛を個別に偏微分して求める
このとき、対象の𝛼𝑖以外は固定して求める
全ての𝛼𝑖が求まったら、𝛽で偏微分した値を使って𝛽を求める
これを、収束条件に達するまで繰り返す 22
L(A, β) = log p(y|X, A, β)
= log|Σ| + 𝑦 𝑇Σ−1 𝑦 + (定数)
Σ =
𝐼
𝛽
+ KA−1 𝐾 𝑇 A = 𝑑𝑖𝑎𝑔(𝛼0, 𝛼1, ⋯ , 𝛼 𝑛)
チューニング対象
- 26. RVMによる予測方法
新しいデータxが入ってきたときの回帰値𝑦を求める
点推定で回帰値を予測する場合は期待値を用いる
26
p(y|𝑥, X, y, A, β) = ∫ p(y|𝑥, a, β)× p(a|X, y, A, β) da
= Ν(a|𝜇 𝑎
𝑇 𝐤 𝑥 , 𝜎2(𝑥))
𝑦 = 𝜇 𝑎
𝑇 𝐤 𝑥
12.25式