入門パターン認識と機械学習12章

入門パターン認識と機械学習
@hiro5585
Chapter 12
関連ベクトルマシン

目次
１．RVMの概要
２．グラフィカルモデルによるRVMの表現
３．尤度と事前確率について
４．周辺化尤度の最大化
５．更新式について
６．予測の方法について
2

SVMとRVM
サポートベクトルマシンも関連ベクトルマシンも識別境界を
引くための有効なベクトル（点）だけを保持することで
予測の際の計算量を小さくする
3
SVM RVM
確立時期：1963年
モデルのタイプ：識別関数
計算方法：マージン最大化
サポートベクターの数：中程度
計算量(予測時)：中程度
確立時期：2001年
モデルのタイプ：生成モデル
計算方法：尤度最大化
サポートベクターの数：少量
計算量(予測時)：少量

RVMの全体の流れ
１．予測したい値𝑦はカーネル回帰で表せる
２． 𝑦に対するカーネル回帰の式を確率で表現する
３．スパース化のため重み𝑎に対する事前確率を導入する
４．(周辺化)尤度を求めてそれが最大となる𝐴, 𝛽を求める
4
𝑦 = 𝒂 𝚻
𝐊 𝒙 + 𝜀
p(𝑦|𝑎, 𝑋, 𝐴, 𝛽) = Ν(𝑦 |𝒂 𝚻
𝐊 𝒙 , 𝛽−1
)
𝑎に対するハイパーパラメータ 𝜀に対するハイパーパラメータ
p(𝑎|𝐴) = Ν(𝑎 |0, 𝐴−1
)
𝛼 𝑘 =
𝑠 𝑘
2
𝑞𝑘
2
− 𝑠 𝑘
⋯ 𝑞𝑘
2
≥ 𝑠 𝑘
∞ ⋯ 𝑞𝑘
2
< 𝑠 𝑘
𝛽 =
𝑛 − 𝑖=0
𝑛
(1 − 𝛼𝑖Σ 𝑎
𝑖𝑖)
|𝑦 − 𝐺𝜇 𝑎|2
・・・12.14式
・・・12.21式
・・・12.17式
・・・12.44式・・・12.61式

計算の流れ(2/2)
４．要素𝑎 𝑘ごとに微分をするため尤度をばらす
５． 12.43式で偏微分を行い𝑎 𝑘の更新式を得る
６．尤度の各項ごとをβで偏微分する(12.56, 12.59式)
７．結果をまとめて(12.60式)、βの更新式を得る
6
L(A, β) =log|Σ/𝑘| + log(1 +
𝑠 𝑘
𝛼 𝑘
) + 𝑦 𝑇Σ/𝑘
−1
𝑦 −
𝑞 𝑘
2
𝛼 𝑘+𝑠 𝑘
・・・12.40式
𝛼 𝑘 =
𝑠 𝑘
2
𝑞𝑘
2
− 𝑠 𝑘
⋯ 𝑞𝑘
2
≥ 𝑠 𝑘
∞ ⋯ 𝑞𝑘
2
< 𝑠 𝑘
・・・12.44式
𝛽 =
𝑛 − 𝑖=0
𝑛
𝑖𝑖
)
|𝑦 − 𝐺𝜇 𝑎|2
・・・12.61式

目次
１．RVMの概要
7

グラフィカルモデル
確率変数間をグラフで表現したもの
可視化することで変数間の従属(独立)性が分かりやすくなる
8
a b c
p(a, b, c) = p(a) x p(b|a) x p(c|a, b)
a b c
p(a, b, c) = p(b) x p(a|b) x p(c| b)

RVMのグラフィカルモデル表現
重みのハイパーパラメータからカーネル関数の重みが生成
重み、データ、分散のハイパーパラメータから回帰値生成
9
a y
X
A
β
重みを制御する
ハイパーパラメータ
データ
回帰値の分散を制御する
カーネル関数の重み
回帰値
（クラス）
RVMモデル
観測できるものは
黒く塗りつぶす

目次
１．RVMの概要
12

尤度関数の意味(1/3)
ここで、yがRVMではどのように表現されていたかを考える
カーネル関数の重み付き和に誤差が加わったものが回帰値
グラム行列を用いて表現すると以下のようになる
13
𝑦 = 𝑗=0
𝑛
𝑎 𝑛 Κ 𝑥, 𝑥𝑗 + 𝜀
𝑦 = 𝒂 𝑻
𝐊 𝒙 + 𝜀

尤度と回帰式をもう一度眺めてみる
ε はN(ε|0, 𝛽−1)から生起している白色雑音
14
p(y|a, X, A, B) = Ν(y|aK(X), 𝛽−1
)
𝑦 = 𝒂 𝑻
𝐊 𝒙 + 𝜀

aK(X)を中心に分散𝛽−1で散らばった分布からyは生起する
15
p(y|a, X, A, β) = Ν(y|aK(X), 𝛽−1
)
p(y)
aK(X)
𝛽−1

事前確率の意味(1/3)
0を中心に分散𝛼−1の分布からaが生起する
つまり、重みaは0付近の値を取る
16
p(a|α) = Ν(a|0, 𝛼−1
)
p(a|α)
0
𝛼−1

このとき、αが∞の場合を考えると𝛼−1が0となる
17
p(a|α) = Ν(a|0, 𝛼−1
)
p(a|α)
0
𝛼−1

重みaが0になる確率が1となり対応するカーネルが無効化
事後確率最大化ではそのようなスパースなモデルを学習
18
p(a|α) = Ν(a|0, 0)
p(a|α)
0
1.0
𝑦 = 𝑗=0
𝑛
𝑎 𝑛 Κ 𝑥, 𝑥𝑗 + 𝜀
元の式

目次
１．RVMの概要
19

周辺化尤度の最大化
周辺尤度の対数をとり最大化を行う
Aのチューニングは𝛼0, 𝛼1, ⋯ , 𝛼 𝑛を個別に偏微分して求める
このとき、対象の𝛼𝑖以外は固定して求める
全ての𝛼𝑖が求まったら、𝛽で偏微分した値を使って𝛽を求める
これを、収束条件に達するまで繰り返す 22
L(A, β) = log p(y|X, A, β)
= log|Σ| + 𝑦 𝑇Σ−1 𝑦 + (定数)
Σ =
𝐼
𝛽
+ KA−1 𝐾 𝑇 A = 𝑑𝑖𝑎𝑔(𝛼0, 𝛼1, ⋯ , 𝛼 𝑛)
チューニング対象

目次
１．RVMの概要
23

ハイパーパラメータの更新式
更新式は以下の通り
24
𝛼 𝑘 =
𝑠 𝑘
2
𝑞𝑘
2
− 𝑠 𝑘
⋯ 𝑞𝑘
2
≥ 𝑠 𝑘
∞ ⋯ 𝑞𝑘
2
< 𝑠 𝑘
𝛽 =
𝑛 − 𝑖=0
𝑛
𝑖𝑖)
|𝑦 − 𝐺𝜇 𝑎|2

目次
１．RVMの概要
25

RVMによる予測方法
新しいデータｘが入ってきたときの回帰値𝑦を求める
点推定で回帰値を予測する場合は期待値を用いる
26
p(y|𝑥, X, y, A, β) = ∫ p(y|𝑥, a, β)× p(a|X, y, A, β) da
= Ν(a|𝜇 𝑎
𝑇 𝐤 𝑥 , 𝜎2(𝑥))
𝑦 = 𝜇 𝑎
𝑇 𝐤 𝑥
12.25式

入門パターン認識と機械学習12章

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (18)

Similaire à 入門パターン認識と機械学習12章

Similaire à 入門パターン認識と機械学習12章 (13)

入門パターン認識と機械学習12章