6. 例として正則化項を持つ最小二乗誤差関数を考える
N
1 2 λ T
∑{
J(w) =
2 n=1
T
}
w φ (x n ) − tn + w w
2
J(w)のwについての勾配を零とおく
↓
wについて偏微分すると零
(6.2
→
6.3の式展開)
7. N
d
J(w) = ∑{w φ (x n ) − tn }φ (x n ) + λ w = 0
T
dw n=1
wについて整理
1 N
w=−
∑
λ n=1
T
{w φ (x n ) − tn }φ (x n )
N
∑
= anφ (x n ) = Φ a
T
(6.3)
n=1
8. 6.2の式に
w=Φtaを代入する
N
1 2 λ T
J(a) = ∑{a Φφ (x n ) − tn } + a ΦΦ a
T T
2 n=1 2
ここで t
=
(t1,
…
tN)T とおくと
N
1 1 1 T
∑tn = 2 (t1t1 + t2t2 +... + tntn ) = 2 t
t
2 n=1
2
9. Σが外れて式6.5となる
1 T 1 T λ T
J(a) = a ΦΦ ΦΦ a − a ΦΦ t + t t + a ΦΦT a
T T T T
2 2 2
N*N対象行列のグラム行列 K = ΦΦT を定義
要素は
K nm = φ (x n )T φ (x m ) = k(x n , x m )
↑
6.1
のカーネル関数を利用する。
10. 6.5にグラム行列を代入
(6.5→6.7)
1 T T 1 T λ T
J(a) = a KKa − a Kt + t t + a Ka
2 2 2
二乗誤差関数をパラメータベクトルとカーネル
関数で表現できた → 双対表現
11. さらに式6.4からwを消去してaについて解いた
−1
a
=
(
K
+
λ
I
N
)
t
を線形回帰モデルに代入
T T T −1
y(x) = w φ (x) = a Φφ (x) = k(x) (K + λ I N ) t
予測値カーネル関数(と訓練データt)だけで表
現できた。 → 双対表現