4. 4/74
指数型分布族
独立に同分布に従うデータの集合 X := {x1, . . . , xN } とそれに対応する
潜在変数の集合 Z := {z1, . . . , zN } があるとする.これらの同時分布が
自然パラメータ η を使った以下の指数型分布族で表せるとする.
p (X, Z|η) =
N
n=1
h (xn, zn) g (η) exp (η u (xn, zn)) . (10.113)
また η は共役事前分布
p (η|ν0, χ0) = f (ν0, χ0) g (η)
ν0
exp (ν0η χ0)
に従うものとする.
5. 5/74
指数型分布族について復習
第 2.4 節で指数型分布族とその共役事前分布について学んだ.次のよう
な形をした指数型確率分布
p (x|η) = h (x) g (η) exp (η u (x)) (2.194)
について
p (η|χ, ν) = f (χ, ν) g (η)
ν
exp (νη χ) (2.229)
という形の共役事前分布が存在する.データ X = {x1, . . . , xn} が与え
られたとき,尤度は
p (X|η) =
N
n=1
h (xn) g (η)
N
exp η
N
n=1
u (xn) (2.227)
となる.
6. 6/74
指数型分布族について復習
事後分布は
p (η|X, χ, ν) ∝ p (X|η) p (η|χ, ν)
∝ g (η)
ν+N
exp η
N
n=1
u (xn) + νχ (2.230)
と計算できる.この式から,事前分布のパラメータ ν は,有効な事前の
仮想観測値の数と解釈できる.ただし,仮想観測値では,十分統計量
u (x) の代わりに,χ が与えられる.
8. 8/74
KL タイバージェンスの最小化
f と g を確率密度関数とする.区間 (0, ∞) において log x ≤ x − 1 が成
り立つ.ここで x := f/g とすると f log g − f log f ≤ g − f となる.積
分の線型性と単調性から
X
f log gdµ −
X
f log fdµ ≤
X
gdµ −
X
fdµ
が成り立つ.確率密度関数の性質から X
fdµ = X
gdµ = 1 なので
X
f log gdµ ≤
X
f log fdµ
を得る.ほとんど確実に f = g のとき上式の等号が成り立つ.また等号
が成り立つのはそのときに限る.
9. 9/74
KL タイバージェンスの最小化の補足
[0, ∞] 値 M-可測関数 f について X
f (x) µ (dx) = 0 が成り立つなら
ば,µ ({x ∈ X ; f (x) = 0}) = 0 が成り立つ.
証明 En := {x ∈ X ; f (x) ≥ 1/n} とおくと
∞
n=1
En = {x ∈ X ; f (x) > 0}
である.仮定 X
f (x) µ (dx) = 0 と f (x) ≥ 0 から,任意の n について
0 =
X
f (x) µ (dx) ≥
En
f (x) µ (dx) ≥
1
n
µ (En) ≥ 0
となる.すなわち各 n で µ (En) = 0 が成り立つ.ゆえに測度の性質から
µ
∞
n=1
En ≤
∞
n=1
µ (En) = 0
であることが分かる.
32. 32/74
ロジスティックシグモイド関数の下からの評価
いま定義した f (v) = − log (2 cosh (
√
v/2)) は凸関数である.
df
dv
(v) = −
2 sinh (
√
v/2)
2 cosh (
√
v/2)
1
4
√
v
= −
1
4
√
v
tanh
√
v
2
d2
f
dv2
(v) = −
1
8v
√
v
tanh
√
v
2
+
1
4
√
v
1
cosh2
(
√
v/2)
1
4
√
v
=
1
16v
√
v cosh2
(
√
v/2)
2 sinh
√
v
2
cosh
√
v
2
−
√
v
=
sinh
√
v −
√
v
16v
√
v cosh2
(
√
v/2)
≥ 0
33. 33/74
ロジスティックシグモイド関数の下からの評価
念のため g (v) := sinh
√
v −
√
v が v ≥ 0 の範囲で非負であることを確
認する.導関数は
dg
dv
(x) =
cosh
√
v − 1
2
√
v
≥ 0
であり,sinh 0 − 0 = 0 であるから,確かにこの範囲では g (v) ≥ 0 が成
り立つ.
O
y = sinh
√
v −
√
v
v
y
34. 34/74
ロジスティックシグモイド関数の下からの評価
凸関数の性質から接線がグラフの下にくるので
f (v) ≥ f ξ2
+
df
dv
ξ2
v − ξ2
f x2
− f ξ2
≥ −
1
4ξ
tanh
ξ
2
x2
− ξ2
が成り立つ.教科書に合わせて λ (ξ) := (4ξ)
−1
tanh (ξ/2) と置く.上式
を使うと
log σ (x) − log σ (ξ) =
x
2
+ f x2
−
ξ
2
+ f ξ2
≥
x − ξ
2
− λ (ξ) x2
− ξ2
であり,両辺の指数をとって以下を得る.
σ (x) ≥ σ (ξ) exp
x − ξ
2
− λ (ξ) x2
− ξ2
. (10.144)
36. 36/74
どうやって使うのか
得られた不等式を積分計算に使ってみる.ロジスティックシグモイド関
数 σ とガウス確率密度 p について以下の積分
I = σ (a) p (a) da (10.145)
を計算したいとする.こういった計算は予測分布を求めるときに必要に
なる.不等式 σ (a) ≥ f (a, ξ) が成り立っているとすると (10.145) は
I ≥ f (a, ξ) p (a) da = F (ξ) (10.146)
と評価できる.もし F を最大化できれば I の良い近似になる.
37. 37/74
変分事後分布
ロジスティック回帰モデルに変分近似を使ってみる.目的変数は
t ∈ {0, 1} とし,表記を簡単にするため a = w φ とする.このとき尤度は
p (t|w) = σ (a)
t
(1 − σ (a))
1−t
=
1
1 + e−a
t
1 −
1
1 + e−a
1−t
=
1
1+e−a
1 − 1
1+e−a
t
1 −
1
1 + e−a
= eat e−a
1 + e−a
= eat
σ (−a) (10.148)
となる.
39. 39/74
変分事後分布
したがって観測値の系列 t が得られたとき
p (t, w) = p (t|w) p (w)
= p (w)
N
n=1
p (tn|w)
≥ p (w) h (w, ξ) , (10.152)
ただし
h (w, ξ) :=
N
n=1
σ (ξn) exp w φntn −
w φn + ξn
2
− λ (ξn) (w φn)
2
− ξ2
n (10.153)
となる.
40. 40/74
変分事後分布
(10.153) の対数をとると
log (p (t|w) p (w)) ≥ log p (w) + log h (w, ξ)
= log p (w) +
N
n=1
log σ (ξn) + w φntn
−
w φn + ξn
2
− λ (ξn) (w φn)
2
− ξ2
n (10.154)
となる.右辺に事前分布 p (w) = N (w|m0, S0) を代入すると
− (w − m0) S−1
0 (w − m0)
+
N
n=1
w φn tn −
1
2
− λ (ξn) w (φnφn) w + const. (10.155)
となる.
41. 41/74
変分事後分布
(10.155) の形から,変分事後分布 q (w)5
は適当なガウス分布
N (w|mN , SN ) で表せることが分かる.2 次の項に着目すると精度は
S−1
N = S−1
0 + 2
N
n=1
λ (ξn) φnφn
と分かる.1 次の項に着目すると平均 mN は
mN = SN S−1
0 m0 +
N
n=1
tn −
1
2
φn
である.つまり q (w) = N (w|mN , SN ) である.
こうして私達はラプラス近似のように事後分布のガウス分布近似を得
た.今回はさらに変分パラメータ {ξn}n が加わって柔軟になっているた
め,より高い精度が期待できる.
5 q (w) は同時確率 p (t, w) = p (t|w) p (w) を近似するもので,結果として事後分布 p (w|t)
を近似するものになるのだった.
42. 42/74
変分パラメータの最適化
変分事後分布が q (w) = N (w|mN , SN ) となることは分かった.平均
mN と分散 SN はどちらも ξ に依存しているので,ξ の最適化を考えな
ければならない.いつも通り周辺尤度の下からの近似を考えよう.
log p (t) = log p (t|w) p (w) dw
≥ log h (w, ξ) p (w) dw = L (ξ) (10.159)
この後の方法には二通りある.
1. w を潜在変数とみなして EM アルゴリズムを使う.
2. w に対する積分を計算し,ξ を直接最大化する.
まずは一つ目の EM アルゴリズムを使う方法から見ていく.
58. 58/74
超パラメータの推論
ベイズロジスティック回帰モデルにおいて今まで w を定める超パラ
メータ α は既知の定数としてきたが,α もデータから推測できたらうれ
しい.以下でその方法を説明する.
w の事前分布として,以下の等方ガウス分布を仮定する 6
.
p (w|α) = N w 0, α−1
I (10.165)
=
1
(2π)
M/2
|α−1I|
1/2
exp −
α
2
w w
=
α
2π
M/2
exp −
α
2
w w
6 w の次元が M であるという記述が見つけられなかったけど多分それであってるはず.
59. 59/74
超パラメータの推論
共役超事前分布 p (α) はガンマ分布
p (α) = Gamma (α|a0, b0) (10.166)
=
1
Γ (a0)
ba0
0 αa0−1
e−b0α
とする.
このモデルの周辺尤度は
p (t) = p (w, α, t) dwdα (10.167)
である.ただし
p (w, α, t) = p (t|w) p (w|α) p (α) (10.168)
である.
60. 60/74
超パラメータの推論
いつも通り周辺尤度の対数 log p (t) を以下のように分解する.
log p (t) = L (q) + KL (q p) . (10.169)
ここで
L (q) = q (w, α) log
p (w, α, t)
q (w, α)
dwdα (10.170)
KL (q p) = − q (w, α) log
p (w, α|t)
q (w, α)
dwdα (10.171)
である.このままでは L の最大化の計算が進められないので,またいつ
ものように下から近似する.
log p (t) ≥ L (q) ≥ L (q, ξ)
= q (w, α) log
h (w, ξ) p (w|α) p (α)
q (w, α)
dwdα (10.172)
71. 71/74
行列式の微分
A を n 次正則行列 A とし,その (i, j) 成分の余因子を
∆ij := (−1)
i+j
|Aij|,余因子行列を A = (∆ji)ij と表す.このとき第 i
行に関する余因子展開を行えば
d
dt
|A (t)| =
n
i=1
a1 (t)
...
˙ai (t)
...
an (t)
=
n
i=1
n
k=1
˙aik∆ik
となる.
tr A (t) ˙A (t) = tr
n
k=1
∆ki ˙akj
ij
=
n
i=1
n
k=1
∆ki ˙aki
なので (d/dt) |A (t)| = tr A (t) ˙A (t) を得る.
73. 73/74
跡と二次形式
公式 tr (Axx ) = x Ax を示す.そのために,まずは tr (AB) = tr (BA)
を示す.
tr (AB) =
m
i=1
n
k=1
aikbki
=
m
i=1
n
k=1
bkiaik
= tr (BA)
したがって
tr (Axx ) = tr (x (Ax))
= tr (x Ax)
= x Ax
が成り立つ.
74. 74/74
参考文献
Bogachev, V. I. (2007). Measure theory, volume 1. Springer
Science & Business Media.
Borwein, J. M. and Lewis, A. S. (2010). Convex analysis and
nonlinear optimization: theory and examples. Springer
Science & Business Media.
Golberg, M. (1972). The derivative of a determinant.
American Mathematical Monthly, page 1124–1126.
ビショップ, C. M. (2008). パターン認識と機械学習 下. シュプリン
ガージャパン.