PRML8章2. 目次
・8.1 ベイジアンネットワーク
- 8.1.1 例: 多項式曲線フィッティング
- 8.1.2 生成モデル
- 8.1.3 離散変数
- 8.1.4 線形ガウスモデル
・8.2 条件付き独立性
- 8.2.1 3つのグラフの例
- 8.2.2 有向分離(D分離)
・8.3 マルコフ確率場
- 8.3.1 条件付き独立性
- 8.3.2 分解特性
- 8.3.3 例: 画像のノイズ除去
- 8.3.4 有向グラフとの関係
・8.4 グラフィカルモデルにおける推論
- 8.4.1 連鎖における推論
- 8.4.2 木
- 8.4.3 因子グラフ
- 8.4.4 積和アルゴリズム
- 8.4.5 max-sumアルゴリズム
- 8.4.6 一般のグラフにおける厳密推論
- 8.4.7 ループあり確率伝搬
- 8.4.8 グラフ構造の学習
今回 次回or次々回
4. 確率の加法定理(周辺化)
(1.10)
1 1
1 1
1 0
1 0
1 1
0 1
0 0
0 0
0 1
0 1
X Y
二変量(X、Y)のデータのうち、Xの起きる確率は以下の二通りで求められる
(左は普通の計算、右はYについての周辺化)
(1: 事象が起きた
0 : 事象が起きない)
= 5 / 10
= 0.5
p(X, Y= 0)
= 2/10
p(X, Y= 1)
= 3/10
3/10 + 2/10 = 0.5
Yが起きた場合
1 1
1 1
1 0
1 0
1 1
0 1
0 0
0 0
0 1
0 1
X Y
Yが起きなかった場合
1 1
1 1
1 0
1 0
1 1
0 1
0 0
0 0
0 1
0 1
X Y
7. 共役事前分布
事後分布 尤度 事前分布
ベータ分布 二項分布 ベータ分布
正規分布 正規分布 正規分布
逆ガンマ分布 正規分布 逆ガンマ分布
ガンマ分布 ポアソン分布 ガンマ分布
ディリクレ分布 多項分布 ディリクレ分布
ベイズな手法は、パラメーターが
分布を持ち、さらにその分布のパ
ラメーターが分布を持ち…という
風に階層を増やしていける
幾らでも階層を作れる
(階層ベイズモデル)
時系列解析に使える
(データ同化)
t t+1 t+2
左のような尤度・事前分布の組み合わせ
は、事後分布が事前分布と同じ形になる
ので、どれだけモデルが複雑になっても、
事後分布を求める事ができる
(積分できる、計算がしやすい)
!
⇄ 最近はモデルが複雑になってもサンプ
リング(MCMC)で分布を求めようとい
うやり方も
10. ナイーブベイズ
ベイズの定理を分類器として使ったもの
例: スパムメールフィルタ
受信BOX
(C1 : カテゴリー1)
迷惑メール
(C2: カテゴリー2)
受信したメールの文面
グラビア
bag-of-words (D)
(例: 無料、ダウンロー
ド、 http://… )
・実際は分母は無視する
(大小関係には無関係)
・一度も出現しない単語は、
全体の確率を0にしてしまう
-> スムージング
http://qiita.com/aflc/items/13fe52243c35d3b678b0
http://www.slideshare.net/matuura/ss-8108633
(迷惑メール件数) / (全メール件数)
28. パラメーター数 : K2 - 1
離散変数
1-of-K符号化で書かれた多項分布(二つの状態を取る場合)
規格化のための制約
例: さいころA,Bで各々(3, 4)が出る確率
以下略…(36個パラメーターがある)
とりうる状態が増えると、パラメーターが指数的に増大してしまう
KM - 1状態数Mで 個
46. head-to-headの更に特殊な
性質(弁明)
図8.20
バッテリーの状態
{0:切れている,
1:充電されている}
燃料タンクの状態
{0:空,1:満タン}
電動燃料計
{0:空と示している,
1:満タンと示している}
p(B=1) = 0.9
p(F=1) = 0.9
p(G=1 ¦ B = 1, F = 1) = 0.8
p(G=1 ¦ B = 1, F = 0) = 0.2
p(G=1 ¦ B = 0, F = 1) = 0.2
p(G=1 ¦ B = 0, F = 0) = 0.1
p(B=0) = 0.1
p(F=0) = 0.1
p(G=0 ¦ B = 1, F = 1) = 0.2
p(G=0 ¦ B = 1, F = 0) = 0.8
p(G=0 ¦ B = 0, F = 1) = 0.8
p(G=0 ¦ B = 0, F = 0) = 0.9
事前にこういった情報が与えられているとする
50. 有向分離(D分離)
図8.22
A AC C
B B
ノードaとノードbは集合C(ノードe, f)で遮断できるか?
cが観測された場合 fが観測された場合
-> 遮断されない -> 遮断される
fがtail-to-tailで観測さ
れていない
eはhead-to-headだが、
子孫fがCに含まれる
fがtail-to-tailで観測
されている
eはhead-to-headで、
それ自身あるいはその
子孫が条件付き集合に
含まれない
59. クリーク
図8.29
無向グラフの分解特性は極大クリーク変数集合の関数にする事
クリーク : {x1, x2}, {x2, x3}, {x3, x4}, {x4, x2}
極大クリーク : {x1, x2, x3}, {x2, x3, x4}
{x1, x2, x3, x4}はクリークではない(x1 - x4間にリンクがない)
クリーク : 全てのノードの組にリンクが存在するグラフの部分集合
極大クリーク : もう一つを加えるとクリークでなくなってしまうようなクリーク
70. 乗法定理 2(n=6)
乗法定理 2 + 条件付き独立 (n=9)
乗法定理 1 + 独立(n=3)
全て独立(n=1)
乗法定理を使う
(このままではグラフ
として表現できない?)
乗法定理 1 + 独立 + 条件付き独立(n=6)
エッジ0個
エッジ1個
エッジ2個(head-to-tail, tail-to-tail)
エッジ2個(head-to-head)
エッジ3個(全結合)
ノード3つで式変形を片っ端から行った
番外編
ベイジアンネットワークの学習
72. 独立性について
番外編
ベイジアンネットワークの学習
0 0 0
0 0 0
0 0 0
0 0 0
1 0 0
1 0 0
1 1 0
1 1 0
1 1 1
1 1 1
a b c
P(a ¦ b, c) = P(a ¦ b)
P(a ¦ b, c) = P(a ¦ c)
P(b ¦ a, c) P(b ¦ a)
P(b ¦ a, c) = P(b ¦ c)
P(c ¦ a, b) P(c ¦ a)
P(c ¦ a, b) = P(c ¦ b)
P(a, b, c) P(a) P(b) P(c)
P(a, b) P(a) P(b)
P(b, c) P(b) P(c)
P(a, c) P(a) P(c)
条件付き独立性について
データによって成り立ったり、
成り立たなかったりする
73. 乗法定理 2(n=6)
乗法定理 2 + 条件付き独立 (n=9)
乗法定理 1 + 独立(n=3)
全て独立(n=1)
乗法定理 1 + 独立 + 条件付き独立(n=6)
エッジ0個
エッジ1個
エッジ2個(head-to-tail, tail-to-tail)
エッジ2個(head-to-head)
エッジ3個(全結合)
番外編
ベイジアンネットワークの学習
尤度を計算した
= 0.2
= 0.2
= 0.2
= 0.2
= 0.2
= 0.2
= 0.048
= 0.08
= 0.12
= 0.12
= 0.2
= 0.2
= 0.2
= 0.2
= 0.13...
= 0.13...
= 0.2
= 0.2
= 0.13...
= 0.08
= 0.08
= 0.08
= 0.12
= 0.08
= 0.12
75. 乗法定理 2 + 条件付き独立 (n=9)
乗法定理 1 + 独立(n=3)
乗法定理 1 + 独立 + 条件付き独立(n=6)
エッジ0個
エッジ1個
エッジ2個(head-to-tail, tail-to-tail)
エッジ2個(head-to-head)
番外編
ベイジアンネットワークの学習
= 0.08
= 0.12
= 0.12
= 0.2
= 0.2
= 0.2
= 0.2
= 0.13...
= 0.13...
= 0.2
= 0.2
= 0.13...
= 0.08
= 0.08
= 0.08
= 0.12
= 0.08
= 0.12
条件付き独立・独立はデータによって成り立ったり、成り立たなかっ
たりする
!
「同じ尤度を持つDAGは複数存在する可能性がある」
21世紀の統計科学 第2巻 第6章
生命システムネットワークを明らかにするための統計的モデリング