PRML8章

PRML 第8章
グラフィカルモデル
東京理科大学大学院薬学研究科薬科学専攻 (博士後期課程3年)
理科学研究所情報基盤センター 
バイオインフォマティクス研究開発ユニット (JRA)
!
露崎弘毅

目次
・8.1 ベイジアンネットワーク
- 8.1.1 例: 多項式曲線フィッティング
- 8.1.2 生成モデル
- 8.1.3 離散変数
- 8.1.4 線形ガウスモデル
・8.2 条件付き独立性
- 8.2.1 3つのグラフの例
- 8.2.2 有向分離（D分離）
・8.3 マルコフ確率場
- 8.3.1 条件付き独立性
- 8.3.2 分解特性
- 8.3.3 例: 画像のノイズ除去
- 8.3.4 有向グラフとの関係
・8.4 グラフィカルモデルにおける推論
- 8.4.1 連鎖における推論
- 8.4.2 木
- 8.4.3 因子グラフ
- 8.4.4 積和アルゴリズム
- 8.4.5 max-sumアルゴリズム
- 8.4.6 一般のグラフにおける厳密推論
- 8.4.7 ループあり確率伝搬
- 8.4.8 グラフ構造の学習
今回次回or次々回

確率の加法定理（周辺化）
(1.10)
1 1
1 1
1 0
1 0
1 1
0 1
0 0
0 0
0 1
0 1
X Y
二変量（X、Y）のデータのうち、Xの起きる確率は以下の二通りで求められる 
（左は普通の計算、右はYについての周辺化）
(1: 事象が起きた 
0 : 事象が起きない)
= 5 / 10
= 0.5
p(X, Y= 0)
= 2/10
p(X, Y= 1) 
= 3/10
3/10 + 2/10 = 0.5
Yが起きた場合
1 1
1 1
1 0
1 0
1 1
0 1
0 0
0 0
0 1
0 1
X Y
Yが起きなかった場合
1 1
1 1
1 0
1 0
1 1
0 1
0 0
0 0
0 1
0 1
X Y

確率の乗法定理
(1.11)
条件付き確率（Xが起きた時にYが起きる確率） 
は以下のように定義される
両辺に p(X)
1 1
1 1
1 0
1 0
1 1
0 1
0 0
0 0
0 1
0 1
X Y
言葉の通りに計算すると、
「Xが起きた(5)時に、
Yが起きる(3)確率は、3/5」
!
p(Y¦X) = n(X, Y) / n(X)
= (n(X, Y) / N) / (n(X) / N)
= p(X, Y) / p(X)
Xに条件づけられた確率
Xが 
起きた時

ベイズの定理
条件付き確率
分母は、加法定理、 
乗法定理から更に変形できる
(1.12)
ベイズの定理
（離散量Ver）
分母は定数だから
ベイズの定理
（連続量Ver）
尤度事前確率事後確率

共役事前分布
事後分布尤度事前分布
ベータ分布二項分布ベータ分布
正規分布正規分布正規分布
逆ガンマ分布正規分布逆ガンマ分布
ガンマ分布ポアソン分布ガンマ分布
ディリクレ分布多項分布ディリクレ分布
ベイズな手法は、パラメーターが
分布を持ち、さらにその分布のパ
ラメーターが分布を持ち…という
風に階層を増やしていける
幾らでも階層を作れる
（階層ベイズモデル）
時系列解析に使える
（データ同化）
t t+1 t+2
左のような尤度・事前分布の組み合わせ
は、事後分布が事前分布と同じ形になる
ので、どれだけモデルが複雑になっても、
事後分布を求める事ができる
（積分できる、計算がしやすい）
!
⇄ 最近はモデルが複雑になってもサンプ
リング（MCMC）で分布を求めようとい
うやり方も

互いに独立とは
かけ算に分けられるという事
(2つの変数の同時分布がその周辺の積に分解できる事, 上巻p17)
P(A, B) = P(A) P(B)
例: データが同じ分布から独立にとられたとする仮定（i.i.d.）
(1.60)
(1.61)
ベクトル要素の積として表現できる
P(t¦x,w,β) = N(t¦y(x,w), β-1)

1-of-K符号化法
K個の状態を取りうる離散変数を扱う際に用いられる
要素の一つxkのみが1で他を0とする
x = (0,0,1,0,0,0)T
例: さいころの目が3だった時

ナイーブベイズ
ベイズの定理を分類器として使ったもの
例: スパムメールフィルタ
受信BOX
(C1 : カテゴリー1)
迷惑メール
（C2: カテゴリー2）
受信したメールの文面
グラビア
bag-of-words (D)
(例: 無料、ダウンロー
ド、 http://… )
・実際は分母は無視する
（大小関係には無関係）
・一度も出現しない単語は、
全体の確率を0にしてしまう
-> スムージング
http://qiita.com/aﬂc/items/13fe52243c35d3b678b0
http://www.slideshare.net/matuura/ss-8108633
(迷惑メール件数) / (全メール件数)

その他
確率変数
X
観測値
Pr(X = x)
・確率的に値をとる変数
・大文字で書く
・パラメータで値が決まる関数
・実際にとりうる値
・小文字で書く
パラメーター
X ∼ Binom(n, p)
・実際にとりうる値
・斜字体、ギリシャ文字とか?

第8章グラフィカルモデル

グラフ
ノード（node）、頂点（vertex）
リンク（link）、辺（edge）、弧（arc）
ノードの集合とエッジの集合で構成されるもの（Wikipedia）

確率変数
確率変数間の関係
確率変数間の関係性をグラフで表現したもの

有向グラフィカルモデル
（例:ベイジアンネットワーク）
無向グラフィカルモデル
（例: マルコフ確率場）
因果関係
緩い束縛関係
(相関とか?)

ベイジアンネットワーク
3変数a,b,cの同時確率p(a,b,c)を考える
同時分布p(a,b,c)は乗法定理で以下のように分解できる
(8.1)
(8.2)
また同時分布p(a,b)は乗法定理で以下のように分解できる

ベイジアンネットワークはこの確率変数間の因果関係を 
グラフで表現したもの
(8.2)
1. aが起きて…
2. aが起きることで
bが起きて…
3. a, bが起きる
ことでcが起きる
図8.1
aはbの親ノード、
bはaの子ノード
という

例: K=5の時の全結合グラフ
(8.3)
乗法定理を繰り返し適用する事で、同時分布は各変数上の条件付き
分布の積として書ける（全結合）
x1 x2 x3 x4 x5
自分よりも小さい番号がふられたすべてのノードから 
向かってくるリンクをもつ

図8.2
(8.4)

一般系で書くと
(pak : xkの親ノードの集合)
この式は同時分布の分解特性を表現したという
ベイジアンネットワークは有向閉路を持たない 
有向非循環グラフ（DAG: Directed acyclic graph）
とか
みたいなループ構造が無いという事
（自然現象ではよくあるけど）
(8.5)

グラフィカルモデルの書き方
1.2.6節のベイズ多項式回帰モデル
(N変量のデータから、yを予測する)
多項式係数ベクトル
観測データ
入力データ
ノイズの分散
ガウス事前分布の精度
（超パラメーター）
確率変数
（パラメーターで値が変わる）
パラメーター
（定数）
sinカーブ
図1.17
太字のx,tは訓練データ、
細字のx,tはテストデータ

確率変数にだけ注目した書き方(1.61のシンプル版)
(8.6)
N個のノードは左のように
まとめて書いてもよい
プレート
図8.3
図8.4

パラメーターも明示的に含んだ書き方
(8.7)
図8.5 図8.6
学習データを入れている事を
示す場合は、塗りつぶす
パラメータは小さい点で書く
観測されない隠れ変数はそのまま
（-> 第9, 12章 EMアルゴリズム）

生成モデル
観測データが生成される因果仮定を表現したモデル
人口的なデータを生成できる
例: 伝承サンプリング 
（上位ノードから順に値を決めていくというだけ）
図8.5は生成モデルでは無い
xnは値が既に決まっているから
xnの事前分布が必要
図8.5
?
2
1
2
3

有向グラフの親子対が共役関係になる分布であると、良い性質をもつ
（多分解析的に積分が解けるとか、モデルが複雑にならないとか）
!
特に重要なのが以下の二つで、これらは階層的に拡張して、 
任意の複雑なDAGが構築できる
離散変数離散変数
ガウス変数ガウス変数

離散変数
(8.9)
1-of-K符号化で書かれた多項分布
例: さいころで3が出る確率
パラメーター数 : K - 1
規格化のための制約

パラメーター数 : K2 - 1
離散変数
1-of-K符号化で書かれた多項分布（二つの状態を取る場合）
規格化のための制約
例: さいころA,Bで各々(3, 4)が出る確率
以下略…(36個パラメーターがある)
とりうる状態が増えると、パラメーターが指数的に増大してしまう
KM - 1状態数Mで個

離散変数
乗法定理を用いると、P(x1,x2) = P(x2¦x1) P(x1)
これは図8.9の(a)
図8.9
変数がM個だと、パラメーター数は
M(K - 1)
でMについて線形
パラメーター数 : K2 - 1
パラメーター数 : 2(K - 1)

離散変数
リンクを除去するとパラメーターを減らせる
全結合全てが独立
パラメーター数 
M(K - 1)
パラメーター数
KM - 1
パラメーター数
K - 1 + (M - 1) K (K - 1)
K状態の連鎖
図8.10
x1 x2 xM x1 x2 xM

離散変数
パラメータを共有する事（sharing, tyling） 
でもパラメーターは減らせる
図8.11
図8.12
図8.10のモデルの事前分布として
ディリクレ分布を導入したもの
更に1つのパラメーターuが全ての
条件付き分布に共有される場合
K2 - 1
2?

離散変数
条件付き分布として、パラメトリックモデ
ルを用いる事でもパラメーターは減らせる
図8.13
M個の親ノードと一つの子ノード
（共に二値変数とする）そのままだとパラメーター数 : 2M
(8.10)
親変数の線形結合を入力とする 
ロジスティックシグモイド関数を利用
パラメーター数 : M + 1

線形ガウスモデル
(8.11)
確率的主成分分析、因子分析、線形動的システム 
などで利用されているらしい
平均
pai
分散 : vi
xi
全てのノードの同時分布の対数は
（8.5, 一般系のベイジアンネットワークより）
(8.12)
(8.13)?
j
biwi
xj

平均 : u, 分散 :σ2の正規分布
自然対数をとる(expが消える）
あとはuに
σ2に
を代入すれば8.13になる
vi

8.13はxの成分に関する2次関数なので、p(x)はD次元正規分布(?)
(8.14)
この時、期待値と分散は再帰的に求まる
(8.15)
(8.16)

リンクが一つもないD個のノード全結合グラフ
wij : 0個
bi : D個
vi : D個
wij : (D/(D-1))/2個
bi : D個
vi : D個
x1
b1 v1
x2
b2 v2
x3
b3 v3
x4
b4 v4
x1
b1 v1
x2
b2 v2
x3
b3 v3
x4
b4 v4

中間的なグラフ（例: 図8.14)
wij : D - 1個
bi : D個
vi : D個
x1
b1 v1
x2
b2 v2
x3
b3 v3
x4
b4 v4

ガウス分布の共役事前分布はガウス分布
!
ガウス変量の平均をガウス分布とする（事前分布）
=> ガウス分布の平均値は超パラメーター
=> 超パラメーターがガウス分布だとする…（超事前分布）
!
=> 階層ベイズモデル 
（何階層でもモデルを拡張・複雑化できる）

条件付き独立性
(8.20)
bがあってもなくてもaの条件付き確率に影響を与えない
これをcが与えられた下で、aはbに対して条件付き独立であるという
cに対してaとbが条件付き独立とは以下のように書く
(8.21)
(8.22)
条件付き独立性が示せるとリンクを減らせる
a
c
b
a
c
b

可能性のある全ての条件付き独立性を調べれば、リンクは減らせる
=> 実際には、計算量が膨大
=> グラフの形だけで独立かどうか判断が可能（d-separationという枠組み）
条件付き独立性
以降はまず3つのノードの簡単なグラフで説明する

3つのグラフの例①
a
b
c
tail-to-tail
cに対して周辺化
これはp(a) p(b)という形には変形できない
（独立ではない）
cで条件付ける
p(a¦c) p(b¦c)という形に変形できた（条件付き独立、block）
(8.23)
(8.24)tail
tail

3つのグラフの例②
a
b
c
head-to-tail
これはp(a) p(b)という形には変形できない
（独立ではない）
cで条件付ける
p(a¦c) p(b¦c)という形に変形できた（条件付き独立、block）
(8.26)

3つのグラフの例③
a
b
c
head-to-head
これはp(a) p(b)という形に変形できた（独立）
(8.28)
確率の総和は1だから

3つのグラフの例③
a
b
c
head-to-head
cで条件付ける
p(a¦c) p(b¦c)という形に変形できない（unblock）
(8.28)

3つのグラフの例（まとめ）
グラフの形 cで周辺化 cで条件付け
tail-to-tail 独立ではない
条件付き独立
（block）
head-to-tail 独立ではない
条件付き独立
（block）
head-to-head 独立
独立ではない 
（unblock）

head-to-headの更に特殊な
性質（弁明）
図8.20
バッテリーの状態
{0:切れている, 
1:充電されている}
燃料タンクの状態
{0:空,1:満タン}
電動燃料計
{0:空と示している,
1:満タンと示している}
p(B=1) = 0.9
p(F=1) = 0.9
p(G=1 ¦ B = 1, F = 1) = 0.8
p(G=1 ¦ B = 1, F = 0) = 0.2
p(G=1 ¦ B = 0, F = 1) = 0.2
p(G=1 ¦ B = 0, F = 0) = 0.1
p(B=0) = 0.1
p(F=0) = 0.1
p(G=0 ¦ B = 1, F = 1) = 0.2
p(G=0 ¦ B = 1, F = 0) = 0.8
p(G=0 ¦ B = 0, F = 1) = 0.8
p(G=0 ¦ B = 0, F = 0) = 0.9
事前にこういった情報が与えられているとする

性質（弁明）
何も観測されていないとき燃料タンクが空である確率は
!
p(F=0) = 0.1
燃料計が空を指しているという事実を観測した時の
燃料タンクが空である確率は（ベイズの定理より）
少し確率が高まっている！
確率が低くなる！
さらに、バッテリーが切れている事実を観測し
た時の燃料タンクが空である確率は
図8.21

性質（弁明）
さらに子孫ノードのいずれかが観測されても
燃料タンクが空になる確率は変化する
!
子孫ノード
が0

有向分離（D分離）
リンクを遮断する時の法則、今までの話をノード集合にまで拡張したもの?
（グラフの形だけでわかる）
(a) 集合Cに含まれるノードであって、経路に含まれる
矢印がそこでhead-to-tailあるいはtail-to-tailである
(b) 経路に含まれる矢印がそのノードでhead-to-headであり、
自身あるいはそのすべての子孫のいずれもが集合Cに含まれない
CA B CA B
CA B
あらゆるA-C-Bの経路が遮断されていれば、
集合Aは集合Cにおいて集合Bと条件付き独立

図8.22
A AC C
B B
ノードaとノードbは集合C（ノードe, f）で遮断できるか?
cが観測された場合 fが観測された場合
-> 遮断されない -> 遮断される
fがtail-to-tailで観測さ
れていない
eはhead-to-headだが、
子孫fがCに含まれる
fがtail-to-tailで観測
されている
eはhead-to-headで、
それ自身あるいはその
子孫が条件付き集合に
含まれない

図8.5のモデルの有向分離性
パラメーターは観測済みノードと同じ
& 親ノードが無い
-> 他のノードとのつながりは必ず、tail-to-tailになる
-> 有向分離性に影響しない
1.2.4節のi.i.d.データの有向分離性
図8.23
パラメーターuはtail-to-tail
-> uに値を入力したら、あらゆる子ノード間で独立
-> i.i.d.
uを積分消去した場合、観測値は独立ではない
(8.35)

図8.7のモデルの有向分離性
(8.36)

ナイーブベイズの有向分離性
図8.24
例: bag-of-words
例: {受信BOX、迷惑メール}
zが観測されると、あらゆる
xノード間は独立

有向分離定理
1. 有向分解 
（乗法定理を繰り返し適用して得た、条件付き確率分布）
!
2. 有向分離
（条件付き独立を繰り返し適用して得た、条件付き確率分布）
以下の二つは同じ分布を得る

マルコフブランケット
xiが起きる確率を、xi以外の全てのノードで条件付けた分布で考える
分母をxiで周辺化する
条件付き確率の積にする
xiに依存しないノードの条件付き確率は
分子と打ち消し合う（次頁）?
あるノードの条件付き独立性を考える時の最小単位

マルコフブランケット
図8.26
つまり、xiの条件付き独立を考える時、
1) 親、子
2) 共同親
だけを考えれば良い
親
子
共同親A B
C
D E
F G
結局Cの条件付き確率P(C¦A,B)と、
Cの子ノードの条件付き確率P(D¦C,F)やP(E¦C,G)だけ残る
Cを含まない項は全部消える！

無向グラフ（マルコフ確率場）
無向グラフは条件付き独立を考えるのが簡単
図8.27
集合Cを取り除いてA-B間の経路が無くなるなら条件付き独立
図8.28
無向グラフはマルコフブランケットも簡単
隣接ノードだけ考えれば良い

無向グラフ（マルコフ確率場）
無向グラフの分解特性（これまで乗法定理を繰り返
し適用していたもの）は以下のように定式化される
(8.38)
xi, xj以外の全てのノードを取り除い
た時の同時確率
よりと書くことも
各々の確率に分割できるなら、x{i,j}
においてxi、xjは条件付き独立

クリーク
図8.29
無向グラフの分解特性は極大クリーク変数集合の関数にする事
クリーク : {x1, x2}, {x2, x3}, {x3, x4}, {x4, x2}
極大クリーク : {x1, x2, x3}, {x2, x3, x4}
{x1, x2, x3, x4}はクリークではない(x1 - x4間にリンクがない)
クリーク : 全てのノードの組にリンクが存在するグラフの部分集合
極大クリーク : もう一つを加えるとクリークでなくなってしまうようなクリーク

ポテンシャル関数
極大クリークを引数としたポテンシャル関数
の積に分解する
どんな関数にするかは言及しない
基本的に総和は1にならない
-> 規格化定数（分配関数）を導入
-> 計算は大変

画像のノイズ除去の例
元のピクセル
ランダムに反転したピクセル
元画像
10%のピクセルを
ランダムに反転
ICMによる復元
グラフカット 
アルゴリズム 
による復元
(8.41)
(8.42)
(8.43)
図8.31

有向->無向の変換
図8.32のような簡単な場合
有向グラフ(a)
無向グラフ(b)
以下のような対応づけができる

有向->無向の変換
図8.33のような場合
親同士をリンクで結ぶ（モラル化）
1. 向きを無くす
2. モラル化する
3. 規格化する
-> ジャンクションツリーアルゴリズム(8.4)

生物の細胞
遺伝子間が相互作用のネットワーク
を形成している
geneX geneY
Protein
X
Protein
Y
様々な実験での遺伝子発現データ
とりうる可能性高い遺伝子ネットワーク 
を探索（MAP推定）
データからこれを推定したい
実験
遺伝子
more
番外編
ベイジアンネットワークの学習

→ 近似的に求めるアルゴリズムが開発される
http://www.scls.riken.jp/scruise/software/sign-bn.html
番外編

こういう、ネットワーク構造は未知でデータから推定するアプローチは 
ベイジアンネットワークの学習とか推論というらしい
（8.4.8で紹介だけしている）
SiGN-BN : スパコン「京」で計算するソフトウェア
自分の修論の内容
Rのbnlearnパッケージ（CBRCのBlue Gene上で実行）
http://sign.hgc.jp/signbn/index_ja.html
番外編

番外編
どのグラフが良いか決める基準
尤度、情報量基準（AIC, BIC: 尤度&パラメーター数）、
MAP推定（尤度事前分布）…
データを元に、最も最適と思われるグラフ構造を探索する
データ
グラフ
1 0 0
1 1 0
1 0 1
0 1 0
1 0 1
0 0 0
1 1 0
0 0 0
1 1 1
0 0 1
a b c
b
a
c
b
a
c
b
a
c

データからグラフ構造を推定したい場合、単純な式変
形をしただけだと、数学的に等しいので、結局最適な
グラフ構造を決定できないのでは（勉強会での議論）
!
=> 実際にやってみた
番外編

http://www.scls.riken.jp/scruise/wp-content/uploads/sites/
3/2013/12/SIGN_HGC_Seminar_Tamada201302.pdf
http://en.wikipedia.org/wiki/Directed_acyclic_graph
ノード数の増加に対する
取りうるDAG数
番外編
3ノードなら手計算でいけそう

乗法定理 2(n=6)
乗法定理 2 + 条件付き独立 (n=9)
乗法定理 1 + 独立(n=3)
全て独立(n=1)
乗法定理を使う
（このままではグラフ
として表現できない?）
乗法定理 1 + 独立 + 条件付き独立(n=6)
エッジ0個
エッジ1個
エッジ2個(head-to-tail, tail-to-tail)
エッジ2個(head-to-head)
エッジ3個(全結合)
ノード3つで式変形を片っ端から行った
番外編

試しに、以下のような簡単な{0,1}データを用いる
またここでは単純に尤度のみでグラフの善し悪しを判定する
番外編
0 0 0
0 0 0
0 0 0
0 0 0
1 0 0
1 0 0
1 1 0
1 1 0
1 1 1
1 1 1
a b c
P(a) = 3/5
P(b) = 2/5
P(c) = 1/5
!
P(a, b) = 2/5
P(b, c) = 1/5
P(a, c) = 1/5
P(a, b, c) = 1/5
P(a ¦ b, c) = 1
P(b ¦ a, c) = 1
P(c ¦ a, b) = 1/2
!
P(a ¦ b) = 1
P(a ¦ c) = 1
P(b ¦ a) = 2/3
P(b ¦ c) = 1
P(c ¦ a) = 1/3
P(c ¦ b) = 1/2

独立性について
番外編
0 0 0
0 0 0
0 0 0
0 0 0
1 0 0
1 0 0
1 1 0
1 1 0
1 1 1
1 1 1
a b c
P(a ¦ b, c) = P(a ¦ b)
P(a ¦ b, c) = P(a ¦ c)
P(b ¦ a, c) P(b ¦ a)
P(b ¦ a, c) = P(b ¦ c)
P(c ¦ a, b) P(c ¦ a)
P(c ¦ a, b) = P(c ¦ b)
P(a, b, c) P(a) P(b) P(c)
P(a, b) P(a) P(b)
P(b, c) P(b) P(c)
P(a, c) P(a) P(c)
条件付き独立性について
データによって成り立ったり、 
成り立たなかったりする

乗法定理 2(n=6)
全て独立(n=1)
エッジ0個
エッジ1個
番外編
尤度を計算した
= 0.2
= 0.2
= 0.2
= 0.2
= 0.2
= 0.2
= 0.048
= 0.08
= 0.12
= 0.12
= 0.2
= 0.2
= 0.2
= 0.2
= 0.13...
= 0.13...
= 0.2
= 0.2
= 0.13...
= 0.08
= 0.08
= 0.08
= 0.12
= 0.08
= 0.12

乗法定理 2(n=6)
番外編
= 0.2
= 0.2
= 0.2
= 0.2
= 0.2
= 0.2
乗法定理で変形したものはグラフ構造は違うのにも関わらず尤度は等しい
b
a
c
b
a
c
b
a
c
b
a
c
b
a
c
b
a
c

エッジ0個
エッジ1個
番外編
= 0.08
= 0.12
= 0.12
= 0.2
= 0.2
= 0.2
= 0.2
= 0.13...
= 0.13...
= 0.2
= 0.2
= 0.13...
= 0.08
= 0.08
= 0.08
= 0.12
= 0.08
= 0.12
条件付き独立・独立はデータによって成り立ったり、成り立たなかっ
たりする
!
「同じ尤度を持つDAGは複数存在する可能性がある」
21世紀の統計科学第2巻第6章
生命システムネットワークを明らかにするための統計的モデリング

PRML8章

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (19)

Similaire à PRML8章

Similaire à PRML8章 (6)

Plus de 弘毅露崎

Plus de 弘毅露崎 (20)

PRML8章

PRML8章

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (19)

Similaire à PRML8章

Similaire à PRML8章 (6)

Plus de 弘毅 露崎

Plus de 弘毅 露崎 (20)

PRML8章

Plus de 弘毅露崎

Plus de 弘毅露崎 (20)