Probabilistic Graphical Models 輪読会 #1

Probabilistic Graphical Models
輪読会 #1
概論
16/05/14
東京工業大学 4年
八木拓真(@t_Signull)
Probabilistic Graphical Models 輪読会 #1 1

自己紹介
八木拓真
東京工業大学情報工学科 4年
統計的パターン認識、動画認識
WBA若手の会関東支部代表
興味の方向：AGIの工学的実現
去年やった研究：
『人物動作系列からの「動作素」の自動抽出』
@t_Signull

今回読む本
D.Koller & N. Friedman
Probabilistic Graphical Models:
Principles and Techniques
(2009)
• グラフィカルモデルの00年代までの
進展を取り纏めた名著
• Coursera創設者、Daphne Koller先
生らが執筆
• 1200ページという圧巻の分量に加え、
多量のtypoと非直感的な数式が我々
を苦しめる

グラフィカルモデル
マルコフ確率場多項式回帰
HDP-HMM
LDA(Latent Dirichlet Allocation)
4

ロボットの言語獲得のモデル [Taniguchi+ 15]

グラフィカルモデルでない
ニューラルネットワーク
決定木
0.8
0.2
0.80.2
状態遷移図

なぜグラフィカルモデル？
Probabilistic Graphical Models 輪読会 #1
言語処理
7
統計学
統計分析
符号理論
コンピュータ
ビジョン
グラフ理論
機械学習
1つの学問分野に囚われない、普遍の理論
統計的因果推論認知科学
人工知能

今日の内容
• 第1章 Introduction
– 本書の構成
– GMの3要素
• 第2章 Foundations
– 確率論
– グラフ理論
• グラフィカルモデル概観
– ベイジアンネットと無向グラフィカルモデル
– ベイジアンネット(BN)入門

第１章
Introduction

今日の内容
– 本書の構成
– GMの3要素
– 確率論
– グラフ理論

動機(1.1)
• 多くのタスク(作業)は、推論能力を必要とする
• 推論(reasoning)とは、(多くの場合限られた)情
報からある結論を導くこと
• 例えばロボットは、様々な種類のセンサ情報か
ら自らがどの地点にいるのかを把握し、障害物
と衝突しないようにゴールに向かう軌道を考え
なければならない
→決定的なプログラムで書けなくはないが、しば
しば柔軟性・汎用性に欠ける

本書のアプローチ
• 本書では、問題の解決を知識(の表現)と推論の2
段階に分離→宣言的(declarative)表現の導入
• タスク別に宣言的表現さえ導入すれば、その推論
はドメイン非依存で行えるのではないか
→知識と推論の分離
宣言的表現
𝑋1
𝑋2
𝑋3
𝑋4
実世界の
問題
共通の推論アルゴリズム

不確定性(Uncertainty)を扱う
• 実世界において不確定性は原則回避できない
• 私たちが観察から得る情報はしばしば
(1) 不完全で
(2) ノイズが混じっていて
(3) 情報同士の関係性はさらに不明瞭
である
• 不確定性は、私たちが不完全な観察、不完全なモデ
ル化しかできないことによって引き起こされる
→私たちが結論を下すためには、複数の可能性を考え、
かつその中で最も可能性の高いものを推論する必要が
ある

確率を使う
• 不確定性を扱うにはどうしたらいい？
→確率論(probability theory)の利用
• 例外的な事象を、小さい確率を割り当てること
で表現できる
ルール1
ルール2
ルール3
例外?
?
?
事象A
事象B
事象C
あまり起き
ないこと
例外も他のルールと平等例外的な事象は重要ではない

構造化グラフィカルモデル(1.2)
ここで、医療診断システムを考えよう：
• 病名、症状、患者の状態/特性などの情報には
それぞれ確率変数(random variable)が割り当てられ
る
• 確率変数には、0/1などの離散値あるいは連続値が
格納され、「インフルエンザである/ない」、「体
温が37.5℃である」などの意味を持つ
• グラフィカルモデル(GM)を構成するこれらの確率
変数にどのような意味や値を与えるかは、我々の行
いたいタスクによって変化する

• 私たちの目標：観測情報が与えられた下で、1つ
または複数の確率変数について確率的に推論す
ること
• そのためには、私たちは確率変数の集合Χ(カイ)
における全ての可能な割り当てを表す結合分布
(joint probability distribution)を構築する必要
がある
• 結合分布を得ることで、ある確率変数𝑋𝑖が𝑥𝑖で
あったときの事後分布(posterior distribution)
を計算できる
構造化グラフィカルモデル(1.2)

例1.1：インフルエンザと花粉症
• 簡単な医療診断の例として、2つの病気と2つの
症状、1つの環境変数を考える
(1)インフルエンザである/ない
(2)花粉症である/ない
(3)充血がある/ない
(4)筋肉痛がある/ない
(5)季節がいつであるか(春/夏/秋/冬)
Q：この確率空間はどの程度広い？
A：2×2×2×2×4＝64通り

確率的グラフィカルモデル(1.2.1)
• 先の医療診断の例では64通りの値をとりうることが
わかったが、それはしばしば骨が折れる種類数であ
る
• 一般的な医療診断では数百もの疾患・症状を扱うた
め、プログラムはすぐさま計算量爆発を起こし扱え
なくなってしまう(e.g. 2100
通り)
→もっとコンパクトに分布を表現したい
• 確率的グラフィカルモデルはグラフ構造を基本とし
て、高次元空間の複雑な分布をコンパクトに表現で
きる

例1.1再訪
• 右下図のようなグラフ構造を仮定：
• 例えば、現在の季節が直接充血や筋肉痛と結びつか
なくなっている(因果関係の導入)
• このグラフには双対(裏返し)な2つの視点がある：
(1)グラフは独立性の集合を現している
(2)グラフは高次元分布に構造を与え、いくつかの因
子(factor)に分解する
グラフを与えたことで、
64通り→18通り
(冗長でなくなった！)

GMの等価な表現
グラフによる表現
(graph representation)
𝐹 ⊥ 𝐻 𝑆)
𝐴 ⊥ 𝐶 𝐵, 𝐷)
(条件付き)独立性
(independencies)
𝑃 𝐹, 𝑆 = 𝑃 𝑆 𝑃(𝐹|𝑆)
𝑃 𝐴, 𝐵, 𝐶 =
1
𝑍
𝜙1 𝐴, 𝐵 𝜙2 𝐶, 𝐷
因子分解
(factorization)

表現、推論、学習(1.2.2)
GMの三大要素：表現、推論、学習
(1) 表現：結合分布𝑝(𝑥1, … , 𝑥 𝑁)がどのような構造によって
表現されるか
→グラフ表現は(そのサイズにかかわらず)明瞭かつ取扱い
が容易
(2) 推論：観測が与えられた際の事後確率𝑝(𝑋|𝐷)の確率を
効率よく計算する
(3) 学習：専門家の知識またはデータ自身から、ふさわし
い予測をするためのパラメタを学習する
→PGMはデータ駆動(data-driven)な学習を可能にする

GMで知的なシステムを作る
• 表現、推論、学習は知的なシステムを作るうえ
で不可欠な要素である。なぜなら：
(1) 私たちは、自らの世界を記述する宣言的記述を表
現・用意する必要がある
(2) 私たちはこの表現を様々な質問に答えられるよう
利用できるようにしなくてはならない
(3) 専門家の知識と蓄積されたデータを利用して、適
切な分布を獲得しなければならない
GMは小さいながらこれら3つの能力を全て兼ね備
えた理想的なモデルの1つなのだ！

視覚的表現としてのGM
GMは数式を読み替えた視覚的表現であり、実はGMを
用いずとも議論を進めることはできる！
• (一般化された)機械学習における「学習」：
変数𝑥1, … , 𝑥 𝑛とラベル𝑦があるとき、
𝑝(𝑦, 𝑥1, 𝑥2, … , 𝑥 𝑛, )をデータ𝑋 1 , 𝑋 2 , … , 𝑋 𝑁 から推定す
る
• 機械学習における「予測」または「推論」
𝑦∗
= 𝑎𝑟𝑔𝑚𝑎𝑥 𝑦 𝑝 𝑦 𝑥1
∗
, 𝑥2
∗
, … , 𝑥 𝑛
∗
)
ただ、数式だけで進めるのはしんどい→表現方法とし
てのGM

本書の概観(1.3.1)
• Part I: 表現(Representation)
3, 4章：GMの基本形、5, 6, 7章：その拡張
後半は特に実世界データに頻出する構造を扱う
• Part II: 推論(Inference)
9, 10章：厳密推論、11・12章：近似推論
• Part III：学習(Learning)
16、17章：GMの学習の基本
18章：BNの構造学習
19、20章：より難しいGMの学習
• Part IV：行動と決定(Actions and decisions)
21、22、23章：意思決定のためのGM

ロードマップ(1.3.2)

他の分野との関係(1.3.3)
• GMは、多数の分野からの知見を輸入しつつ今日
まで発展してきている
例1：初期のベイジアンネットワークの研究は、家
族間の遺伝子の継承というごく狭い領域の研究か
ら生起した
例2：無向グラフィカルモデルは、物理学における
電子の系のモデリングとして定式化された
例3：GMの主要なアルゴリズムである確率伝搬法
と、確率的な符号の一種であるLDPC符号のアルゴ
リズムの等価性が指摘された

GMの大家：Judea Pearl
• Judea Pearl(1936-)
• 計算機科学者・哲学者
• 2012年チューリング賞受賞
• 人工知能および因果的推論
への確率的な手法を大きく
発展させ、確率的手法の今
日の地位を築き上げた研究
者の1人
特にGMにおいては、歴史的背
景の理解も重要となる

第２章
Foundations

今日の内容
– 本書の構成
– GMの3要素
– 確率論
– グラフ理論

確率論(2.1)
• この本は、最初から最後まで確率分布を使います
• 確率論の復習をしましょう
• 定義/命題等は教科書に従います

事象空間(2.1.1.1)
• 確率を扱うためには、何に確率を割り当てるのかを
定める必要がある
• そこで、可能な結果(possible outcome)の空間
(space)を仮定し、それをΩと書く
→例えばサイコロの出目ならΩ = 1, 2, 3, 4, 5, 6

事象空間(2.1.1.1)
• さらに、可測な事象(measurable events)𝑆を用意
し、そこに確率を割り当てる
• そのうえで、事象𝛼 ∈ 𝑆(event)を考える。例えば、
事象{6}はサイコロの目が6を指す
と考えることができる
• 事象は次の3条件を満たす：
(1) 空事象𝜙及び自明な(trivial)事象Ωが存在
(2) 和事象に関して閉じている(𝛼, 𝛽 ∈ 𝑆 ⇒ 𝛼 ∪ 𝛽 ∈ 𝑆)
(3) 補集合に関して閉じている(𝛼 ∈ 𝑆 ⇒ Ω − 𝛼 ∈ 𝑆)
事象空間Ω
{1, 2, 3}
可測な事象𝑆
{𝜙, 1 , 2 , 3 ,
1,2 , 1,3 , 2,3
, Ω}

確率分布(2.1.1.2)
定義2.1(確率分布)
(Ω, 𝑆)上の確率分布𝑃とは、以下の条件を満たす𝛼 ∈ 𝑆
からℝへの写像である：
• 𝑃 𝛼 ≥ 0 𝑓𝑜𝑟 𝑎𝑙𝑙 𝛼 ∈ 𝑆.
• 𝑃 Ω = 1.
• 𝐼𝑓 𝛼, 𝛽 𝑎𝑛𝑑 𝛼 ∩ 𝛽 = ∅, 𝑡ℎ𝑒𝑛 𝑃 𝛼 ∪ 𝛽 = 𝑃 𝛼 + 𝑃 𝛽 .
3番目の条件は、背反な事象の和集合の確率はそれぞ
れの確率の和であることを示している

確率の解釈(2.1.1.3)
• 確率分布の議論を進める前に、(直感的に)確率に何
を割り当てるべきなのか、考えよう
歴史的に、確率の解釈には2つのパラダイムがある：
(1) 頻度主義(frequentist interpretation)
(2) 主観的確率(subjective interpretation)

頻度主義(frequentist)
• 確率とは：事象の起こる回数(頻度)
• 例えば、サイコロを振る例を考えて、
𝑃 1, 3, 5 = 0.3
ならば、サイコロを繰り返し振り続けた結果、私
たちが1, 3, 5の目を出した頻度の極限が0.3で
あったということになる(無限回の試行を仮定)
サイコロの目やコイン投げなら良いが…
→明日雨が降る確率は？(明日は1度しか来ない！)

主観的確率
• 繰り返し試行できない事象は、頻度主義のパラダイ
ムでは説明できなかった
• そこで主観的確率では、確率を
信念(belief)の主観的度合い
として取り扱う
• ゆえに、”明日雨が50％の確率で降る”とは、この発
言者の不確定性に対する主観的な判断を表し、これ
は周辺情報の観測によって更新される
• では、なぜ人の信念と確率が結びつくのか？
→著者曰く：合理的な行動は確率論に従うから

条件付き確率(2.1.2.1)
• 例：ある生徒の集合と、彼(彼女)らがgrade A
をとったという事象𝛼が与えられたときに、彼ら
が真に知性を持ちうるという事象𝛽に関する信念
はどう変化するか？
→一見、𝑃(𝛼 ∩ 𝛽)をとれば良い様に思うが、これ
では信念の”変化“を測定できない
条件付き確率：𝑃 𝛽 𝛼 =
P 𝛼∩𝛽
𝑃 𝛼
(2.1)
※𝑃 𝛼 = 0の場合条件付き確率は定義されない

連鎖規則(chain rule)
• 条件付き分布の定義から、次の式を見出す：
𝑃 𝛼 ∩ 𝛽 = 𝑃 𝛼 𝑃 𝛽 𝛼 2.2
• これを一般の事象𝛼1, … , 𝛼 𝑘に適用すると、
𝑃 𝛼1 ∩ ⋯ ∩ 𝛼 𝑘
= 𝑃 𝛼1 𝑃 𝛼2 𝛼1 … 𝑃 𝛼 𝑘 𝛼1 ∩ ⋯ ∩ 𝛼 𝑘−1 . (2.3)
これは、あらゆる結合分布(後述)および変数の順
序に成り立つ普遍の性質である(有向GMの分解と
混同しないこと)

ベイズの規則(Bayes rule)
• 条件付き確率からベイズの規則も導出できる：
𝑃 𝛼 𝛽 =
𝑃 𝛽 𝛼 𝑃 𝛼
𝑃 𝛽
(2.4)
• 一般の場合のベイズの規則は背景事象𝛾を用いて、
𝑃 𝛼 𝛽 ∩ 𝛾 =
𝑃 𝛽 𝛼 ∩ 𝛾 𝑃 𝛼|𝛾
𝑃 𝛽|𝛾
と書ける

例2.1,2.2
• 2.1(生徒の成績)
• 2.2(結核のTBテスト)
(その場で計算)

確率変数と結合確率(2.1.3)
• ここまで、確率分布を事象と結びつけて話して
きた
→e.g. “サイコロで5が出る”
• しかし、私たちは事象のほかに、属性
(attribute)をの確率を考えたい場合がある
→e.g. “55歳以上” “喫煙歴がある/ない”
• 事象ベースで議論を進めることはできるが、数
学的に明確な定義で今後の話を進めたい
→確率変数(random variable)の導入

確率変数とは何か？(2.1.3.2)
• 確率変数とは、各事象𝛼 ∈ Ωからℝへの写像
• 例えば、”生徒のgrade=A”という事象は
𝜔 ∈ Ω ∶ 𝑓𝑔𝑟𝑎𝑑𝑒 𝜔 = 𝐴
とかける
(注)実際にはA=0, B=1, …などの値が割り当てられる
• 確率変数は、通常離散変数または連続変数を取
りうる
• 𝑉𝑎𝑙(𝑋)：確率変数𝑋が取りうる値の集合

確率変数の割り当てと略記
• 確率変数の集合として𝑿, 𝒀, 𝒁(太字)、各変数への具
体的な値の割り当てを𝒙, 𝒚, 𝒛とする
• 𝒙 ∈ 𝑿, 𝒀 ⊆ 𝑿に関して、𝒙 𝒀 をYに対する𝒙の割り当
てと表すことにする
• 𝒙 ~ 𝒚 ≝ 𝒙 𝑿 ∩ 𝒀 = 𝒚 𝑿 ∩ 𝒀
→例えば、𝒙 = {𝑥1 = 2, 𝑥2 = 3, 𝑥3 = 4} のうちの一部の
割り当てのみを使いたい時に用いる
• いちいち𝑃( 𝑋 = 𝑥 ∩ 𝑌 = 𝑦 )などと書くのは面倒な
ので、これを略記して𝑃(𝑥, 𝑦)などと表す

周辺分布(2.1.3.3)
• 確率変数𝑋に関する分布𝑃(𝑋)を𝑋上の周辺分布
(marginal distribution)と呼ぶ
• これは、確率の定義2.1に従い、唯一の違いは可
測な事象𝑆が確率変数𝑋に置き換えられたことで
ある
e.g. 𝑃 𝐼𝑛𝑡𝑒𝑙𝑙𝑖𝑔𝑒𝑛𝑐𝑒 = ℎ𝑖𝑔ℎ = 0.3,
P 𝐼𝑛𝑡𝑒𝑙𝑙𝑖𝑔𝑒𝑛𝑐𝑒 = 𝑙𝑜𝑤 = 0.7.

結合分布(2.1.3.3)
• 1つの確率変数𝑋だけではなく、複数の確率変数
𝜒 = { 𝑋1, … , 𝑋 𝑁 }上の結合分布(joint distribution)
を考えたい
→𝑃(𝑋1, … , 𝑋 𝑁)と表記し、複数の事象が同時に生起
する確率を割り当てる
• 結合分布は、周辺分布との整合性を取る必要があ
る
𝑃 𝑥 = 𝑃(𝑥, 𝑦)
𝑦

条件付き確率再訪(2.1.3.4)
• 事象ではなく確率変数を用いて条件付き確率を
書き直すと、
𝑃 𝑋 𝑌 =
𝑃 𝑋, 𝑌
𝑃 𝑌
.
𝑃 𝑋1, … , 𝑋 𝑘 = 𝑃 𝑋1 𝑃 𝑋2 𝑋1) … 𝑃 𝑋 𝑘 𝑋1, … , 𝑋 𝑘−1 .
𝑃 𝑋 𝑌 =
𝑃 𝑋 𝑃 𝑌 𝑋
𝑃 𝑌
.

独立性(2.1.4.1)
• 通常、私たちは𝑃(𝛼|𝛽)と𝑃(𝛼)は何らかの点で異
なると考えたくなる
• しかし、ある状況ではこの2つが一致する、即ち
𝛽を学ぶことが𝛼の確率に関して何ら影響を与え
ない場合がある
定義2.2(独立な事象, independent events)
𝑃 𝛼 𝛽 = 𝑃(𝛼)または𝑃 𝛽 = 0が成り立つとき、事
象𝛼と事象𝛽が独立であると言い、𝑃 ⊨ (𝛼 ⊥ 𝛽)と書
き表す

独立性(2.1.4.1)
• 独立性は、別の定義によっても与えられる：
命題2.1(独立性の別定義)
分布𝑃が(𝛼 ⊥ 𝛽)を満たす⇔ P 𝛼 ∩ 𝛽 = 𝑃 𝛼 𝑃 𝛽
証明:
連鎖規則を用いる

条件付き独立(CI)(2.1.4.2)
• 独立性は、しばしば追加の事象が与えられたと
きに初めて発現する
→例：MIT is CI of Stanford given GradeA.
定義2.3(条件付き独立, conditional independence)
𝑃 𝛼 𝛽 ∩ 𝛾 = 𝑃 𝛼 𝛾 または𝑃 𝛽 ∩ 𝛾 = 0のとき、
分布𝑃上で事象𝛼と𝛽は𝛾が与えられた際に条件付き
独立であるといい、 𝑃 ⊨ (𝛼 ⊥ 𝛽|𝛾)と書き表す
以下、本スライドでは条件付き独立をCIと記す

条件付き独立(CI)(2.1.4.2)
• 条件付き独立もまた、別の方法で定義可能：
命題2.2
分布𝑃が 𝛼 ⊥ 𝛽 𝛾 を満たす
⇔ P 𝛼 ∩ 𝛽|𝛾 = 𝑃 𝛼|𝛾 𝑃 𝛽|𝛾
証明：
命題2.1と同様

複数の確率変数の独立性(2.1.4.3)
定義2.4
𝑿, 𝒀, 𝒁をそれぞれ確率変数の集合とする。もし𝑃があ
らゆる𝒙 ∈ 𝑉𝑎𝑙 𝑿 , 𝒚 ∈ 𝑉𝑎𝑙 𝒀 , 𝒛 ∈ 𝑉𝑎𝑙(𝒁)において
𝑿 = 𝒙 ⊥ 𝒀 = 𝒚 𝒁 = 𝒛)を満たすならば、𝒁が与えら
れた下で𝑿と𝒀が独立であるという。𝒁はしばしば”観
測された”と呼ばれる。𝒁が空であるとき、
𝑿 ⊥ 𝒀 ∅)を(𝑿 ⊥ 𝒀)と記述し、𝑿と𝒀は周辺的に独
立であるという。
命題2.3
分布𝑃が 𝑿 ⊥ 𝒀 𝒁)を満たす
⇔𝑃 𝑿, 𝒀 𝒁) = 𝑃 𝑿 𝒁 𝑃 𝒀 𝒁

CIの性質(2.1.4.3)
• 対称性(Symmetry)
𝑿 ⊥ 𝒀 𝒁) ⇒ 𝒀 ⊥ 𝑿 𝒁).
• 分解性(Decomposition)
𝑿 ⊥ 𝒀 𝑾, 𝒁) ⇒ 𝑿 ⊥ 𝒀 𝒁).
• 弱結合性(Weak union)
𝑿 ⊥ 𝒀, 𝑾 𝒁) ⇒ 𝑿 ⊥ 𝒀 𝒁, 𝑾).
• 縮約性(Contraction)
𝑿 ⊥ 𝑾 𝒁, 𝒀)& 𝑿 ⊥ 𝒀 𝒁) ⇒ 𝑿 ⊥ 𝒀, 𝑾 𝒁).

正値確率分布
定義2.5(正値確率分布)
Pが正値であるとは、𝛼 ≠ ∅である全ての事象𝛼 ∈ 𝑆
において𝑃(𝛼) > 0であることである
正値確率分布に対しては、以下の性質が成り立つ
• 交差性(Intersection)
𝑿 ⊥ 𝒀 𝒁, 𝑾)& 𝑿 ⊥ 𝑾 𝒁, 𝒀) ⇒ 𝑿 ⊥ 𝒀, 𝑾 𝒁).
証明：乗法定理と加法定理を繰り返し適用する

クエリ(2.1.5)
• 私たちの目標は、ある変数の集合が観測された
ときに、注目するクエリ(query of interest)の
確率を評価することである
• 本書では、2種類のクエリを紹介する
(1)確率クエリ(Probability Queries)
(2)MAPクエリ(MAP Queries)

確率クエリ(2.1.5.1)
確率クエリは2つのパーツから構成される：
(1)エビデンス：確率変数群の部分集合𝐸と、実際
の割り当て値𝑒
(2)クエリ変数：ネットワーク中の確率変数群の部
分集合𝑌
私たちが考えたいのは、エビデンス𝑒 ∈ 𝐸で条件付
けられたときの𝑦 ∈ 𝑌に関する事後確率(posterior
probability)である。

MAPクエリ(2.1.5.2)
MAP=Maximum A Posteriori (最大事後確率)
• 続いて考えたいのは、ある確率変数の部分集合
に対して、最大の事後確率を得る割り当てを見
つけることである
• よりフォーマルに言えば、𝑾 = 𝜒 − 𝑬であると
き、エビデンス𝐸 = 𝑒が与えられた状況で最大確
率をとる𝑤 ∈ 𝑊を見つけることである
𝑀𝐴𝑃 𝑾 𝐞 = argmaxwP(𝐰, 𝐞)

MAP割り当て
• 1変数へのMAP割り当ては簡単で、𝑃(𝐴|𝑒)を最
大化するような割り当て𝑎を選択すればよい
• しかし、複数の確率変数のMAP割り当ては、
各個の変数を個別に最大化する割り当てでは結合
確率の大域的な最大化は達成できない
ため、事後確率の同時最大化を要求する一般の
MAP割り当ては本質的な難しさを抱えている

例2.4(MAP割り当て)
𝑎0 𝑎1
0.4 0.6
𝐴 𝑏0
𝑏1
𝑎0 0.1 0.9
𝑎1 0.5 0.5
𝑀𝐴𝑃 𝐴 = 𝑎1
𝑀𝐴𝑃 𝐴, 𝐵 = (𝑎0
, 𝑏1
)
∵
𝑃 𝑎0
, 𝑏1
= 0.4 ∗ 0.9 = 0.36
𝑃 𝑎1, 𝑏∗ = 0.6 ∗ 0.5 = 0.3

周辺化MAPクエリ(2.1.5.3)
• 医療診断においては、最終的に推定したいの
は ”ある病気である確率”のみで、その過程の症
状の推定は重要ではない
• 未観測だが重要でない確率変数は全ての組み合
わせについて和を取って周辺化(marginalize)す
る
MAP 𝐘 𝐞) = argmaxyP 𝐲 𝐞).
𝒁 = 𝝌 − 𝒀 − 𝑬としたときの周辺化MAPは、
MAP 𝐘 𝐞 ) = argmaxY P 𝐘, 𝐙 𝐞).
z
と表せる Probabilistic Graphical Models 輪読会 #1 59

連続値空間(2.1.6)
• ここまでの議論は全て確率変数が離散値、すなわ
ち有限の数の集合をとる場合であった、連続値の
場合はどうか？
• 例えば、Val X = 0, 1 とした場合、
𝑃 𝑋 = 0 = 0.
となる、どうする？→確率密度関数(PDF)を用いる
𝑝 𝑥 𝑑𝑥 = 1.
𝑉𝑎𝑙(𝑋)
𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = 𝑝 𝑥 𝑑𝑥.
𝑏
𝑎

一様/ガウス分布
定義2.6(一様分布)
[𝑎, 𝑏]における一様分布𝑋 ~ 𝑈𝑛𝑖𝑓[𝑎, 𝑏]のPDFは、
𝑝 𝑥 =
1
𝑏 − 𝑎
𝑏 ≥ 𝑥 ≥ 𝑎
0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒.
定義2.7(ガウス分布)
平均𝜇、分散𝜎2のガウス分布𝑋 ~ 𝑁(𝜇 ; 𝜎2)は、
𝑝 𝑥 =
1
2𝜋𝜎
𝑒
−
𝑥−𝜇 2
2𝜎2
標準ガウス分布は平均0、分散1を持つ

結合密度関数(2.1.6.2)
定義2.8(結合密度関数)
連続確率変数𝑋1, … , 𝑋 𝑛を考える。関数𝑝(𝑥1, … , 𝑥 𝑛)
が次の条件を満たすとき、𝑃を𝑋1, … , 𝑋 𝑛の結合密度
分布であると呼ぶ：
・あらゆる𝑋1, . . , 𝑋 𝑛中の𝑥1, … , 𝑥 𝑛に対して𝑝 𝑥1, … , 𝑥 𝑛 ≥ 0
・pは積分可能な関数
・あらゆる𝑎1, … , 𝑎 𝑛, 𝑏1, … , 𝑏 𝑛に対して
𝑃 𝑎1 ≤ 𝑋1 ≤ 𝑏1, … , 𝑎 𝑛 ≤ 𝑋 𝑛 ≤ 𝑏 𝑛
= … 𝑝 𝑥1, … , 𝑥 𝑛 𝑑𝑥1 … 𝑑𝑥 𝑛.
𝑏 𝑛
𝑎 𝑛
𝑏1
𝑎1

条件付き密度関数(2.1.6.3)
• 条件付き確率を連続値に拡張する場合も、
𝑃 𝑋 = 𝑥 = 0の問題が出現する
• そこで、𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖という微小区間を考
え(これで確率が正の値をとる)、その極限を
取ってみる
Q:lim
𝜖→0
𝑃 𝑌 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖)
の極限は存在するか？
http://mathematica.stackexchange.com/questions/27083/visualization-of-bivariate-distributions を改変

条件付き密度関数の導出
Ａ：存在する
𝑃 𝑎 ≤ 𝑌 ≤ 𝐵 | 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖
=
𝑃 𝑎 ≤ 𝑌 ≤ 𝐵, 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖
𝑃(𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖)
=
𝑝 𝑥′
, 𝑦 𝑑𝑦𝑑𝑥′𝑥+𝜖
𝑥−𝜖
𝑏
𝑎
𝑝 𝑥′, 𝑦 𝑑𝑥′𝑥+𝜖
𝑥−𝜖
.
ここで、 𝑝 𝑥′ 𝑑𝑥′ ≈ 2𝜖𝑝(𝑥)
𝑥+𝜖
𝑥−𝜖
と近似できることから
(左辺) ≈
2𝜖𝑝 𝑥,𝑦 𝑑𝑦
𝑏
𝑎
2𝜖𝑝 𝑥
=
𝑝 𝑥,𝑦
𝑝(𝑥)
𝑑𝑦.
𝑏
𝑎

条件付き密度関数/CI
定義2.9(条件付き密度関数)
𝑝 𝑥, 𝑦 を𝑋, 𝑌の結合密度であるとすると、𝑋が与えられたと
きの𝑌の条件付き密度関数は
𝑝 𝑦 𝑥) =
𝑝 𝑥, 𝑦
𝑝(𝑥)
.
ただし𝑝 𝑥 = 0のときは未定義。
定義2.10(CI)
連続確率変数の集合𝑿, 𝒀, 𝒁および結合密度𝑃(𝑿, 𝒀, 𝒁)がある
とき、以下が成り立てば、
𝑝 𝒙 𝒛) = 𝑝 𝒙, 𝒚 𝒛) 𝑓𝑜𝑟 𝑎𝑙𝑙 𝒙, 𝒚, 𝒛 𝑠. 𝑡. 𝑝 𝒛 > 0.
𝑿は𝒁が与えられたときに𝒀と条件付き独立であるという

期待値(2.1.7.1)
• 離散確率変数に対する期待値
𝐸 𝑃 𝑋 = 𝑥 ∙ 𝑃 𝑥 .
𝑥
• 連続確率変数に対する期待値
𝐸 𝑃 𝑋 = 𝑥 ∙ 𝑝 𝑥 𝑑𝑥.
• しばしば、次の関数が用いられる：
𝐼 𝑋 = 𝑥 =
1 𝑖𝑓 𝑋 = 𝑥
0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒.
(指示関数)

期待値の性質
命題2.4(期待値の線形性)
𝐸 𝑋 + 𝑌 = 𝐸 𝑋 + 𝐸 𝑌 .
これは、変数が独立でない場合も成り立つ。
命題2.5(期待値の独立性)
もし確率変数𝑋と𝑌が独立ならば、
𝐸 𝑋 ∙ 𝑌 = 𝐸 𝑋 ∙ 𝐸 𝑌 .
また、𝒚が与えられたときの𝑋の条件付き期待値は
𝐸 𝑃 𝑋 𝑦] = 𝑥 ∙ 𝑃 𝑥 𝒚).
𝑥Probabilistic Graphical Models 輪読会 #1 67

分散(2.1.7.2)
分散：確率変数𝑋が平均からどれだけばらけているか
𝑉𝑎𝑟𝑃 𝑋 = 𝐸 𝑃 𝑋 − 𝐸 𝑃 𝑋 2
.
これを展開すると
𝑉𝑎𝑟 𝑋 = 𝐸 𝑋2
− 𝐸 𝑋 2
.
命題2.6(分散と独立性)
もし𝑋と𝑌が独立であるならば、
𝑉𝑎𝑟 𝑋 + 𝑌 = 𝑉𝑎𝑟 𝑋 + 𝑉𝑎𝑟 𝑌 .
期待値の性質から、次が容易に導かれる：
𝑉𝑎𝑟 𝑎 ∙ 𝑋 + 𝑏 = 𝑎2 𝑉𝑎𝑟 𝑋 .

標準偏差
また、標準偏差を次のように定義する：
𝜎 𝑋 = 𝑉𝑎𝑟 𝑋 .
標準偏差は、𝑋の値の”距離”を測るための1つの目
安として使用される
命題2.7(ガウス分布の性質)
𝑋をガウス分布𝑁(𝜇, 𝜎2
)に従う確率変数とすると、
𝐸 𝑋 = 𝜇かつ𝑉𝑎𝑟 𝑋 = 𝜎2である。

Chebyshevの不等式
定理2.1(Chebyshevの不等式)
確率変数𝑋、実数値𝑡が与えられたとき
𝑃 𝑋 − 𝐸 𝑃[𝑋] ≥ 𝑡 ≤
𝑉𝑎𝑟𝑃 𝑋
𝑡2
𝑜𝑟
𝑃 𝑋 − 𝐸 𝑃[𝑋] ≥ 𝑘𝜎 𝑋 ≤
1
𝑘2
証明： 𝑋 − 𝐸 𝑃 𝑋 ≤ 𝑡であることを用いる。
これは、平均及び分散を持つあらゆる確率分布に
成り立つ

グラフ理論(2.2)
• 本書は、グラフ構造に確率分布の表現を導入す
る
• グラフ理論の基本概念をここで押さえましょう

ノードと辺(2.2.1)
• グラフ 𝐾 = (X, Ε)
• ノード 𝑋 = {𝑋1, … , 𝑋 𝑛}
• 有向辺 𝑋𝑖 → 𝑋𝑗
• 無向辺 𝑋𝑖 − 𝑋𝑗
• 何らかの辺(≠双方向) 𝑋𝑖 ↔ 𝑋𝑗
本書では、一度に2つ以上の種類のエッジが接続す
ることを想定しない
有向辺のみで構成される有向グラフを𝐺,
無向辺のみで構成される無向グラフを𝐻とする
𝑋1
𝑋2
𝑋3
𝑋2 − 𝑋3
𝑋1 → 𝑋2
𝐾

無向形(undirected version)
定義2.11(グラフの無向形)
グラフ𝐾 = (𝑋, 𝐸)が与えられたとき、その無向形
は 𝐻 = 𝑋, 𝐸′ (但し、𝐸′ = 𝑋 − 𝑌 ∶ 𝑋 ↔ 𝑌 ∈ 𝐸
である。
𝑋1
𝑋2
𝑋3
𝑋2 − 𝑋3
𝑋1 → 𝑋2
𝐾
𝑋1
𝑋2
𝑋3
𝑋2 − 𝑋3
𝑋1 − 𝑋2
𝐻

子/親/隣/次数/入次数
• 子(child), 𝐶ℎ 𝑋
• 親(parent), 𝑃𝑎 𝑋
• 隣(neighbor), 𝑁𝑏 𝑋
• 次数(degree):
あるノードに接続する辺の数
• 入次数(indegree)：
あるノードに流入する辺の数
有向グラフ向け
主に無向グラフ向け
𝑋1
𝑋3
𝑋4 𝑋5
𝑋2親
子
隣

誘導部分グラフ
(induced subgraph)
定義2.12(誘導部分グラフ)
𝐾 = (Χ, Ε)および𝑿 ⊂ Χを考える。誘導部分グラフ
K[𝐗]をΕ′ = {∀𝑋 ↔ 𝑌 ∈ Ε ∶ 𝑋, 𝑌 ∈ 𝑿}であるような
グラフ(𝑿, Ε)とする。
𝐾[𝐶, 𝐷, 𝐼]
要は、ノードの部分集合の
接続を保存したグラフ

完全部分グラフ
(complete subgraph)
定義2.13(完全部分グラフ)
𝑿上の部分グラフを考えたとき、𝑋中の全てのノー
ドの組が辺で接続されているとき、𝑋は完全であ
るという。𝑋はクリークとも呼ばれる。さらに、
その上位集合𝑌 ⊃ 𝑋がいずれもクリークでないとき
𝑋は極大(maximal)であるという。

クリーク(clique)
クリーク(𝑐𝑙𝑖𝑞𝑢𝑒)：
ノード同士が全て隣接しているノードの集合
極大クリーク(𝑚𝑎𝑥𝑖𝑚𝑎𝑙 𝑐𝑙𝑖𝑞𝑢𝑒)：
クリーク性を保持する最大のクリーク
右図において、
{𝑥1, 𝑥2}はクリーク、
{𝑥2, 𝑥3, 𝑥4}は極大クリーク

バウンダリ(Boundary, P149)
• ノード𝑋の親(𝑌 → 𝑋が存在)および隣(𝑌 − 𝑋が存
在)の和集合を𝑋のバウンダリと呼び、
𝐵𝑜𝑢𝑛𝑑𝑎𝑟𝑦 𝑋と表記する

Upward Closure
定義2.14(Upward Closure)
ノードの部分集合𝑿 ⊂ Χを考える。すべての
X ∈ 𝑿に関して𝐵𝑜𝑢𝑛𝑑𝑎𝑟𝑦 𝑋 ⊂ 𝑿であるとき、𝑿 ⊂ Χ
はKに関して上方向に閉じているという
𝐗を含み、上に閉じている極小の集合𝒀を𝑿の
upward closureと呼び、𝐾+[𝑿]と書き表す
𝐾+[𝐶]

路とトレイル(2.2.3)
定義2.15(路, path)
グラフ𝐾 = (Χ, Ε)において、𝑋1, … , 𝑋 𝑘が路であるとは、
各𝑖 = 1, … , 𝑘 − 1に対して𝑋𝑖 → 𝑋𝑖+1または𝑋𝑖 − 𝑋𝑖+1 で
あることをいう。1つでも有向辺が含まれていれば、
その路は有向であるという。
定義2.16(トレイル, trail)
グラフ𝐾 = (Χ, Ε)において、𝑋1, … , 𝑋 𝑘が路であるとは、
各 𝑖 = 1, … , 𝑘 − 1 に対して 𝑋𝑖 ↔ 𝑋𝑖+1 であることをいう。
定義2.17(連結グラフ)
各𝑋𝑖, 𝑋𝑗間にトレイルがあるとき、グラフは連結である。

先祖/子孫
• 先祖(ancestor)：𝐴𝑛𝑐𝑒𝑠𝑡𝑜𝑟𝑠 𝑋
• 子孫(descendants):𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑋
• 非子孫：𝑁𝑜𝑛𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑋 = Χ − 𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑋
例：
𝐴𝑛𝑐𝑒𝑠𝑡𝑜𝑟𝑠𝐼 = 𝐴, 𝐵, 𝐶, 𝐷, 𝐸, 𝐻
𝑁𝑜𝑛𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝐷
= {𝐴, 𝐵, 𝐻}

Topological ordering
定義2.19(Topological ordering)
グラフK = (Χ, Ε)を考える。順序つきノード
𝑋1, . . , 𝑋 𝑛がつねに𝑋𝑖 → 𝑋𝑗 ∈ Εならば𝑖 < 𝑗を満たす
とき、𝑋1, … , 𝑋 𝑛はtopological orderingであると呼
ぶ。
親が子よりも必ず
小さい番号を持つようにする
(アルゴリズム：付録A.3.1)
トポロジカルソートとも呼ばれる

閉路(cycle)
定義2.20(閉路, cycle)
グラフ𝐾の閉路とは、𝑋1 = 𝑋 𝑘であるような有向路
𝑋1, … , 𝑋 𝑘のことである。閉路を含まないグラフは
非巡回(acyclic)と呼ばれる。
𝑋1
𝑋2
𝑋3
𝑋4
閉路(𝑋2, 𝑋3, 𝑋4)

☆DAG/PDAG
• 有向非巡回グラフ(DAG, directed acyclic
graph)とは、その名のとおり有向かつ非巡回な
グラフである
• DAGはベイジアンネットワークの表現の中心を
為すグラフで、本書の大半は非巡回のグラフを
取り扱う
• 部分有向非巡回グラフ(PDAG)を有向辺および無
向辺が混在した非巡回グラフとする
※非巡回≠閉トレイルが存在

連鎖成分
定義2.21(連鎖成分, chain component)
𝐾をΧ上のPDAGであるとする。Χの互いに素(disjoint)
な分割𝐾1, … , 𝐾𝑙が
・𝐾𝑖の誘導部分グラフが有向辺を含まない
・𝑖 < 𝑗であるあらゆる組𝑋 ∈ 𝐾𝑖, 𝑌 ∈ 𝐾𝑗について、辺が
存在するならば有向辺𝑋𝑖 → 𝑋𝑗
を満たすとき、各𝐾𝑖を連鎖成分と呼ぶ。
𝐾1 𝐾2
𝐾3 𝐾4
無向辺の塊をまとめて1つの
ノードとみなしてTopological
Ordering
PDAGはChain Graphとも呼ぶ

ループ(Loop)/polytree
定義2.22(ループ/polytree)
𝐾上のループとは、X1 = Xkであるようなトレイル
𝑋1, … , 𝑋 𝑘のことである。グラフがループを含まな
いとき、”個別に連結している”という。
ループのないグラフ上で隣接ノードが1つしかない
ノードを葉(leaf)と呼ぶ。
ループのない有向グラフはpolytree、無向グラフ
は森(forest)と呼ばれる。それが連結していれば
木(tree)と呼ばれる。

有向グラフにおける森/木
定義2.23(有向グラフにおける森/木)
各ノードがたかだが1つの親を持つ有向グラフを森
と呼ぶ。もし有向森が連結であれば、木と呼ぶ。
※注意
有向グラフにおいては、木⊆森⊆polytreeである
(木・森は複数の親を許さない)
ループの存在は、多くの場合計算量を飛躍的に増
大させる

Chordal(弦) Graph
定義2.24(Chordal graph)
ループ𝑋1 − 𝑋2 − ⋯ − 𝑋 𝑘 − 𝑋1を考える。ループを構成
する非連続なノード2つによる辺をループ内の弦
(chord)と呼ぶ。無向グラフ𝐻が𝑘 = 4以上のループお
よびその弦を持つとき、𝐻はChordal Graphであると
呼ぶ。
弦の概念は、推論の計算量を
見積もる際に利用される
※この定義は有向グラフにも拡張可(定義2.25)
𝑋1
𝑋2
𝑋3
𝑋4
𝑋5
弦

概観
(3・4章に入る前の下準備)

今日の内容
– 本書の構成
– GMの3要素
– 確率論
– グラフ理論

グラフィカルモデル(GM)
の基本原理
Michael Jordan (1997)曰く、
複雑なシステムを簡単に扱うための2つの原理：
(1)モジュラリティの原理
(2)抽象化の原理
「確率理論はこの2つの原理を深く、興味深い方法
―因子分解と平均化によって提供している。この2
つのメカニズムを可能な限り活用することが、機
械学習を前進させる方法のように見える。」

• 具体的には、次のなじみ深い定理のこと
(1)加法定理(変数の消去、周辺化)
𝑝 𝑎 = 𝑝 𝑎, 𝑏
𝑏
(または 𝑝 𝑎, 𝑏 𝑑𝑏)
(2) 乗法定理(確率分布の因数分解)
𝑝 𝑎, 𝑏 = 𝑝 𝑏 𝑎 𝑝(𝑎)
グラフィカルモデル(GM)
の基本原理

グラフィカルモデル(GM)の定義
グラフィカルモデルの簡単な定義：
• CIの仮定を置くことで、結合分布を表現する方法
• 各ノードが確率変数、辺の欠如がCIの仮定を表す
• Graphical Modelsという呼び方は適切ではなく、
意味を正確に表すならば”independence
diagrams”(独立ダイヤグラム)の方が良い
• エッジが向きを持つか否かで
(1) ベイジアンネットワーク(Bayesian Network)
(2) 無向グラフィカルモデル(Undirected GM)
に分けられる

(1)ベイジアンネットワーク(BN)
ベイジアンネットワーク(BN)とは、
対応するグラフがDAGであるGM
のことを指す(有向閉路が存在しない)
(1) Directed Graphical Model
(2) Belief networks
(3) Causal networks
などとも呼ばれるが、因果推論とGM自体は無関係
なので、中立的にはDGMと呼ぶ方が望ましい
→本輪読会ではベイジアンネットワーク(BN)とい
う呼称を使用する

BNの例：マルコフ連鎖
• 連鎖規則とマルコフ性の仮定を組み合わせて、
𝑝 𝒙1:𝑉 = 𝑝 𝑥1 𝑝(𝑥 𝑡|𝑥 𝑡−1)
𝑉
𝑡=1
と書き表すことができる。
• これを(1次の)マルコフ連鎖(markov chain)と呼
ぶ。

BNの例：ALARM Network(1989)
• Alarm Network[Beinlich+ 89]：37変数と504の
パラメタを持つ医者向けの医療診断システム
• 計測変数と診断との間の因果関係とその確率表を専
門家の手で定義した確率的エキスパートシステム
(probabilistic expert system)として構成された

BNの例：遺伝リンク解析
Pedigree graph: 親子の関係(家系)を示すDAG
歴史的に重要なモデル [Friedman+ 00]
(1)遺伝子型𝑋𝑖𝑗 (観測済み)
(2)父系/母系対立遺伝子𝐺𝑖𝑗
𝑚
, 𝐺𝑖𝑗
𝑝
(未知)
(3)父母の選択変数 𝑍𝑖𝑗
𝑚
, 𝑍𝑖𝑗
𝑝
(未知)
の3つの構成要素を結んだBNとして構成し、何ら
かの疾患をもたらす遺伝子の遺伝経路を明らかに
するためにBNによる推論を行う

BNの例：遺伝リンク解析
𝑋𝑖𝑗
𝐺𝑖𝑗
𝑚
𝐺𝑖𝑗
𝑝
𝑧𝑖𝑗
𝑚
𝑧𝑖𝑗
𝑝
𝐺𝑖𝑗
𝑚
𝐺𝑖𝑗
𝑝
𝑋𝑖𝑗
𝐺𝑖𝑗
𝑚
𝐺𝑖𝑗
𝑝
𝑧𝑖𝑗
𝑚
𝑧𝑖𝑗
𝑝
𝑋𝑖𝑗
𝐺𝑖𝑗
𝑚
𝐺𝑖𝑗
𝑝
𝑧𝑖𝑗+1
𝑚
𝑧𝑖𝑗+1
𝑝
選択変数𝑧は隣接箇所とリンク
Locus 𝑗 + 1Locus 𝑗
 観測されてい
るのは𝑋𝑖𝑗のみ
 𝑧𝑖𝑗
𝑝/𝑚
は母系と
父系どちらか
ら遺伝したか
選択
青の変数を観測した状態での
赤・オレンジの変数を予測

(2) 無向グラフィカルモデル(UGM)
無向グラフィカルモデルとは、
無向辺を用いたGM
のことを指す。BNと同様、
(1) Markov Network
(2) Markov Random Field(MRF)
などの別名がある。本書ではUGMという呼称を中
心に使用する。

UGMの例：Izingモデル
• 統計物理学に端を欲したMRFの一種
• 格子状にノードが連結され、各ノードは+1(ス
ピンが上向き)または-1(スピンが下向き)を持つ
• ある格子点上のスピンは隣接する格子点のスピ
ンの値によって確率的に決定される
𝑃 𝑥 =
1
𝑍
exp( 𝐽𝑖𝑗 𝑥𝑖 𝑥𝑗 + ℎ𝑖 𝑥𝑖
𝑖
)
𝑖~𝑗
• 上記の形の分布はGibbs分布と呼ばれる

応用例：画像復元
• 2値画像の各ピクセルが格子状につながっている
潜在変数に条件づけられていると仮定して、画
像のノイズ除去を行う
元画像 10％反転復元結果
(グラフカット)
𝐸 𝑥, 𝑦 = ℎ 𝑥𝑖
𝑖
− 𝛽 𝑥𝑖 𝑥𝑗
𝑖,𝑗
− 𝜂 𝑥𝑖 𝑦𝑖
𝑖

問題設定
次のような仮定を置いてみよう：
複数の互いに関連を持った変数を観測した
(文書、画像、遺伝子etc)
Question:
(1)結合確率𝑝 𝒙 𝜽 をコンパクトに表現するには？
(2)この確率を用いてある変数のセットから別の変数
のそれを現実的な計算量で推論(infer)するには？
(3)適度な量のデータがある状態でこの確率のパラメ
タを学習するには？

連鎖規則再訪
連鎖規則を用いて、我々はあらゆる結合分布を、
あらゆる変数の順番を以て表現することができる
𝑝 𝒙1:𝑉 = 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥2, 𝑥1 … 𝑝(𝑥 𝑉|𝒙1:𝑉−1)
𝑉 ：変数の個数(1: 𝑉は集合{1,2, … 𝑉}を表す)
定数パラメタ𝜃は簡単のため省略
𝑡が大きくなるにつれ、𝑝(𝑥 𝑡|𝑥1:𝑡−1)の表現が複雑に
なる

結合分布の計算量
全ての変数が𝐾状態を持つと仮定すると、
• 𝑝 𝑥1 は𝑂 𝐾 厳密には𝑂 𝐾 − 1 個の表で離散分
布を表現できる
同様に、
• 𝑝(𝑥2|𝑥1)は𝑂 𝐾2
、𝑝(𝑥3|x1, x2)なら𝑂 𝐾3
個のパ
ラメタが含まれ、それらを表にしたものを条件
付き確率表(CPT)と呼ぶ
• 𝑝 𝒙1:𝑉 のテーブルの大きさは𝑂 𝐾 𝑉 に従い、
学習は現実的ではない

BNの因子分解定理
• Topological orderingの仮定を置いたとき、各ノード
がその直接の親のみに依存するというordered
markov propertyを定義することができる。すなわ
ち：
𝑥 𝑠 ⊥ 𝒙 𝑝𝑟𝑒𝑑 𝑠 ＼p𝑎 𝑠
|𝒙 𝑝𝑎 𝑠
• DAG 𝐺(𝑉, Ε) がBNであるとは、確率分布族𝑿 = 𝑋𝑖 𝑖∈𝑉
と確率分布Pが以下に分解可能なことと同値：
𝑃 𝑿 = 𝑃 𝑋𝑖 𝑋 𝑝𝑎 𝑖 )
𝑖∈𝑉

BNの因子分解
• PRMLの例を拝借(PRML下巻 8.1)
• 例えば、右記の結合分布は
𝑝 𝑥1, … , 𝑥7
= p x1 p x2 p x3 p x4 x1, x2, x3
p x5 x1, x3)p x6 x4 p(x7|x4, x5)
という条件付き分布(CPD)の積で表
せる
𝑃 𝑿 = 𝑃 𝑋𝑖 𝑋 𝑝𝑎 𝑖 )
𝑖∈𝑉

BNの計算量
• 先述の通り、一般の確率分布のパラメタ数は
𝑂(𝐾 𝑉)であった
• DGMの各ノードが𝑂(𝐹)個の親と𝐾状態を持つと
き、そのパラメタ数は𝑂(𝑉𝐾 𝐹
)であり、CIの仮定
を置かない一般のそれよりパラメタ数が少ない
ことが確認できた
→続いて、BNの肝である条件付き独立(CI)とその
性質を見ていこう

BNの肝：条件付き独立性の仮定
• あらゆるグラフィカルモデルにおいて、条件付き
独立の仮定(CI assumption)がその根幹を成す
• グラフGにおいてCが与えられたとき、AとBが独
立であることを𝒙 𝐴 ⊥ 𝐺 𝒙 𝐵|𝒙 𝐶と書く
• CIの仮定はモデル構造の簡略化に役立つが、GM
の特異な点は次の点に見出すことができる：
CPDの積で表された同時分布を考えたとき、素朴に
はその分布で考えられるすべてのCIをチェックする
必要があるが、GMはCIをグラフ自身の見た目から
簡単に読み取ることができる

グラフの見た目とCI
結合度が高い結合度が低い
CIの仮定が少ない CIの仮定が多い
続いての疑問：BNの確率変数の間には、実際には
どのようなCIが成り立つのか？

BNの基本パーツ
BNには、最もシンプルな形の構造が3種類ある
1. chain(head-to-tail)
あるいは
indirect causal effect
2. tent(tail-to-tail)
あるいは
a common cause
3. collider(head-to-head)
あるいは
a common effect

Chain(head-to-tail)
𝑐が観測されると𝑎と𝑏は「遮断」され𝑎 ⊥ 𝑏 | 𝑐
1. 𝑐が未観測⇒𝑝(𝑎, 𝑏, 𝑐)を𝑐に関して周辺化する
2. 𝑐が観測⇒𝑝 𝑎, 𝑏 𝑐)を考える
ことで上記の性質を数式で表すことができて、実際に
𝑝 𝑎, 𝑏 = 𝑝 𝑎 𝑝 𝑐 𝑎 𝑝(𝑏|𝑐)𝑐 = 𝑝 𝑎 𝑝(𝑏|𝑎)(非独立)
𝑝 𝑎, 𝑏 𝑐) =
𝑝 𝑎, 𝑏, 𝑐
𝑝 𝑐
=
𝑝 𝑎 𝑝 𝑐 𝑎 𝑝 𝑏 𝑐
𝑝 𝑐
= 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐 (𝑐に関して条件付き独立)

Tent(tail-to-tail)
𝑐が観測されると𝑎と𝑏は「遮断」され𝑎 ⊥ 𝑏 | 𝑐
𝑝 𝑎, 𝑏 = 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐 𝑝(𝑐)𝑐 (≠ 𝑝 𝑎 𝑝(𝑏)で非独立)
𝑝 𝑎, 𝑏 𝑐) =
𝑝 𝑎, 𝑏, 𝑐
𝑝 𝑐
= 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐
(𝑐に関して条件付き独立)

Collider (head-to-head)
𝑐が観測されないと𝑎と𝑏は「遮断」されているが、
𝑐が観測されると遮断が解かれる(前の2例と逆！)
𝑝 𝑎, 𝑏 = 𝑝(𝑎)𝑝(𝑏)𝑝(𝑐, 𝑎, 𝑏)𝑐 = 𝑝 𝑎 𝑝(𝑏) (独立)
𝑝 𝑎, 𝑏 𝑐) =
𝑝 𝑎,𝑏,𝑐
𝑝 𝑐
=
𝑝 𝑎 𝑝 𝑏 𝑝 𝑐 𝑎,𝑏
𝑝 𝑐
(非独立)

Bayes ballアルゴリズム
• Bayes ball algorithmは、Eが与えられたときAとB
がd-分離(独立している)かどうかを判定するための
簡単な方法である
• 観測済み変数𝑒 ∈ 𝐸をグレーに塗ったうえで、各
𝑎 ∈ 𝐴にボールを置き、決められたルールでその
ボールがBに到達できるかどうか調べられる

下3つは、ボールが「バウンド」する特殊な条件を示す
Bayes ballアルゴリズム

弁明(explaining away)
• Collider(head-to-head)が与えられたときの非常に
興味深い性質
• AとBの事象が共にCの親であるとき、Cが観測され
るとAとBは独立でなくなる
• その結果、Cの観測下では、
𝑝 𝑎 𝑐 ≠ 𝑝(𝑎|𝑐, 𝑏)
が成り立ち、本来関係ないはずのbの追加観測がaの条
件付き確率を「弁明(explain away)」し影響を与える
≠

遮断の練習
Q：どのノードを観測すればノード2とノード6が
遮断されるか？
A：ノード1, ノード3, ノード5

今日のまとめ
• グラフィカルモデル(GM)は、ドメインに依存し
ない推論のための一般的かつ強力な手法である
• GMは、統計学およびグラフ理論をベースにして
いる
• ベイジアンネットワーク(BN)は、有向非巡回グ
ラフに対するGMである
• BNには3つの基本的な構成部品がある
• GMによって、条件付き独立性(CI)を視覚的に捉
えることができる

参考文献
◆論文
[Belinich+ 89] Beinlich, I. A., Suermondt, H. J., Chavez, R. M., & Cooper, G. F. (1989).
The ALARM monitoring system: A case study with two probabilistic inference
techniques for belief networks (pp. 247-256). Springer Berlin Heidelberg.
[Friedman+ 00] Friedman, N., Geiger, D., & Lotner, N. (2000, June). Likelihood
computations using value abstraction. In Proceedings of the Sixteenth Conference on
Uncertainty in Artificial Intelligence (pp. 192-200). Morgan Kaufmann Publishers Inc..
[Taniguchi+ 15] Taniguchi, T., Nakashima, R., & Nagasaka, S. (2015). Nonparametic
Bayesian Double Articulation Analyzer for Direct Language Acquisition from
Continuous Speech Signals. arXiv preprint arXiv:1506.06646.
◆書籍
D, Koller & N. Friedman, Probabilistic Graphical Models: Principles and Techniques,
MIT Press, 2009.
K. Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.
C. Bishop, Pattern Recognition and Machine Learning, Springer, 2006
渡辺有祐. 機械学習プロフェッショナルシリーズグラフィカルモデル, 講談社, 2016.
宮川雅巳. 統計的因果推論 –回帰分析の新しい枠組み-, 朝倉書店, 2004.
J. Pearl, 黒木学訳, 統計的因果推論モデル・推論・推測, 共立出版, 2009.

Probabilistic Graphical Models 輪読会 #1

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (8)

Similar to Probabilistic Graphical Models 輪読会 #1

Similar to Probabilistic Graphical Models 輪読会 #1 (20)

Probabilistic Graphical Models 輪読会 #1