Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
Probabilistic Graphical Models
輪読会 #1
概論
16/05/14
東京工業大学 4年
八木 拓真(@t_Signull)
Probabilistic Graphical Models 輪読会 #1 1
自己紹介
Probabilistic Graphical Models 輪読会 #1 2
八木 拓真
東京工業大学 情報工学科 4年
統計的パターン認識 、動画認識
WBA若手の会 関東支部代表
興味の方向:AGIの工学的実現
去年やった研究:...
今回読む本
D.Koller & N. Friedman
Probabilistic Graphical Models:
Principles and Techniques
(2009)
• グラフィカルモデルの00年代までの
進展を取り纏めた...
グラフィカルモデル
Probabilistic Graphical Models 輪読会 #1 4
マルコフ確率場 多項式回帰
HDP-HMM
LDA(Latent Dirichlet Allocation)
4
グラフィカルモデル
Probabilistic Graphical Models 輪読会 #1 5
ロボットの言語獲得のモデル [Taniguchi+ 15]
グラフィカルモデルでない
Probabilistic Graphical Models 輪読会 #1 6
ニューラルネットワーク
決定木
0.8
0.2
0.80.2
状態遷移図
なぜグラフィカルモデル?
Probabilistic Graphical Models 輪読会 #1
言語処理
7
統計学
統計分析
符号理論
コンピュータ
ビジョン
グラフ理論
機械学習
1つの学問分野に囚われない、普遍の理論
統計的因果推論...
今日の内容
• 第1章 Introduction
– 本書の構成
– GMの3要素
• 第2章 Foundations
– 確率論
– グラフ理論
• グラフィカルモデル概観
– ベイジアンネットと無向グラフィカルモデル
– ベイジアンネット(...
第1章
Introduction
Probabilistic Graphical Models 輪読会 #1 9
今日の内容
• 第1章 Introduction
– 本書の構成
– GMの3要素
• 第2章 Foundations
– 確率論
– グラフ理論
• グラフィカルモデル概観
– ベイジアンネットと無向グラフィカルモデル
– ベイジアンネット(...
動機(1.1)
• 多くのタスク(作業)は、推論能力を必要とする
• 推論(reasoning)とは、(多くの場合限られた)情
報からある結論を導くこと
• 例えばロボットは、様々な種類のセンサ情報か
ら自らがどの地点にいるのかを把握し、障害物...
本書のアプローチ
• 本書では、問題の解決を知識(の表現)と推論の2
段階に分離→宣言的(declarative)表現の導入
• タスク別に宣言的表現さえ導入すれば、その推論
はドメイン非依存で行えるのではないか
→知識と推論の分離
Proba...
不確定性(Uncertainty)を扱う
• 実世界において不確定性は原則回避できない
• 私たちが観察から得る情報はしばしば
(1) 不完全で
(2) ノイズが混じっていて
(3) 情報同士の関係性はさらに不明瞭
である
• 不確定性は、私た...
確率を使う
• 不確定性を扱うにはどうしたらいい?
→確率論(probability theory)の利用
• 例外的な事象を、小さい確率を割り当てること
で表現できる
Probabilistic Graphical Models 輪読会 #1...
構造化グラフィカルモデル(1.2)
ここで、医療診断システムを考えよう:
• 病名、症状、患者の状態/特性などの情報には
それぞれ確率変数(random variable)が割り当てられ
る
• 確率変数には、0/1などの離散値あるいは連続値が...
• 私たちの目標:観測情報が与えられた下で、1つ
または複数の確率変数について確率的に推論す
ること
• そのためには、私たちは確率変数の集合Χ(カイ)
における全ての可能な割り当てを表す結合分布
(joint probability dist...
例1.1:インフルエンザと花粉症
• 簡単な医療診断の例として、2つの病気と2つの
症状、1つの環境変数を考える
(1)インフルエンザである/ない
(2)花粉症である/ない
(3)充血がある/ない
(4)筋肉痛がある/ない
(5)季節がいつであ...
確率的グラフィカルモデル(1.2.1)
• 先の医療診断の例では64通りの値をとりうることが
わかったが、それはしばしば骨が折れる種類数であ
る
• 一般的な医療診断では数百もの疾患・症状を扱うた
め、プログラムはすぐさま計算量爆発を起こし扱え...
例1.1再訪
• 右下図のようなグラフ構造を仮定:
• 例えば、現在の季節が直接充血や筋肉痛と結びつか
なくなっている(因果関係の導入)
• このグラフには双対(裏返し)な2つの視点がある:
(1)グラフは独立性の集合を現している
(2)グラフ...
GMの等価な表現
Probabilistic Graphical Models 輪読会 #1 20
グラフによる表現
(graph representation)
𝐹 ⊥ 𝐻 𝑆)
𝐴 ⊥ 𝐶 𝐵, 𝐷)
(条件付き)独立性
(independ...
表現、推論、学習(1.2.2)
GMの三大要素:表現、推論、学習
(1) 表現:結合分布𝑝(𝑥1, … , 𝑥 𝑁)がどのような構造によって
表現されるか
→グラフ表現は(そのサイズにかかわらず)明瞭かつ取扱い
が容易
(2) 推論:観測が与え...
GMで知的なシステムを作る
• 表現、推論、学習は知的なシステムを作るうえ
で不可欠な要素である。なぜなら:
(1) 私たちは、自らの世界を記述する宣言的記述を表
現・用意する必要がある
(2) 私たちはこの表現を様々な質問に答えられるよう
利...
視覚的表現としてのGM
Probabilistic Graphical Models 輪読会 #1 23
GMは数式を読み替えた視覚的表現であり、実はGMを
用いずとも議論を進めることはできる!
• (一般化された)機械学習における「学習」:
...
本書の概観(1.3.1)
• Part I: 表現(Representation)
3, 4章:GMの基本形、5, 6, 7章:その拡張
後半は特に実世界データに頻出する構造を扱う
• Part II: 推論(Inference)
9, 10章...
ロードマップ(1.3.2)
Probabilistic Graphical Models 輪読会 #1 25
他の分野との関係(1.3.3)
• GMは、多数の分野からの知見を輸入しつつ今日
まで発展してきている
例1:初期のベイジアンネットワークの研究は、家
族間の遺伝子の継承というごく狭い領域の研究か
ら生起した
例2:無向グラフィカルモデルは、物...
GMの大家:Judea Pearl
• Judea Pearl(1936-)
• 計算機科学者・哲学者
• 2012年チューリング賞受賞
• 人工知能および因果的推論
への確率的な手法を大きく
発展させ、確率的手法の今
日の地位を築き上げた研究...
第2章
Foundations
Probabilistic Graphical Models 輪読会 #1 28
今日の内容
• 第1章 Introduction
– 本書の構成
– GMの3要素
• 第2章 Foundations
– 確率論
– グラフ理論
• グラフィカルモデル概観
– ベイジアンネットと無向グラフィカルモデル
– ベイジアンネット(...
確率論(2.1)
• この本は、最初から最後まで確率分布を使います
• 確率論の復習をしましょう
• 定義/命題等は教科書に従います
Probabilistic Graphical Models 輪読会 #1 30
事象空間(2.1.1.1)
• 確率を扱うためには、何に確率を割り当てるのかを
定める必要がある
• そこで、可能な結果(possible outcome)の空間
(space)を仮定し、それをΩと書く
→例えばサイコロの出目ならΩ = 1, ...
事象空間(2.1.1.1)
• さらに、可測な事象(measurable events)𝑆を用意
し、そこに確率を割り当てる
• そのうえで、事象𝛼 ∈ 𝑆(event)を考える。例えば、
事象{6}はサイコロの目が6を指す
と考えることができ...
確率分布(2.1.1.2)
定義2.1(確率分布)
(Ω, 𝑆)上の確率分布𝑃とは、以下の条件を満たす𝛼 ∈ 𝑆
からℝへの写像である:
• 𝑃 𝛼 ≥ 0 𝑓𝑜𝑟 𝑎𝑙𝑙 𝛼 ∈ 𝑆.
• 𝑃 Ω = 1.
• 𝐼𝑓 𝛼, 𝛽 𝑎𝑛𝑑 𝛼 ∩...
確率の解釈(2.1.1.3)
• 確率分布の議論を進める前に、(直感的に)確率に何
を割り当てるべきなのか、考えよう
歴史的に、確率の解釈には2つのパラダイムがある:
(1) 頻度主義(frequentist interpretation)
(...
頻度主義(frequentist)
• 確率とは:事象の起こる回数(頻度)
• 例えば、サイコロを振る例を考えて、
𝑃 1, 3, 5 = 0.3
ならば、サイコロを繰り返し振り続けた結果、私
たちが1, 3, 5の目を出した頻度の極限が0.3...
主観的確率
• 繰り返し試行できない事象は、頻度主義のパラダイ
ムでは説明できなかった
• そこで主観的確率では、確率を
信念(belief)の主観的度合い
として取り扱う
• ゆえに、”明日雨が50%の確率で降る”とは、この発
言者の不確定性...
条件付き確率(2.1.2.1)
• 例:ある生徒の集合と、彼(彼女)らがgrade A
をとったという事象𝛼が与えられたときに、彼ら
が真に知性を持ちうるという事象𝛽に関する信念
はどう変化するか?
→一見、𝑃(𝛼 ∩ 𝛽)をとれば良い様に思う...
連鎖規則(chain rule)
• 条件付き分布の定義から、次の式を見出す:
𝑃 𝛼 ∩ 𝛽 = 𝑃 𝛼 𝑃 𝛽 𝛼 2.2
• これを一般の事象𝛼1, … , 𝛼 𝑘に適用すると、
𝑃 𝛼1 ∩ ⋯ ∩ 𝛼 𝑘
= 𝑃 𝛼1 𝑃 𝛼2 𝛼1...
ベイズの規則(Bayes rule)
• 条件付き確率からベイズの規則も導出できる:
𝑃 𝛼 𝛽 =
𝑃 𝛽 𝛼 𝑃 𝛼
𝑃 𝛽
(2.4)
• 一般の場合のベイズの規則は背景事象𝛾を用いて、
𝑃 𝛼 𝛽 ∩ 𝛾 =
𝑃 𝛽 𝛼 ∩ 𝛾 𝑃 𝛼...
例2.1,2.2
• 2.1(生徒の成績)
• 2.2(結核のTBテスト)
(その場で計算)
Probabilistic Graphical Models 輪読会 #1 40
確率変数と結合確率(2.1.3)
• ここまで、確率分布を事象と結びつけて話して
きた
→e.g. “サイコロで5が出る”
• しかし、私たちは事象のほかに、属性
(attribute)をの確率を考えたい場合がある
→e.g. “55歳以上” ...
確率変数とは何か?(2.1.3.2)
• 確率変数とは、各事象𝛼 ∈ Ωからℝへの写像
• 例えば、”生徒のgrade=A”という事象は
𝜔 ∈ Ω ∶ 𝑓𝑔𝑟𝑎𝑑𝑒 𝜔 = 𝐴
とかける
(注)実際にはA=0, B=1, …などの値が割り当て...
確率変数の割り当てと略記
• 確率変数の集合として𝑿, 𝒀, 𝒁(太字)、各変数への具
体的な値の割り当てを𝒙, 𝒚, 𝒛とする
• 𝒙 ∈ 𝑿, 𝒀 ⊆ 𝑿に関して、𝒙 𝒀 をYに対する𝒙の割り当
てと表すことにする
• 𝒙 ~ 𝒚 ≝ 𝒙 ...
周辺分布(2.1.3.3)
• 確率変数𝑋に関する分布𝑃(𝑋)を𝑋上の周辺分布
(marginal distribution)と呼ぶ
• これは、確率の定義2.1に従い、唯一の違いは可
測な事象𝑆が確率変数𝑋に置き換えられたことで
ある
e.g...
結合分布(2.1.3.3)
• 1つの確率変数𝑋だけではなく、複数の確率変数
𝜒 = { 𝑋1, … , 𝑋 𝑁 }上の結合分布(joint distribution)
を考えたい
→𝑃(𝑋1, … , 𝑋 𝑁)と表記し、複数の事象が同時に生起...
条件付き確率再訪(2.1.3.4)
• 事象ではなく確率変数を用いて条件付き確率を
書き直すと、
𝑃 𝑋 𝑌 =
𝑃 𝑋, 𝑌
𝑃 𝑌
.
𝑃 𝑋1, … , 𝑋 𝑘 = 𝑃 𝑋1 𝑃 𝑋2 𝑋1) … 𝑃 𝑋 𝑘 𝑋1, … , 𝑋 𝑘−1 ...
独立性(2.1.4.1)
• 通常、私たちは𝑃(𝛼|𝛽)と𝑃(𝛼)は何らかの点で異
なると考えたくなる
• しかし、ある状況ではこの2つが一致する、即ち
𝛽を学ぶことが𝛼の確率に関して何ら影響を与え
ない場合がある
定義2.2(独立な事象, i...
独立性(2.1.4.1)
• 独立性は、別の定義によっても与えられる:
命題2.1(独立性の別定義)
分布𝑃が(𝛼 ⊥ 𝛽)を満たす⇔ P 𝛼 ∩ 𝛽 = 𝑃 𝛼 𝑃 𝛽
証明:
連鎖規則を用いる
Probabilistic Graphical...
条件付き独立(CI)(2.1.4.2)
• 独立性は、しばしば追加の事象が与えられたと
きに初めて発現する
→例:MIT is CI of Stanford given GradeA.
定義2.3(条件付き独立, conditional ind...
条件付き独立(CI)(2.1.4.2)
• 条件付き独立もまた、別の方法で定義可能:
命題2.2
分布𝑃が 𝛼 ⊥ 𝛽 𝛾 を満たす
⇔ P 𝛼 ∩ 𝛽|𝛾 = 𝑃 𝛼|𝛾 𝑃 𝛽|𝛾
証明:
命題2.1と同様
Probabilistic Gr...
複数の確率変数の独立性(2.1.4.3)
定義2.4
𝑿, 𝒀, 𝒁をそれぞれ確率変数の集合とする。もし𝑃があ
らゆる𝒙 ∈ 𝑉𝑎𝑙 𝑿 , 𝒚 ∈ 𝑉𝑎𝑙 𝒀 , 𝒛 ∈ 𝑉𝑎𝑙(𝒁)において
𝑿 = 𝒙 ⊥ 𝒀 = 𝒚 𝒁 = 𝒛)を満たす...
CIの性質(2.1.4.3)
• 対称性(Symmetry)
𝑿 ⊥ 𝒀 𝒁) ⇒ 𝒀 ⊥ 𝑿 𝒁).
• 分解性(Decomposition)
𝑿 ⊥ 𝒀 𝑾, 𝒁) ⇒ 𝑿 ⊥ 𝒀 𝒁).
• 弱結合性(Weak union)
𝑿 ⊥ 𝒀,...
正値確率分布
定義2.5(正値確率分布)
Pが正値であるとは、𝛼 ≠ ∅である全ての事象𝛼 ∈ 𝑆
において𝑃(𝛼) > 0であることである
正値確率分布に対しては、以下の性質が成り立つ
• 交差性(Intersection)
𝑿 ⊥ 𝒀 𝒁,...
クエリ(2.1.5)
• 私たちの目標は、ある変数の集合が観測された
ときに、注目するクエリ(query of interest)の
確率を評価することである
• 本書では、2種類のクエリを紹介する
(1)確率クエリ(Probability Q...
確率クエリ(2.1.5.1)
確率クエリは2つのパーツから構成される:
(1)エビデンス:確率変数群の部分集合𝐸と、実際
の割り当て値𝑒
(2)クエリ変数:ネットワーク中の確率変数群の部
分集合𝑌
私たちが考えたいのは、エビデンス𝑒 ∈ 𝐸で条...
MAPクエリ(2.1.5.2)
MAP=Maximum A Posteriori (最大事後確率)
• 続いて考えたいのは、ある確率変数の部分集合
に対して、最大の事後確率を得る割り当てを見
つけることである
• よりフォーマルに言えば、𝑾 =...
MAP割り当て
• 1変数へのMAP割り当ては簡単で、𝑃(𝐴|𝑒)を最
大化するような割り当て𝑎を選択すればよい
• しかし、複数の確率変数のMAP割り当ては、
各個の変数を個別に最大化する割り当てでは結合
確率の大域的な最大化は達成できない
...
例2.4(MAP割り当て)
𝑎0 𝑎1
0.4 0.6
Probabilistic Graphical Models 輪読会 #1 58
𝐴 𝑏0
𝑏1
𝑎0 0.1 0.9
𝑎1 0.5 0.5
𝑀𝐴𝑃 𝐴 = 𝑎1
𝑀𝐴𝑃 𝐴, 𝐵 = (...
周辺化MAPクエリ(2.1.5.3)
• 医療診断においては、最終的に推定したいの
は ”ある病気である確率”のみで、その過程の症
状の推定は重要ではない
• 未観測だが重要でない確率変数は全ての組み合
わせについて和を取って周辺化(margi...
連続値空間(2.1.6)
• ここまでの議論は全て確率変数が離散値、すなわ
ち有限の数の集合をとる場合であった、連続値の
場合はどうか?
• 例えば、Val X = 0, 1 とした場合、
𝑃 𝑋 = 0 = 0.
となる、どうする?→確率密度...
一様/ガウス分布
定義2.6(一様分布)
[𝑎, 𝑏]における一様分布𝑋 ~ 𝑈𝑛𝑖𝑓[𝑎, 𝑏]のPDFは、
𝑝 𝑥 =
1
𝑏 − 𝑎
𝑏 ≥ 𝑥 ≥ 𝑎
0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒.
定義2.7(ガウス分布)
平均𝜇、分散𝜎2のガウス分布𝑋 ...
結合密度関数(2.1.6.2)
定義2.8(結合密度関数)
連続確率変数𝑋1, … , 𝑋 𝑛を考える。関数𝑝(𝑥1, … , 𝑥 𝑛)
が次の条件を満たすとき、𝑃を𝑋1, … , 𝑋 𝑛の結合密度
分布であると呼ぶ:
・あらゆる𝑋1, . ....
条件付き密度関数(2.1.6.3)
• 条件付き確率を連続値に拡張する場合も、
𝑃 𝑋 = 𝑥 = 0の問題が出現する
• そこで、𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖という微小区間を考
え(これで確率が正の値をとる)、その極限を
取ってみる
Q...
条件付き密度関数の導出
A:存在する
𝑃 𝑎 ≤ 𝑌 ≤ 𝐵 | 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖
=
𝑃 𝑎 ≤ 𝑌 ≤ 𝐵, 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖
𝑃(𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖)
=
𝑝 𝑥′
, 𝑦 𝑑𝑦𝑑𝑥′𝑥...
条件付き密度関数/CI
定義2.9(条件付き密度関数)
𝑝 𝑥, 𝑦 を𝑋, 𝑌の結合密度であるとすると、𝑋が与えられたと
きの𝑌の条件付き密度関数は
𝑝 𝑦 𝑥) =
𝑝 𝑥, 𝑦
𝑝(𝑥)
.
ただし𝑝 𝑥 = 0のときは未定義。
定義2....
期待値(2.1.7.1)
• 離散確率変数に対する期待値
𝐸 𝑃 𝑋 = 𝑥 ∙ 𝑃 𝑥 .
𝑥
• 連続確率変数に対する期待値
𝐸 𝑃 𝑋 = 𝑥 ∙ 𝑝 𝑥 𝑑𝑥.
• しばしば、次の関数が用いられる:
𝐼 𝑋 = 𝑥 =
1 𝑖𝑓 𝑋 =...
期待値の性質
命題2.4(期待値の線形性)
𝐸 𝑋 + 𝑌 = 𝐸 𝑋 + 𝐸 𝑌 .
これは、変数が独立でない場合も成り立つ。
命題2.5(期待値の独立性)
もし確率変数𝑋と𝑌が独立ならば、
𝐸 𝑋 ∙ 𝑌 = 𝐸 𝑋 ∙ 𝐸 𝑌 .
また、...
分散(2.1.7.2)
分散:確率変数𝑋が平均からどれだけばらけているか
𝑉𝑎𝑟𝑃 𝑋 = 𝐸 𝑃 𝑋 − 𝐸 𝑃 𝑋 2
.
これを展開すると
𝑉𝑎𝑟 𝑋 = 𝐸 𝑋2
− 𝐸 𝑋 2
.
命題2.6(分散と独立性)
もし𝑋と𝑌が独立であるな...
標準偏差
また、標準偏差を次のように定義する:
𝜎 𝑋 = 𝑉𝑎𝑟 𝑋 .
標準偏差は、𝑋の値の”距離”を測るための1つの目
安として使用される
命題2.7(ガウス分布の性質)
𝑋をガウス分布𝑁(𝜇, 𝜎2
)に従う確率変数とすると、
𝐸 𝑋 ...
Chebyshevの不等式
定理2.1(Chebyshevの不等式)
確率変数𝑋、実数値𝑡が与えられたとき
𝑃 𝑋 − 𝐸 𝑃[𝑋] ≥ 𝑡 ≤
𝑉𝑎𝑟𝑃 𝑋
𝑡2
𝑜𝑟
𝑃 𝑋 − 𝐸 𝑃[𝑋] ≥ 𝑘𝜎 𝑋 ≤
1
𝑘2
証明: 𝑋 − 𝐸...
グラフ理論(2.2)
• 本書は、グラフ構造に確率分布の表現を導入す
る
• グラフ理論の基本概念をここで押さえましょう
Probabilistic Graphical Models 輪読会 #1 71
ノードと辺(2.2.1)
• グラフ 𝐾 = (X, Ε)
• ノード 𝑋 = {𝑋1, … , 𝑋 𝑛}
• 有向辺 𝑋𝑖 → 𝑋𝑗
• 無向辺 𝑋𝑖 − 𝑋𝑗
• 何らかの辺(≠双方向) 𝑋𝑖 ↔ 𝑋𝑗
本書では、一度に2つ以上の種類のエッ...
無向形(undirected version)
定義2.11(グラフの無向形)
グラフ𝐾 = (𝑋, 𝐸)が与えられたとき、その無向形
は 𝐻 = 𝑋, 𝐸′ (但し、𝐸′ = 𝑋 − 𝑌 ∶ 𝑋 ↔ 𝑌 ∈ 𝐸
である。
Probabilis...
子/親/隣/次数/入次数
• 子(child), 𝐶ℎ 𝑋
• 親(parent), 𝑃𝑎 𝑋
• 隣(neighbor), 𝑁𝑏 𝑋
• 次数(degree):
あるノードに接続する辺の数
• 入次数(indegree):
あるノードに流入す...
誘導部分グラフ
(induced subgraph)
定義2.12(誘導部分グラフ)
𝐾 = (Χ, Ε)および𝑿 ⊂ Χを考える。誘導部分グラフ
K[𝐗]をΕ′ = {∀𝑋 ↔ 𝑌 ∈ Ε ∶ 𝑋, 𝑌 ∈ 𝑿}であるような
グラフ(𝑿, Ε...
完全部分グラフ
(complete subgraph)
定義2.13(完全部分グラフ)
𝑿上の部分グラフを考えたとき、𝑋中の全てのノー
ドの組が辺で接続されているとき、𝑋は完全であ
るという。𝑋はクリークとも呼ばれる。さらに、
その上位集合𝑌 ...
クリーク(clique)
Probabilistic Graphical Models 輪読会 #1 77
クリーク(𝑐𝑙𝑖𝑞𝑢𝑒):
ノード同士が全て隣接しているノードの集合
極大クリーク(𝑚𝑎𝑥𝑖𝑚𝑎𝑙 𝑐𝑙𝑖𝑞𝑢𝑒):
クリーク性を保持す...
バウンダリ(Boundary, P149)
• ノード𝑋の親(𝑌 → 𝑋が存在)および隣(𝑌 − 𝑋が存
在)の和集合を𝑋のバウンダリと呼び、
𝐵𝑜𝑢𝑛𝑑𝑎𝑟𝑦 𝑋と表記する
Probabilistic Graphical Models 輪読会...
Upward Closure
定義2.14(Upward Closure)
ノードの部分集合𝑿 ⊂ Χを考える。すべての
X ∈ 𝑿に関して𝐵𝑜𝑢𝑛𝑑𝑎𝑟𝑦 𝑋 ⊂ 𝑿であるとき、𝑿 ⊂ Χ
はKに関して上方向に閉じているという
𝐗を含み、上に...
路とトレイル(2.2.3)
定義2.15(路, path)
グラフ𝐾 = (Χ, Ε)において、𝑋1, … , 𝑋 𝑘が路であるとは、
各𝑖 = 1, … , 𝑘 − 1に対して𝑋𝑖 → 𝑋𝑖+1または𝑋𝑖 − 𝑋𝑖+1 で
あることをいう。1...
先祖/子孫
• 先祖(ancestor):𝐴𝑛𝑐𝑒𝑠𝑡𝑜𝑟𝑠 𝑋
• 子孫(descendants):𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑋
• 非子孫:𝑁𝑜𝑛𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑋 = Χ − 𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑋
例:
𝐴𝑛𝑐𝑒𝑠𝑡𝑜𝑟𝑠𝐼 ...
Topological ordering
定義2.19(Topological ordering)
グラフK = (Χ, Ε)を考える。順序つきノード
𝑋1, . . , 𝑋 𝑛がつねに𝑋𝑖 → 𝑋𝑗 ∈ Εならば𝑖 < 𝑗を満たす
とき、𝑋1...
閉路(cycle)
定義2.20(閉路, cycle)
グラフ𝐾の閉路とは、𝑋1 = 𝑋 𝑘であるような有向路
𝑋1, … , 𝑋 𝑘のことである。閉路を含まないグラフは
非巡回(acyclic)と呼ばれる。
Probabilistic Gra...
☆DAG/PDAG
• 有向非巡回グラフ(DAG, directed acyclic
graph)とは、その名のとおり有向かつ非巡回な
グラフである
• DAGはベイジアンネットワークの表現の中心を
為すグラフで、本書の大半は非巡回のグラフを
...
連鎖成分
定義2.21(連鎖成分, chain component)
𝐾をΧ上のPDAGであるとする。Χの互いに素(disjoint)
な分割𝐾1, … , 𝐾𝑙が
・𝐾𝑖の誘導部分グラフが有向辺を含まない
・𝑖 < 𝑗であるあらゆる組𝑋 ∈ ...
ループ(Loop)/polytree
定義2.22(ループ/polytree)
𝐾上のループとは、X1 = Xkであるようなトレイル
𝑋1, … , 𝑋 𝑘のことである。グラフがループを含まな
いとき、”個別に連結している”という。
ループのな...
有向グラフにおける森/木
定義2.23(有向グラフにおける森/木)
各ノードがたかだが1つの親を持つ有向グラフを森
と呼ぶ。もし有向森が連結であれば、木と呼ぶ。
※注意
有向グラフにおいては、木⊆森⊆polytreeである
(木・森は複数の親を...
Chordal(弦) Graph
定義2.24(Chordal graph)
ループ𝑋1 − 𝑋2 − ⋯ − 𝑋 𝑘 − 𝑋1を考える。ループを構成
する非連続なノード2つによる辺をループ内の弦
(chord)と呼ぶ。無向グラフ𝐻が𝑘 = 4...
グラフィカルモデル
概観
(3・4章に入る前の下準備)
Probabilistic Graphical Models 輪読会 #1 89
今日の内容
• 第1章 Introduction
– 本書の構成
– GMの3要素
• 第2章 Foundations
– 確率論
– グラフ理論
• グラフィカルモデル概観
– ベイジアンネットと無向グラフィカルモデル
– ベイジアンネット(...
グラフィカルモデル(GM)
の基本原理
Probabilistic Graphical Models 輪読会 #1 91
Michael Jordan (1997)曰く、
複雑なシステムを簡単に扱うための2つの原理:
(1)モジュラリティの原理...
Probabilistic Graphical Models 輪読会 #1 92
• 具体的には、次のなじみ深い定理のこと
(1)加法定理(変数の消去、周辺化)
𝑝 𝑎 = 𝑝 𝑎, 𝑏
𝑏
(または 𝑝 𝑎, 𝑏 𝑑𝑏)
(2) 乗法定理(確...
グラフィカルモデル(GM)の定義
Probabilistic Graphical Models 輪読会 #1 93
グラフィカルモデルの簡単な定義:
• CIの仮定を置くことで、結合分布を表現する方法
• 各ノードが確率変数、辺の欠如がCIの仮...
(1)ベイジアンネットワーク(BN)
Probabilistic Graphical Models 輪読会 #1 94
ベイジアンネットワーク(BN)とは、
対応するグラフがDAGであるGM
のことを指す(有向閉路が存在しない)
(1) Dir...
BNの例:マルコフ連鎖
Probabilistic Graphical Models 輪読会 #1 95
• 連鎖規則とマルコフ性の仮定を組み合わせて、
𝑝 𝒙1:𝑉 = 𝑝 𝑥1 𝑝(𝑥 𝑡|𝑥 𝑡−1)
𝑉
𝑡=1
と書き表すことができる。...
BNの例:ALARM Network(1989)
Probabilistic Graphical Models 輪読会 #1 96
• Alarm Network[Beinlich+ 89]:37変数と504の
パラメタを持つ医者向けの医療診断...
BNの例:遺伝リンク解析
Probabilistic Graphical Models 輪読会 #1 97
Pedigree graph: 親子の関係(家系)を示すDAG
歴史的に重要なモデル [Friedman+ 00]
(1)遺伝子型𝑋𝑖𝑗...
BNの例:遺伝リンク解析
Probabilistic Graphical Models 輪読会 #1 98
𝑋𝑖𝑗
𝐺𝑖𝑗
𝑚
𝐺𝑖𝑗
𝑝
𝑧𝑖𝑗
𝑚
𝑧𝑖𝑗
𝑝
𝐺𝑖𝑗
𝑚
𝐺𝑖𝑗
𝑝
𝑋𝑖𝑗
𝐺𝑖𝑗
𝑚
𝐺𝑖𝑗
𝑝
𝑧𝑖𝑗
𝑚
𝑧𝑖𝑗
𝑝
...
(2) 無向グラフィカルモデル(UGM)
無向グラフィカルモデルとは、
無向辺を用いたGM
のことを指す。BNと同様、
(1) Markov Network
(2) Markov Random Field(MRF)
などの別名がある。本書ではU...
UGMの例:Izingモデル
• 統計物理学に端を欲したMRFの一種
• 格子状にノードが連結され、各ノードは+1(ス
ピンが上向き)または-1(スピンが下向き)を持つ
• ある格子点上のスピンは隣接する格子点のスピ
ンの値によって確率的に決定...
応用例:画像復元
• 2値画像の各ピクセルが格子状につながっている
潜在変数に条件づけられていると仮定して、画
像のノイズ除去を行う
Probabilistic Graphical Models 輪読会 #1 101
元画像 10%反転 復元結...
問題設定
Probabilistic Graphical Models 輪読会 #1 102
次のような仮定を置いてみよう:
複数の互いに関連を持った変数を観測した
(文書、画像、遺伝子etc)
Question:
(1)結合確率𝑝 𝒙 𝜽 を...
連鎖規則再訪
Probabilistic Graphical Models 輪読会 #1 103
連鎖規則を用いて、我々はあらゆる結合分布を、
あらゆる変数の順番を以て表現することができる
𝑝 𝒙1:𝑉 = 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 ...
結合分布の計算量
Probabilistic Graphical Models 輪読会 #1 104
全ての変数が𝐾状態を持つと仮定すると、
• 𝑝 𝑥1 は𝑂 𝐾 厳密には𝑂 𝐾 − 1 個の表で離散分
布を表現できる
同様に、
• 𝑝(𝑥2...
BNの因子分解定理
Probabilistic Graphical Models 輪読会 #1 105
• Topological orderingの仮定を置いたとき、各ノード
がその直接の親のみに依存するというordered
markov p...
BNの因子分解
Probabilistic Graphical Models 輪読会 #1 106
• PRMLの例を拝借(PRML下巻 8.1)
• 例えば、右記の結合分布は
𝑝 𝑥1, … , 𝑥7
= p x1 p x2 p x3 p x...
BNの計算量
Probabilistic Graphical Models 輪読会 #1 107
• 先述の通り、一般の確率分布のパラメタ数は
𝑂(𝐾 𝑉)であった
• DGMの各ノードが𝑂(𝐹)個の親と𝐾状態を持つと
き、そのパラメタ数は𝑂(...
BNの肝:条件付き独立性の仮定
Probabilistic Graphical Models 輪読会 #1 108
• あらゆるグラフィカルモデルにおいて、条件付き
独立の仮定(CI assumption)がその根幹を成す
• グラフGにおいて...
グラフの見た目とCI
Probabilistic Graphical Models 輪読会 #1 109
結合度が高い 結合度が低い
CIの仮定が少ない CIの仮定が多い
続いての疑問:BNの確率変数の間には、実際には
どのようなCIが成り立つ...
BNの基本パーツ
Probabilistic Graphical Models 輪読会 #1 110
BNには、最もシンプルな形の構造が3種類ある
1. chain(head-to-tail)
あるいは
indirect causal effe...
Chain(head-to-tail)
Probabilistic Graphical Models 輪読会 #1 111
𝑐が観測されると𝑎と𝑏は「遮断」され𝑎 ⊥ 𝑏 | 𝑐
1. 𝑐が未観測⇒𝑝(𝑎, 𝑏, 𝑐)を𝑐に関して周辺化する
2...
Tent(tail-to-tail)
Probabilistic Graphical Models 輪読会 #1 112
𝑐が観測されると𝑎と𝑏は「遮断」され𝑎 ⊥ 𝑏 | 𝑐
𝑝 𝑎, 𝑏 = 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐 𝑝(𝑐)𝑐 (≠ 𝑝 𝑎...
Collider (head-to-head)
Probabilistic Graphical Models 輪読会 #1 113
𝑐が観測されないと𝑎と𝑏は「遮断」されているが、
𝑐が観測されると遮断が解かれる(前の2例と逆!)
𝑝 𝑎, 𝑏...
Bayes ballアルゴリズム
Probabilistic Graphical Models 輪読会 #1 114
• Bayes ball algorithmは、Eが与えられたときAとB
がd-分離(独立している)かどうかを判定するための
...
Probabilistic Graphical Models 輪読会 #1 115
下3つは、ボールが「バウンド」する特殊な条件を示す
Bayes ballアルゴリズム
弁明(explaining away)
Probabilistic Graphical Models 輪読会 #1 116
• Collider(head-to-head)が与えられたときの非常に
興味深い性質
• AとBの事象が共にCの親であ...
遮断の練習
Q:どのノードを観測すればノード2とノード6が
遮断されるか?
A:ノード1, ノード3, ノード5
Probabilistic Graphical Models 輪読会 #1 117
今日のまとめ
• グラフィカルモデル(GM)は、ドメインに依存し
ない推論のための一般的かつ強力な手法である
• GMは、統計学およびグラフ理論をベースにして
いる
• ベイジアンネットワーク(BN)は、有向非巡回グ
ラフに対するGMである
•...
参考文献
◆論文
[Belinich+ 89] Beinlich, I. A., Suermondt, H. J., Chavez, R. M., & Cooper, G. F. (1989).
The ALARM monitoring sys...
Prochain SlideShare
Chargement dans…5
×

Probabilistic Graphical Models 輪読会 #1

グラフィカルモデル輪読会での発表資料です。
http://wbawakate.connpass.com/event/31613/

  • Identifiez-vous pour voir les commentaires

Probabilistic Graphical Models 輪読会 #1

  1. 1. Probabilistic Graphical Models 輪読会 #1 概論 16/05/14 東京工業大学 4年 八木 拓真(@t_Signull) Probabilistic Graphical Models 輪読会 #1 1
  2. 2. 自己紹介 Probabilistic Graphical Models 輪読会 #1 2 八木 拓真 東京工業大学 情報工学科 4年 統計的パターン認識 、動画認識 WBA若手の会 関東支部代表 興味の方向:AGIの工学的実現 去年やった研究: 『人物動作系列からの「動作素」の自動抽出』 @t_Signull
  3. 3. 今回読む本 D.Koller & N. Friedman Probabilistic Graphical Models: Principles and Techniques (2009) • グラフィカルモデルの00年代までの 進展を取り纏めた名著 • Coursera創設者、Daphne Koller先 生らが執筆 • 1200ページという圧巻の分量に加え、 多量のtypoと非直感的な数式が我々 を苦しめる Probabilistic Graphical Models 輪読会 #1 3
  4. 4. グラフィカルモデル Probabilistic Graphical Models 輪読会 #1 4 マルコフ確率場 多項式回帰 HDP-HMM LDA(Latent Dirichlet Allocation) 4
  5. 5. グラフィカルモデル Probabilistic Graphical Models 輪読会 #1 5 ロボットの言語獲得のモデル [Taniguchi+ 15]
  6. 6. グラフィカルモデルでない Probabilistic Graphical Models 輪読会 #1 6 ニューラルネットワーク 決定木 0.8 0.2 0.80.2 状態遷移図
  7. 7. なぜグラフィカルモデル? Probabilistic Graphical Models 輪読会 #1 言語処理 7 統計学 統計分析 符号理論 コンピュータ ビジョン グラフ理論 機械学習 1つの学問分野に囚われない、普遍の理論 統計的因果推論 認知科学 人工知能
  8. 8. 今日の内容 • 第1章 Introduction – 本書の構成 – GMの3要素 • 第2章 Foundations – 確率論 – グラフ理論 • グラフィカルモデル概観 – ベイジアンネットと無向グラフィカルモデル – ベイジアンネット(BN)入門 Probabilistic Graphical Models 輪読会 #1 8
  9. 9. 第1章 Introduction Probabilistic Graphical Models 輪読会 #1 9
  10. 10. 今日の内容 • 第1章 Introduction – 本書の構成 – GMの3要素 • 第2章 Foundations – 確率論 – グラフ理論 • グラフィカルモデル概観 – ベイジアンネットと無向グラフィカルモデル – ベイジアンネット(BN)入門 Probabilistic Graphical Models 輪読会 #1 10
  11. 11. 動機(1.1) • 多くのタスク(作業)は、推論能力を必要とする • 推論(reasoning)とは、(多くの場合限られた)情 報からある結論を導くこと • 例えばロボットは、様々な種類のセンサ情報か ら自らがどの地点にいるのかを把握し、障害物 と衝突しないようにゴールに向かう軌道を考え なければならない →決定的なプログラムで書けなくはないが、しば しば柔軟性・汎用性に欠ける Probabilistic Graphical Models 輪読会 #1 11
  12. 12. 本書のアプローチ • 本書では、問題の解決を知識(の表現)と推論の2 段階に分離→宣言的(declarative)表現の導入 • タスク別に宣言的表現さえ導入すれば、その推論 はドメイン非依存で行えるのではないか →知識と推論の分離 Probabilistic Graphical Models 輪読会 #1 12 宣言的表現 𝑋1 𝑋2 𝑋3 𝑋4 実世界の 問題 共通の推論アルゴリズム
  13. 13. 不確定性(Uncertainty)を扱う • 実世界において不確定性は原則回避できない • 私たちが観察から得る情報はしばしば (1) 不完全で (2) ノイズが混じっていて (3) 情報同士の関係性はさらに不明瞭 である • 不確定性は、私たちが不完全な観察、不完全なモデ ル化しかできないことによって引き起こされる →私たちが結論を下すためには、複数の可能性を考え、 かつその中で最も可能性の高いものを推論する必要が ある Probabilistic Graphical Models 輪読会 #1 13
  14. 14. 確率を使う • 不確定性を扱うにはどうしたらいい? →確率論(probability theory)の利用 • 例外的な事象を、小さい確率を割り当てること で表現できる Probabilistic Graphical Models 輪読会 #1 14 ルール1 ルール2 ルール3 例外? ? ? 事象A 事象B 事象C あまり起き ないこと 例外も他のルールと平等 例外的な事象は重要ではない
  15. 15. 構造化グラフィカルモデル(1.2) ここで、医療診断システムを考えよう: • 病名、症状、患者の状態/特性などの情報には それぞれ確率変数(random variable)が割り当てられ る • 確率変数には、0/1などの離散値あるいは連続値が 格納され、「インフルエンザである/ない」、「体 温が37.5℃である」などの意味を持つ • グラフィカルモデル(GM)を構成するこれらの確率 変数にどのような意味や値を与えるかは、我々の行 いたいタスクによって変化する Probabilistic Graphical Models 輪読会 #1 15
  16. 16. • 私たちの目標:観測情報が与えられた下で、1つ または複数の確率変数について確率的に推論す ること • そのためには、私たちは確率変数の集合Χ(カイ) における全ての可能な割り当てを表す結合分布 (joint probability distribution)を構築する必要 がある • 結合分布を得ることで、ある確率変数𝑋𝑖が𝑥𝑖で あったときの事後分布(posterior distribution) を計算できる Probabilistic Graphical Models 輪読会 #1 16 構造化グラフィカルモデル(1.2)
  17. 17. 例1.1:インフルエンザと花粉症 • 簡単な医療診断の例として、2つの病気と2つの 症状、1つの環境変数を考える (1)インフルエンザである/ない (2)花粉症である/ない (3)充血がある/ない (4)筋肉痛がある/ない (5)季節がいつであるか(春/夏/秋/冬) Q:この確率空間はどの程度広い? A:2×2×2×2×4=64通り Probabilistic Graphical Models 輪読会 #1 17
  18. 18. 確率的グラフィカルモデル(1.2.1) • 先の医療診断の例では64通りの値をとりうることが わかったが、それはしばしば骨が折れる種類数であ る • 一般的な医療診断では数百もの疾患・症状を扱うた め、プログラムはすぐさま計算量爆発を起こし扱え なくなってしまう(e.g. 2100 通り) →もっとコンパクトに分布を表現したい • 確率的グラフィカルモデルはグラフ構造を基本とし て、高次元空間の複雑な分布をコンパクトに表現で きる Probabilistic Graphical Models 輪読会 #1 18
  19. 19. 例1.1再訪 • 右下図のようなグラフ構造を仮定: • 例えば、現在の季節が直接充血や筋肉痛と結びつか なくなっている(因果関係の導入) • このグラフには双対(裏返し)な2つの視点がある: (1)グラフは独立性の集合を現している (2)グラフは高次元分布に構造を与え、いくつかの因 子(factor)に分解する グラフを与えたことで、 64通り→18通り (冗長でなくなった!) Probabilistic Graphical Models 輪読会 #1 19
  20. 20. GMの等価な表現 Probabilistic Graphical Models 輪読会 #1 20 グラフによる表現 (graph representation) 𝐹 ⊥ 𝐻 𝑆) 𝐴 ⊥ 𝐶 𝐵, 𝐷) (条件付き)独立性 (independencies) 𝑃 𝐹, 𝑆 = 𝑃 𝑆 𝑃(𝐹|𝑆) 𝑃 𝐴, 𝐵, 𝐶 = 1 𝑍 𝜙1 𝐴, 𝐵 𝜙2 𝐶, 𝐷 因子分解 (factorization)
  21. 21. 表現、推論、学習(1.2.2) GMの三大要素:表現、推論、学習 (1) 表現:結合分布𝑝(𝑥1, … , 𝑥 𝑁)がどのような構造によって 表現されるか →グラフ表現は(そのサイズにかかわらず)明瞭かつ取扱い が容易 (2) 推論:観測が与えられた際の事後確率𝑝(𝑋|𝐷)の確率を 効率よく計算する (3) 学習:専門家の知識またはデータ自身から、ふさわし い予測をするためのパラメタを学習する →PGMはデータ駆動(data-driven)な学習を可能にする Probabilistic Graphical Models 輪読会 #1 21
  22. 22. GMで知的なシステムを作る • 表現、推論、学習は知的なシステムを作るうえ で不可欠な要素である。なぜなら: (1) 私たちは、自らの世界を記述する宣言的記述を表 現・用意する必要がある (2) 私たちはこの表現を様々な質問に答えられるよう 利用できるようにしなくてはならない (3) 専門家の知識と蓄積されたデータを利用して、適 切な分布を獲得しなければならない GMは小さいながらこれら3つの能力を全て兼ね備 えた理想的なモデルの1つなのだ! Probabilistic Graphical Models 輪読会 #1 22
  23. 23. 視覚的表現としてのGM Probabilistic Graphical Models 輪読会 #1 23 GMは数式を読み替えた視覚的表現であり、実はGMを 用いずとも議論を進めることはできる! • (一般化された)機械学習における「学習」: 変数𝑥1, … , 𝑥 𝑛とラベル𝑦があるとき、 𝑝(𝑦, 𝑥1, 𝑥2, … , 𝑥 𝑛, )をデータ𝑋 1 , 𝑋 2 , … , 𝑋 𝑁 から推定す る • 機械学習における「予測」または「推論」 𝑦∗ = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑦 𝑝 𝑦 𝑥1 ∗ , 𝑥2 ∗ , … , 𝑥 𝑛 ∗ ) ただ、数式だけで進めるのはしんどい→表現方法とし てのGM
  24. 24. 本書の概観(1.3.1) • Part I: 表現(Representation) 3, 4章:GMの基本形、5, 6, 7章:その拡張 後半は特に実世界データに頻出する構造を扱う • Part II: 推論(Inference) 9, 10章:厳密推論、11・12章:近似推論 • Part III:学習(Learning) 16、17章:GMの学習の基本 18章:BNの構造学習 19、20章:より難しいGMの学習 • Part IV:行動と決定(Actions and decisions) 21、22、23章:意思決定のためのGM Probabilistic Graphical Models 輪読会 #1 24
  25. 25. ロードマップ(1.3.2) Probabilistic Graphical Models 輪読会 #1 25
  26. 26. 他の分野との関係(1.3.3) • GMは、多数の分野からの知見を輸入しつつ今日 まで発展してきている 例1:初期のベイジアンネットワークの研究は、家 族間の遺伝子の継承というごく狭い領域の研究か ら生起した 例2:無向グラフィカルモデルは、物理学における 電子の系のモデリングとして定式化された 例3:GMの主要なアルゴリズムである確率伝搬法 と、確率的な符号の一種であるLDPC符号のアルゴ リズムの等価性が指摘された Probabilistic Graphical Models 輪読会 #1 26
  27. 27. GMの大家:Judea Pearl • Judea Pearl(1936-) • 計算機科学者・哲学者 • 2012年チューリング賞受賞 • 人工知能および因果的推論 への確率的な手法を大きく 発展させ、確率的手法の今 日の地位を築き上げた研究 者の1人 特にGMにおいては、歴史的背 景の理解も重要となる Probabilistic Graphical Models 輪読会 #1 27
  28. 28. 第2章 Foundations Probabilistic Graphical Models 輪読会 #1 28
  29. 29. 今日の内容 • 第1章 Introduction – 本書の構成 – GMの3要素 • 第2章 Foundations – 確率論 – グラフ理論 • グラフィカルモデル概観 – ベイジアンネットと無向グラフィカルモデル – ベイジアンネット(BN)入門 Probabilistic Graphical Models 輪読会 #1 29
  30. 30. 確率論(2.1) • この本は、最初から最後まで確率分布を使います • 確率論の復習をしましょう • 定義/命題等は教科書に従います Probabilistic Graphical Models 輪読会 #1 30
  31. 31. 事象空間(2.1.1.1) • 確率を扱うためには、何に確率を割り当てるのかを 定める必要がある • そこで、可能な結果(possible outcome)の空間 (space)を仮定し、それをΩと書く →例えばサイコロの出目ならΩ = 1, 2, 3, 4, 5, 6 Probabilistic Graphical Models 輪読会 #1 31
  32. 32. 事象空間(2.1.1.1) • さらに、可測な事象(measurable events)𝑆を用意 し、そこに確率を割り当てる • そのうえで、事象𝛼 ∈ 𝑆(event)を考える。例えば、 事象{6}はサイコロの目が6を指す と考えることができる • 事象は次の3条件を満たす: (1) 空事象𝜙及び自明な(trivial)事象Ωが存在 (2) 和事象に関して閉じている(𝛼, 𝛽 ∈ 𝑆 ⇒ 𝛼 ∪ 𝛽 ∈ 𝑆) (3) 補集合に関して閉じている(𝛼 ∈ 𝑆 ⇒ Ω − 𝛼 ∈ 𝑆) Probabilistic Graphical Models 輪読会 #1 32 事象空間Ω {1, 2, 3} 可測な事象𝑆 {𝜙, 1 , 2 , 3 , 1,2 , 1,3 , 2,3 , Ω}
  33. 33. 確率分布(2.1.1.2) 定義2.1(確率分布) (Ω, 𝑆)上の確率分布𝑃とは、以下の条件を満たす𝛼 ∈ 𝑆 からℝへの写像である: • 𝑃 𝛼 ≥ 0 𝑓𝑜𝑟 𝑎𝑙𝑙 𝛼 ∈ 𝑆. • 𝑃 Ω = 1. • 𝐼𝑓 𝛼, 𝛽 𝑎𝑛𝑑 𝛼 ∩ 𝛽 = ∅, 𝑡ℎ𝑒𝑛 𝑃 𝛼 ∪ 𝛽 = 𝑃 𝛼 + 𝑃 𝛽 . 3番目の条件は、背反な事象の和集合の確率はそれぞ れの確率の和であることを示している Probabilistic Graphical Models 輪読会 #1 33
  34. 34. 確率の解釈(2.1.1.3) • 確率分布の議論を進める前に、(直感的に)確率に何 を割り当てるべきなのか、考えよう 歴史的に、確率の解釈には2つのパラダイムがある: (1) 頻度主義(frequentist interpretation) (2) 主観的確率(subjective interpretation) Probabilistic Graphical Models 輪読会 #1 34
  35. 35. 頻度主義(frequentist) • 確率とは:事象の起こる回数(頻度) • 例えば、サイコロを振る例を考えて、 𝑃 1, 3, 5 = 0.3 ならば、サイコロを繰り返し振り続けた結果、私 たちが1, 3, 5の目を出した頻度の極限が0.3で あったということになる(無限回の試行を仮定) サイコロの目やコイン投げなら良いが… →明日雨が降る確率は?(明日は1度しか来ない!) Probabilistic Graphical Models 輪読会 #1 35
  36. 36. 主観的確率 • 繰り返し試行できない事象は、頻度主義のパラダイ ムでは説明できなかった • そこで主観的確率では、確率を 信念(belief)の主観的度合い として取り扱う • ゆえに、”明日雨が50%の確率で降る”とは、この発 言者の不確定性に対する主観的な判断を表し、これ は周辺情報の観測によって更新される • では、なぜ人の信念と確率が結びつくのか? →著者曰く:合理的な行動は確率論に従うから Probabilistic Graphical Models 輪読会 #1 36
  37. 37. 条件付き確率(2.1.2.1) • 例:ある生徒の集合と、彼(彼女)らがgrade A をとったという事象𝛼が与えられたときに、彼ら が真に知性を持ちうるという事象𝛽に関する信念 はどう変化するか? →一見、𝑃(𝛼 ∩ 𝛽)をとれば良い様に思うが、これ では信念の”変化“を測定できない 条件付き確率:𝑃 𝛽 𝛼 = P 𝛼∩𝛽 𝑃 𝛼 (2.1) ※𝑃 𝛼 = 0の場合条件付き確率は定義されない Probabilistic Graphical Models 輪読会 #1 37
  38. 38. 連鎖規則(chain rule) • 条件付き分布の定義から、次の式を見出す: 𝑃 𝛼 ∩ 𝛽 = 𝑃 𝛼 𝑃 𝛽 𝛼 2.2 • これを一般の事象𝛼1, … , 𝛼 𝑘に適用すると、 𝑃 𝛼1 ∩ ⋯ ∩ 𝛼 𝑘 = 𝑃 𝛼1 𝑃 𝛼2 𝛼1 … 𝑃 𝛼 𝑘 𝛼1 ∩ ⋯ ∩ 𝛼 𝑘−1 . (2.3) これは、あらゆる結合分布(後述)および変数の順 序に成り立つ普遍の性質である(有向GMの分解と 混同しないこと) Probabilistic Graphical Models 輪読会 #1 38
  39. 39. ベイズの規則(Bayes rule) • 条件付き確率からベイズの規則も導出できる: 𝑃 𝛼 𝛽 = 𝑃 𝛽 𝛼 𝑃 𝛼 𝑃 𝛽 (2.4) • 一般の場合のベイズの規則は背景事象𝛾を用いて、 𝑃 𝛼 𝛽 ∩ 𝛾 = 𝑃 𝛽 𝛼 ∩ 𝛾 𝑃 𝛼|𝛾 𝑃 𝛽|𝛾 と書ける Probabilistic Graphical Models 輪読会 #1 39
  40. 40. 例2.1,2.2 • 2.1(生徒の成績) • 2.2(結核のTBテスト) (その場で計算) Probabilistic Graphical Models 輪読会 #1 40
  41. 41. 確率変数と結合確率(2.1.3) • ここまで、確率分布を事象と結びつけて話して きた →e.g. “サイコロで5が出る” • しかし、私たちは事象のほかに、属性 (attribute)をの確率を考えたい場合がある →e.g. “55歳以上” “喫煙歴がある/ない” • 事象ベースで議論を進めることはできるが、数 学的に明確な定義で今後の話を進めたい →確率変数(random variable)の導入 Probabilistic Graphical Models 輪読会 #1 41
  42. 42. 確率変数とは何か?(2.1.3.2) • 確率変数とは、各事象𝛼 ∈ Ωからℝへの写像 • 例えば、”生徒のgrade=A”という事象は 𝜔 ∈ Ω ∶ 𝑓𝑔𝑟𝑎𝑑𝑒 𝜔 = 𝐴 とかける (注)実際にはA=0, B=1, …などの値が割り当てられる • 確率変数は、通常離散変数または連続変数を取 りうる • 𝑉𝑎𝑙(𝑋):確率変数𝑋が取りうる値の集合 Probabilistic Graphical Models 輪読会 #1 42
  43. 43. 確率変数の割り当てと略記 • 確率変数の集合として𝑿, 𝒀, 𝒁(太字)、各変数への具 体的な値の割り当てを𝒙, 𝒚, 𝒛とする • 𝒙 ∈ 𝑿, 𝒀 ⊆ 𝑿に関して、𝒙 𝒀 をYに対する𝒙の割り当 てと表すことにする • 𝒙 ~ 𝒚 ≝ 𝒙 𝑿 ∩ 𝒀 = 𝒚 𝑿 ∩ 𝒀 →例えば、𝒙 = {𝑥1 = 2, 𝑥2 = 3, 𝑥3 = 4} のうちの一部の 割り当てのみを使いたい時に用いる • いちいち𝑃( 𝑋 = 𝑥 ∩ 𝑌 = 𝑦 )などと書くのは面倒な ので、これを略記して𝑃(𝑥, 𝑦)などと表す Probabilistic Graphical Models 輪読会 #1 43
  44. 44. 周辺分布(2.1.3.3) • 確率変数𝑋に関する分布𝑃(𝑋)を𝑋上の周辺分布 (marginal distribution)と呼ぶ • これは、確率の定義2.1に従い、唯一の違いは可 測な事象𝑆が確率変数𝑋に置き換えられたことで ある e.g. 𝑃 𝐼𝑛𝑡𝑒𝑙𝑙𝑖𝑔𝑒𝑛𝑐𝑒 = ℎ𝑖𝑔ℎ = 0.3, P 𝐼𝑛𝑡𝑒𝑙𝑙𝑖𝑔𝑒𝑛𝑐𝑒 = 𝑙𝑜𝑤 = 0.7. Probabilistic Graphical Models 輪読会 #1 44
  45. 45. 結合分布(2.1.3.3) • 1つの確率変数𝑋だけではなく、複数の確率変数 𝜒 = { 𝑋1, … , 𝑋 𝑁 }上の結合分布(joint distribution) を考えたい →𝑃(𝑋1, … , 𝑋 𝑁)と表記し、複数の事象が同時に生起 する確率を割り当てる • 結合分布は、周辺分布との整合性を取る必要があ る 𝑃 𝑥 = 𝑃(𝑥, 𝑦) 𝑦 Probabilistic Graphical Models 輪読会 #1 45
  46. 46. 条件付き確率再訪(2.1.3.4) • 事象ではなく確率変数を用いて条件付き確率を 書き直すと、 𝑃 𝑋 𝑌 = 𝑃 𝑋, 𝑌 𝑃 𝑌 . 𝑃 𝑋1, … , 𝑋 𝑘 = 𝑃 𝑋1 𝑃 𝑋2 𝑋1) … 𝑃 𝑋 𝑘 𝑋1, … , 𝑋 𝑘−1 . 𝑃 𝑋 𝑌 = 𝑃 𝑋 𝑃 𝑌 𝑋 𝑃 𝑌 . Probabilistic Graphical Models 輪読会 #1 46
  47. 47. 独立性(2.1.4.1) • 通常、私たちは𝑃(𝛼|𝛽)と𝑃(𝛼)は何らかの点で異 なると考えたくなる • しかし、ある状況ではこの2つが一致する、即ち 𝛽を学ぶことが𝛼の確率に関して何ら影響を与え ない場合がある 定義2.2(独立な事象, independent events) 𝑃 𝛼 𝛽 = 𝑃(𝛼)または𝑃 𝛽 = 0が成り立つとき、事 象𝛼と事象𝛽が独立であると言い、𝑃 ⊨ (𝛼 ⊥ 𝛽)と書 き表す Probabilistic Graphical Models 輪読会 #1 47
  48. 48. 独立性(2.1.4.1) • 独立性は、別の定義によっても与えられる: 命題2.1(独立性の別定義) 分布𝑃が(𝛼 ⊥ 𝛽)を満たす⇔ P 𝛼 ∩ 𝛽 = 𝑃 𝛼 𝑃 𝛽 証明: 連鎖規則を用いる Probabilistic Graphical Models 輪読会 #1 48
  49. 49. 条件付き独立(CI)(2.1.4.2) • 独立性は、しばしば追加の事象が与えられたと きに初めて発現する →例:MIT is CI of Stanford given GradeA. 定義2.3(条件付き独立, conditional independence) 𝑃 𝛼 𝛽 ∩ 𝛾 = 𝑃 𝛼 𝛾 または𝑃 𝛽 ∩ 𝛾 = 0のとき、 分布𝑃上で事象𝛼と𝛽は𝛾が与えられた際に条件付き 独立であるといい、 𝑃 ⊨ (𝛼 ⊥ 𝛽|𝛾)と書き表す 以下、本スライドでは条件付き独立をCIと記す Probabilistic Graphical Models 輪読会 #1 49
  50. 50. 条件付き独立(CI)(2.1.4.2) • 条件付き独立もまた、別の方法で定義可能: 命題2.2 分布𝑃が 𝛼 ⊥ 𝛽 𝛾 を満たす ⇔ P 𝛼 ∩ 𝛽|𝛾 = 𝑃 𝛼|𝛾 𝑃 𝛽|𝛾 証明: 命題2.1と同様 Probabilistic Graphical Models 輪読会 #1 50
  51. 51. 複数の確率変数の独立性(2.1.4.3) 定義2.4 𝑿, 𝒀, 𝒁をそれぞれ確率変数の集合とする。もし𝑃があ らゆる𝒙 ∈ 𝑉𝑎𝑙 𝑿 , 𝒚 ∈ 𝑉𝑎𝑙 𝒀 , 𝒛 ∈ 𝑉𝑎𝑙(𝒁)において 𝑿 = 𝒙 ⊥ 𝒀 = 𝒚 𝒁 = 𝒛)を満たすならば、𝒁が与えら れた下で𝑿と𝒀が独立であるという。𝒁はしばしば”観 測された”と呼ばれる。𝒁が空であるとき、 𝑿 ⊥ 𝒀 ∅)を(𝑿 ⊥ 𝒀)と記述し、𝑿と𝒀は周辺的に独 立であるという。 命題2.3 分布𝑃が 𝑿 ⊥ 𝒀 𝒁)を満たす ⇔𝑃 𝑿, 𝒀 𝒁) = 𝑃 𝑿 𝒁 𝑃 𝒀 𝒁 Probabilistic Graphical Models 輪読会 #1 51
  52. 52. CIの性質(2.1.4.3) • 対称性(Symmetry) 𝑿 ⊥ 𝒀 𝒁) ⇒ 𝒀 ⊥ 𝑿 𝒁). • 分解性(Decomposition) 𝑿 ⊥ 𝒀 𝑾, 𝒁) ⇒ 𝑿 ⊥ 𝒀 𝒁). • 弱結合性(Weak union) 𝑿 ⊥ 𝒀, 𝑾 𝒁) ⇒ 𝑿 ⊥ 𝒀 𝒁, 𝑾). • 縮約性(Contraction) 𝑿 ⊥ 𝑾 𝒁, 𝒀)& 𝑿 ⊥ 𝒀 𝒁) ⇒ 𝑿 ⊥ 𝒀, 𝑾 𝒁). Probabilistic Graphical Models 輪読会 #1 52
  53. 53. 正値確率分布 定義2.5(正値確率分布) Pが正値であるとは、𝛼 ≠ ∅である全ての事象𝛼 ∈ 𝑆 において𝑃(𝛼) > 0であることである 正値確率分布に対しては、以下の性質が成り立つ • 交差性(Intersection) 𝑿 ⊥ 𝒀 𝒁, 𝑾)& 𝑿 ⊥ 𝑾 𝒁, 𝒀) ⇒ 𝑿 ⊥ 𝒀, 𝑾 𝒁). 証明:乗法定理と加法定理を繰り返し適用する Probabilistic Graphical Models 輪読会 #1 53
  54. 54. クエリ(2.1.5) • 私たちの目標は、ある変数の集合が観測された ときに、注目するクエリ(query of interest)の 確率を評価することである • 本書では、2種類のクエリを紹介する (1)確率クエリ(Probability Queries) (2)MAPクエリ(MAP Queries) Probabilistic Graphical Models 輪読会 #1 54
  55. 55. 確率クエリ(2.1.5.1) 確率クエリは2つのパーツから構成される: (1)エビデンス:確率変数群の部分集合𝐸と、実際 の割り当て値𝑒 (2)クエリ変数:ネットワーク中の確率変数群の部 分集合𝑌 私たちが考えたいのは、エビデンス𝑒 ∈ 𝐸で条件付 けられたときの𝑦 ∈ 𝑌に関する事後確率(posterior probability)である。 Probabilistic Graphical Models 輪読会 #1 55
  56. 56. MAPクエリ(2.1.5.2) MAP=Maximum A Posteriori (最大事後確率) • 続いて考えたいのは、ある確率変数の部分集合 に対して、最大の事後確率を得る割り当てを見 つけることである • よりフォーマルに言えば、𝑾 = 𝜒 − 𝑬であると き、エビデンス𝐸 = 𝑒が与えられた状況で最大確 率をとる𝑤 ∈ 𝑊を見つけることである 𝑀𝐴𝑃 𝑾 𝐞 = argmaxwP(𝐰, 𝐞) Probabilistic Graphical Models 輪読会 #1 56
  57. 57. MAP割り当て • 1変数へのMAP割り当ては簡単で、𝑃(𝐴|𝑒)を最 大化するような割り当て𝑎を選択すればよい • しかし、複数の確率変数のMAP割り当ては、 各個の変数を個別に最大化する割り当てでは結合 確率の大域的な最大化は達成できない ため、事後確率の同時最大化を要求する一般の MAP割り当ては本質的な難しさを抱えている Probabilistic Graphical Models 輪読会 #1 57
  58. 58. 例2.4(MAP割り当て) 𝑎0 𝑎1 0.4 0.6 Probabilistic Graphical Models 輪読会 #1 58 𝐴 𝑏0 𝑏1 𝑎0 0.1 0.9 𝑎1 0.5 0.5 𝑀𝐴𝑃 𝐴 = 𝑎1 𝑀𝐴𝑃 𝐴, 𝐵 = (𝑎0 , 𝑏1 ) ∵ 𝑃 𝑎0 , 𝑏1 = 0.4 ∗ 0.9 = 0.36 𝑃 𝑎1, 𝑏∗ = 0.6 ∗ 0.5 = 0.3
  59. 59. 周辺化MAPクエリ(2.1.5.3) • 医療診断においては、最終的に推定したいの は ”ある病気である確率”のみで、その過程の症 状の推定は重要ではない • 未観測だが重要でない確率変数は全ての組み合 わせについて和を取って周辺化(marginalize)す る MAP 𝐘 𝐞) = argmaxyP 𝐲 𝐞). 𝒁 = 𝝌 − 𝒀 − 𝑬としたときの周辺化MAPは、 MAP 𝐘 𝐞 ) = argmaxY P 𝐘, 𝐙 𝐞). z と表せる Probabilistic Graphical Models 輪読会 #1 59
  60. 60. 連続値空間(2.1.6) • ここまでの議論は全て確率変数が離散値、すなわ ち有限の数の集合をとる場合であった、連続値の 場合はどうか? • 例えば、Val X = 0, 1 とした場合、 𝑃 𝑋 = 0 = 0. となる、どうする?→確率密度関数(PDF)を用いる 𝑝 𝑥 𝑑𝑥 = 1. 𝑉𝑎𝑙(𝑋) 𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = 𝑝 𝑥 𝑑𝑥. 𝑏 𝑎 Probabilistic Graphical Models 輪読会 #1 60
  61. 61. 一様/ガウス分布 定義2.6(一様分布) [𝑎, 𝑏]における一様分布𝑋 ~ 𝑈𝑛𝑖𝑓[𝑎, 𝑏]のPDFは、 𝑝 𝑥 = 1 𝑏 − 𝑎 𝑏 ≥ 𝑥 ≥ 𝑎 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒. 定義2.7(ガウス分布) 平均𝜇、分散𝜎2のガウス分布𝑋 ~ 𝑁(𝜇 ; 𝜎2)は、 𝑝 𝑥 = 1 2𝜋𝜎 𝑒 − 𝑥−𝜇 2 2𝜎2 標準ガウス分布は平均0、分散1を持つ Probabilistic Graphical Models 輪読会 #1 61
  62. 62. 結合密度関数(2.1.6.2) 定義2.8(結合密度関数) 連続確率変数𝑋1, … , 𝑋 𝑛を考える。関数𝑝(𝑥1, … , 𝑥 𝑛) が次の条件を満たすとき、𝑃を𝑋1, … , 𝑋 𝑛の結合密度 分布であると呼ぶ: ・あらゆる𝑋1, . . , 𝑋 𝑛中の𝑥1, … , 𝑥 𝑛に対して𝑝 𝑥1, … , 𝑥 𝑛 ≥ 0 ・pは積分可能な関数 ・あらゆる𝑎1, … , 𝑎 𝑛, 𝑏1, … , 𝑏 𝑛に対して 𝑃 𝑎1 ≤ 𝑋1 ≤ 𝑏1, … , 𝑎 𝑛 ≤ 𝑋 𝑛 ≤ 𝑏 𝑛 = … 𝑝 𝑥1, … , 𝑥 𝑛 𝑑𝑥1 … 𝑑𝑥 𝑛. 𝑏 𝑛 𝑎 𝑛 𝑏1 𝑎1 Probabilistic Graphical Models 輪読会 #1 62
  63. 63. 条件付き密度関数(2.1.6.3) • 条件付き確率を連続値に拡張する場合も、 𝑃 𝑋 = 𝑥 = 0の問題が出現する • そこで、𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖という微小区間を考 え(これで確率が正の値をとる)、その極限を 取ってみる Q:lim 𝜖→0 𝑃 𝑌 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖) の極限は存在するか? Probabilistic Graphical Models 輪読会 #1 63 http://mathematica.stackexchange.com/questions/27083/visualization-of-bivariate-distributions を改変
  64. 64. 条件付き密度関数の導出 A:存在する 𝑃 𝑎 ≤ 𝑌 ≤ 𝐵 | 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖 = 𝑃 𝑎 ≤ 𝑌 ≤ 𝐵, 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖 𝑃(𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖) = 𝑝 𝑥′ , 𝑦 𝑑𝑦𝑑𝑥′𝑥+𝜖 𝑥−𝜖 𝑏 𝑎 𝑝 𝑥′, 𝑦 𝑑𝑥′𝑥+𝜖 𝑥−𝜖 . ここで、 𝑝 𝑥′ 𝑑𝑥′ ≈ 2𝜖𝑝(𝑥) 𝑥+𝜖 𝑥−𝜖 と近似できることから (左辺) ≈ 2𝜖𝑝 𝑥,𝑦 𝑑𝑦 𝑏 𝑎 2𝜖𝑝 𝑥 = 𝑝 𝑥,𝑦 𝑝(𝑥) 𝑑𝑦. 𝑏 𝑎 Probabilistic Graphical Models 輪読会 #1 64
  65. 65. 条件付き密度関数/CI 定義2.9(条件付き密度関数) 𝑝 𝑥, 𝑦 を𝑋, 𝑌の結合密度であるとすると、𝑋が与えられたと きの𝑌の条件付き密度関数は 𝑝 𝑦 𝑥) = 𝑝 𝑥, 𝑦 𝑝(𝑥) . ただし𝑝 𝑥 = 0のときは未定義。 定義2.10(CI) 連続確率変数の集合𝑿, 𝒀, 𝒁および結合密度𝑃(𝑿, 𝒀, 𝒁)がある とき、以下が成り立てば、 𝑝 𝒙 𝒛) = 𝑝 𝒙, 𝒚 𝒛) 𝑓𝑜𝑟 𝑎𝑙𝑙 𝒙, 𝒚, 𝒛 𝑠. 𝑡. 𝑝 𝒛 > 0. 𝑿は𝒁が与えられたときに𝒀と条件付き独立であるという Probabilistic Graphical Models 輪読会 #1 65
  66. 66. 期待値(2.1.7.1) • 離散確率変数に対する期待値 𝐸 𝑃 𝑋 = 𝑥 ∙ 𝑃 𝑥 . 𝑥 • 連続確率変数に対する期待値 𝐸 𝑃 𝑋 = 𝑥 ∙ 𝑝 𝑥 𝑑𝑥. • しばしば、次の関数が用いられる: 𝐼 𝑋 = 𝑥 = 1 𝑖𝑓 𝑋 = 𝑥 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒. (指示関数) Probabilistic Graphical Models 輪読会 #1 66
  67. 67. 期待値の性質 命題2.4(期待値の線形性) 𝐸 𝑋 + 𝑌 = 𝐸 𝑋 + 𝐸 𝑌 . これは、変数が独立でない場合も成り立つ。 命題2.5(期待値の独立性) もし確率変数𝑋と𝑌が独立ならば、 𝐸 𝑋 ∙ 𝑌 = 𝐸 𝑋 ∙ 𝐸 𝑌 . また、𝒚が与えられたときの𝑋の条件付き期待値は 𝐸 𝑃 𝑋 𝑦] = 𝑥 ∙ 𝑃 𝑥 𝒚). 𝑥Probabilistic Graphical Models 輪読会 #1 67
  68. 68. 分散(2.1.7.2) 分散:確率変数𝑋が平均からどれだけばらけているか 𝑉𝑎𝑟𝑃 𝑋 = 𝐸 𝑃 𝑋 − 𝐸 𝑃 𝑋 2 . これを展開すると 𝑉𝑎𝑟 𝑋 = 𝐸 𝑋2 − 𝐸 𝑋 2 . 命題2.6(分散と独立性) もし𝑋と𝑌が独立であるならば、 𝑉𝑎𝑟 𝑋 + 𝑌 = 𝑉𝑎𝑟 𝑋 + 𝑉𝑎𝑟 𝑌 . 期待値の性質から、次が容易に導かれる: 𝑉𝑎𝑟 𝑎 ∙ 𝑋 + 𝑏 = 𝑎2 𝑉𝑎𝑟 𝑋 . Probabilistic Graphical Models 輪読会 #1 68
  69. 69. 標準偏差 また、標準偏差を次のように定義する: 𝜎 𝑋 = 𝑉𝑎𝑟 𝑋 . 標準偏差は、𝑋の値の”距離”を測るための1つの目 安として使用される 命題2.7(ガウス分布の性質) 𝑋をガウス分布𝑁(𝜇, 𝜎2 )に従う確率変数とすると、 𝐸 𝑋 = 𝜇かつ𝑉𝑎𝑟 𝑋 = 𝜎2である。 Probabilistic Graphical Models 輪読会 #1 69
  70. 70. Chebyshevの不等式 定理2.1(Chebyshevの不等式) 確率変数𝑋、実数値𝑡が与えられたとき 𝑃 𝑋 − 𝐸 𝑃[𝑋] ≥ 𝑡 ≤ 𝑉𝑎𝑟𝑃 𝑋 𝑡2 𝑜𝑟 𝑃 𝑋 − 𝐸 𝑃[𝑋] ≥ 𝑘𝜎 𝑋 ≤ 1 𝑘2 証明: 𝑋 − 𝐸 𝑃 𝑋 ≤ 𝑡であることを用いる。 これは、平均及び分散を持つあらゆる確率分布に 成り立つ Probabilistic Graphical Models 輪読会 #1 70
  71. 71. グラフ理論(2.2) • 本書は、グラフ構造に確率分布の表現を導入す る • グラフ理論の基本概念をここで押さえましょう Probabilistic Graphical Models 輪読会 #1 71
  72. 72. ノードと辺(2.2.1) • グラフ 𝐾 = (X, Ε) • ノード 𝑋 = {𝑋1, … , 𝑋 𝑛} • 有向辺 𝑋𝑖 → 𝑋𝑗 • 無向辺 𝑋𝑖 − 𝑋𝑗 • 何らかの辺(≠双方向) 𝑋𝑖 ↔ 𝑋𝑗 本書では、一度に2つ以上の種類のエッジが接続す ることを想定しない 有向辺のみで構成される有向グラフを𝐺, 無向辺のみで構成される無向グラフを𝐻とする Probabilistic Graphical Models 輪読会 #1 72 𝑋1 𝑋2 𝑋3 𝑋2 − 𝑋3 𝑋1 → 𝑋2 𝐾
  73. 73. 無向形(undirected version) 定義2.11(グラフの無向形) グラフ𝐾 = (𝑋, 𝐸)が与えられたとき、その無向形 は 𝐻 = 𝑋, 𝐸′ (但し、𝐸′ = 𝑋 − 𝑌 ∶ 𝑋 ↔ 𝑌 ∈ 𝐸 である。 Probabilistic Graphical Models 輪読会 #1 73 𝑋1 𝑋2 𝑋3 𝑋2 − 𝑋3 𝑋1 → 𝑋2 𝐾 𝑋1 𝑋2 𝑋3 𝑋2 − 𝑋3 𝑋1 − 𝑋2 𝐻
  74. 74. 子/親/隣/次数/入次数 • 子(child), 𝐶ℎ 𝑋 • 親(parent), 𝑃𝑎 𝑋 • 隣(neighbor), 𝑁𝑏 𝑋 • 次数(degree): あるノードに接続する辺の数 • 入次数(indegree): あるノードに流入する辺の数 Probabilistic Graphical Models 輪読会 #1 74 有向グラフ向け 主に無向グラフ向け 𝑋1 𝑋3 𝑋4 𝑋5 𝑋2親 子 隣
  75. 75. 誘導部分グラフ (induced subgraph) 定義2.12(誘導部分グラフ) 𝐾 = (Χ, Ε)および𝑿 ⊂ Χを考える。誘導部分グラフ K[𝐗]をΕ′ = {∀𝑋 ↔ 𝑌 ∈ Ε ∶ 𝑋, 𝑌 ∈ 𝑿}であるような グラフ(𝑿, Ε)とする。 Probabilistic Graphical Models 輪読会 #1 75 𝐾[𝐶, 𝐷, 𝐼] 要は、ノードの部分集合の 接続を保存したグラフ
  76. 76. 完全部分グラフ (complete subgraph) 定義2.13(完全部分グラフ) 𝑿上の部分グラフを考えたとき、𝑋中の全てのノー ドの組が辺で接続されているとき、𝑋は完全であ るという。𝑋はクリークとも呼ばれる。さらに、 その上位集合𝑌 ⊃ 𝑋がいずれもクリークでないとき 𝑋は極大(maximal)であるという。 Probabilistic Graphical Models 輪読会 #1 76
  77. 77. クリーク(clique) Probabilistic Graphical Models 輪読会 #1 77 クリーク(𝑐𝑙𝑖𝑞𝑢𝑒): ノード同士が全て隣接しているノードの集合 極大クリーク(𝑚𝑎𝑥𝑖𝑚𝑎𝑙 𝑐𝑙𝑖𝑞𝑢𝑒): クリーク性を保持する最大のクリーク 右図において、 {𝑥1, 𝑥2}はクリーク、 {𝑥2, 𝑥3, 𝑥4}は極大クリーク
  78. 78. バウンダリ(Boundary, P149) • ノード𝑋の親(𝑌 → 𝑋が存在)および隣(𝑌 − 𝑋が存 在)の和集合を𝑋のバウンダリと呼び、 𝐵𝑜𝑢𝑛𝑑𝑎𝑟𝑦 𝑋と表記する Probabilistic Graphical Models 輪読会 #1 78
  79. 79. Upward Closure 定義2.14(Upward Closure) ノードの部分集合𝑿 ⊂ Χを考える。すべての X ∈ 𝑿に関して𝐵𝑜𝑢𝑛𝑑𝑎𝑟𝑦 𝑋 ⊂ 𝑿であるとき、𝑿 ⊂ Χ はKに関して上方向に閉じているという 𝐗を含み、上に閉じている極小の集合𝒀を𝑿の upward closureと呼び、𝐾+[𝑿]と書き表す Probabilistic Graphical Models 輪読会 #1 79 𝐾+[𝐶]
  80. 80. 路とトレイル(2.2.3) 定義2.15(路, path) グラフ𝐾 = (Χ, Ε)において、𝑋1, … , 𝑋 𝑘が路であるとは、 各𝑖 = 1, … , 𝑘 − 1に対して𝑋𝑖 → 𝑋𝑖+1または𝑋𝑖 − 𝑋𝑖+1 で あることをいう。1つでも有向辺が含まれていれば、 その路は有向であるという。 定義2.16(トレイル, trail) グラフ𝐾 = (Χ, Ε)において、𝑋1, … , 𝑋 𝑘が路であるとは、 各 𝑖 = 1, … , 𝑘 − 1 に対して 𝑋𝑖 ↔ 𝑋𝑖+1 であることをいう。 定義2.17(連結グラフ) 各𝑋𝑖, 𝑋𝑗間にトレイルがあるとき、グラフは連結である。 Probabilistic Graphical Models 輪読会 #1 80
  81. 81. 先祖/子孫 • 先祖(ancestor):𝐴𝑛𝑐𝑒𝑠𝑡𝑜𝑟𝑠 𝑋 • 子孫(descendants):𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑋 • 非子孫:𝑁𝑜𝑛𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑋 = Χ − 𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑋 例: 𝐴𝑛𝑐𝑒𝑠𝑡𝑜𝑟𝑠𝐼 = 𝐴, 𝐵, 𝐶, 𝐷, 𝐸, 𝐻 𝑁𝑜𝑛𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝐷 = {𝐴, 𝐵, 𝐻} Probabilistic Graphical Models 輪読会 #1 81
  82. 82. Topological ordering 定義2.19(Topological ordering) グラフK = (Χ, Ε)を考える。順序つきノード 𝑋1, . . , 𝑋 𝑛がつねに𝑋𝑖 → 𝑋𝑗 ∈ Εならば𝑖 < 𝑗を満たす とき、𝑋1, … , 𝑋 𝑛はtopological orderingであると呼 ぶ。 Probabilistic Graphical Models 輪読会 #1 82 親が子よりも必ず 小さい番号を持つようにする (アルゴリズム:付録A.3.1) トポロジカルソートとも呼ばれる
  83. 83. 閉路(cycle) 定義2.20(閉路, cycle) グラフ𝐾の閉路とは、𝑋1 = 𝑋 𝑘であるような有向路 𝑋1, … , 𝑋 𝑘のことである。閉路を含まないグラフは 非巡回(acyclic)と呼ばれる。 Probabilistic Graphical Models 輪読会 #1 83 𝑋1 𝑋2 𝑋3 𝑋4 閉路(𝑋2, 𝑋3, 𝑋4)
  84. 84. ☆DAG/PDAG • 有向非巡回グラフ(DAG, directed acyclic graph)とは、その名のとおり有向かつ非巡回な グラフである • DAGはベイジアンネットワークの表現の中心を 為すグラフで、本書の大半は非巡回のグラフを 取り扱う • 部分有向非巡回グラフ(PDAG)を有向辺および無 向辺が混在した非巡回グラフとする ※非巡回≠閉トレイルが存在 Probabilistic Graphical Models 輪読会 #1 84
  85. 85. 連鎖成分 定義2.21(連鎖成分, chain component) 𝐾をΧ上のPDAGであるとする。Χの互いに素(disjoint) な分割𝐾1, … , 𝐾𝑙が ・𝐾𝑖の誘導部分グラフが有向辺を含まない ・𝑖 < 𝑗であるあらゆる組𝑋 ∈ 𝐾𝑖, 𝑌 ∈ 𝐾𝑗について、辺が 存在するならば有向辺𝑋𝑖 → 𝑋𝑗 を満たすとき、各𝐾𝑖を連鎖成分と呼ぶ。 Probabilistic Graphical Models 輪読会 #1 85 𝐾1 𝐾2 𝐾3 𝐾4 無向辺の塊をまとめて1つの ノードとみなしてTopological Ordering PDAGはChain Graphとも呼ぶ
  86. 86. ループ(Loop)/polytree 定義2.22(ループ/polytree) 𝐾上のループとは、X1 = Xkであるようなトレイル 𝑋1, … , 𝑋 𝑘のことである。グラフがループを含まな いとき、”個別に連結している”という。 ループのないグラフ上で隣接ノードが1つしかない ノードを葉(leaf)と呼ぶ。 ループのない有向グラフはpolytree、無向グラフ は森(forest)と呼ばれる。それが連結していれば 木(tree)と呼ばれる。 Probabilistic Graphical Models 輪読会 #1 86
  87. 87. 有向グラフにおける森/木 定義2.23(有向グラフにおける森/木) 各ノードがたかだが1つの親を持つ有向グラフを森 と呼ぶ。もし有向森が連結であれば、木と呼ぶ。 ※注意 有向グラフにおいては、木⊆森⊆polytreeである (木・森は複数の親を許さない) ループの存在は、多くの場合計算量を飛躍的に増 大させる Probabilistic Graphical Models 輪読会 #1 87
  88. 88. Chordal(弦) Graph 定義2.24(Chordal graph) ループ𝑋1 − 𝑋2 − ⋯ − 𝑋 𝑘 − 𝑋1を考える。ループを構成 する非連続なノード2つによる辺をループ内の弦 (chord)と呼ぶ。無向グラフ𝐻が𝑘 = 4以上のループお よびその弦を持つとき、𝐻はChordal Graphであると 呼ぶ。 弦の概念は、推論の計算量を 見積もる際に利用される ※この定義は有向グラフにも拡張可(定義2.25) Probabilistic Graphical Models 輪読会 #1 88 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 弦
  89. 89. グラフィカルモデル 概観 (3・4章に入る前の下準備) Probabilistic Graphical Models 輪読会 #1 89
  90. 90. 今日の内容 • 第1章 Introduction – 本書の構成 – GMの3要素 • 第2章 Foundations – 確率論 – グラフ理論 • グラフィカルモデル概観 – ベイジアンネットと無向グラフィカルモデル – ベイジアンネット(BN)入門 Probabilistic Graphical Models 輪読会 #1 90
  91. 91. グラフィカルモデル(GM) の基本原理 Probabilistic Graphical Models 輪読会 #1 91 Michael Jordan (1997)曰く、 複雑なシステムを簡単に扱うための2つの原理: (1)モジュラリティの原理 (2)抽象化の原理 「確率理論はこの2つの原理を深く、興味深い方法 ―因子分解と平均化によって提供している。この2 つのメカニズムを可能な限り活用することが、機 械学習を前進させる方法のように見える。」
  92. 92. Probabilistic Graphical Models 輪読会 #1 92 • 具体的には、次のなじみ深い定理のこと (1)加法定理(変数の消去、周辺化) 𝑝 𝑎 = 𝑝 𝑎, 𝑏 𝑏 (または 𝑝 𝑎, 𝑏 𝑑𝑏) (2) 乗法定理(確率分布の因数分解) 𝑝 𝑎, 𝑏 = 𝑝 𝑏 𝑎 𝑝(𝑎) グラフィカルモデル(GM) の基本原理
  93. 93. グラフィカルモデル(GM)の定義 Probabilistic Graphical Models 輪読会 #1 93 グラフィカルモデルの簡単な定義: • CIの仮定を置くことで、結合分布を表現する方法 • 各ノードが確率変数、辺の欠如がCIの仮定を表す • Graphical Modelsという呼び方は適切ではなく、 意味を正確に表すならば”independence diagrams”(独立ダイヤグラム)の方が良い • エッジが向きを持つか否かで (1) ベイジアンネットワーク(Bayesian Network) (2) 無向グラフィカルモデル(Undirected GM) に分けられる
  94. 94. (1)ベイジアンネットワーク(BN) Probabilistic Graphical Models 輪読会 #1 94 ベイジアンネットワーク(BN)とは、 対応するグラフがDAGであるGM のことを指す(有向閉路が存在しない) (1) Directed Graphical Model (2) Belief networks (3) Causal networks などとも呼ばれるが、因果推論とGM自体は無関係 なので、中立的にはDGMと呼ぶ方が望ましい →本輪読会ではベイジアンネットワーク(BN)とい う呼称を使用する
  95. 95. BNの例:マルコフ連鎖 Probabilistic Graphical Models 輪読会 #1 95 • 連鎖規則とマルコフ性の仮定を組み合わせて、 𝑝 𝒙1:𝑉 = 𝑝 𝑥1 𝑝(𝑥 𝑡|𝑥 𝑡−1) 𝑉 𝑡=1 と書き表すことができる。 • これを(1次の)マルコフ連鎖(markov chain)と呼 ぶ。
  96. 96. BNの例:ALARM Network(1989) Probabilistic Graphical Models 輪読会 #1 96 • Alarm Network[Beinlich+ 89]:37変数と504の パラメタを持つ医者向けの医療診断システム • 計測変数と診断との間の因果関係とその確率表を専 門家の手で定義した確率的エキスパートシステム (probabilistic expert system)として構成された
  97. 97. BNの例:遺伝リンク解析 Probabilistic Graphical Models 輪読会 #1 97 Pedigree graph: 親子の関係(家系)を示すDAG 歴史的に重要なモデル [Friedman+ 00] (1)遺伝子型𝑋𝑖𝑗 (観測済み) (2)父系/母系対立遺伝子𝐺𝑖𝑗 𝑚 , 𝐺𝑖𝑗 𝑝 (未知) (3)父母の選択変数 𝑍𝑖𝑗 𝑚 , 𝑍𝑖𝑗 𝑝 (未知) の3つの構成要素を結んだBNとして構成し、何ら かの疾患をもたらす遺伝子の遺伝経路を明らかに するためにBNによる推論を行う
  98. 98. BNの例:遺伝リンク解析 Probabilistic Graphical Models 輪読会 #1 98 𝑋𝑖𝑗 𝐺𝑖𝑗 𝑚 𝐺𝑖𝑗 𝑝 𝑧𝑖𝑗 𝑚 𝑧𝑖𝑗 𝑝 𝐺𝑖𝑗 𝑚 𝐺𝑖𝑗 𝑝 𝑋𝑖𝑗 𝐺𝑖𝑗 𝑚 𝐺𝑖𝑗 𝑝 𝑧𝑖𝑗 𝑚 𝑧𝑖𝑗 𝑝 𝑋𝑖𝑗 𝐺𝑖𝑗 𝑚 𝐺𝑖𝑗 𝑝 𝑧𝑖𝑗+1 𝑚 𝑧𝑖𝑗+1 𝑝 選択変数𝑧は隣接箇所とリンク Locus 𝑗 + 1Locus 𝑗  観測されてい るのは𝑋𝑖𝑗のみ  𝑧𝑖𝑗 𝑝/𝑚 は母系と 父系どちらか ら遺伝したか 選択 青の変数を観測した状態での 赤・オレンジの変数を予測
  99. 99. (2) 無向グラフィカルモデル(UGM) 無向グラフィカルモデルとは、 無向辺を用いたGM のことを指す。BNと同様、 (1) Markov Network (2) Markov Random Field(MRF) などの別名がある。本書ではUGMという呼称を中 心に使用する。 Probabilistic Graphical Models 輪読会 #1 99
  100. 100. UGMの例:Izingモデル • 統計物理学に端を欲したMRFの一種 • 格子状にノードが連結され、各ノードは+1(ス ピンが上向き)または-1(スピンが下向き)を持つ • ある格子点上のスピンは隣接する格子点のスピ ンの値によって確率的に決定される 𝑃 𝑥 = 1 𝑍 exp( 𝐽𝑖𝑗 𝑥𝑖 𝑥𝑗 + ℎ𝑖 𝑥𝑖 𝑖 ) 𝑖~𝑗 • 上記の形の分布はGibbs分布と呼ばれる Probabilistic Graphical Models 輪読会 #1 100
  101. 101. 応用例:画像復元 • 2値画像の各ピクセルが格子状につながっている 潜在変数に条件づけられていると仮定して、画 像のノイズ除去を行う Probabilistic Graphical Models 輪読会 #1 101 元画像 10%反転 復元結果 (グラフカット) 𝐸 𝑥, 𝑦 = ℎ 𝑥𝑖 𝑖 − 𝛽 𝑥𝑖 𝑥𝑗 𝑖,𝑗 − 𝜂 𝑥𝑖 𝑦𝑖 𝑖
  102. 102. 問題設定 Probabilistic Graphical Models 輪読会 #1 102 次のような仮定を置いてみよう: 複数の互いに関連を持った変数を観測した (文書、画像、遺伝子etc) Question: (1)結合確率𝑝 𝒙 𝜽 をコンパクトに表現するには? (2)この確率を用いてある変数のセットから別の変数 のそれを現実的な計算量で推論(infer)するには? (3)適度な量のデータがある状態でこの確率のパラメ タを学習するには?
  103. 103. 連鎖規則再訪 Probabilistic Graphical Models 輪読会 #1 103 連鎖規則を用いて、我々はあらゆる結合分布を、 あらゆる変数の順番を以て表現することができる 𝑝 𝒙1:𝑉 = 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥2, 𝑥1 … 𝑝(𝑥 𝑉|𝒙1:𝑉−1) 𝑉 :変数の個数(1: 𝑉は集合{1,2, … 𝑉}を表す) 定数パラメタ𝜃は簡単のため省略 𝑡が大きくなるにつれ、𝑝(𝑥 𝑡|𝑥1:𝑡−1)の表現が複雑に なる
  104. 104. 結合分布の計算量 Probabilistic Graphical Models 輪読会 #1 104 全ての変数が𝐾状態を持つと仮定すると、 • 𝑝 𝑥1 は𝑂 𝐾 厳密には𝑂 𝐾 − 1 個の表で離散分 布を表現できる 同様に、 • 𝑝(𝑥2|𝑥1)は𝑂 𝐾2 、𝑝(𝑥3|x1, x2)なら𝑂 𝐾3 個のパ ラメタが含まれ、それらを表にしたものを条件 付き確率表(CPT)と呼ぶ • 𝑝 𝒙1:𝑉 のテーブルの大きさは𝑂 𝐾 𝑉 に従い、 学習は現実的ではない
  105. 105. BNの因子分解定理 Probabilistic Graphical Models 輪読会 #1 105 • Topological orderingの仮定を置いたとき、各ノード がその直接の親のみに依存するというordered markov propertyを定義することができる。すなわ ち: 𝑥 𝑠 ⊥ 𝒙 𝑝𝑟𝑒𝑑 𝑠 \p𝑎 𝑠 |𝒙 𝑝𝑎 𝑠 • DAG 𝐺(𝑉, Ε) がBNであるとは、確率分布族𝑿 = 𝑋𝑖 𝑖∈𝑉 と確率分布Pが以下に分解可能なことと同値: 𝑃 𝑿 = 𝑃 𝑋𝑖 𝑋 𝑝𝑎 𝑖 ) 𝑖∈𝑉
  106. 106. BNの因子分解 Probabilistic Graphical Models 輪読会 #1 106 • PRMLの例を拝借(PRML下巻 8.1) • 例えば、右記の結合分布は 𝑝 𝑥1, … , 𝑥7 = p x1 p x2 p x3 p x4 x1, x2, x3 p x5 x1, x3)p x6 x4 p(x7|x4, x5) という条件付き分布(CPD)の積で表 せる 𝑃 𝑿 = 𝑃 𝑋𝑖 𝑋 𝑝𝑎 𝑖 ) 𝑖∈𝑉
  107. 107. BNの計算量 Probabilistic Graphical Models 輪読会 #1 107 • 先述の通り、一般の確率分布のパラメタ数は 𝑂(𝐾 𝑉)であった • DGMの各ノードが𝑂(𝐹)個の親と𝐾状態を持つと き、そのパラメタ数は𝑂(𝑉𝐾 𝐹 )であり、CIの仮定 を置かない一般のそれよりパラメタ数が少ない ことが確認できた →続いて、BNの肝である条件付き独立(CI)とその 性質を見ていこう
  108. 108. BNの肝:条件付き独立性の仮定 Probabilistic Graphical Models 輪読会 #1 108 • あらゆるグラフィカルモデルにおいて、条件付き 独立の仮定(CI assumption)がその根幹を成す • グラフGにおいてCが与えられたとき、AとBが独 立であることを𝒙 𝐴 ⊥ 𝐺 𝒙 𝐵|𝒙 𝐶と書く • CIの仮定はモデル構造の簡略化に役立つが、GM の特異な点は次の点に見出すことができる: CPDの積で表された同時分布を考えたとき、素朴に はその分布で考えられるすべてのCIをチェックする 必要があるが、GMはCIをグラフ自身の見た目から 簡単に読み取ることができる
  109. 109. グラフの見た目とCI Probabilistic Graphical Models 輪読会 #1 109 結合度が高い 結合度が低い CIの仮定が少ない CIの仮定が多い 続いての疑問:BNの確率変数の間には、実際には どのようなCIが成り立つのか?
  110. 110. BNの基本パーツ Probabilistic Graphical Models 輪読会 #1 110 BNには、最もシンプルな形の構造が3種類ある 1. chain(head-to-tail) あるいは indirect causal effect 2. tent(tail-to-tail) あるいは a common cause 3. collider(head-to-head) あるいは a common effect
  111. 111. Chain(head-to-tail) Probabilistic Graphical Models 輪読会 #1 111 𝑐が観測されると𝑎と𝑏は「遮断」され𝑎 ⊥ 𝑏 | 𝑐 1. 𝑐が未観測⇒𝑝(𝑎, 𝑏, 𝑐)を𝑐に関して周辺化する 2. 𝑐が観測⇒𝑝 𝑎, 𝑏 𝑐)を考える ことで上記の性質を数式で表すことができて、実際に 𝑝 𝑎, 𝑏 = 𝑝 𝑎 𝑝 𝑐 𝑎 𝑝(𝑏|𝑐)𝑐 = 𝑝 𝑎 𝑝(𝑏|𝑎)(非独立) 𝑝 𝑎, 𝑏 𝑐) = 𝑝 𝑎, 𝑏, 𝑐 𝑝 𝑐 = 𝑝 𝑎 𝑝 𝑐 𝑎 𝑝 𝑏 𝑐 𝑝 𝑐 = 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐 (𝑐に関して条件付き独立)
  112. 112. Tent(tail-to-tail) Probabilistic Graphical Models 輪読会 #1 112 𝑐が観測されると𝑎と𝑏は「遮断」され𝑎 ⊥ 𝑏 | 𝑐 𝑝 𝑎, 𝑏 = 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐 𝑝(𝑐)𝑐 (≠ 𝑝 𝑎 𝑝(𝑏)で非独立) 𝑝 𝑎, 𝑏 𝑐) = 𝑝 𝑎, 𝑏, 𝑐 𝑝 𝑐 = 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐 (𝑐に関して条件付き独立)
  113. 113. Collider (head-to-head) Probabilistic Graphical Models 輪読会 #1 113 𝑐が観測されないと𝑎と𝑏は「遮断」されているが、 𝑐が観測されると遮断が解かれる(前の2例と逆!) 𝑝 𝑎, 𝑏 = 𝑝(𝑎)𝑝(𝑏)𝑝(𝑐, 𝑎, 𝑏)𝑐 = 𝑝 𝑎 𝑝(𝑏) (独立) 𝑝 𝑎, 𝑏 𝑐) = 𝑝 𝑎,𝑏,𝑐 𝑝 𝑐 = 𝑝 𝑎 𝑝 𝑏 𝑝 𝑐 𝑎,𝑏 𝑝 𝑐 (非独立)
  114. 114. Bayes ballアルゴリズム Probabilistic Graphical Models 輪読会 #1 114 • Bayes ball algorithmは、Eが与えられたときAとB がd-分離(独立している)かどうかを判定するための 簡単な方法である • 観測済み変数𝑒 ∈ 𝐸をグレーに塗ったうえで、各 𝑎 ∈ 𝐴にボールを置き、決められたルールでその ボールがBに到達できるかどうか調べられる
  115. 115. Probabilistic Graphical Models 輪読会 #1 115 下3つは、ボールが「バウンド」する特殊な条件を示す Bayes ballアルゴリズム
  116. 116. 弁明(explaining away) Probabilistic Graphical Models 輪読会 #1 116 • Collider(head-to-head)が与えられたときの非常に 興味深い性質 • AとBの事象が共にCの親であるとき、Cが観測され るとAとBは独立でなくなる • その結果、Cの観測下では、 𝑝 𝑎 𝑐 ≠ 𝑝(𝑎|𝑐, 𝑏) が成り立ち、本来関係ないはずのbの追加観測がaの条 件付き確率を「弁明(explain away)」し影響を与える ≠
  117. 117. 遮断の練習 Q:どのノードを観測すればノード2とノード6が 遮断されるか? A:ノード1, ノード3, ノード5 Probabilistic Graphical Models 輪読会 #1 117
  118. 118. 今日のまとめ • グラフィカルモデル(GM)は、ドメインに依存し ない推論のための一般的かつ強力な手法である • GMは、統計学およびグラフ理論をベースにして いる • ベイジアンネットワーク(BN)は、有向非巡回グ ラフに対するGMである • BNには3つの基本的な構成部品がある • GMによって、条件付き独立性(CI)を視覚的に捉 えることができる Probabilistic Graphical Models 輪読会 #1 118
  119. 119. 参考文献 ◆論文 [Belinich+ 89] Beinlich, I. A., Suermondt, H. J., Chavez, R. M., & Cooper, G. F. (1989). The ALARM monitoring system: A case study with two probabilistic inference techniques for belief networks (pp. 247-256). Springer Berlin Heidelberg. [Friedman+ 00] Friedman, N., Geiger, D., & Lotner, N. (2000, June). Likelihood computations using value abstraction. In Proceedings of the Sixteenth Conference on Uncertainty in Artificial Intelligence (pp. 192-200). Morgan Kaufmann Publishers Inc.. [Taniguchi+ 15] Taniguchi, T., Nakashima, R., & Nagasaka, S. (2015). Nonparametic Bayesian Double Articulation Analyzer for Direct Language Acquisition from Continuous Speech Signals. arXiv preprint arXiv:1506.06646. ◆書籍 D, Koller & N. Friedman, Probabilistic Graphical Models: Principles and Techniques, MIT Press, 2009. K. Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012. C. Bishop, Pattern Recognition and Machine Learning, Springer, 2006 渡辺 有祐. 機械学習プロフェッショナルシリーズ グラフィカルモデル, 講談社, 2016. 宮川 雅巳. 統計的因果推論 –回帰分析の新しい枠組み-, 朝倉書店, 2004. J. Pearl, 黒木 学訳, 統計的因果推論 モデル・推論・推測, 共立出版, 2009. Probabilistic Graphical Models 輪読会 #1 119

×