More Related Content More from takehikoihayashi More from takehikoihayashi (10) 相関と因果について考える:統計的因果推論、その(不)可能性の中心1. 2012年6月25日(月)
某セミナー
相関と因果について考える:
統計的因果推論、その(不)可能性の中心
(20120625version:不適切な部分を見つけ次第適宜改訂の予定)
林岳彦
国立環境研究所環境リスク研究センター
環境リスク研究推進室
takehiko.i.hayashi@gmail.com
3. 今回のもくじ
イントロ
-『相関と因果』再訪
基礎編
- 因果概念の変遷: 心の習慣 から 反事実 へ
- 因果と確率論を繋ぐ:Pearlのdo演算子
実務編
- 重回帰とは因果構造分解酵素である
- バックドア基準による変数選択
考察
- 因果推論の不可能性, モデル選択の3視点
4. 相関と因果は一致しない
86
女
性 84
の
平 82
均
寿 80
命
78
(歳)
30 34 38
NHKの放送受信契約数(百万)
http://www.stat.go.jp/data/nihon/02.htm
元データ→ http://pid.nhk.or.jp/jushinryo/know/pdf/toukei2010.pdf
5. 相関と因果は一致しない
86 p < 0.00000002
女
2
性 84 R = 0.99
の
平 82
均
寿 80
命
78
(歳)
30 34 38
NHKの放送受信契約数(百万)
http://www.stat.go.jp/data/nihon/02.htm
元データ→ http://pid.nhk.or.jp/jushinryo/know/pdf/toukei2010.pdf
6. 相関と因果は一致しない
2010
2005
86 p < 0.00000002
女
2
性 84 R = 0.99 2000
の 1990 1995
平 82
均
寿 80 1985
命 1980
78 1975
(歳)
30 34 38
NHKの放送受信契約数(百万)
http://www.stat.go.jp/data/nihon/02.htm
元データ→ http://pid.nhk.or.jp/jushinryo/know/pdf/toukei2010.pdf
7. 相関と因果は一致しない?
ある藻類毒性試験の結果
1.7
72
時
間
平 0.85
均
増
殖
率 0
C 0.5 1 2 4 8
農薬濃度(ppb)
9. (一般論として)因果は 総合的 に判断される
ヒルの因果判定基準 (Hill 1965)
1. 関連の強さ
2. 人、地理、時間的な一貫性
3. 関連の特異性(1つの原因に対して1つの結果)
4. 時間的な前後関係(原因が結果の前に起きる)
5. 用量が多いほど反応が強い
6. 生物学的な蓋然性
7. 過去の経験や知識との一致
8. 実験に基づく証拠
9. 類似性(他の事例から類推できる)
http://listfreak.com/list/1793より引用
10. (一般論として)因果は 総合的 に判断される
ヒルの因果判定基準 (Hill 1965)
1. 関連の強さ
2. 人、地理、時間的な一貫性
3. 関連の特異性(1つの原因に対して1つの結果)
4. 時間的な前後関係(原因が結果の前に起きる)
5. 用量が多いほど反応が強い
6. 生物学的な蓋然性
7. 過去の経験や知識との一致
8. 実験に基づく証拠
9. 類似性(他の事例から類推できる)
http://listfreak.com/list/1793より引用
Hillの基準@英語版wikipdia
11. (一般論として)因果は 総合的 に判断される
ヒルの因果判定基準 (Hill 1965)
1. 関連の強さ
2. 人、地理、時間的な一貫性
3. 関連の特異性(1つの原因に対して1つの結果)
4. 時間的な前後関係(原因が結果の前に起きる)
5. 用量が多いほど反応が強い
6. 生物学的な蓋然性
7. 過去の経験や知識との一致
8. 実験に基づく証拠
... counterfactural
9. 類似性(他の事例から類推できる)
http://listfreak.com/list/1793より引用
って何すか?
Hillの基準@英語版wikipdia
12. 今回のもくじ
イントロ
-『相関と因果』再訪
基礎編
- 因果概念の変遷: 心の習慣 から 反事実 へ
- 因果と確率論を繋ぐ:Pearlのdo演算子
実務編
- 重回帰とは因果構造分解酵素である
- バックドア基準による変数選択
考察
- 因果推論の不可能性, モデル選択の3視点
13. 因果概念の変遷(ひと昔前): 心の習慣
千昌夫に似て蝶
『因果概念』なんて観察者の
しれっ 心の習慣 の産物でしょ
我々に観察可能な事実は
「ボールAがボールBに当たる
→ボールBが動く」という
David Hume (1711-1776) 連関だけ
http://www.sxc.hu/photo/478133
14. 因果概念の変遷(ひと昔前): 心の習慣
千昌夫に似て蝶
『因果概念』なんて観察者の
しれっ 心の習慣 の産物でしょ
我々に観察可能な事実は
「ボールAがボールBに当たる
→ボールBが動く」という
David Hume (1711-1776) 連関だけ
http://www.sxc.hu/photo/478133
きりっ
観察可能なのは「相関」だけ
因果概念なんて科学じゃない
そんなこんなで残念ながら比較的近年まで
「因果」は統計学の埓外にあった
画像出典:
Karl Pearson (1857-1936)
http://en.wikipedia.org/wiki/File:David_Hume.jpg http://ja.wikipedia.org/wiki/file:Karl_Pearson.jpg
16. 因果概念の変遷(今):反事実的依存性
ここでクリプキを挙げるのが適切かは自信ない
「可能世界」の枠組みで考えれば
色々と捗るよ!
「Xは必然である」とは?
全ての可能世界においてXが成り立つ
「Xは可能である」とは?
Saul Kripke (1940-) 少なくとも一つの可能世界でXが成り立つ
論理学者、哲学者
@wikipediaの写真(なぜこの写真?)
「xがyの原因である」
到達可能な近傍世界
「同じ状況で、もしもxが起こらなけ
れば、yは起こらなかっただろう」
David Lewis (1941-)
哲学者
(反事実的依存性に基づく因果解釈)
画像出典 http://en.wikipedia.org/wiki/File:Kripke.JPG
http://en.wikipedia.org/wiki/File:David_K_Lewis.jpg
18. 因果概念の変遷(今):反事実的依存性
到達可能な近傍世界
「同じ状況で、もしもxが起こらなければ、
yは起こらなかっただろう」
因果効果を次のように定義できそう:
x→yへの因果効果
= 出来事xが起きた世界におけるy
- 出来事xが起きなかった世界におけるy
しかし、「起きた世界」と「起きなかった世界」の両方
を同時に観測することは原理的に不可能 どちらかは必ず
反事実的な世界となる
ex. 震災
因果推論の根本問題
19. 因果概念の変遷(今):反事実的依存性
到達可能な近傍世界
「同じ状況で、もしもxが起こらなければ、
yは起こらなかっただろう」
反事実的な世界 を統計的に
因果効果を次のように定義できそう:
構成することにより
x→yへの因果効果
この「根本問題」を解決するのが
= 出来事xが起きた世界におけるy
『統計的因果推論』である
- 出来事xが起きなかった世界におけるy
ex. 実験計画法
しかし、「起きた世界」と「起きなかった世界」の両方
を同時に観測することは原理的に不可能 どちらかは必ず
反事実的な世界となる
ex. 震災
因果推論の根本問題
20. 現代的『統計的因果推論』のポンチ絵
なぎら健壱に似て蝶 可能世界論を介した
因果概念の転回
ベイジアン 欠損値 の
ネットワーク 枠組み
*この2つの流派による
説明の仕方がかなり
違うので
Judea Pearl (1936-) 勉強する上で Donald Rubin (1943-)
人工知能界の 巨人 とっても混乱する
統計学者@ハーバード大
(2011年チューリング賞)
反事実的依存性を軸とした
因果問題への
統計的アプローチが発展
(今日はPearl系のアプローチに基づき説明していきます)
左画像出典: 右画像出典:
http://www.cambridgeblog.org/2012/03/judea-pearl-turing-award/ http://www.stat.harvard.edu/faculty_page.php?page=rubin.html
21. 今回のもくじ
イントロ
-『相関と因果』再訪
基礎編
- 因果概念の転回: 心の習慣 から 反事実 へ
- 因果と確率論を繋ぐ:Pearlのdo演算子
実務編
- 重回帰とは因果構造分解酵素である
- バックドア基準による変数選択
考察
- 因果推論の不可能性, モデル選択の3視点
27. ポイント:do演算子は 介入効果 を示す
であるとき に変えたとき
p(y¦x=30) p(y¦do(x=30))
相関に基づく予測 因果に基づく予測
介入効果 =介入効果
NHK契約数 x
擬似相関
共通要因
平均寿命 y ここで p(y¦x=・)を介入効果と
勘違いすると見事に空振りする
介入が目的のときはdo(・)を見よ
28. do演算子と「交絡」
グラフ理論の体系と対応付け
do演算子は「交絡」概念を明確化するもの
共通要因
交絡要因 =
某重金属
興味のある説明変数と
濃度
結果変数の両方の
BOD
上流側に存在する要因
種数 y *この因果ダイアグラムは
仮想的なものです
交絡によるバイアスが存在する
p(y¦x=30) p(y¦do(x=30))
相関関係と因果関係が一致しない
29. do演算子と「交絡」
グラフ理論の体系と対応付け
do演算子は「交絡」概念を明確化するもの
共通要因
交絡要因 =
某重金属
興味のある説明変数と
濃度
結果変数の両方の
BOD
上流側に存在する要因
種数 y *この因果ダイアグラムは
仮想的なものです
+選択バイアスも
交絡によるバイアスが取り除かれている
= p(y¦x=30) = p(y¦do(x=30))
= 見かけ上の相関から因果効果を判断してOK
31. 今回のもくじ
イントロ
-『相関と因果』再訪
基礎編
- 因果概念の変遷: 心の習慣 から 反事実 へ
- 因果と確率論を繋ぐ:Pearlのdo演算子
実務編
- 重回帰とは因果構造分解酵素である
- バックドア基準による変数選択
考察
- 因果推論の不可能性, モデル選択の3視点
32. 重回帰とは
説明変数
目的変数
Y = β A + βB B + βC C + βD D...
A
偏回帰係数
(それぞれの変数への重み付け係数)
例えば...
年平均気温 = 33.4 - 1.3 緯度 - 0.6 高度 + 0.1 経度
33. 重回帰とは 因果構造分解酵素 である
A B C A B C A B C
Y Y Y etcetc....
背後の因果構造を分解して 単純な形に再び繋げます
Y = β A + βB B + βC C
A
+ 定数
A B C
β βB
相関関係 に基づき
実質上こういう形と
A βC
して解析している
Y
34. 重回帰とは 因果構造分解酵素 である
A B C A B C A B C
Y Y Y etcetc....
変化させたとき であるとき
偏回帰係数の 意味 は背後の因果構造に依存する
背後の因果構造を分解して 単純な形に再び繋げます
Y = β A + βB B + βC C
A
+ 定数
A B C
β βB
相関関係 に基づき
実質上こういう形と
A βC
して解析している
Y
35. バックドア基準による変数選択
「偏回帰係数 = 説明変数を1単位変化させた
ときの因果効果」となる条件は?
であるとき に変えたとき
= p(y¦A=・) = p(y¦do(A=・))
選ばれた変数群がバックドア基準を満たしている
因果効果を知りたい説明変数から結果変数へ至る
裏口からの因果径路が全てブロックされている
・・・図で説明します
39. あと下流の中間変量は入れちゃだめ!
Y=β A
A
A B C
Y
こういう形のときにBを説明変数として入れてしまうと
「Bを経由したAの因果効果」が無視されてしまう
*その辺りの因果構造自体に興味が有る場合は
パス解析や構造方程式を使います
40. 合流点も入れちゃだめ!
Y=β A
A
A B C D C
B
Y A Y
こういう形のときにBを説明変数として入れてしまうと
新たなバイアスが発生する
collider bias
(合流点バイアスという← 選択バイアス はこの一種)
*データをサンプルする段階で選択バイアスが発生しているとバックドア基準でも補正不可
41. 論点:多重共線性とバックドア基準 (現状での私見)
説明変数間に何らかの強い因果的関連
↑が問題の本質で
いわゆる多重共線性 の問題 ←は現象だと思う
主症状:変数の出し入れにより回帰係数が大きく変化する
データ数が増えれば
数理統計的問題 データ数は関係ない 因果的問題
問題は解消可
係数の推定が 因果効果を議 交絡による
論したい場合
不安定化 にはこちらの バイアス
アプローチは
分散拡大係数 良くないん
じゃないかな
VIFによる診断と バックドア基準
変数の除去 による変数選択
興味のある変数に対して上流→除去すると交絡入るかも
興味のある変数に対して下流→さっさと除去
42. 今回のもくじ
イントロ
-『相関と因果』再訪
基礎編
- 因果概念の変遷: 心の習慣 から 反事実 へ
- 因果と確率論を繋ぐ:Pearlのdo演算子
実務編
- 重回帰とは因果構造分解酵素である
- バックドア基準による変数選択
考察
- 因果推論の不可能性, モデル選択の3視点
43. 統計的因果推論の不可能性 (1)
「未知の交絡要因がない」ことを
確認する方法は原理的に存在しない
? 共通要因
某重金属
濃度
? BOD
種数 y *この因果ダイアグラムは
仮想的なものです
(交絡を除去するためにはバックドア基準を満たせばよいことが分かっても
バックドア基準が満たされているか否かは原理的に確認できない!)
「どの程度未知の交絡要因がありえそうか」を常に意識しよう
「未知の交絡要因」を減らしていくこと自体が研究の進歩
44. 統計的因果推論の不可能性 (2)
現実問題として「背後の因果構造」なんて
(完全には)分からないことが多い
- 因果ダイアグラムが描けないとバックドア基準は
使えない(まあでも原則的な指針を与えてくれるものではある)
- 因果構造が分からないなりに工夫する(傾向スコア法とか)
- とりあえず因果構造そのものを明らかにすること
を目的とする(学術的研究としてはこっちの方が本丸の場合が多いかも)
統計解析からの因果的判断を「適切に自重する」
ことも重要(「分からなさ」の程度と理由を説明することも専門家の役割)
45. モデル(変数)選択の3視点(現状での私的整理)
ベイズファ バックドア
手法 AIC系
クター系 基準
介入を伴わ モデルの 因果効果の
目的
ない予測 適合性比較 推定
事後確率 条件付き
原理 情報量規準
尤度比 独立性
実務上は「先行知見から見て一定の妥当性があるモデル群」を絞り込む過程でバックドア基準的なものが
暗黙のうちに適用されているケースが多いのかも
「因果効果の推定」や「介入を伴う予測」が
目的ならばバックドア基準を優先させるべき(と思う)
50. なぜ重回帰?構造方程式でよくない?
確かに。
反事実的状況を取り扱うならおそらく本来
メカニスティックなモデルが一番いい
構造方程式やパス解析はその近似
重回帰系はさらにその近似
逆に言うと、因果効果を知りたいだけなら
重回帰系withバックドア基準が最も簡便かと
まあその辺はケースバイケースで
54. 参考文献
統計的因果推論 - モデル・推論・推測 -
Judea Pearl(著), 黒木学(訳)
私的コメント:Pearlの主著。おもしろいけど激ムズ。いきなり哲学の話になったりするし。
まだ通読できてません。
統計的因果推論 - 回帰分析の新しい枠組み -
宮川雅巳(著)
私的コメント:名著。 Pearl流の枠組みからの解説書。 ちょっと難しいけどPearl本より全然良い。今回の発表のネタ本。
調査観察データの統計科学 --- 因果推論・選択バイアス・データ融合
星野崇宏(著)
私的コメント:名著。Rubin流の欠損値の枠組みからの解説書。
ただPearl流の方法論に対する理解が今ひとつ浅いような気がするような気もしないでもない。
多変量解析の展開 --- 隠れた構造と因果を整理する
甘利俊一ら(著)
私的コメント:第二部(狩野裕著)はSEMから、第三部(佐藤俊哉&松山裕著)は疫学の観点から統計的因果推論を解説。
統計的因果推論の入門としてはこの本が分量的にも内容的にも一番敷居が低くていいかも。
可能世界の哲学 --- 「存在」と「自己」を考える
三浦俊彦(著)
私的コメント:可能世界論入門。これを読んでから「確率の意味論」みたいのを考える際には可能世界の枠組みがすげえ便利
というか寧ろ不可欠だな、と思うようになった。