SlideShare une entreprise Scribd logo
1  sur  28
Télécharger pour lire hors ligne
因果探索: 観察データから
因果仮説を探索する
清水昌平
大阪大学 産業科学研究所
日本社会心理学会:第3回春の方法論セミナー
関連文献はココ: https://sites.google.com/site/sshimizu06/home/lingampapers
因果探索
• 観察データから因果に関する仮説を探索
• データ+仮定  因果グラフ(パス図)
– どんな仮定の下で何が導けるか?
– 仮定の評価方法は?
2
データ行列X
観測
変
数
推定
x4
x21
x3
x57
x83
x15
+仮定
構造方程式モデリング(SEM)と
因果探索
• 社会学データ: General Social Survey (n=1380)
• パス図(因果グラフ)が正しいとして、因果の大きさを
推定
• 因果探索法のねらい: そもそもパス図を推定
3
Status attainment model
(Duncan et al., 1972)
0.16
0.30
-0.05
0.08
-0.02
0.61
0.30
0.18
χ2 = 9.484 (4 df)
SEM: 分析者は事前に判断
• 因果方向
• 潜在共通原因がない
4
y x
「潜在」共通原因はない
y x
潜在共通
原因
z
zに関する「潜在」共通原因なし
xはyの原因でない
zはyの原因
zからxへは直接効果なし
操作変数
観測済み
共通原因
そんなときに、因果探索法!
• データが分析者を助けてくれる場合もあるはず
• 仮定の按排・トレードオフ
– パス図 vs. 関数形
• そのための方法論は足りているのか?
5
足りてない!つくろう!
因果探索の方法論
因果探索法を
簡単にサーベイ
6
因果探索の基本問題
7
潜在共通原因 f 潜在共通原因f 潜在共通原因f
 
 yy
xx
efgy
efygx
,
,,

  
 yy
xx
efxgy
efgx
,,
,

  
 yy
xx
efgy
efgx
,
,


データ行列
x
y
~i.i.d. p x, y( )
obs.1
仮定: どれかが
データを生成
問題: どれが生成
したかを推定
obs.nobs.2 …
y x
f
y x
f
y x
f
ey ex ey ex ey ex
ex,ey, f の分布ex,ey, f の分布 ex,ey, f の分布
構
造
方
程
式
モ
デ
ル
構
造
方
程
式
モ
デ
ル
構
造
方
程
式
モ
デ
ル
因果探索: 3つのアプローチ
1. ノンパラ (Spirtes+93; Pearl00)
– 関数形にも分布にも仮定おかず  どれかわからない
2. パラメトリック
– 線形+正規分布  どれかわからない
3. セミパラ
– 線形+非正規分布  どれかわかる
8
潜在共通原因f 潜在共通原因f 潜在共通原因f
 
 yy
xx
efgy
efygx
,
,,

  
 yy
xx
efxgy
efgx
,,
,

  
 yy
xx
efgy
efgx
,
,


y x
f
y x
f
y x
f
ey ex ey ex ey ex
ex,ey, f の分布ex,ey, f の分布 ex,ey, f の分布
構
造
方
程
式
モ
デ
ル
構
造
方
程
式
モ
デ
ル
構
造
方
程
式
モ
デ
ル
非正規分布
• General Social Survey (米国)
– 非農業, 35-44歳, 白人、男性、就業、1972-2006
– サンプルサイズ: 1380
背景知識 (Duncan et al., 1972)
Status attainment model
x2: Son’s Income
9
適用イメージ (Shimizu & Bollen, 2014)
• 社会学データ: General Social Survey (n=1380)
• 係数の事後分布
– 収入学歴
• やっとスタート地点についた!?
10
息子収入
息子
学歴スコア
…
<
周辺尤度
息子収入
息子
学歴スコア
…
1. 時間情報がないときに因果方向を推定
2. 潜在共通原因への対処
11
Major challenges
x1 x2
?x1 x2
or
x1 x2
?x1 x2 or
f1 f1
潜在共通原因が「ない」場合
12
y x y x y xey ex ey ex ey ex
• データXから因果方向, 係数, 切片が
識別可能(一意に推定可能)
SEMにおける非正規性利用
LiNGAMモデル
(Shimizu et al., 2006, J. Machine Learning Research)
13
i
ij
jijii exbx  

x1 x2
x3
21b
23b13b
2e
3e
1e
- 非巡回
- 非正規誤差 ei
- ei は互いに独立
(潜在共通原因なし)
基礎仮定
- 線形性
識別可能: 方向が違えば分布が違う
𝑒1, 𝑒2がガウス 𝑒1, 𝑒2が非ガウス
(一様分布)
モデル1:
モデル2:
x1
x2
x1
x2
e1
e2
x1
x2
e1
e2
x1
x2
x1
x2
x1
x2
212
11
8.0 exx
ex


22
121 8.0
ex
exx


    1varvar 21  xx
    ,021  eEeE
14
相関係数は
どれも0.8
線形非正規以外にも
15
• 「非線形+加法の外生変数」のモデル
• いくつかの非線形性と外生変数の分布を除いて識別可能
(Zhang & Hyvarinen, 2009; Peters et al., 2014)
• Open problem: どこまで緩められるか?
非線形+加法の外生変数
 
 
  iiiii
iiii
i
x
kki
exffx
exfx
exfx
i





の親
の親
の親
1,
1
2,
-- Hoyer et al. (2008)
-- Zhang et al. (2009)
1.
2.
16
3.
-- Imoto et al. (2002)
巡回モデル
(Lacerda et al., 2008; Hyvarinen & Smith, 2013)
• モデル:
• 識別性の十分条件
– Bの固有値の絶対値が1未満(平衡状態にある)
– ループが交わらない
– 自己ループなし
x1
x2
e1
e2
x5 e5
x4e4
x3e3
17
i
ij
jijii exbx  

正規と非正規が混在
• PCアルゴリズム(or GES)+LiNGAM
– Hoyer+08UAI; Ramsey+11NeuroImage
18
○は誤差項が正規 □が誤差項が非正規
真 PC +LiNGAM
潜在共通原因が「ある」場合
19
潜在共通原因 f 潜在共通原因f 潜在共通原因f
y x
f
y x
f
y x
f
ey ex ey ex ey ex
この中で、どれが一番いい?
潜在共通原因がある場合
(Hoyer et al., 2008, Int. J. Approximate Reasoning
Shimizu & Bollen, 2014, J. Machine Learning Research)
• 条件: 線形性+非巡回+非正規連続分布
– 潜在共通原因の個数は特定不要
• 推定法に関する研究は発展途上
20
x1 x2
?
x1 x2
or
f1 f1
x1 x2
f1
or
21211212
11121
:
:
efxbx
efx




21212
11122121
:
:
efx
efxbx




22212
11121
:
:
efx
efx




識別可能: 方向が違えば分布が違う
• 推定: モデル選択(尤度、ベイズ etc.)
21
x1 x2
f1
x1 x2
or
fQ f1 fQ
… …
2e1e2e1e
2121
1
22
1
1
11
exbfx
efx
Q
q
qq
Q
q
qq








2
1
22
1212
1
11
efx
exbfx
Q
q
qq
Q
q
qq








1x1x
2x2x
適用イメージ (Shimizu & Bollen, 2014)
• 社会学データ: General Social Survey (n=1380)
• 係数の事後分布
– 収入学歴
• やっとスタート地点についた!?
22
息子収入
息子
学歴スコア
…
<
周辺尤度
息子収入
息子
学歴スコア
…
再
課題
23
適用分野からの要請
• 異質性・非定常性
– 人により時点により因果関係が異なる
– 潜在調整変数もココか
• 出始めた: Huang+IJCAI15
24
経済学: Moneta+13, Oxford B Econ. Stat.
利益(t)
雇用(t)
売上(t)
R&D(t)
雇用(t+1)
売上(t+1)
R&D(t+1)
利益(t+1)
雇用(t+2)
売上(t+2)
R&D(t+2)
利益(t+2)
脳: Mills-Finnerty+14, NeuroImage
潜在中間変数?
• 風が吹けば…
• 時系列データにおけるサブサンプリングの影響
(Gong+15ICML; Hyttinen+16; cf. Hyvarinen+10)
25
サブサンプリング
復元?t-2時点 t-1時点 t時点 t-2時点 t時点
図はHyttinen+16より
未知のこと多い
• 潜在共通原因を許しつつ
どこまで拡張できるのか?
– 非線形性、巡回性、異質性、非定常性
– 局所解は避けたい
• 離散変数の場合は?混在する場合は?
– Peters+11TPAM, Parks+15NIPS
• 選択バイアスのある場合は?(+αある?)
• 一般的話題(?)も必要
– はずれ値?
– 変数変換?
26
仮定の評価
• 正規性の検定
– 観測変数や外生変数(誤差)の非正規性チェッ
(Moneta+13)
• 外生変数(誤差)間の独立性検定
– 従属  潜在共通原因あり (Entner+ 2011; 2012)
• 全体的な適合度
– カイ二乗検定 (Shimizu & Kano, 2008)
• 参考: 統計的信頼性評価
– ブートストラップ (Komatsu, Shimizu & Shimodaira, 2010)
27
おわりに
• 因果推論の数理的基盤はかなり整った
– Rubin, Pearl, …
• 因果探索の方法論をつくろう/使ってみよう
– どんな状況で何が何の原因で結果か
• 未知の事柄は多い
– さぁ、これからです!
28

Contenu connexe

Tendances

CRAN Rパッケージ BNSLの概要
CRAN Rパッケージ BNSLの概要CRAN Rパッケージ BNSLの概要
CRAN Rパッケージ BNSLの概要Joe Suzuki
 
観察データを用いた因果推論に共変量選択
観察データを用いた因果推論に共変量選択観察データを用いた因果推論に共変量選択
観察データを用いた因果推論に共変量選択Jaehyun Song
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-Shiga University, RIKEN
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布についてHiroshi Shimizu
 
100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」Shinohara Masahiro
 
非ガウス性を利用した 因果構造探索
非ガウス性を利用した因果構造探索非ガウス性を利用した因果構造探索
非ガウス性を利用した 因果構造探索Shiga University, RIKEN
 
統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回Hikaru GOTO
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装takehikoihayashi
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析Mitsuo Shimohata
 
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いマハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いwada, kazumi
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心takehikoihayashi
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知Yuya Takashina
 
相互情報量を用いた独立性の検定
相互情報量を用いた独立性の検定相互情報量を用いた独立性の検定
相互情報量を用いた独立性の検定Joe Suzuki
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定Akira Masuda
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践Yasuyuki Okumura
 
Probabilistic Graphical Models 輪読会 #1
Probabilistic Graphical Models 輪読会 #1Probabilistic Graphical Models 輪読会 #1
Probabilistic Graphical Models 輪読会 #1Takuma Yagi
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森Masashi Komori
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!takehikoihayashi
 

Tendances (20)

因果推論の基礎
因果推論の基礎因果推論の基礎
因果推論の基礎
 
CRAN Rパッケージ BNSLの概要
CRAN Rパッケージ BNSLの概要CRAN Rパッケージ BNSLの概要
CRAN Rパッケージ BNSLの概要
 
観察データを用いた因果推論に共変量選択
観察データを用いた因果推論に共変量選択観察データを用いた因果推論に共変量選択
観察データを用いた因果推論に共変量選択
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布について
 
100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」
 
非ガウス性を利用した 因果構造探索
非ガウス性を利用した因果構造探索非ガウス性を利用した因果構造探索
非ガウス性を利用した 因果構造探索
 
統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析
 
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いマハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違い
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
相互情報量を用いた独立性の検定
相互情報量を用いた独立性の検定相互情報量を用いた独立性の検定
相互情報量を用いた独立性の検定
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践
 
Probabilistic Graphical Models 輪読会 #1
Probabilistic Graphical Models 輪読会 #1Probabilistic Graphical Models 輪読会 #1
Probabilistic Graphical Models 輪読会 #1
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
 

En vedette

A non-Gaussian model for causal discovery in the presence of hidden common ca...
A non-Gaussian model for causal discovery in the presence of hidden common ca...A non-Gaussian model for causal discovery in the presence of hidden common ca...
A non-Gaussian model for causal discovery in the presence of hidden common ca...Shiga University, RIKEN
 
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてエクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてHiroshi Shimizu
 
Non-Gaussian Methods for Learning Linear Structural Equation Models: Part I
Non-Gaussian Methods for Learning Linear Structural Equation Models: Part INon-Gaussian Methods for Learning Linear Structural Equation Models: Part I
Non-Gaussian Methods for Learning Linear Structural Equation Models: Part IShiga University, RIKEN
 
Linear Non-Gaussian Structural Equation Models
Linear Non-Gaussian Structural Equation ModelsLinear Non-Gaussian Structural Equation Models
Linear Non-Gaussian Structural Equation ModelsShiga University, RIKEN
 
Discovery of Linear Acyclic Models Using Independent Component Analysis
Discovery of Linear Acyclic Models Using Independent Component AnalysisDiscovery of Linear Acyclic Models Using Independent Component Analysis
Discovery of Linear Acyclic Models Using Independent Component AnalysisShiga University, RIKEN
 
Non-Gaussian structural equation models for causal discovery
Non-Gaussian structural equation models for causal discoveryNon-Gaussian structural equation models for causal discovery
Non-Gaussian structural equation models for causal discoveryShiga University, RIKEN
 

En vedette (6)

A non-Gaussian model for causal discovery in the presence of hidden common ca...
A non-Gaussian model for causal discovery in the presence of hidden common ca...A non-Gaussian model for causal discovery in the presence of hidden common ca...
A non-Gaussian model for causal discovery in the presence of hidden common ca...
 
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてエクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについて
 
Non-Gaussian Methods for Learning Linear Structural Equation Models: Part I
Non-Gaussian Methods for Learning Linear Structural Equation Models: Part INon-Gaussian Methods for Learning Linear Structural Equation Models: Part I
Non-Gaussian Methods for Learning Linear Structural Equation Models: Part I
 
Linear Non-Gaussian Structural Equation Models
Linear Non-Gaussian Structural Equation ModelsLinear Non-Gaussian Structural Equation Models
Linear Non-Gaussian Structural Equation Models
 
Discovery of Linear Acyclic Models Using Independent Component Analysis
Discovery of Linear Acyclic Models Using Independent Component AnalysisDiscovery of Linear Acyclic Models Using Independent Component Analysis
Discovery of Linear Acyclic Models Using Independent Component Analysis
 
Non-Gaussian structural equation models for causal discovery
Non-Gaussian structural equation models for causal discoveryNon-Gaussian structural equation models for causal discovery
Non-Gaussian structural equation models for causal discovery
 

Similaire à 因果探索: 観察データから 因果仮説を探索する

反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するかSAKAUE, Tatsuya
 
Stan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみたStan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみたhoxo_m
 
20191117_choco_bayes_pub
20191117_choco_bayes_pub20191117_choco_bayes_pub
20191117_choco_bayes_pubYoichi Tokita
 
Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statisticsKohta Ishikawa
 
Scdp100421 yasuda
Scdp100421 yasudaScdp100421 yasuda
Scdp100421 yasudavcasi
 
統計学基礎
統計学基礎統計学基礎
統計学基礎Yuka Ezura
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章Masanori Takano
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門Yu Tamura
 
傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析Hiroko Onari
 
20150303ぞくパタLT-ゆるふわ構造学習
20150303ぞくパタLT-ゆるふわ構造学習20150303ぞくパタLT-ゆるふわ構造学習
20150303ぞくパタLT-ゆるふわ構造学習Toru Imai
 
Tokyo.R #46 Cox比例ハザードモデルとその周辺
Tokyo.R #46  Cox比例ハザードモデルとその周辺Tokyo.R #46  Cox比例ハザードモデルとその周辺
Tokyo.R #46 Cox比例ハザードモデルとその周辺kikurage1001
 

Similaire à 因果探索: 観察データから 因果仮説を探索する (12)

反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか
 
Stan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみたStan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみた
 
20191117_choco_bayes_pub
20191117_choco_bayes_pub20191117_choco_bayes_pub
20191117_choco_bayes_pub
 
Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statistics
 
Scdp100421 yasuda
Scdp100421 yasudaScdp100421 yasuda
Scdp100421 yasuda
 
統計学基礎
統計学基礎統計学基礎
統計学基礎
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
 
傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析
 
20150303ぞくパタLT-ゆるふわ構造学習
20150303ぞくパタLT-ゆるふわ構造学習20150303ぞくパタLT-ゆるふわ構造学習
20150303ぞくパタLT-ゆるふわ構造学習
 
Tokyo.R #46 Cox比例ハザードモデルとその周辺
Tokyo.R #46  Cox比例ハザードモデルとその周辺Tokyo.R #46  Cox比例ハザードモデルとその周辺
Tokyo.R #46 Cox比例ハザードモデルとその周辺
 
Gasshuku98
Gasshuku98Gasshuku98
Gasshuku98
 

因果探索: 観察データから 因果仮説を探索する