SlideShare une entreprise Scribd logo
1  sur  23
Télécharger pour lire hors ligne
Review: VanderWeele, Tyler J., 2019, Principles of
Confounder Selection, European Journal of
Epidemiology, 34(3): 211–219.
社会科学方法論研究会 4 月例会
Jaehyun Song
早稲田大学 高等研究所
2019 年 4 月 23 日
概要
観察データを用いた因果推論における共変量選択基準
既存の方法の限界
1 Pretreatment criterion
2 Common cause approach
3 Statistical confounder selection
Modified disjunctive cause criterion のすゝめ
Song (Waseda WIAS) Confounder Selection 2019/04/23 1 / 21
Notation and Definitions
A: 処置 (exposure)
Y: 結果 (outcome)
Ya: A = a を受けた場合の潜在的結果
C: Weak ignorability を満たすための、観察された共変量
Weak ignorability を前提
C を統制すれば A と Ya は独立
Ya ⊥ A|C
処置 A の因果効果は
E[Y1 −Y0|c] = E[Y|A = 1,c]−E[Y|A = 0,c]
Song (Waseda WIAS) Confounder Selection 2019/04/23 2 / 21
方法 1: Pretretment Criterion (PC)
処置前に測定された変数を投入
U2
 
L A Y
U1
?? GG
U は観察されていない要因
この基準だと L は統制すべき
しかし、A–U1–L–U2–Y のバックドアが開かれ、バイアスが発生
⇒ M-bias
A と Y の関係を見るには、共変量は不要
Song (Waseda WIAS) Confounder Selection 2019/04/23 3 / 21
M-bias
N = 1000; 全ての誤差項は Normal(0,1) と仮定 (Fig2.R)
U2
2

−2

εL
// L A Y εY
oo
U1
1
??
2
GG
εA
OO
共変量なしモデル ( ˆY = α + β ·A)
β = −0.035 (p = 0.248)
共変量ありモデル ( ˆY = α + γ1 ·A+ γ2 ·L)
γ1 = 0.479 (p  0.001)
Song (Waseda WIAS) Confounder Selection 2019/04/23 4 / 21
M-bias を避けるためには
L を統制しなければ問題なし
そのためには因果ダイアグラム内の共変量間の関係に関してほぼ完
全な知識が必要
⇒ 現実的ではない
Song (Waseda WIAS) Confounder Selection 2019/04/23 5 / 21
方法 2: Common Cause Approach (CCA)
処置変数と結果変数、両方に影響を与える処置前変数を投入
U //
##
C // A // Y
A と Y 間の変数のみに限定されるため、PC より少ない情報で ⃝
A と Y 両方の原因となる変数が ˙全 ˙て特定できれば、処置効果の推定
が可能
U は観察済みであり、C は Y の直接の原因ではないため、統制すべ
きではない
しかし ...
Song (Waseda WIAS) Confounder Selection 2019/04/23 6 / 21
CCA の限界
N = 1000; 全ての誤差項は Normal(0,1) と仮定 (Fig3.R)
U
2 //
5
$$
C
3 // A
4 // Y
εC
OO
εA
OO
εY
OO
共変量なしモデル ( ˆY = α + β ·A)
β = 4.809 (p  0.001)
共変量ありモデル ( ˆY = α + γ1 ·A+ γ2 ·C)
γ1 = 3.900 (p  0.001)
⇒ C は common cause ではないが、統制した方が良い
Song (Waseda WIAS) Confounder Selection 2019/04/23 7 / 21
両基準の比較
Pretretment Criterion
基準を満たす共変量を統制することによってバイアスが発生
too liberal
Common Cause Approach
基準を満たさない共変量を統制しないことによってバイアスが発生
too conservative
Song (Waseda WIAS) Confounder Selection 2019/04/23 8 / 21
方法 3: Disjunctive Cause Criterion (DCC)
処置と結果、どちらか、あるいは両方を引き起こす変数を統制
Fig.2 の例
PC: L は A の処置前変数なので統制 ⃝ → バイアス ⃝
DCC: L は A を引き起こさないので統制 × → バイアス ×
Fig.3 の例
CCA: C は Y を引き起こさないため統制 × → バイアス ⃝
DCC: L は A を引き起こすので統制 ⃝ → バイアス ×
因果ダイアグラム内の変数が全て揃っているとしても、既存の 2 つ
の方法はバイアスが生じうる
⇔ 因果ダイアグラム内の変数が全て揃っている場合、DCC はバイアス
を最小化する
Song (Waseda WIAS) Confounder Selection 2019/04/23 9 / 21
Z-bias
DCC も万能ではない
U
 
Z // A // Y
DCC によると、Z は統制すべき
(実は)Z は A のみを経由して Y を引き起こす操作変数
操作変数の投入はバイアスを引き起こしうる
Z-bias
Song (Waseda WIAS) Confounder Selection 2019/04/23 10 / 21
Z-bias
N = 1000; 全ての誤差項は Normal(0,1) と仮定 (Fig4.R)
U
3

6

εA

Z
2 // A
5 // Y εY
oo
共変量なしモデル ( ˆY = α + β ·A)
β = 5.885 (p  0.001)
共変量ありモデル ( ˆY = α + γ1 ·A+ γ2 ·Z)
γ1 = 6.977 (p  0.001)
Song (Waseda WIAS) Confounder Selection 2019/04/23 11 / 21
代理変数の利用
DCC を満たさなくても代理変数 (proxy) が有効な時も
U


// A // Y
C
観察されていない U の代理変数として C を利用
C は A も Y も引き起こさないため、DCC だと投入しない
しかし、代理変数を使うことでバイアスが小さくなる場合も
ただし、代理変数の使用がバイアスの減少を保証するのではない
代理変数の選択は慎重に行うこと。場合によっては M-bias の原因に
なり得る
A と Y 両方を引き起こす変数の代理変数を使うこと
Song (Waseda WIAS) Confounder Selection 2019/04/23 12 / 21
代理変数を使うのは恥でもないし、役に立つ
N = 1000; 全ての誤差項は Normal(0,1) と仮定 (Fig5.R)
U
4

7
##2 // A
6 // Y εY
oo
εC
// C εA
__
代理変数なしモデル ( ˆY = α + β ·A)
β = 9.479 (p  0.001)
代理変数ありモデル ( ˆY = α + γ1 ·A+ γ2 ·C)
γ1 = 6.571 (p  0.001)
Song (Waseda WIAS) Confounder Selection 2019/04/23 13 / 21
方法 4: Modified Disjunctive Cause Criterion
1 処置変数と結果変数の ˙ど ˙ち ˙ら ˙かの原因となる変数
2 処置変数と結果変数の ˙両 ˙方の原因となる変数
3 ˙操 ˙作 ˙変 ˙数の統制は避ける
4 上記の条件を満たさなくても未観察の変数の ˙代 ˙理 ˙変 ˙数
代理変数の選択は慎重に
代理変数は、処置と結果両方を引き起こす変数の代理変数がベスト
Song (Waseda WIAS) Confounder Selection 2019/04/23 14 / 21
交絡要因のタイミング
1 Wave データ利用時
Case 1.
BMI
zz %%
Activity // Disease
Case 2.
BMI
%%
Activity
::
Disease
Modified DCC の則ると ...
Case 1 の場合、BMI は統制 ⃝
Case 2 の場合、BMI は統制 × (パスがブロックされる = overconditioning)
Confounder? Mediator?
Song (Waseda WIAS) Confounder Selection 2019/04/23 15 / 21
交絡要因のタイミング
パネルデータ利用時
BMI
zz
Activity // Disease
パネルデータで、BMI と Activity が毎回測定されている場合、前期の
BMI を統制することで、Activity の効果量が推定可能
Song (Waseda WIAS) Confounder Selection 2019/04/23 15 / 21
Statistical Confounder Selection
統計的共変量選択アプローチ
因果ダイアグラムの知識が制約されている時にも利用可能
共変量が多く、N が適切 (modest) な場合に有効
ただし、理論に基づいて共変量を検討することが不可能
因果推論よりも倹約的 (pasimonious) なモデルを構築に向いている
例)
変数増加法 (Forward selection) / 変数減少法 (Backward selection)
Change-in-estimate 法
High-dimensional Propensity Score
機械学習
正則化回帰分析 (Ridge, Lasso, Elastic net など) も?(本文にはない)
Song (Waseda WIAS) Confounder Selection 2019/04/23 16 / 21
Forward/Backward Selection
因果ダイアグラム内の全ての変数が測定済みの場合、Forward/Backward
Selection は正しく共変量を選択する
あまり現実的な仮定ではない
共変量選択に使われたデータは実証に使うべきではない
Data-driven な方法であるため、新しくデータを収集すべき
データを分割して、探索用・分析用に使うのは精度 (precision) の問題
サンプルサイズ・変数の数の問題
N が小さく、共変量が多いと、飽和モデルに近いモデルが含まれる
Song (Waseda WIAS) Confounder Selection 2019/04/23 17 / 21
Change-in-Estimate
共変量が追加されることで因果効果 (or p 値) が閾値以上変化したか否か
で判断
閾値は主に 10%
因果効果を特定するに必要な共変量を用意する必要あり
Forward/Backward Selection と同様
ハザード比やオッズ比には使えない
Song (Waseda WIAS) Confounder Selection 2019/04/23 18 / 21
High-dimensional Propensity Score
Apparent Relative Risk Ratio に基づく選択
共変量と応答変数間の相対リスク比と Apparent 相対リスク比を計算
Apparent 相対リスク比が高い順位で共変量を選択
上位 10%など
応答変数との連関 (association) が小さい共変量を効果的に除去可能
応答変数との関係が一つずつ評価されるため、因果ダイアグラム上の
共変量が全て揃っていても、理論的には最善の結果を保証されない
Song (Waseda WIAS) Confounder Selection 2019/04/23 19 / 21
Machine Learning
最尤法と交差検証法 (Cross validation) を用いた方法
学習のために、Large-N が必要
開発途上であるため、更に研究が必要
Song (Waseda WIAS) Confounder Selection 2019/04/23 20 / 21
Conclusion
手元にあるデータから最善の選択を導く方法
Modified Disjunctive Cause Criterion
1 処置変数と結果変数の ˙ど ˙ち ˙ら ˙かの原因となる変数
2 処置変数と結果変数の ˙両 ˙方の原因となる変数
3 ˙操 ˙作 ˙変 ˙数の統制は避ける
4 上記の条件を満たさなくても未観察の変数の ˙代 ˙理 ˙変 ˙数は ⃝
ただし、代理変数の選択は慎重に行うこと
因果効果を推論するために十分 (suffice) な共変量のセット (total set) が用
意されている場合、統計的共変量選択法も有効だが、探索に使った
データを分析に使うのは不適切
金が余りすぎて邪魔ならいいかも
Song (Waseda WIAS) Confounder Selection 2019/04/23 21 / 21

Contenu connexe

Tendances

階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門shima o
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践Yasuyuki Okumura
 
21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)Toru Imai
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装takehikoihayashi
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定Akira Masuda
 
Granger因果による 時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による 時系列データの因果推定(因果フェス2015)Takashi J OZAKI
 
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎Tomoshige Nakamura
 
因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"takehikoihayashi
 
多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料Tomoshige Nakamura
 
分割時系列解析(ITS)の入門
分割時系列解析(ITS)の入門分割時系列解析(ITS)の入門
分割時系列解析(ITS)の入門Koichiro Gibo
 
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-Koichiro Gibo
 
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)Shota Yasui
 
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギーHiroshi Shimizu
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?Fumihiko Takahashi
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Surveytmtm otm
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択kazutantan
 

Tendances (20)

階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践
 
21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
MCMC法
MCMC法MCMC法
MCMC法
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
Granger因果による 時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による 時系列データの因果推定(因果フェス2015)
 
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎
 
因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"
 
多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料
 
分割時系列解析(ITS)の入門
分割時系列解析(ITS)の入門分割時系列解析(ITS)の入門
分割時系列解析(ITS)の入門
 
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
 
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)
 
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギー
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 

Plus de Jaehyun Song

Review: Cyrus, Samii, Laura Paler, and Sarah Zukerman Daly. 2016. “Retrospect...
Review: Cyrus, Samii, Laura Paler, and Sarah Zukerman Daly. 2016. “Retrospect...Review: Cyrus, Samii, Laura Paler, and Sarah Zukerman Daly. 2016. “Retrospect...
Review: Cyrus, Samii, Laura Paler, and Sarah Zukerman Daly. 2016. “Retrospect...Jaehyun Song
 
争点空間の歪みと有権者の選択: 伸縮近接性モデルによる争点投票理論の統合
争点空間の歪みと有権者の選択: 伸縮近接性モデルによる争点投票理論の統合争点空間の歪みと有権者の選択: 伸縮近接性モデルによる争点投票理論の統合
争点空間の歪みと有権者の選択: 伸縮近接性モデルによる争点投票理論の統合Jaehyun Song
 
回帰不連続デザイン(Regression Discontinuity Design, RDD)
回帰不連続デザイン(Regression Discontinuity Design, RDD)回帰不連続デザイン(Regression Discontinuity Design, RDD)
回帰不連続デザイン(Regression Discontinuity Design, RDD)Jaehyun Song
 
差分の差分法(Difference-in-Difference)
差分の差分法(Difference-in-Difference)差分の差分法(Difference-in-Difference)
差分の差分法(Difference-in-Difference)Jaehyun Song
 
Differences-in-Differences
Differences-in-DifferencesDifferences-in-Differences
Differences-in-DifferencesJaehyun Song
 
Teaching How Electoral Systems Change Political Outcomes Using a Role-Playing...
Teaching How Electoral Systems Change Political Outcomes Using a Role-Playing...Teaching How Electoral Systems Change Political Outcomes Using a Role-Playing...
Teaching How Electoral Systems Change Political Outcomes Using a Role-Playing...Jaehyun Song
 
コンジョイント分析の方法論的検討
コンジョイント分析の方法論的検討コンジョイント分析の方法論的検討
コンジョイント分析の方法論的検討Jaehyun Song
 
誰が選挙公報を見るのか - 無党派性と政治的有効性感覚に着目した日韓比較 (修正版)
誰が選挙公報を見るのか - 無党派性と政治的有効性感覚に着目した日韓比較 (修正版)誰が選挙公報を見るのか - 無党派性と政治的有効性感覚に着目した日韓比較 (修正版)
誰が選挙公報を見るのか - 無党派性と政治的有効性感覚に着目した日韓比較 (修正版)Jaehyun Song
 
誰が選挙公報を見るのか―無党派性と政治的有効性感覚に着目した比較研究―
誰が選挙公報を見るのか―無党派性と政治的有効性感覚に着目した比較研究―誰が選挙公報を見るのか―無党派性と政治的有効性感覚に着目した比較研究―
誰が選挙公報を見るのか―無党派性と政治的有効性感覚に着目した比較研究―Jaehyun Song
 
韓国の地域主義は乗り越えられるかー選挙公約の役割の実証分析ー
韓国の地域主義は乗り越えられるかー選挙公約の役割の実証分析ー韓国の地域主義は乗り越えられるかー選挙公約の役割の実証分析ー
韓国の地域主義は乗り越えられるかー選挙公約の役割の実証分析ーJaehyun Song
 

Plus de Jaehyun Song (10)

Review: Cyrus, Samii, Laura Paler, and Sarah Zukerman Daly. 2016. “Retrospect...
Review: Cyrus, Samii, Laura Paler, and Sarah Zukerman Daly. 2016. “Retrospect...Review: Cyrus, Samii, Laura Paler, and Sarah Zukerman Daly. 2016. “Retrospect...
Review: Cyrus, Samii, Laura Paler, and Sarah Zukerman Daly. 2016. “Retrospect...
 
争点空間の歪みと有権者の選択: 伸縮近接性モデルによる争点投票理論の統合
争点空間の歪みと有権者の選択: 伸縮近接性モデルによる争点投票理論の統合争点空間の歪みと有権者の選択: 伸縮近接性モデルによる争点投票理論の統合
争点空間の歪みと有権者の選択: 伸縮近接性モデルによる争点投票理論の統合
 
回帰不連続デザイン(Regression Discontinuity Design, RDD)
回帰不連続デザイン(Regression Discontinuity Design, RDD)回帰不連続デザイン(Regression Discontinuity Design, RDD)
回帰不連続デザイン(Regression Discontinuity Design, RDD)
 
差分の差分法(Difference-in-Difference)
差分の差分法(Difference-in-Difference)差分の差分法(Difference-in-Difference)
差分の差分法(Difference-in-Difference)
 
Differences-in-Differences
Differences-in-DifferencesDifferences-in-Differences
Differences-in-Differences
 
Teaching How Electoral Systems Change Political Outcomes Using a Role-Playing...
Teaching How Electoral Systems Change Political Outcomes Using a Role-Playing...Teaching How Electoral Systems Change Political Outcomes Using a Role-Playing...
Teaching How Electoral Systems Change Political Outcomes Using a Role-Playing...
 
コンジョイント分析の方法論的検討
コンジョイント分析の方法論的検討コンジョイント分析の方法論的検討
コンジョイント分析の方法論的検討
 
誰が選挙公報を見るのか - 無党派性と政治的有効性感覚に着目した日韓比較 (修正版)
誰が選挙公報を見るのか - 無党派性と政治的有効性感覚に着目した日韓比較 (修正版)誰が選挙公報を見るのか - 無党派性と政治的有効性感覚に着目した日韓比較 (修正版)
誰が選挙公報を見るのか - 無党派性と政治的有効性感覚に着目した日韓比較 (修正版)
 
誰が選挙公報を見るのか―無党派性と政治的有効性感覚に着目した比較研究―
誰が選挙公報を見るのか―無党派性と政治的有効性感覚に着目した比較研究―誰が選挙公報を見るのか―無党派性と政治的有効性感覚に着目した比較研究―
誰が選挙公報を見るのか―無党派性と政治的有効性感覚に着目した比較研究―
 
韓国の地域主義は乗り越えられるかー選挙公約の役割の実証分析ー
韓国の地域主義は乗り越えられるかー選挙公約の役割の実証分析ー韓国の地域主義は乗り越えられるかー選挙公約の役割の実証分析ー
韓国の地域主義は乗り越えられるかー選挙公約の役割の実証分析ー
 

観察データを用いた因果推論に共変量選択

  • 1. Review: VanderWeele, Tyler J., 2019, Principles of Confounder Selection, European Journal of Epidemiology, 34(3): 211–219. 社会科学方法論研究会 4 月例会 Jaehyun Song 早稲田大学 高等研究所 2019 年 4 月 23 日
  • 2. 概要 観察データを用いた因果推論における共変量選択基準 既存の方法の限界 1 Pretreatment criterion 2 Common cause approach 3 Statistical confounder selection Modified disjunctive cause criterion のすゝめ Song (Waseda WIAS) Confounder Selection 2019/04/23 1 / 21
  • 3. Notation and Definitions A: 処置 (exposure) Y: 結果 (outcome) Ya: A = a を受けた場合の潜在的結果 C: Weak ignorability を満たすための、観察された共変量 Weak ignorability を前提 C を統制すれば A と Ya は独立 Ya ⊥ A|C 処置 A の因果効果は E[Y1 −Y0|c] = E[Y|A = 1,c]−E[Y|A = 0,c] Song (Waseda WIAS) Confounder Selection 2019/04/23 2 / 21
  • 4. 方法 1: Pretretment Criterion (PC) 処置前に測定された変数を投入 U2 L A Y U1 ?? GG U は観察されていない要因 この基準だと L は統制すべき しかし、A–U1–L–U2–Y のバックドアが開かれ、バイアスが発生 ⇒ M-bias A と Y の関係を見るには、共変量は不要 Song (Waseda WIAS) Confounder Selection 2019/04/23 3 / 21
  • 5. M-bias N = 1000; 全ての誤差項は Normal(0,1) と仮定 (Fig2.R) U2 2 −2 εL // L A Y εY oo U1 1 ?? 2 GG εA OO 共変量なしモデル ( ˆY = α + β ·A) β = −0.035 (p = 0.248) 共変量ありモデル ( ˆY = α + γ1 ·A+ γ2 ·L) γ1 = 0.479 (p 0.001) Song (Waseda WIAS) Confounder Selection 2019/04/23 4 / 21
  • 7. 方法 2: Common Cause Approach (CCA) 処置変数と結果変数、両方に影響を与える処置前変数を投入 U // ## C // A // Y A と Y 間の変数のみに限定されるため、PC より少ない情報で ⃝ A と Y 両方の原因となる変数が ˙全 ˙て特定できれば、処置効果の推定 が可能 U は観察済みであり、C は Y の直接の原因ではないため、統制すべ きではない しかし ... Song (Waseda WIAS) Confounder Selection 2019/04/23 6 / 21
  • 8. CCA の限界 N = 1000; 全ての誤差項は Normal(0,1) と仮定 (Fig3.R) U 2 // 5 $$ C 3 // A 4 // Y εC OO εA OO εY OO 共変量なしモデル ( ˆY = α + β ·A) β = 4.809 (p 0.001) 共変量ありモデル ( ˆY = α + γ1 ·A+ γ2 ·C) γ1 = 3.900 (p 0.001) ⇒ C は common cause ではないが、統制した方が良い Song (Waseda WIAS) Confounder Selection 2019/04/23 7 / 21
  • 9. 両基準の比較 Pretretment Criterion 基準を満たす共変量を統制することによってバイアスが発生 too liberal Common Cause Approach 基準を満たさない共変量を統制しないことによってバイアスが発生 too conservative Song (Waseda WIAS) Confounder Selection 2019/04/23 8 / 21
  • 10. 方法 3: Disjunctive Cause Criterion (DCC) 処置と結果、どちらか、あるいは両方を引き起こす変数を統制 Fig.2 の例 PC: L は A の処置前変数なので統制 ⃝ → バイアス ⃝ DCC: L は A を引き起こさないので統制 × → バイアス × Fig.3 の例 CCA: C は Y を引き起こさないため統制 × → バイアス ⃝ DCC: L は A を引き起こすので統制 ⃝ → バイアス × 因果ダイアグラム内の変数が全て揃っているとしても、既存の 2 つ の方法はバイアスが生じうる ⇔ 因果ダイアグラム内の変数が全て揃っている場合、DCC はバイアス を最小化する Song (Waseda WIAS) Confounder Selection 2019/04/23 9 / 21
  • 11. Z-bias DCC も万能ではない U Z // A // Y DCC によると、Z は統制すべき (実は)Z は A のみを経由して Y を引き起こす操作変数 操作変数の投入はバイアスを引き起こしうる Z-bias Song (Waseda WIAS) Confounder Selection 2019/04/23 10 / 21
  • 12. Z-bias N = 1000; 全ての誤差項は Normal(0,1) と仮定 (Fig4.R) U 3 6 εA  Z 2 // A 5 // Y εY oo 共変量なしモデル ( ˆY = α + β ·A) β = 5.885 (p 0.001) 共変量ありモデル ( ˆY = α + γ1 ·A+ γ2 ·Z) γ1 = 6.977 (p 0.001) Song (Waseda WIAS) Confounder Selection 2019/04/23 11 / 21
  • 13. 代理変数の利用 DCC を満たさなくても代理変数 (proxy) が有効な時も U // A // Y C 観察されていない U の代理変数として C を利用 C は A も Y も引き起こさないため、DCC だと投入しない しかし、代理変数を使うことでバイアスが小さくなる場合も ただし、代理変数の使用がバイアスの減少を保証するのではない 代理変数の選択は慎重に行うこと。場合によっては M-bias の原因に なり得る A と Y 両方を引き起こす変数の代理変数を使うこと Song (Waseda WIAS) Confounder Selection 2019/04/23 12 / 21
  • 14. 代理変数を使うのは恥でもないし、役に立つ N = 1000; 全ての誤差項は Normal(0,1) と仮定 (Fig5.R) U 4 7 ##2 // A 6 // Y εY oo εC // C εA __ 代理変数なしモデル ( ˆY = α + β ·A) β = 9.479 (p 0.001) 代理変数ありモデル ( ˆY = α + γ1 ·A+ γ2 ·C) γ1 = 6.571 (p 0.001) Song (Waseda WIAS) Confounder Selection 2019/04/23 13 / 21
  • 15. 方法 4: Modified Disjunctive Cause Criterion 1 処置変数と結果変数の ˙ど ˙ち ˙ら ˙かの原因となる変数 2 処置変数と結果変数の ˙両 ˙方の原因となる変数 3 ˙操 ˙作 ˙変 ˙数の統制は避ける 4 上記の条件を満たさなくても未観察の変数の ˙代 ˙理 ˙変 ˙数 代理変数の選択は慎重に 代理変数は、処置と結果両方を引き起こす変数の代理変数がベスト Song (Waseda WIAS) Confounder Selection 2019/04/23 14 / 21
  • 16. 交絡要因のタイミング 1 Wave データ利用時 Case 1. BMI zz %% Activity // Disease Case 2. BMI %% Activity :: Disease Modified DCC の則ると ... Case 1 の場合、BMI は統制 ⃝ Case 2 の場合、BMI は統制 × (パスがブロックされる = overconditioning) Confounder? Mediator? Song (Waseda WIAS) Confounder Selection 2019/04/23 15 / 21
  • 17. 交絡要因のタイミング パネルデータ利用時 BMI zz Activity // Disease パネルデータで、BMI と Activity が毎回測定されている場合、前期の BMI を統制することで、Activity の効果量が推定可能 Song (Waseda WIAS) Confounder Selection 2019/04/23 15 / 21
  • 18. Statistical Confounder Selection 統計的共変量選択アプローチ 因果ダイアグラムの知識が制約されている時にも利用可能 共変量が多く、N が適切 (modest) な場合に有効 ただし、理論に基づいて共変量を検討することが不可能 因果推論よりも倹約的 (pasimonious) なモデルを構築に向いている 例) 変数増加法 (Forward selection) / 変数減少法 (Backward selection) Change-in-estimate 法 High-dimensional Propensity Score 機械学習 正則化回帰分析 (Ridge, Lasso, Elastic net など) も?(本文にはない) Song (Waseda WIAS) Confounder Selection 2019/04/23 16 / 21
  • 19. Forward/Backward Selection 因果ダイアグラム内の全ての変数が測定済みの場合、Forward/Backward Selection は正しく共変量を選択する あまり現実的な仮定ではない 共変量選択に使われたデータは実証に使うべきではない Data-driven な方法であるため、新しくデータを収集すべき データを分割して、探索用・分析用に使うのは精度 (precision) の問題 サンプルサイズ・変数の数の問題 N が小さく、共変量が多いと、飽和モデルに近いモデルが含まれる Song (Waseda WIAS) Confounder Selection 2019/04/23 17 / 21
  • 20. Change-in-Estimate 共変量が追加されることで因果効果 (or p 値) が閾値以上変化したか否か で判断 閾値は主に 10% 因果効果を特定するに必要な共変量を用意する必要あり Forward/Backward Selection と同様 ハザード比やオッズ比には使えない Song (Waseda WIAS) Confounder Selection 2019/04/23 18 / 21
  • 21. High-dimensional Propensity Score Apparent Relative Risk Ratio に基づく選択 共変量と応答変数間の相対リスク比と Apparent 相対リスク比を計算 Apparent 相対リスク比が高い順位で共変量を選択 上位 10%など 応答変数との連関 (association) が小さい共変量を効果的に除去可能 応答変数との関係が一つずつ評価されるため、因果ダイアグラム上の 共変量が全て揃っていても、理論的には最善の結果を保証されない Song (Waseda WIAS) Confounder Selection 2019/04/23 19 / 21
  • 22. Machine Learning 最尤法と交差検証法 (Cross validation) を用いた方法 学習のために、Large-N が必要 開発途上であるため、更に研究が必要 Song (Waseda WIAS) Confounder Selection 2019/04/23 20 / 21
  • 23. Conclusion 手元にあるデータから最善の選択を導く方法 Modified Disjunctive Cause Criterion 1 処置変数と結果変数の ˙ど ˙ち ˙ら ˙かの原因となる変数 2 処置変数と結果変数の ˙両 ˙方の原因となる変数 3 ˙操 ˙作 ˙変 ˙数の統制は避ける 4 上記の条件を満たさなくても未観察の変数の ˙代 ˙理 ˙変 ˙数は ⃝ ただし、代理変数の選択は慎重に行うこと 因果効果を推論するために十分 (suffice) な共変量のセット (total set) が用 意されている場合、統計的共変量選択法も有効だが、探索に使った データを分析に使うのは不適切 金が余りすぎて邪魔ならいいかも Song (Waseda WIAS) Confounder Selection 2019/04/23 21 / 21