TokyoR 20180421
- 2. スライドの内容に関して
● American Economic Association Annual Meeting 2018でSusan AtheyとGuido
Imbensが行ったtutorialを参照としています。
● 利用したデータとコードの大部分はこちらが本元です。
● 機械学習を利用した平均的な因果効果の推定方法の紹介が目的です。
- 5. Social Pressureの影響を知りたい
who treatment outcome
● ランダムに人を選んで圧力を与えた場合
○ A/Bテスト, RCTの状況
○ 圧力の有無の平均差が圧力の効果になる。
● 何かしらのルールを持って圧力をかける人を選んだ場合
○ 単純に平均差を取ると、ルールによる差が含まれる。
○ 「圧力の効果+ルールによる差」を得てしまう
→この状況でどうするか?という話
- 6. データについて
● オリジナルのデータ はRCTのデータ
○ 履歴はランダムに選んだ人に与えている
○ このデータからATEが解っている状態
● このデータに手を加えて sampling biasを作り出す
○ treatment群は投票行きそうな人を減らす
○ control群は投票行かなそうな人を減らす
→投票しなさそうな人に履歴を送るというシナリオ
control treatment
control treatment
ATE_RCT
ATE_est
比
較
miss
- 7. 平均比較
● 全データでの W=1 と W=0 の平均の比較が履歴(圧力)Wの効果。
→効果の値が0と有意差があるかを検定する必要がある。
W=1の時のYの平均 W=0の時のYの平均
W=0の数 W=1の数
W=0の時のYの分散 W=1の時のYの分散
- 8. 平均比較
● 縦軸がATE推定値
● oracle = データを削る前の結果
● naive = データを削ったあとの結果
oracleが一番正しい値なので、
naivenの結果は散々な事が分かる。
→sampling biasのあるデータで集計で意思決定
するのはいくらかリスクがある。
- 12. Single Equation Lasso
● seの出し方が不明だったので省略
● Direct Methodよりも悪そう
● 全部正則化させたUsual LASSOも表示
● 正則化によるバイアスの影響を受けている
のが分かる。