計量経済学と機械学習の交差点入り口（公開用）

計量経済学と
機械学習の交差点入り口
（公開用）
Shota Yasui
Tokyo Web Mining 2016/10/29
51 pages in total
1

2
Shota Yasui (29)
twitter: @housecat442
Work at CyberAgent AILab
as Data Analyst
2013/10 - present
サーモンの経済学（修士）
↓
広告代理店
↓
DMP
↓
DSP
↓
SSP
良くTokyo.Rに出没してます。

おことわり
● 今日の発表内容はWork in Progressな話が多いです。
● 具体的な分析手法に関しては数年後にはすでに時代遅れの発想になっている可
能性もありますのでご承知下さい。
● 内容は基本的に発表者の理解を元に作られていますので、間違いや抜け漏れが
ある場合があります。
● ですので興味を持った方はこの内容が全てと思わずに、色々と調べていただけた
らと思います。
3

発表の流れ
1. 計量経済学の話
a. どういう分野か？
b. Treatment Effectとその推定について
2. 機械学習との交差点
a. 全体感
b. Varian’s Idea
c. Athey’s Causal Tree
d. Policy Prediction Problem
3. まとめと疑問
4. その他のアプローチ（時間があれば）
4

①そもそもの計量経済学の話
5

計量経済学
● 経済学のモデルが現実社会の現象を説明しうるか？を検証す
る分野。
○ ある事象が、”こうなってるであろう”というモデルを建てる
○ 手に入り得るデータの中で、想定しているモデルがどの変数にどう
やって影響するかを考えて分析モデルを推定する
○ 因果推論を中心に扱ってきた
○ 政策の意思決定でよく使われる
6

Treatment Effectのはなし
7
Time
サプリ
(介入)
or
● ある対象に介入した時に、どのような結果になるかを知りたい。
● 実際にはorではなく連続的。

8
Time
サプリ
(介入)
or
その他
の要因
● 実際には他の要因も影響してくる
● 状態の変化が、介入かその他の要因かによるものかが区別できない。
● よって単純に前後比ではダメ。

こういう比較をしたい
9
● 同一人物に対してこの状況を作って結果を比較する。
● その他の要因は全部一緒なので差分が介入の効果。
● いわゆるパラレルワールド
Time
サプリ
(介入)
or
その他の
要因
Time
サプリ
(介入)
or
その他の
要因
結果を比較

理想としては
10
効果
介入をした結果
Y|W = 1
介入をしなかった結果
Y|W = 0

どちらかしか観測できない
11
効果
Y|W = 1
Y|W = 0
効果
Y|W = 1
Y|W = 0

12
効果
効果
効果
効果
効果
効果
やりたい事と観測データ
● 介入したグループとしてないグループのその他
の特徴が平均的に同じであれば、結果の平均
の差分が効果の平均の推定量になる。
● ただ、その他の要因が同じにならないケースが
多々ある。
● 基本的にはこの状態をモデルで再現したいとい
う話になる。
E(効果)E E

②機械学習との交差点
13

利用パターン
1. 機械学習で計量経済学の手法を改良する。
a. 傾向スコアの算出
b. 操作変数法の一段階目の推定
2. 機械学習を計量経済学の手法へと改良する。
a. Varian’s Idea
b. Athey’s Causal Tree
3. 機械学習を計量経済学の実用時のプロセスに追加する。
a. Prediction Policy Problem
4. 機械学習で用いられるデータ構造の考え方を計量経済学のモデルの変数
として扱う。
14

今日話すパート
1. 機械学習で計量経済学の手法を改良する。
a. 傾向スコアの算出
b. 操作変数法の一段階目の推定
2. 機械学習を計量経済学の手法へと改良する。
a. Varian’s Idea
b. Athey’s Causal Tree
3. 機械学習を計量経済学の実用時のプロセスに追加する。
a. Prediction Policy Problem
4. 機械学習で用いられるデータ構造の考え方を計量経済学のモデルの変
数として扱う。
15

Vaian’s Idea
16
介入した対象に対して、
「介入しなかったらどうだったのか？」
を予測してその差分を効果と考える。
機械学習を計量経済学の手法へと改良する。

予測モデルを使って因果推論しよう
● Big data: New tricks for econometrics.
● この中で、ある介入や施策の効果を測るためのアイデアを提
示。
● Difference in Difference Estimatorの応用。
● 時系列と変数選択で可能にしたのがCausal Impact。
17Vaian’s Idea

Causal Impactでやりたい事。
● 赤が時系列で観測しているデータ。
● t = 50の時点から介入をしている。
● 介入がなかった時の結果を緑として予測して、その差分を効果だと言いたい。
18Vaian’s Idea

感覚としては・・・
● 青が変数選択の結果残った時系列データ。
● t = 50の時点から赤のみに介入をしている。
● 青→赤で赤の予測モデルを作る。
● 介入後に青のデータから緑を予測する。
19Vaian’s Idea

利用例：Auction Mechanism Test
● ネット広告の一部分では、ユーザーのアクセス単位に広告を出す権利をオークショ
ンに掛けている。（RTB: Real Time Bidding）
● RTBで広告を売る側のSupply Side Platform(SSP)は売る為の価格設定やルール
を調整する事で収益を改善する。
● よって、調整した結果の効果がどうだったのか？を知りたい。
● しかし、SSP側ではA/Bテストによる効果の推定が困難。
20Vaian’s Idea

SSPでのオークションA/Bテスト
SSP
auction(A)
auction(B)
アクセス
A/Bテスト
DSP
adcall（A or Bの情報は含まれない）
bid for A
bid for B
media
21Vaian’s Idea

SSP
auction(c)
DSP
DSPからの視点
● オークションの仕組みが見えないので、来た adcallがAなのかBなのかわからない。
● よって、それらが混じった状態に対してベストな入札をしようとする。
bid for C!
adcall（A or Bの情報は含まれない）
アクセス
media
22Vaian’s Idea

SSP
auction(c)
DSP
adcall
分析になると。。。
● オークションの結果を貯め込んでそれを分析する。
● 単純にAとBで平均CPMを集計して比較
● しかし、それらはDSPがCという仕組みに対して入札した結果に過ぎない。
● DSPが仕組みAに対して入札した時に平均 CPMがどの位になるか？という問いには答えられない。
bid for C!
DWH
storage auction results
A: CPM = 10
B: CPM = 15
アクセス
media
23Vaian’s Idea

causal impactを使うと
24
● 時系列でロジックを入れ替えてテスト
● 一番上がKPIを基準化した時系列データ
● 真ん中がモデルとの誤差の時系列
● 一番下が介入期間での誤差の積み上げ
ちなみに。
● A/B Testing of Auctions
● 普通に計量経済学の発想で推定する方法も
模索されている。
Vaian’s Idea

機械学習でのアプローチ
● Demand Estimation with Machine Learning and Model Combination
● Causal Impactがある対象の時系列データから介入の効果を推定したいという話。
● こっちは、大量の個体からデータが取れている時に介入の効果を推定したいという
話。（Cross Section or Panel Data）
● 古典的な手法だと上手く推定出来ないケースも出てくるが、提案のアプローチでは
同じデータに対してもちゃんと推定できる。
25Vaian’s Idea

推定のプロセス
● 介入が無いデータで学習しているので、予測の結果はW=1のデータが仮にW=0
だった場合の値になる。
● よってW=1のラベルと予測値の差分が介入の効果。
26
N
K
Vaian’s Idea

27
利用例）Rossmann Store Sales
Vaian’s Idea

Rossman Store
29
● 横軸が売上の予測値
● 縦軸が実際の売上
● グリッドの色がサンプル数
● W=1, W=0で左右に分かれている。
● 差分に対してモデルを適応すれば、
どんな要因がPromotionの効果を妨
げたりするかを説明できる。
Vaian’s Idea

さらに不均一な効果を推定
● 差分は個体毎に観測ができているので、差分に対して個
体の特徴で説明をするモデルを作ってみる。
● 霧・雨・雷雨だと広告の効果が下がっている。（雪は 12月
に引っ張られてる？）
● 近くに競合店舗が無い方が効果が高い。（ nocomp）
● このステップはドメイン知識ドリブンでモデルを建てない
と×
● そもそもこれパネルデータとして扱わないと（汗
30

機械学習の方法を借りて、
”平均的な効果”ではなく、不均一な効果を推定する。
（身長が高いほど薬の効果が弱いのか？等がわかる）
Causal Tree
31
機械学習を計量経済学の手法へと改良する。

機械学習のコスト関数を弄る
● Recursive Partitioning for Heterogeneous Causal Effects
● 決定木を改良して、Conditional Average Treatment Effect(CATE)の推定を可能
にする。
● 薬の効果が身長や体重などの条件によって違う事を汲み取って推定する。
● 観測されなかった方を予測するのではなく、差分（効果）をそのままコスト関数に置
いて予測する。
32Causal Tree

普通の決定木（adaptive）
S_tr
S_te
ℓ ℓ ℓ
トレーニングデータ(S_tr)で木（π）の学習
to min MSE
トレーニングデータ（ S_tr）で各
葉の出力の決定.
⇒葉に割り振られたサンプル
のYの平均を取るだけ。
評価
テストデータで評価
dataset
33Causal Tree

提案手法（honest）
S_tr
S_te
ℓ ℓ ℓ
トレーニングデータ(S_tr)で木（π）の学習
to min modified MSE
推定データ(S_est)で各葉の出
力の決定
評価
S_est
dataset
34Causal Tree

● ある枝の学習結果Πにおける葉の中で介入されたグループの平均と、介入されなかったグループの平
均を求めて差を取る。
コスト関数について
35
● 差の二乗から分散に重みをつけた物を差し引く。
● これが最大になるように枝を学習する。
● 葉の中の差はなるべく大きく、結果の分散はなるべく小さくなる様になっている
E(効果)E E
Causal Tree

シミュレーションデータでの結果（誤差）
36
データの分割もコスト関数も改良せ
ず、デフォルトの決定木で学習して、
葉の中で介入の有無で差分を出した
時の誤差。
● 論文内のtable1より一部抜粋
● CT-H(提案手法)の介入効果の誤差を 1とした時の他の手法の誤差の値が示されている。
● 誤差算出はテストデータで行われている。
提案手法でデータ分割の改良をした
場合としない場合の誤差の比。
Causal Tree

37
利用例）Rossmann Store Sales
天気で広告の効果はどの位違うのか？
Y = Sales
T = Promotion 右はじの１２月は効果が強い
⇒投下量が多い？
雨・雪だと弱まる。

Propensity Tree
S_tr
S_te
ℓ ℓ ℓ
トレーニングデータ(S_tr)で、介入の割り当てWの学習をする。
to min modified MSE
推定データ(S_est)で各葉の出
力の決定
⇒出力は先程と同様の W別の
平均値。
評価
S_est
dataset
38Causal Tree

Prediction Policy Problems
39
機械学習を計量経済学の実用時のプロセスに追加する。

政策への応用
● Prediction Policy Problems
● 政策を考える上で予測の問題が大きな意味を持つ事もあるから、実証系の経済学
者はもっと機械学習やろうよという話。
● 政策における補助金の設計は経済学が応用される。
● 購入の意思決定を分析して、価格をX円変えた時に購買がY変化するという価格と
購買の因果関係を分析。
● 変化させたい購買量が分かっていれば、それに応じて補助金を出す。（問題になる
のはここ）
40Prediction Policy Problems

人工関節
41
手術
リハビリ期間恩恵を受ける期間
改善
● 手術とリハビリにコストを投じて、改善後に恩恵を受ける。
● 恩恵を受ける期間が短ければ、手術のリターンは少ない。
● 補助金を出してコストを下げればより多くの人が手術を受ける。
● が、明らかに恩恵を受ける期間が短い人も手術を受ける決断をし易くなる。

やるべき事
42
予測
恩恵を受ける期間 < c
恩恵を受ける期間 > c 手術
● そもそも手術から大きな恩恵を受けない人に余分なコストを払わせなくて済む。
● 補助金も節約出来て別の使い道へと回すことが出来る。
● 恩恵を受ける期間の予測問題を機械学習で解けば出来る。
● 1年以内の死亡確率を予測して、トップ 1%の人への補助金を止めると 3000万ドルの節約になる。

まとめ
● 機械学習を計量経済学の手法へと改良する。
○ 大量データでの因果推論ができる様になった
○ 平均ではなく、不均一な介入の効果を推定できる様になった
● 機械学習を計量経済学のプロセスへと追加する。
○ 今まで平均的に考えていて無視されていたコストがとりのぞける様になる
44

疑問
● unconfoundednessへの対応は？
○ 操作変数（IV）の一段階目や傾向スコアの算出が純粋な予測問題なのであれば、この対応も機械
学習でやれてしまいそう。
○ IVの一段階目をやったデータセットに対して Causal Treeとかって出来る気がするけど。。。
● 因果推論のモデルをどうやったらサービスインできる様になるのだろう？
○ 現状はレポートで利用する事がメイン。
○ ただ「ある状況において一つの要因だけを変えた時にどうなるか？」という意思決定へのレコメンド
は自然とあると思う。
○ Causal Treeは割とこれに適しているかも。
45

時間があれば。。。
46

（おまけ）4の話
● ネットワークの構造を入れるケースはちょっと前にあった。
○ Impact of social network structure on content propagation: A study using YouTube data
○ どんなYoutuberにバイラル広告の依頼をすると効率が良いのか？
● David M. BleiはSusan Atheyと買い物の行動をトピックモデルとして考えて、大量
データの中で消費者の効用分析をしようとしてる。（スライド）
● どちらのケースも、今までの人の行動や特徴の捉え方が雑であることを認識して、
他の分野からデータの構造を輸入している。
● 今現在でapplied econometricsをやっている人が機械学習を学ぶモチベーション
はココが強そう。
47

（おまけ）機械学習の評価を因果推論の考え方で
● 機械学習の評価を因果推論で行う流れもある・・・かも。
● 例1)レコメンドが実際に売り上げをどの位増やしているか？
○ Estimating the causal impact of recommendation systems from observational
○ MicrosoftがBing toolbarのデータを使ってAmazonでのレコメンドの評価を行っている。
○ 単純に集計で出す評価よりも、操作変数を使ってモデルで評価した時の方が低くなった。
○ ココの議論は非常に面白い。
48

例2）Uber Surge Price
● Dynamic Pricing in a Labor Market: Surge Pricing and Flexible Work on the
Uber Platform
● タクシードライバーの労働意思決定のモデル。
● 一日の中で一定の金額を稼いだらそこで辞めるか否か。
○ Yesの場合は、賃金が上がれば労働時間は短くなる。
○ Noの場合は、賃金が上がると労働時間が長くなる。
● 運賃が労働時間に対して与える影響をモデルにしてパラメーターをみれば良い。
● 結論：Uberでは賃金が上がると労働時間が長くなる。
● 価格変動の評価に利用しているとの事。
49

50
Learning Representations for
Counterfactual Inference
http://icml.cc/2016/reviews/1348.txt
In short, they optimize an objective function over
A. [a] hypotheses (i.e., a class of outcome
prediction functions, e.g., linear regressions or
neural nets) and
B. [b] representations of the input (i.e., feature
selection and re-weighting OR a non-linear
mapping via neural net)
with three terms:
1. (1) prediction error for actual observed
outcomes
2. (2) discrepancy distance between empirical
distributions over "factual" (observed) data and
"counterfactual" data (i.e., factual examples
with opposite outcomes implicitly matched
within the learned representation space)
3. (3) "counterfactual" prediction error: i.e., error
between the prediction for observed X_i with
treatment opposite of what they got (1-T_i) and
the outcome for the nearest X_j within the
learned representation space
（おまけ）Deeplearningで！

参考資料
● Big Data: New Tricks for Econometrics
● INFERRING CAUSAL IMPACT USING BAYESIAN STRUCTURAL TIME-SERIES MODELS
● Demand Estimation with Machine Learning and Model Combination
● Recursive Partitioning for Heterogeneous Causal Effects
● Estimation and Inference of Heterogeneous Treatment Effects using Random Forests
● Prediction Policy Problem
● Causal Inference for Policy Evaluation - ICML
● Video) Susan Athey, "Machine Learning and Causal Inference for Policy Evaluation"
● The State of Applied Econometrics - Causality and Policy Evaluation
51

計量経済学と機械学習の交差点入り口（公開用）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (13)

Similar to 計量経済学と機械学習の交差点入り口（公開用）

Similar to 計量経済学と機械学習の交差点入り口（公開用） (20)

More from Shota Yasui

More from Shota Yasui (12)