SlideShare une entreprise Scribd logo
1  sur  55
データフュージョン
                  徹底入門

                        @yokkuns: 里 洋平
                      yohei0511@gmail.com
                2012.06.23 第19回TokyoWebmining


2012年6月23日土曜日
AGENDA

      ◆ 自己紹介

      ◆ データフュージョンとは

      ◆ 欠測データ

      ◆ データフュージョン手法

      ◆ まとめ

2012年6月23日土曜日
AGENDA

      ◆ 自己紹介

      ◆ データフュージョンとは

      ◆ 欠測データ

      ◆ データフュージョン手法

      ◆ まとめ

2012年6月23日土曜日
自己紹介

             時系列解析や異常検知などの方法論を
          実ビジネスに適用するデータマイニングエンジニア



     ◆ 名前: 里 洋平
     ◆ ID : yokkuns
     ◆ 職業:
     データマイニングエンジニア
     ◆     統計解析 パターン認識 機械学
     習 データマイニング NLP 金融工学
     などを勉強中

2012年6月23日土曜日
活動例: 勉強会の主催・執筆


                   Tokyo.R主催




                パッケージ本執筆しました!




2012年6月23日土曜日
活動例: 動画レコメンド

                閲覧されている動画の情報を用いておすすめ動画を表示する




2012年6月23日土曜日
活動例: 市場予測

                Web上の情報から市場予測




2012年6月23日土曜日
活動例: 異常検知
                              Anomaly detection

                    複数時系列から異常な振る舞いを検知する

                                                                            C
                                                                            A
        時系列のモデリング               複数時系列の異常検知                                  B

      時系列A                             時系列A

                                                                        異常な振る舞い
      時系列B


      時系列C                      時系列B          時系列C

                                 異常な振る舞いの時系列を検出




                例1:トラフィック異常検知                   例2:CM効果のノイズ除去

                    トラフィックA                          ケースA
                                                              CM効果
                    トラフィックB                          ケースB

                    トラフィックC      調査                  ケースC

                     異常な振る舞いをしている                    異常な振る舞いをしているケースを
                     トラフィックの原因を調査する                  除外して、CMの効果を算出する
                                                                                  85
2012年6月23日土曜日
活動例: 時系列解析と異常検知
                      Anomaly detection

                新しいデータと過去時系列モデルの乖離から異常検出


                          8000.0000
                                             異常スコア推移
  モデル構築
                                                       3.0000




                                       異常値
  ◇例 : ARIMAモデル                                        2.2500




                          5970.7500                    1.5000




                                                       0.7500




                          3941.5000                         0



  異常スコアの算出
                                                       -0.7500

   ◇例 : 対数損失

                          1912.2500                    -1.5000




                                                       -2.2500




                           -117.0000                   -3.0000


                                                t
                                  4/ 週
                                  4/ 1週
                                  4/ 8週
                                   5/ 週
                                   5/ 週
                                  5/ 週
                                  5/ 週
                                  5/ 週
                                   6/ 週
                                  6/ 週
                                  6/ 週
                                  6/ 週
                                   7/ 週
                                  7/ 週
                                  7/ 週
                                  7/ 8週
                                        週
                                      4



                                    25
                                      2
                                      9
                                    16
                                    23
                                    30
                                      6
                                    13
                                    20
                                    27
                                      4
                                    11


                                    25
                                    1
                                    1




                                    1
                                   4/




                                                                 86
2012年6月23日土曜日
活動例: 時系列解析と影響分析
                        TV Commercial Effects

                時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
                                                   イベン
                CM時系列                               ト

                                          新規
                                          登録


                              CM                   ARPP
                                                    U




                                          ARPU

            各KPIの時系列
                                                          その他
                                                           外部
                                   継続率
                                                           要因




                                                 ケース




                                                            87

2012年6月23日土曜日
AGENDA

      ◆ 自己紹介

      ◆ データフュージョンとは

      ◆ 欠測データ

      ◆ データフュージョン手法

      ◆ まとめ

2012年6月23日土曜日
データフュージョンとは
                複数の異なるデータを単一データに統合する事で
                 より良い予測と意思決定を支援するための手法



                              購買履歴データ    市場調査データ
                購買履歴データ 

                             購買履歴データ       欠測 


                               欠測       市場調査データ 




                市場調査データ          共通で得られている変数 




2012年6月23日土曜日
マルチデータソースとシングルソースデータ
       複数の異なるサンプルから得られたデータをマルチソースデータと呼ぶ
     ある特定の性質を有する製品をある特定のターゲットがどれくらい購入するか
       などの問題に対して解析を行うためには、シングルソースデータが必要




                シングルソースデータ      マルチソースデータ




            広告接触        購買    広告接触     購買




2012年6月23日土曜日
シングルソースデータの入手は困難①
  テレビや新聞、雑誌やインターネットなど様々な媒体で広告がある
     そのすべてを1人の人から同時に調査する事は不可能




2012年6月23日土曜日
シングルソースデータの入手は困難②
   広告接触データは市場調査、購買履歴データはPOSシステムなど
      シングルソースデータで情報が得られる事は少ない




                購買履歴データ    市場調査データ 




2012年6月23日土曜日
シングルソースデータの入手は困難③
        実績データの代わりに「購買有無」「広告接触」を調査する事で
     シングルソースデータを得る事は可能だが、月単位でしか得られない
           実績データにおいて得られる日時単位の測定とは大きく乖離




         購買有無        広告接触        購買履歴データ 




                                日時単位の情報
                月単位の情報


2012年6月23日土曜日
マルチソースデータをシングルソースデータに
                複数の異なるデータを単一データに統合する事で
                 より良い予測と意思決定を支援するための手法



                              購買履歴データ    市場調査データ
                購買履歴データ 

                             購買履歴データ       欠測 


                               欠測       市場調査データ 




                市場調査データ          共通で得られている変数 




2012年6月23日土曜日
AGENDA

      ◆ 自己紹介

      ◆ データフュージョンとは

      ◆ 欠測データ

      ◆ データフュージョン手法

      ◆ まとめ

2012年6月23日土曜日
欠測データ
        観測出来ない方のデータを欠測してると考える
   因果推論、選択バイアス、データ融合を統一的に扱えるデータ構造

                        因果推論
                  処置群          対照群

 介入を受けた
                処置群のデータ        欠測 
  場合の結果                                              データ融合
介入を受けない
 場合の結果
                  欠測       対照群のデータ              購買履歴データ   市場調査データ


                                               購買履歴調査の
                                       購買履歴                  欠測 
 共変量項目            共通で得られている変数                    データ 

                                                          市場調査の
                                       質問紙項目     欠測 
                                                          回答データ 
                        選択バイアス
                  選択者          非選択者

                                       共変量項目      共通で得られている変数 
  従属変数          選択者のデータ    非選択者のデータ 



 共変量項目             共通で得られている変数 



2012年6月23日土曜日
欠測の分類


  ◆ 各変数レベルでの記入漏れや無回答


  ◆ 打ち切りや切断


  ◆ パネルデータでの脱落または摩耗


  ◆ 調査や測定全体への無回答や不参加、測定不能


2012年6月23日土曜日
欠測のメカニズム


     ◆ 完全にランダムな欠測
         ・欠測するかどうかはモデリングに用いている変数には依存しない


     ◆ ランダムな欠測
         ・欠測するかどうかは、欠測値には依存せず観測値に依存する


     ◆ ランダムでない欠測
         ・欠測するかどうかは欠測値そのものの値や観測していない他の変数
            にも依存する




2012年6月23日土曜日
欠測データを用いた因果効果の考え方




                  処置群        対照群

                処置群のデータ 

                           対照群のデータ 




            因果効果 = 処置群の平均 - 対照群の平均

2012年6月23日土曜日
欠測データを用いた因果効果の考え方




                    処置群と対照群を
                     ランダムに割当



                  処置群          対照群

                処置群のデータ 

                           対照群のデータ 




            因果効果 = 処置群の平均 - 対照群の平均

2012年6月23日土曜日
欠測データを用いた因果効果の考え方




                    処置群と対照群を
                     ランダムに割当



                  処置群          対照群

     介入を受けた
                処置群のデータ        欠測 
     場合の結果

    介入を受けない
     場合の結果
                  欠測       対照群のデータ 




            因果効果 = 処置群の平均 - 対照群の平均

2012年6月23日土曜日
欠測データを用いた因果効果の考え方
                     実験出来るデータでは
                因果効果は単純な処置群と対照群の差になる



                    処置群と対照群を
                     ランダムに割当



                  処置群          対照群
                                      期待値が等しい!
     介入を受けた
                処置群のデータ        欠測     •対照群が介入を受けていた場合の期待値と
     場合の結果                            介入を受けた処置群の期待値は同じ

    介入を受けない
     場合の結果
                  欠測       対照群のデータ    •処置群が介入を受けない場合の期待値と
                                      介入を受けなかった対照群の期待値は同じ




            因果効果 = 処置群の平均 - 対照群の平均

2012年6月23日土曜日
欠測データを用いた因果効果の考え方




                  処置群         対照群

                処置群のデータ 

                            対照群のデータ 




            因果効果           処置群の平均 - 対照群の平均

2012年6月23日土曜日
欠測データを用いた因果効果の考え方




                    処置群と対照群の割当
                   (コントロール出来ない)



                  処置群         対照群

                処置群のデータ 

                            対照群のデータ 




            因果効果           処置群の平均 - 対照群の平均

2012年6月23日土曜日
欠測データを用いた因果効果の考え方




                    処置群と対照群の割当
                   (コントロール出来ない)



                  処置群         対照群

     介入を受けた
                処置群のデータ       欠測 
     場合の結果

    介入を受けない
     場合の結果
                  欠測        対照群のデータ 




            因果効果           処置群の平均 - 対照群の平均

2012年6月23日土曜日
欠測データを用いた因果効果の考え方
                割当によって処置群と対照群に差が生じるため
                  両者を単純に比較することが出来ない



                     処置群と対照群の割当
                    (コントロール出来ない)



                   処置群         対照群
                                        期待値が違う!
     介入を受けた                             •対照群が介入を受けていた場合の期待値と
                 処置群のデータ       欠測 
     場合の結果                              介入を受けた処置群の期待値が異なる

    介入を受けない
     場合の結果
                   欠測        対照群のデータ    •処置群が介入を受けない場合の期待値と
                                        介入を受けなかった対照群の期待値が異なる




            因果効果            処置群の平均 - 対照群の平均

2012年6月23日土曜日
欠測データを用いた解析: 傾向スコア

                実験出来ないデータの因果関係を解析する



                    処置群と対照群の割当
                   (コントロール出来ない)



                  処置群        対照群
                                      共変量で割当をモデリング
     介入を受けた
                処置群のデータ      欠測 
     場合の結果                              傾向スコアの算出
    介入を受けない
     場合の結果
                  欠測       対照群のデータ 


     共変量項目         共通で得られている変数 
                                       傾向スコアを用いた調整
                                      ◇マッチング
                                      ◇層別解析
                                      ◇共分散分析


2012年6月23日土曜日
欠測データを用いた解析: 傾向スコア

                割当によって観測出来ない潜在的変数を考える




                  処置群         対照群             z=1   z=0

 介入を受けた
                処置群のデータ       欠測                      
  場合の結果

介入を受けない
                  欠測        対照群のデータ                   
 場合の結果




                             y1とy0は両方存在するが
                           割当によって観測出来ないと考える
2012年6月23日土曜日
欠測データを用いた解析: 傾向スコア

                          割当変数zと求めたい因果効果



                      処置群と対照群の割当                          z


                   処置群              対照群             z=1       z=0

 介入を受けた
                処置群のデータ             欠測                          
  場合の結果

介入を受けない
                   欠測             対照群のデータ                       
 場合の結果




           処置群での平均介入効果
            average treatment             z=1の時のy1とy0の差を知りたいが
           effect on the treated              どちらか一方は観測出来ない
2012年6月23日土曜日
欠測データを用いた解析: 傾向スコア

                        共変量の影響を除去した因果効果



                      処置群と対照群の割当                      z


                  処置群          対照群              z=1       z=0

 介入を受けた
                処置群のデータ        欠測                           
  場合の結果

介入を受けない
                  欠測        対照群のデータ                         
 場合の結果




  共変量項目               共通で得られている変数 



     強く無視出来る
       割当条件       :                    共変量の値が等しい時は
                                       割当はランダムという仮定

                  :
     共変量の影響を
    除去した因果効果

2012年6月23日土曜日
欠測データを用いた解析: 傾向スコア

                        共変量の影響を除去した因果効果



                      処置群と対照群の割当                   z


                  処置群          対照群           z=1       z=0

 介入を受けた
                処置群のデータ        欠測                        
  場合の結果

介入を受けない
                  欠測        対照群のデータ                      
 場合の結果




  共変量項目               共通で得られている変数 


                                       共変量が同じならz=1のy0の期待値を
     強く無視出来る
       割当条件       :                     z=0の時のy0の期待値で代用出来る


                  :
     共変量の影響を
    除去した因果効果

2012年6月23日土曜日
傾向スコア

                対象者の群1へ割り当てられる確率




                第i対象者の割当変数の値

                第i対象者の共変量の値

2012年6月23日土曜日
傾向スコアの推定

           プロビット回帰やロジスティック回帰で推定する




2012年6月23日土曜日
傾向スコアを用いた調整



    • マッチング
        •   2つの群で傾向スコアが等しい(近い)対象者をペアにしてその差の
            平均を因果効果とする

    • 層別解析
        •   傾向スコアの大小によっていくつかのサブクラスに分け、その各クラ
            スで処置群と対照群の平均の計算と、全体としての効果の推定量を計
            算する

    • 共分散分析
        •   割当変数と傾向スコアを説明変数とした線形の回帰分析を行う




2012年6月23日土曜日
傾向スコアを用いた調整

                傾向スコアの逆数による重み付け平均




2012年6月23日土曜日
傾向スコアを用いた調整
                傾向スコアの逆数を重みづけたyの期待値は
                    y1の周辺平均の不偏推定量




2012年6月23日土曜日
傾向スコアを用いた調整

                因果効果の推定値とその分散が計算出来る


                       因果効果



                     因果効果の分散




2012年6月23日土曜日
欠測データでの選択バイアスの補正

                選択されるか否かをモデル化し、バイアスを補正する


                         欠測データによる選択バイアスの解析の表現

                      選択されるか否か
                    (コントロール出来ない)




                   選択者        非選択者


    従属変数         選択者のデータ    非選択者のデータ       選択 をモデリング
                                          母集団の期待値を推定

   共変量項目            共通で得られている変数         ・共変量や従属変数を用いて 選択 を
                                         モデリング
                                        ・選択者のデータを補正して、母集団の  
                                         期待値を推定する


2012年6月23日土曜日
AGENDA

      ◆ 自己紹介

      ◆ データフュージョンとは

      ◆ 欠測データ

      ◆ データフュージョン手法

      ◆ まとめ

2012年6月23日土曜日
欠測データを用いたデータフュージョンの考え方
                欠測が発生しているシングルソースデータとして考え
                 のりしろとなる共変量を用いてデータを結合する


                                   のりしろとなる
                 購買履歴データ           共通項目で結合

                  共変量          購買履歴データ    市場調査データ



                              購買履歴データ        欠測 


                                欠測       市場調査データ 
                 市場調査データ 


                   共変量            共通で得られている変数 




2012年6月23日土曜日
前提条件
        欠測のメカニズムは 欠測値には依存しない ランダムな欠測
           共変量を条件づけた場合には、各目的変数は独立


  ◆ ランダムな欠測
        ・購買履歴データには男女の両方が含まれているのに、広告接触データには
          男性のデータしか含まれていない、というなかたよりがない



  ◆ 条件付き独立
        ・共変量を条件づけた場合には各目的変数は独立になる。




2012年6月23日土曜日
データフュージョンの各手法
                   大きく4つの手法が提案されている
                近年は、セミパラメトリックモデルが熱い!(?)

  ◆ マッチング


  ◆ 潜在変数モデリング


  ◆ 回帰モデル


  ◆ セミパラメトリックモデル


2012年6月23日土曜日
マッチング
          共変量に関して最も近くなるような
   データAとデータBの対象者をペアを作り、同一調査対象と見なす




                共変量が近いペア    【問題点】
                            1.推定精度が高くない可能性がある
                                共変量を増やす事で誤差を減少出来る
                                共変量は傾向スコアでまとめる
                            2.マッチングに利用しない対象者データが無駄になる
                            3.確率的な変動を考慮できず統計的な性質が明確でない
          広告接触        購買       リサンプリングや多重代入法で解決
                            4.個人情報保護法などの観点からの問題が生じる可能性
    広告接触については、データAの対象者から
   購買については、データBの対象者から得られる




2012年6月23日土曜日
潜在変数モデリング
          通常の多変量解析において一部の変数が欠測しているデータに対して
                 潜在変数モデルを利用する事で欠測の問題を回避する
                共通因子や潜在クラスを仮定して、データフュージョンを行う



                   購買履歴データ           欠測

                             共変量

                     潜在             潜在
                     クラス            クラス




                     欠測            市場調査データ



2012年6月23日土曜日
回帰モデル
                  ロジスティック回帰モデルなどを用いて
                共変量から目的とする欠測変数を直接推定する




                                        回帰モデル




                                    マッチング




2012年6月23日土曜日
セミパラメトリックモデル
                共変量の情報を最大限に生かして予測を行うためには
                   セミパラメトリックな回帰手法が望ましい


  ◆ カーネルマッチング
       ・カーネル回帰モデルで欠測変数を推定する
       ・通常のマッチングでは予測に使うデータは1つまたは数個だけだが、
        カーネルマッチングでは、カーネルによる重みで全て利用する



  ◆ ディリクレ過程混合モデル
       ・回帰の混合モデルにおいて要素数Kを事前に決定するのではなく
        データから決定するモデル



2012年6月23日土曜日
ディリクレ過程混合モデリング
          ロジスティック回帰の混合モデルにおいて
     要素数Kを事前に決定するのではなくデータから決定するモデル




2012年6月23日土曜日
AGENDA

      ◆ 自己紹介

      ◆ データフュージョンとは

      ◆ 欠測データ

      ◆ データフュージョン手法

      ◆ まとめ

2012年6月23日土曜日
データフュージョンとは
                複数の異なるデータを単一データに統合する事で
                 より良い予測と意思決定を支援するための手法



                              購買履歴データ    市場調査データ
                購買履歴データ 

                             購買履歴データ       欠測 


                               欠測       市場調査データ 




                市場調査データ          共通で得られている変数 




2012年6月23日土曜日
参考資料


  ◆ Rで学ぶ傾向スコア解析入門
        http://www.slideshare.net/yokkuns/r-9387843




  ◆ 選択バイアス入門
        http://www.slideshare.net/yokkuns/tokyor22-selection-bias




  ◆ data fusion についてのメモ - BOD
        http://d.hatena.ne.jp/dichika/20110907/1315359207




2012年6月23日土曜日
Tokyo.Rの次回以降の

     発表者・LTを募集しています!



2012年6月23日土曜日
ご清聴ありがとうございました!




2012年6月23日土曜日

Contenu connexe

Tendances

【DL輪読会】Standardized Max Logits: A Simple yet Effective Approach for Identifyi...
【DL輪読会】Standardized Max Logits: A Simple yet Effective Approach for Identifyi...【DL輪読会】Standardized Max Logits: A Simple yet Effective Approach for Identifyi...
【DL輪読会】Standardized Max Logits: A Simple yet Effective Approach for Identifyi...Deep Learning JP
 
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出hoxo_m
 
Superpixel Sampling Networks
Superpixel Sampling NetworksSuperpixel Sampling Networks
Superpixel Sampling Networksyukihiro domae
 
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-SupervisionDeep Learning JP
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)MasanoriSuganuma
 
[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...
[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...
[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...Deep Learning JP
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたknjcode
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
TalkingData AdTracking  Fraud Detection Challenge (1st place solution)TalkingData AdTracking  Fraud Detection Challenge (1st place solution)
TalkingData AdTracking Fraud Detection Challenge (1st place solution)Takanori Hayashi
 
識別モデルと生成モデルと損失データ
識別モデルと生成モデルと損失データ識別モデルと生成モデルと損失データ
識別モデルと生成モデルと損失データShohei Miyashita
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image TranslationDeep Learning JP
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要Kenji Urai
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
ランダムフォレストとそのコンピュータビジョンへの応用
ランダムフォレストとそのコンピュータビジョンへの応用ランダムフォレストとそのコンピュータビジョンへの応用
ランダムフォレストとそのコンピュータビジョンへの応用Kinki University
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video RecognitionDeep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 

Tendances (20)

【DL輪読会】Standardized Max Logits: A Simple yet Effective Approach for Identifyi...
【DL輪読会】Standardized Max Logits: A Simple yet Effective Approach for Identifyi...【DL輪読会】Standardized Max Logits: A Simple yet Effective Approach for Identifyi...
【DL輪読会】Standardized Max Logits: A Simple yet Effective Approach for Identifyi...
 
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
Superpixel Sampling Networks
Superpixel Sampling NetworksSuperpixel Sampling Networks
Superpixel Sampling Networks
 
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
 
[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...
[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...
[DL輪読会]RobustNet: Improving Domain Generalization in Urban- Scene Segmentatio...
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみた
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
TalkingData AdTracking  Fraud Detection Challenge (1st place solution)TalkingData AdTracking  Fraud Detection Challenge (1st place solution)
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
 
識別モデルと生成モデルと損失データ
識別モデルと生成モデルと損失データ識別モデルと生成モデルと損失データ
識別モデルと生成モデルと損失データ
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
深層学習入門
深層学習入門深層学習入門
深層学習入門
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
ランダムフォレストとそのコンピュータビジョンへの応用
ランダムフォレストとそのコンピュータビジョンへの応用ランダムフォレストとそのコンピュータビジョンへの応用
ランダムフォレストとそのコンピュータビジョンへの応用
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
 
Mean Teacher
Mean TeacherMean Teacher
Mean Teacher
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 

Similaire à Tokyowebmining19 data fusion

異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)Yohei Sato
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift ModellingYohei Sato
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolationYohei Sato
 
Uplift Modelling 入門(1)
Uplift Modelling 入門(1)Uplift Modelling 入門(1)
Uplift Modelling 入門(1)Yohei Sato
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkunsYohei Sato
 
Tokyor22 selection bias
Tokyor22 selection biasTokyor22 selection bias
Tokyor22 selection biasYohei Sato
 
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkunsYohei Sato
 
Japan r2 tokyor
Japan r2 tokyorJapan r2 tokyor
Japan r2 tokyorYohei Sato
 
Rでレポートメール
RでレポートメールRでレポートメール
RでレポートメールYohei Sato
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
RでピボットテーブルYohei Sato
 

Similaire à Tokyowebmining19 data fusion (10)

異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
 
Uplift Modelling 入門(1)
Uplift Modelling 入門(1)Uplift Modelling 入門(1)
Uplift Modelling 入門(1)
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkuns
 
Tokyor22 selection bias
Tokyor22 selection biasTokyor22 selection bias
Tokyor22 selection bias
 
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkuns
 
Japan r2 tokyor
Japan r2 tokyorJapan r2 tokyor
Japan r2 tokyor
 
Rでレポートメール
RでレポートメールRでレポートメール
Rでレポートメール
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
Rでピボットテーブル
 

Plus de Yohei Sato

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Yohei Sato
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 openingYohei Sato
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みYohei Sato
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Yohei Sato
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2Yohei Sato
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkunsYohei Sato
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介Yohei Sato
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan rYohei Sato
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生Yohei Sato
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例Yohei Sato
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略Yohei Sato
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッションYohei Sato
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusionYohei Sato
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部Yohei Sato
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 openingYohei Sato
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Yohei Sato
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –Yohei Sato
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門Yohei Sato
 

Plus de Yohei Sato (18)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkuns
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 opening
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門
 

Tokyowebmining19 data fusion

  • 1. データフュージョン 徹底入門 @yokkuns: 里 洋平 yohei0511@gmail.com 2012.06.23 第19回TokyoWebmining 2012年6月23日土曜日
  • 2. AGENDA ◆ 自己紹介 ◆ データフュージョンとは ◆ 欠測データ ◆ データフュージョン手法 ◆ まとめ 2012年6月23日土曜日
  • 3. AGENDA ◆ 自己紹介 ◆ データフュージョンとは ◆ 欠測データ ◆ データフュージョン手法 ◆ まとめ 2012年6月23日土曜日
  • 4. 自己紹介 時系列解析や異常検知などの方法論を 実ビジネスに適用するデータマイニングエンジニア ◆ 名前: 里 洋平 ◆ ID : yokkuns ◆ 職業: データマイニングエンジニア ◆ 統計解析 パターン認識 機械学 習 データマイニング NLP 金融工学 などを勉強中 2012年6月23日土曜日
  • 5. 活動例: 勉強会の主催・執筆 Tokyo.R主催 パッケージ本執筆しました! 2012年6月23日土曜日
  • 6. 活動例: 動画レコメンド 閲覧されている動画の情報を用いておすすめ動画を表示する 2012年6月23日土曜日
  • 7. 活動例: 市場予測 Web上の情報から市場予測 2012年6月23日土曜日
  • 8. 活動例: 異常検知 Anomaly detection 複数時系列から異常な振る舞いを検知する C A 時系列のモデリング 複数時系列の異常検知 B 時系列A 時系列A 異常な振る舞い 時系列B 時系列C 時系列B 時系列C 異常な振る舞いの時系列を検出 例1:トラフィック異常検知 例2:CM効果のノイズ除去 トラフィックA ケースA CM効果 トラフィックB ケースB トラフィックC 調査 ケースC 異常な振る舞いをしている 異常な振る舞いをしているケースを トラフィックの原因を調査する 除外して、CMの効果を算出する 85 2012年6月23日土曜日
  • 9. 活動例: 時系列解析と異常検知 Anomaly detection 新しいデータと過去時系列モデルの乖離から異常検出 8000.0000 異常スコア推移 モデル構築 3.0000 異常値 ◇例 : ARIMAモデル 2.2500 5970.7500 1.5000 0.7500 3941.5000 0 異常スコアの算出 -0.7500 ◇例 : 対数損失 1912.2500 -1.5000 -2.2500 -117.0000 -3.0000 t 4/ 週 4/ 1週 4/ 8週 5/ 週 5/ 週 5/ 週 5/ 週 5/ 週 6/ 週 6/ 週 6/ 週 6/ 週 7/ 週 7/ 週 7/ 週 7/ 8週 週 4 25 2 9 16 23 30 6 13 20 27 4 11 25 1 1 1 4/ 86 2012年6月23日土曜日
  • 10. 活動例: 時系列解析と影響分析 TV Commercial Effects 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出 イベン CM時系列 ト 新規 登録 CM ARPP U ARPU 各KPIの時系列 その他 外部 継続率 要因 ケース 87 2012年6月23日土曜日
  • 11. AGENDA ◆ 自己紹介 ◆ データフュージョンとは ◆ 欠測データ ◆ データフュージョン手法 ◆ まとめ 2012年6月23日土曜日
  • 12. データフュージョンとは 複数の異なるデータを単一データに統合する事で より良い予測と意思決定を支援するための手法 購買履歴データ 市場調査データ 購買履歴データ  購買履歴データ  欠測  欠測  市場調査データ  市場調査データ  共通で得られている変数  2012年6月23日土曜日
  • 13. マルチデータソースとシングルソースデータ 複数の異なるサンプルから得られたデータをマルチソースデータと呼ぶ ある特定の性質を有する製品をある特定のターゲットがどれくらい購入するか などの問題に対して解析を行うためには、シングルソースデータが必要 シングルソースデータ マルチソースデータ 広告接触 購買  広告接触 購買 2012年6月23日土曜日
  • 14. シングルソースデータの入手は困難① テレビや新聞、雑誌やインターネットなど様々な媒体で広告がある そのすべてを1人の人から同時に調査する事は不可能 2012年6月23日土曜日
  • 15. シングルソースデータの入手は困難② 広告接触データは市場調査、購買履歴データはPOSシステムなど シングルソースデータで情報が得られる事は少ない 購買履歴データ  市場調査データ  2012年6月23日土曜日
  • 16. シングルソースデータの入手は困難③ 実績データの代わりに「購買有無」「広告接触」を調査する事で シングルソースデータを得る事は可能だが、月単位でしか得られない 実績データにおいて得られる日時単位の測定とは大きく乖離 購買有無  広告接触  購買履歴データ  日時単位の情報 月単位の情報 2012年6月23日土曜日
  • 17. マルチソースデータをシングルソースデータに 複数の異なるデータを単一データに統合する事で より良い予測と意思決定を支援するための手法 購買履歴データ 市場調査データ 購買履歴データ  購買履歴データ  欠測  欠測  市場調査データ  市場調査データ  共通で得られている変数  2012年6月23日土曜日
  • 18. AGENDA ◆ 自己紹介 ◆ データフュージョンとは ◆ 欠測データ ◆ データフュージョン手法 ◆ まとめ 2012年6月23日土曜日
  • 19. 欠測データ 観測出来ない方のデータを欠測してると考える 因果推論、選択バイアス、データ融合を統一的に扱えるデータ構造 因果推論 処置群 対照群 介入を受けた 処置群のデータ  欠測  場合の結果 データ融合 介入を受けない 場合の結果 欠測  対照群のデータ  購買履歴データ 市場調査データ 購買履歴調査の 購買履歴 欠測  共変量項目 共通で得られている変数  データ  市場調査の 質問紙項目 欠測  回答データ  選択バイアス 選択者 非選択者 共変量項目 共通で得られている変数  従属変数 選択者のデータ  非選択者のデータ  共変量項目 共通で得られている変数  2012年6月23日土曜日
  • 20. 欠測の分類 ◆ 各変数レベルでの記入漏れや無回答 ◆ 打ち切りや切断 ◆ パネルデータでの脱落または摩耗 ◆ 調査や測定全体への無回答や不参加、測定不能 2012年6月23日土曜日
  • 21. 欠測のメカニズム ◆ 完全にランダムな欠測 ・欠測するかどうかはモデリングに用いている変数には依存しない ◆ ランダムな欠測 ・欠測するかどうかは、欠測値には依存せず観測値に依存する ◆ ランダムでない欠測 ・欠測するかどうかは欠測値そのものの値や観測していない他の変数 にも依存する 2012年6月23日土曜日
  • 22. 欠測データを用いた因果効果の考え方 処置群 対照群 処置群のデータ  対照群のデータ  因果効果 = 処置群の平均 - 対照群の平均 2012年6月23日土曜日
  • 23. 欠測データを用いた因果効果の考え方 処置群と対照群を ランダムに割当 処置群 対照群 処置群のデータ  対照群のデータ  因果効果 = 処置群の平均 - 対照群の平均 2012年6月23日土曜日
  • 24. 欠測データを用いた因果効果の考え方 処置群と対照群を ランダムに割当 処置群 対照群 介入を受けた 処置群のデータ  欠測  場合の結果 介入を受けない 場合の結果 欠測  対照群のデータ  因果効果 = 処置群の平均 - 対照群の平均 2012年6月23日土曜日
  • 25. 欠測データを用いた因果効果の考え方 実験出来るデータでは 因果効果は単純な処置群と対照群の差になる 処置群と対照群を ランダムに割当 処置群 対照群 期待値が等しい! 介入を受けた 処置群のデータ  欠測  •対照群が介入を受けていた場合の期待値と 場合の結果 介入を受けた処置群の期待値は同じ 介入を受けない 場合の結果 欠測  対照群のデータ  •処置群が介入を受けない場合の期待値と 介入を受けなかった対照群の期待値は同じ 因果効果 = 処置群の平均 - 対照群の平均 2012年6月23日土曜日
  • 26. 欠測データを用いた因果効果の考え方 処置群 対照群 処置群のデータ  対照群のデータ  因果効果 処置群の平均 - 対照群の平均 2012年6月23日土曜日
  • 27. 欠測データを用いた因果効果の考え方 処置群と対照群の割当 (コントロール出来ない) 処置群 対照群 処置群のデータ  対照群のデータ  因果効果 処置群の平均 - 対照群の平均 2012年6月23日土曜日
  • 28. 欠測データを用いた因果効果の考え方 処置群と対照群の割当 (コントロール出来ない) 処置群 対照群 介入を受けた 処置群のデータ  欠測  場合の結果 介入を受けない 場合の結果 欠測  対照群のデータ  因果効果 処置群の平均 - 対照群の平均 2012年6月23日土曜日
  • 29. 欠測データを用いた因果効果の考え方 割当によって処置群と対照群に差が生じるため 両者を単純に比較することが出来ない 処置群と対照群の割当 (コントロール出来ない) 処置群 対照群 期待値が違う! 介入を受けた •対照群が介入を受けていた場合の期待値と 処置群のデータ  欠測  場合の結果 介入を受けた処置群の期待値が異なる 介入を受けない 場合の結果 欠測  対照群のデータ  •処置群が介入を受けない場合の期待値と 介入を受けなかった対照群の期待値が異なる 因果効果 処置群の平均 - 対照群の平均 2012年6月23日土曜日
  • 30. 欠測データを用いた解析: 傾向スコア 実験出来ないデータの因果関係を解析する 処置群と対照群の割当 (コントロール出来ない) 処置群 対照群 共変量で割当をモデリング 介入を受けた 処置群のデータ  欠測  場合の結果 傾向スコアの算出 介入を受けない 場合の結果 欠測  対照群のデータ  共変量項目 共通で得られている変数  傾向スコアを用いた調整 ◇マッチング ◇層別解析 ◇共分散分析 2012年6月23日土曜日
  • 31. 欠測データを用いた解析: 傾向スコア 割当によって観測出来ない潜在的変数を考える 処置群 対照群 z=1 z=0 介入を受けた 処置群のデータ  欠測    場合の結果 介入を受けない 欠測  対照群のデータ      場合の結果 y1とy0は両方存在するが 割当によって観測出来ないと考える 2012年6月23日土曜日
  • 32. 欠測データを用いた解析: 傾向スコア 割当変数zと求めたい因果効果 処置群と対照群の割当 z 処置群 対照群 z=1 z=0 介入を受けた 処置群のデータ  欠測    場合の結果 介入を受けない 欠測  対照群のデータ      場合の結果 処置群での平均介入効果 average treatment z=1の時のy1とy0の差を知りたいが effect on the treated どちらか一方は観測出来ない 2012年6月23日土曜日
  • 33. 欠測データを用いた解析: 傾向スコア 共変量の影響を除去した因果効果 処置群と対照群の割当 z 処置群 対照群 z=1 z=0 介入を受けた 処置群のデータ  欠測    場合の結果 介入を受けない 欠測  対照群のデータ      場合の結果 共変量項目 共通で得られている変数  強く無視出来る 割当条件 : 共変量の値が等しい時は 割当はランダムという仮定 : 共変量の影響を 除去した因果効果 2012年6月23日土曜日
  • 34. 欠測データを用いた解析: 傾向スコア 共変量の影響を除去した因果効果 処置群と対照群の割当 z 処置群 対照群 z=1 z=0 介入を受けた 処置群のデータ  欠測    場合の結果 介入を受けない 欠測  対照群のデータ      場合の結果 共変量項目 共通で得られている変数  共変量が同じならz=1のy0の期待値を 強く無視出来る 割当条件 : z=0の時のy0の期待値で代用出来る : 共変量の影響を 除去した因果効果 2012年6月23日土曜日
  • 35. 傾向スコア 対象者の群1へ割り当てられる確率 第i対象者の割当変数の値 第i対象者の共変量の値 2012年6月23日土曜日
  • 36. 傾向スコアの推定 プロビット回帰やロジスティック回帰で推定する 2012年6月23日土曜日
  • 37. 傾向スコアを用いた調整 • マッチング • 2つの群で傾向スコアが等しい(近い)対象者をペアにしてその差の 平均を因果効果とする • 層別解析 • 傾向スコアの大小によっていくつかのサブクラスに分け、その各クラ スで処置群と対照群の平均の計算と、全体としての効果の推定量を計 算する • 共分散分析 • 割当変数と傾向スコアを説明変数とした線形の回帰分析を行う 2012年6月23日土曜日
  • 38. 傾向スコアを用いた調整 傾向スコアの逆数による重み付け平均 2012年6月23日土曜日
  • 39. 傾向スコアを用いた調整 傾向スコアの逆数を重みづけたyの期待値は y1の周辺平均の不偏推定量 2012年6月23日土曜日
  • 40. 傾向スコアを用いた調整 因果効果の推定値とその分散が計算出来る 因果効果 因果効果の分散 2012年6月23日土曜日
  • 41. 欠測データでの選択バイアスの補正 選択されるか否かをモデル化し、バイアスを補正する 欠測データによる選択バイアスの解析の表現 選択されるか否か (コントロール出来ない) 選択者 非選択者 従属変数 選択者のデータ  非選択者のデータ  選択 をモデリング 母集団の期待値を推定 共変量項目 共通で得られている変数  ・共変量や従属変数を用いて 選択 を モデリング ・選択者のデータを補正して、母集団の   期待値を推定する 2012年6月23日土曜日
  • 42. AGENDA ◆ 自己紹介 ◆ データフュージョンとは ◆ 欠測データ ◆ データフュージョン手法 ◆ まとめ 2012年6月23日土曜日
  • 43. 欠測データを用いたデータフュージョンの考え方 欠測が発生しているシングルソースデータとして考え のりしろとなる共変量を用いてデータを結合する のりしろとなる 購買履歴データ  共通項目で結合 共変量  購買履歴データ 市場調査データ 購買履歴データ  欠測  欠測  市場調査データ  市場調査データ  共変量  共通で得られている変数  2012年6月23日土曜日
  • 44. 前提条件 欠測のメカニズムは 欠測値には依存しない ランダムな欠測 共変量を条件づけた場合には、各目的変数は独立 ◆ ランダムな欠測 ・購買履歴データには男女の両方が含まれているのに、広告接触データには 男性のデータしか含まれていない、というなかたよりがない ◆ 条件付き独立 ・共変量を条件づけた場合には各目的変数は独立になる。 2012年6月23日土曜日
  • 45. データフュージョンの各手法 大きく4つの手法が提案されている 近年は、セミパラメトリックモデルが熱い!(?) ◆ マッチング ◆ 潜在変数モデリング ◆ 回帰モデル ◆ セミパラメトリックモデル 2012年6月23日土曜日
  • 46. マッチング 共変量に関して最も近くなるような データAとデータBの対象者をペアを作り、同一調査対象と見なす 共変量が近いペア 【問題点】 1.推定精度が高くない可能性がある 共変量を増やす事で誤差を減少出来る 共変量は傾向スコアでまとめる 2.マッチングに利用しない対象者データが無駄になる 3.確率的な変動を考慮できず統計的な性質が明確でない 広告接触 購買 リサンプリングや多重代入法で解決 4.個人情報保護法などの観点からの問題が生じる可能性 広告接触については、データAの対象者から 購買については、データBの対象者から得られる 2012年6月23日土曜日
  • 47. 潜在変数モデリング 通常の多変量解析において一部の変数が欠測しているデータに対して 潜在変数モデルを利用する事で欠測の問題を回避する 共通因子や潜在クラスを仮定して、データフュージョンを行う 購買履歴データ 欠測 共変量 潜在 潜在 クラス クラス 欠測 市場調査データ 2012年6月23日土曜日
  • 48. 回帰モデル ロジスティック回帰モデルなどを用いて 共変量から目的とする欠測変数を直接推定する 回帰モデル マッチング 2012年6月23日土曜日
  • 49. セミパラメトリックモデル 共変量の情報を最大限に生かして予測を行うためには セミパラメトリックな回帰手法が望ましい ◆ カーネルマッチング ・カーネル回帰モデルで欠測変数を推定する ・通常のマッチングでは予測に使うデータは1つまたは数個だけだが、 カーネルマッチングでは、カーネルによる重みで全て利用する ◆ ディリクレ過程混合モデル ・回帰の混合モデルにおいて要素数Kを事前に決定するのではなく データから決定するモデル 2012年6月23日土曜日
  • 50. ディリクレ過程混合モデリング ロジスティック回帰の混合モデルにおいて 要素数Kを事前に決定するのではなくデータから決定するモデル 2012年6月23日土曜日
  • 51. AGENDA ◆ 自己紹介 ◆ データフュージョンとは ◆ 欠測データ ◆ データフュージョン手法 ◆ まとめ 2012年6月23日土曜日
  • 52. データフュージョンとは 複数の異なるデータを単一データに統合する事で より良い予測と意思決定を支援するための手法 購買履歴データ 市場調査データ 購買履歴データ  購買履歴データ  欠測  欠測  市場調査データ  市場調査データ  共通で得られている変数  2012年6月23日土曜日
  • 53. 参考資料 ◆ Rで学ぶ傾向スコア解析入門 http://www.slideshare.net/yokkuns/r-9387843 ◆ 選択バイアス入門 http://www.slideshare.net/yokkuns/tokyor22-selection-bias ◆ data fusion についてのメモ - BOD http://d.hatena.ne.jp/dichika/20110907/1315359207 2012年6月23日土曜日
  • 54. Tokyo.Rの次回以降の 発表者・LTを募集しています! 2012年6月23日土曜日