Tokyowebmining19 data fusion

データフュージョン
徹底入門

@yokkuns: 里洋平
yohei0511@gmail.com
2012.06.23 第19回TokyoWebmining

2012年6月23日土曜日

AGENDA

◆ 自己紹介

◆ データフュージョンとは

◆ 欠測データ

◆ データフュージョン手法

◆ まとめ


自己紹介

時系列解析や異常検知などの方法論を
実ビジネスに適用するデータマイニングエンジニア

◆ 名前: 里洋平
◆ ID : yokkuns
◆ 職業:
データマイニングエンジニア
◆ 統計解析パターン認識機械学
習データマイニング NLP 金融工学
などを勉強中


活動例: 勉強会の主催・執筆

Tokyo.R主催

パッケージ本執筆しました！


活動例: 動画レコメンド

閲覧されている動画の情報を用いておすすめ動画を表示する


活動例: 市場予測

Web上の情報から市場予測


活動例: 異常検知
Anomaly detection

複数時系列から異常な振る舞いを検知する

C
A
時系列のモデリング複数時系列の異常検知 B

時系列A 時系列A

異常な振る舞い
時系列B

時系列C 時系列B 時系列C

異常な振る舞いの時系列を検出

例1:トラフィック異常検知例2:CM効果のノイズ除去

トラフィックA ケースA
CM効果
トラフィックB ケースB

トラフィックC 調査ケースC

異常な振る舞いをしている異常な振る舞いをしているケースを
トラフィックの原因を調査する除外して、CMの効果を算出する
85

活動例: 時系列解析と異常検知
Anomaly detection

新しいデータと過去時系列モデルの乖離から異常検出

8000.0000
異常スコア推移
モデル構築
3.0000

異常値
◇例 : ARIMAモデル 2.2500

5970.7500 1.5000

0.7500

3941.5000 0

異常スコアの算出
-0.7500

◇例 : 対数損失

1912.2500 -1.5000

-2.2500

-117.0000 -3.0000

t
4/ 週
4/ 1週
4/ 8週
5/ 週
5/ 週
5/ 週
5/ 週
5/ 週
6/ 週
6/ 週
6/ 週
6/ 週
7/ 週
7/ 週
7/ 週
7/ 8週
週
4

25
2
9
16
23
30
6
13
20
27
4
11

25
1
1

1
4/

86

活動例: 時系列解析と影響分析
TV Commercial Eﬀects

時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
イベン
CM時系列ト

新規
登録

CM ARPP
U

ARPU

各KPIの時系列
その他
外部
継続率
要因

ケース

87


データフュージョンとは
複数の異なるデータを単一データに統合する事で
より良い予測と意思決定を支援するための手法

購買履歴データ市場調査データ
購買履歴データ

購買履歴データ欠測

欠測市場調査データ

市場調査データ共通で得られている変数


マルチデータソースとシングルソースデータ
複数の異なるサンプルから得られたデータをマルチソースデータと呼ぶ
ある特定の性質を有する製品をある特定のターゲットがどれくらい購入するか
などの問題に対して解析を行うためには、シングルソースデータが必要

シングルソースデータマルチソースデータ

広告接触購買広告接触購買


シングルソースデータの入手は困難①
テレビや新聞、雑誌やインターネットなど様々な媒体で広告がある
そのすべてを1人の人から同時に調査する事は不可能


シングルソースデータの入手は困難②
広告接触データは市場調査、購買履歴データはPOSシステムなど
シングルソースデータで情報が得られる事は少ない



シングルソースデータの入手は困難③
実績データの代わりに「購買有無」「広告接触」を調査する事で
シングルソースデータを得る事は可能だが、月単位でしか得られない
実績データにおいて得られる日時単位の測定とは大きく乖離

購買有無広告接触購買履歴データ

日時単位の情報
月単位の情報


マルチソースデータをシングルソースデータに
複数の異なるデータを単一データに統合する事で
より良い予測と意思決定を支援するための手法

購買履歴データ



市場調査データ共通で得られている変数


欠測データ
観測出来ない方のデータを欠測してると考える
因果推論、選択バイアス、データ融合を統一的に扱えるデータ構造

因果推論
処置群対照群

介入を受けた
処置群のデータ欠測
場合の結果データ融合
介入を受けない
場合の結果
欠測対照群のデータ購買履歴データ市場調査データ

購買履歴調査の
購買履歴欠測
共変量項目共通で得られている変数データ

市場調査の
質問紙項目欠測
回答データ
選択バイアス
選択者非選択者

共変量項目共通で得られている変数
従属変数選択者のデータ非選択者のデータ



欠測の分類

◆ 各変数レベルでの記入漏れや無回答

◆ 打ち切りや切断

◆ パネルデータでの脱落または摩耗

◆ 調査や測定全体への無回答や不参加、測定不能


欠測のメカニズム

◆ 完全にランダムな欠測
・欠測するかどうかはモデリングに用いている変数には依存しない

◆ ランダムな欠測
・欠測するかどうかは、欠測値には依存せず観測値に依存する

◆ ランダムでない欠測
・欠測するかどうかは欠測値そのものの値や観測していない他の変数
にも依存する


欠測データを用いた因果効果の考え方

処置群対照群

処置群のデータ

対照群のデータ

因果効果 = 処置群の平均 - 対照群の平均



処置群と対照群を
ランダムに割当

処置群対照群







処置群対照群

介入を受けた
場合の結果

場合の結果
欠測対照群のデータ



実験出来るデータでは
因果効果は単純な処置群と対照群の差になる


処置群対照群
期待値が等しい！
介入を受けた
処置群のデータ欠測 •対照群が介入を受けていた場合の期待値と
場合の結果介入を受けた処置群の期待値は同じ

場合の結果
欠測対照群のデータ •処置群が介入を受けない場合の期待値と
介入を受けなかった対照群の期待値は同じ




処置群対照群



因果効果処置群の平均 - 対照群の平均



処置群と対照群の割当
(コントロール出来ない)

処置群対照群







処置群対照群

介入を受けた
場合の結果

場合の結果



割当によって処置群と対照群に差が生じるため
両者を単純に比較することが出来ない


処置群対照群
期待値が違う！
介入を受けた •対照群が介入を受けていた場合の期待値と
場合の結果介入を受けた処置群の期待値が異なる

場合の結果
欠測対照群のデータ •処置群が介入を受けない場合の期待値と
介入を受けなかった対照群の期待値が異なる



欠測データを用いた解析: 傾向スコア

実験出来ないデータの因果関係を解析する


処置群対照群
共変量で割当をモデリング
介入を受けた
場合の結果傾向スコアの算出
場合の結果

傾向スコアを用いた調整
◇マッチング
◇層別解析
◇共分散分析



割当によって観測出来ない潜在的変数を考える

処置群対照群 z=1 z=0

介入を受けた
場合の結果

場合の結果

y1とy0は両方存在するが
割当によって観測出来ないと考える


割当変数zと求めたい因果効果

処置群と対照群の割当 z


介入を受けた
場合の結果

場合の結果

処置群での平均介入効果
average treatment z=1の時のy1とy0の差を知りたいが
eﬀect on the treated どちらか一方は観測出来ない


共変量の影響を除去した因果効果



介入を受けた
場合の結果

場合の結果


強く無視出来る
割当条件 : 共変量の値が等しい時は
割当はランダムという仮定

:
共変量の影響を
除去した因果効果



共変量の影響を除去した因果効果



介入を受けた
場合の結果

場合の結果


共変量が同じならz=1のy0の期待値を
強く無視出来る
割当条件 : z=0の時のy0の期待値で代用出来る

:
共変量の影響を
除去した因果効果


傾向スコア

対象者の群1へ割り当てられる確率

第i対象者の割当変数の値

第i対象者の共変量の値


傾向スコアの推定

プロビット回帰やロジスティック回帰で推定する



• マッチング
• 2つの群で傾向スコアが等しい（近い）対象者をペアにしてその差の
平均を因果効果とする

• 層別解析
• 傾向スコアの大小によっていくつかのサブクラスに分け、その各クラ
スで処置群と対照群の平均の計算と、全体としての効果の推定量を計
算する

• 共分散分析
• 割当変数と傾向スコアを説明変数とした線形の回帰分析を行う



傾向スコアの逆数による重み付け平均


傾向スコアの逆数を重みづけたyの期待値は
y1の周辺平均の不偏推定量



因果効果の推定値とその分散が計算出来る

因果効果

因果効果の分散


欠測データでの選択バイアスの補正

選択されるか否かをモデル化し、バイアスを補正する

欠測データによる選択バイアスの解析の表現

選択されるか否か

選択者非選択者

従属変数選択者のデータ非選択者のデータ選択をモデリング
母集団の期待値を推定

共変量項目共通で得られている変数・共変量や従属変数を用いて選択を
モデリング
・選択者のデータを補正して、母集団の
期待値を推定する


欠測データを用いたデータフュージョンの考え方
欠測が発生しているシングルソースデータとして考え
のりしろとなる共変量を用いてデータを結合する

のりしろとなる
購買履歴データ共通項目で結合

共変量購買履歴データ市場調査データ


市場調査データ

共変量共通で得られている変数


前提条件
欠測のメカニズムは欠測値には依存しないランダムな欠測
共変量を条件づけた場合には、各目的変数は独立

◆ ランダムな欠測
・購買履歴データには男女の両方が含まれているのに、広告接触データには
男性のデータしか含まれていない、というなかたよりがない

◆ 条件付き独立
・共変量を条件づけた場合には各目的変数は独立になる。


データフュージョンの各手法
大きく4つの手法が提案されている
近年は、セミパラメトリックモデルが熱い！(?)

◆ マッチング

◆ 潜在変数モデリング

◆ 回帰モデル

◆ セミパラメトリックモデル


マッチング
共変量に関して最も近くなるような
データAとデータBの対象者をペアを作り、同一調査対象と見なす

共変量が近いペア【問題点】
1.推定精度が高くない可能性がある
共変量を増やす事で誤差を減少出来る
共変量は傾向スコアでまとめる
2.マッチングに利用しない対象者データが無駄になる
3.確率的な変動を考慮できず統計的な性質が明確でない
広告接触購買リサンプリングや多重代入法で解決
4.個人情報保護法などの観点からの問題が生じる可能性
広告接触については、データAの対象者から
購買については、データBの対象者から得られる


潜在変数モデリング
通常の多変量解析において一部の変数が欠測しているデータに対して
潜在変数モデルを利用する事で欠測の問題を回避する
共通因子や潜在クラスを仮定して、データフュージョンを行う


共変量

潜在潜在
クラスクラス



回帰モデル
ロジスティック回帰モデルなどを用いて
共変量から目的とする欠測変数を直接推定する

回帰モデル

マッチング


セミパラメトリックモデル
共変量の情報を最大限に生かして予測を行うためには
セミパラメトリックな回帰手法が望ましい

◆ カーネルマッチング
・カーネル回帰モデルで欠測変数を推定する
・通常のマッチングでは予測に使うデータは1つまたは数個だけだが、
カーネルマッチングでは、カーネルによる重みで全て利用する

◆ ディリクレ過程混合モデル
・回帰の混合モデルにおいて要素数Kを事前に決定するのではなく
データから決定するモデル


ディリクレ過程混合モデリング
ロジスティック回帰の混合モデルにおいて
要素数Kを事前に決定するのではなくデータから決定するモデル


参考資料

◆ Rで学ぶ傾向スコア解析入門
http://www.slideshare.net/yokkuns/r-9387843

◆ 選択バイアス入門
http://www.slideshare.net/yokkuns/tokyor22-selection-bias

◆ data fusion についてのメモ - BOD
http://d.hatena.ne.jp/dichika/20110907/1315359207


Tokyo.Rの次回以降の

発表者・LTを募集しています！


ご清聴ありがとうございました！


Tokyowebmining19 data fusion

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Tokyowebmining19 data fusion

Similaire à Tokyowebmining19 data fusion (10)

Plus de Yohei Sato

Plus de Yohei Sato (18)

Tokyowebmining19 data fusion