Contenu connexe Similaire à Overcoming browser cookie churn with clustering in wsdm2012 reading Similaire à Overcoming browser cookie churn with clustering in wsdm2012 reading (20) Overcoming browser cookie churn with clustering in wsdm2012 reading1. Overcoming Browser Cookie
Churn with Clustering
Anirban Dasgupta, Maxim Gurevich,
Liang Zhang, Belle Tseng, Achint O. Thomas.
Yahoo! Research
WSDM2012勉強会
twitter: @y_benjo
http://d.hatena.ne.jp/repose/
6. 更なる問題
• コールドスタート問題
• 少ない情報しか持たないユーザには適切な案内ができ
ない
• 広告主がreach-frequencyを把握できない
• reach: キャンペーンによって何人が広告を見たか
• freq: キャンペーンに何度遭遇したか
• より正確なユーザ数の近似が必要
8. 既存研究(2)
• Browser fingerprints [2]
• OS,ブラウザ,UA,解像度などで一意な情報を取得
• 今試したらブラウザのプラグインやシステムフォントなど
も取得
• それらの情報に対するアクセス権限を求めるため実行
コストが高い
• それぞれの特徴が独立であるという仮定に基づいてい
る→大規模サイトでは衝突しやすい
14. 実例
寿命
Cookie i s_i t_i
寿命
Cookie j s_j t_i
t
• クッキーからInterval graphを構築
• 図のように寿命が重なるクッキー同士をつないだグラ
フ
• グラフ彩色: 隣り合うノードが違う色になるよう
にグラフを塗る問題
17. * Browser Model
• 寿命を用いたグラフ彩色で解く事の妥当性を示
す
• 証明などは元論文参照
• 簡単に説明を行う
• ユーザモデルの仮定,データとの比較→妥当性を示す
• ↑の仮定を用い,ユニークユーザ数がグラフ彩色にお
ける色数の良い推定値になる事を証明
• 聞き流しても構わない
19. * 実データでの検証
実測値
5つのモデルを
混合すること
によりいい感
5モデル じにモデリン
混合
グできている
単一モデル
22. いくつか定義
•sim(C, C’)
• クッキーの集合間における類似度を返す関数
•I(C)
• クラスタCにおける最も若い寿命
• 目的関数:
23. 擬似コード
def ClusterBrowser(cookies, t)
clusters = { }
cookies.sort.each do |c|
A = clusters.select{|C|I(c) ∩ I(C) = empty}
C* = argmax C ∈ A sim(C, {c})
if sim(C*, {c}) >= t
clusters[C*].push c
else
clusters.new(c)
return clusters
25. 二部グラフ
<aaa,
Win7,
IE6>
C1 <aaa, Win7, IE6>
<bbb,
10.7, <ccc, 10.5, safari>
C2
w3m>
<ccc, <ddd, Vista, IE6>
10.5, C3
safari>
<bbb, 10.7, w3m>
<aaa,
Win7, C4
IE6>
26. 連結成分抽出
<aaa,
Win7,
IE6>
C1 <aaa, Win7, IE6>
<bbb,
10.7, <ccc, 10.5, safari>
C2
w3m>
<ccc, <ddd, Vista, IE6>
10.5, C3
safari>
<bbb, 10.7, w3m>
<aaa,
Win7, C4
IE6>
27. 擬似コード
def ClusterBrowserParallel(cookies, t)
g = bi_graph.new
cookies.each do |c|
g.edge(c, <c.ip, c.os, c.browser>)
G{G_1, ..., G_k} = g.connect_componets
G.parallel_each do |G_i|
B_i = ClusterBrowser(G_i, t)
return {B_1, ..., B_k}.union
30. 特徴 (1)
• Lifetime gap
• 2つのクラスタのクッキーの寿命の差
• Lifetime length
• クッキーの寿命の長さ
• # of page vies
• 何度そのクッキーによってページが見られたか(のlog)
31. * 特徴 (2)
• OS type
• 本来はcannot-linkの制約であるがベイズ因子を使って特
徴化
• 事前分布として多項分布を仮定
• IP address usage pattern
• クラスタ内のクッキーと踏まれたページのベクトル
• 事前分布として多項分布,その事前分布にディリクレ
• category visiting pattern
• IP addressと同様
36. 参考文献
• [1] Method and System for Estimating Unique
Visitors for Internet Sites
• [2] https://panopticlick.eff.org/