SlideShare une entreprise Scribd logo
1  sur  31
Télécharger pour lire hors ligne
KDD読み会

AI事業本部 Dynalyst 金子 雄祐

1
自己紹介
2
名前: 金子 雄祐(29)
職業: AI事業本部 Dynalyst データサイエンスチームリーダー
経歴:
2018: 東京大学大学院経済学研究科統計学コース卒 (修士)
2018年: CyberAgent 新卒入社
2019年: Dynalyst異動
やってるタスク:
予測モデル開発, クリエイティブ評価&最適化改善, チームマネジメント
paper:
Kenshi Abe, Yusuke Kaneko: “Off-Policy Exploitability-Evaluation in Two-Player
Zero-Sum Markov Games” AAMAS 2021
twitter: @coldstart_p 

kaggle:

@ykaneko1992

発表の流れ

● 近年のプライバシー保護とターゲティング広告の流れ

● プラットフォーマー側の取り組み

○ "Clustering for Private Interest-based Advertising"(Google)

● 広告配信事業者側の取り組み

○ " Learning a logistic model from aggregated data"(Criteo)

3
近年のプライバシー保護とターゲ
ティング広告の流れ

4
AppTrackingTransparencyフレームワーク
5
Apple公式サイトより



iOS 14.5より
AppTrackingTransparency(ATT) フレーム
ワークが適用



App内でのユーザー識別子の利用をオプ
トイン式に変更する取り組み 





プライバシー保護とターゲティング広告
6
● 近年,Web上におけるプライバシー保護 は非常に重要な問題 

○ (是非は置いておくとして)ユーザー行動のトラッキングをベースにしたビジネスモデルは変化や適応を
余儀なくされている

● 色々な出来事(3rd party cookie規制 → IDFA規制の流れ) 

○ 2018年5月 : 欧州でGDPR制定 

○ 2020年1月 : アメリカでCCPA(カリフォルニア州消費者プライバシー法)制定 

○ 2021年4月 : iOS14.5, ATTリリース 

● 上記の変更に置いてターゲティング広告配信事業者(DSP/SSP)が困難になること 

○ 広告効果の適切な計測

■ 広告をclickした後のユーザー行動計測が困難に 

○ 効果的なターゲティング広告 配信

■ そもそも識別子が流れてこないのでターゲティングもなにもない 

Google, Appleの動き
7
● デバイス提供を行うプラットフォーマー(Apple, Google) 

○ Apple 

■ ATTフレームワークの提供など,先進的にプライバシー保護を促進 

○ Google

■ Appleに追随しつつも,DSP/SSP事業者にはまだ優しい対応 

■ Chromeでの22年までの3rd party クッキー廃止 

■ 代替的に, プライバシー配慮を行う広告プラットフォーム, プライバシーサンドボックスフレーム
ワークの提案

● Googleのほうが広告事業者としての色が強いので,両社の対応の違いが(多分)出ている 

FLoC
8
● Federated Learning of Cohorts(FLoC) はプライバシーサンドボックスの仕様の一つ 

● 結局何をやるのか?

○ MLで利用者のインターネット利用動向をデバイス上で分析 

○ これらのユーザーを類似性で分類 

○ 上記の分類ごとにクラスタIDを割り振り広告配信に活用するためにDSPやSSPに提供 

● 上記FLoCの業界の評判は,正直,非常に よろしくない

○ FLoCがブラックボックス過ぎる

○ クラスタIDをデポジットしておけば 個人識別が可能になる可能性がある 

○ 第三者の広告配信事業者は Googleのエコシステムに入らざるを得なくなる 

● なので,いずれ撤回されるだろう...というのが(KDD前の金子の)なんとなくの見立てだった 

FLoCの論文を公開
9
● KDD2021で初めてFLoCの仕様に関する論文が公開された 

● (多分)PR目的なのだろうが,少なくとも完全なブラックボックスではなくなった 

DSP側の動き
10
● 配信事業者(DSP)も色々な選択を迫られている 

● 大きな流れとしては以下? 

○ Googleのプライバシーサンドボックスに乗っかる 

○ 代替的な識別IDを第3者事業者合同で立ち上げる 

● 正直あまり業界の流れがfixされたとは言い難い 

● Q :「Googleのプライバシーサンドボックスに乗った場合,予測モデルはどう作ればいいのか? 」

○ 要するに,aggregatedなデータしか得られなくなるので従来の予測モデルが機能しなくなる 

○ これに応える論文がCriteoからAdKDD 2021で提案 

○ こちらの論文も紹介 

Clustering for Private
Interest-based Advertising

11
Intro
12
● インタレストベース広告(IBA)は広告主がユーザーの関心に基づいた広告表示を可能にするシステム 

● 市場効率を高める強力な広告である一方で,これを可能にするにはアドテク企業は個々のユーザーの詳
細なインタレストプロファイルを構築する必要がある 

○ 52社の広告会社が収集した情報は,ユーザーの閲覧履歴の 平均91%を復元できるとの調査も 

● 細かいパーソナライゼーションが必要かどうか再度問い直し, ユーザープライバシーを保証しながら競争力
のあるパフォーマンスを実現する広告メカニズムの提示 を目的とする

○ 要するにCookieを使用せずにIBAを実現することを目指す 

● FLoC APIの提案

○ ideaは,ユーザーをk個の匿名グループに分類し個人ごとではなくグループごとにプロファイルを作成
できるようにするというもの 

○ これが現在のユーザープロファイル作成のフレームワークを置換するのに十分かは非自明 

FLoC API
13
● FLoC APIで生成されるコホートIDは以下の性質を持つべき 

○ コホートIDは複数のユーザーで共有されるため,単独で使用した場合はウェブサイト間でユーザーを
再識別することはできない 

○ IDは,全く同じ関心事を共有する多数のユーザーで構成される 

● 要するにコホートID割当は単なるクラスタリング問題と解釈可能だが,以下の制約を持つ 

○ 𝐾-anonymity : 各コホートIDは少なくとも 𝑘人のユーザーが共有しなければならない 

○ Local computation:コホートIDはできれば監査が容易な方法でブラウザ内で計算する必要がある 

○ Central server trust : (正直要領を得ない記述だったが)現状の規制がかかっていない各種事業者が
それぞれユーザープロファイルを持ってるのは少なくとも良くないよねという話 

Algorithm
14
● FLoC APIのクラスタリングアルゴリズムを設計する際には,実装のしやすさ,解釈のしやすさ,デバッグのし
やすさを考慮する必要がある 

● これら以下の3つからなるが,簡単な順に説明する 

○ SimHash

○ SortingLSH

○ Graph-based clustering method 

SimHash
15
● SimHashはLocality Sensitive Hashing (LSH)ファミリーのアルゴリズムの一種 

○ 当初は重複している文書を素早く識別することを目的に開発された 

○ 𝑑次元ベクトル𝑥を入力とし,pビットのベクトル 𝐻𝑝 (𝑥)∈{0, 1}𝑝
を出力するが,これを 𝑥のハッシュと呼ぶ

● ハッシュベクトルの𝑖番目の座標は以下のルールで求められる 

○ ただし,wi
はunit-normの確率ベクトル 

SimHash
16
● SimHashは似たようなベクトルは似ていないベクトルよりも同じコホートIDにハッシュ化される可能性が高い
という特性を持つ

○ より正確には𝑥1
と𝑥2
が2つのベクトルである場合, 𝑥1
と𝑥2
が同じ𝑝ビットのコホートidにマッピングされる確
率は以下式のように与えられる 

○ ただし,θはx1
とx2
の間の角度を意味する 

● 要するに,x1
とx2
の間の角度が小さかったり,コサイン類似度が高くなると同じクラスタに入りやすくなる式 

SimHash
17
● SimHashを使う主な利点は あるユーザーのID計算が他のユーザーの情報に依存しない こと

○ ベクトル𝑥が与えられれば,そのコホートidは他のユーザーの情報を知らなくてもクライアントで計算可
能

● また,コホートIDを計算するために中央でデータを収集する必要もない 

○ 中央サーバーがユーザーの閲覧履歴を保存することなくクラスタリングが可能になる 

● SimHashの主な欠点は、最小のクラスタサイズを強制することができないこと 

○ この問題は各コホートのサイズを追跡する匿名性の高いサーバーを用意することで解決できる 

○ このサーバーはコホートの規模が十分でない場合APIがコホートIDを返すのをブロックすることが可能 

SortingLSH
18
● SimHashアルゴリズムを定義するビット数 𝑝の選択は非常に重要 

○ 低すぎるとコホートが大きくなり,異種のユーザーが同じコホートに属する可能性が高くなる 

○ 高すぎると𝑘-匿名性の要件に違反する 

● 𝑝の選択の難しさは,SimHashで生成されるコホートのサイズが非常に不均一であるという事実によってさら
に悪化する

● SortingLSHは,この問題を解決しk-匿名性を確保すると同時にSimHashの品質を向上させる手法 

○ コホートのサイズを均一化することで達成される 

○ SimHashクラスタを後処理して 𝑘-anonymityを確保することを行う 

SortingLSH
19
● ℎ𝑖
=𝐻𝑝
(𝑥𝑖
)を,SimHashがユーザ 𝑖に対して生成したpビットのハッシュを表すとする 

● SortingLSHは,ユーザーをSimHashでグループ化してコホートを割り当てるのではなく以下のようにコホート
を生成する

○ (1) ℎ1
, .. ... , ℎ𝑛
を辞書的順序でソートして,ハッシュℎ (1)
, … ,ℎ(n)
のソートされたリストを得る 

○ (2) ソートされたハッシュを,少なくともk人のユーザーを含む連続した区間に分割してコホートに割り
当てる

● order付けのステップは,この順番で連続したハッシュがほとんど類似したSimHash値を持つユーザーに対
応することを保証し,区間のサイズ制約はコホートが常に少なくともk人のユーザーを持つことを保証する 

● intervalの選択問題に関しては,PrefixLSHというアルゴリズムを使用している 

Graph-based clustering methods
20
● グラフベースのクラスタリングアルゴリズムを使用している 

● (時間制約上)詳しくは触れないが,以下の3ステップがある 

○ (1) graph construction : ユーザー間のコサイン類似度で重み付けしたグラフを作成 

○ (2) graph clustering : Affinity hierarchical clusteringとMETISという2つのアルゴリズムを使用,比較
評価する

○ (3) post-processing : Llyod’s clustering improvement roundsなどの種々の後処理を実行 

EVALUATION ON PUBLIC DATASETS
21
● Movielens 25Mと Million song datasetという2つのデータセットを使って評価している 

● クラスタリングアルゴリズムの品質を評価するために,類似したユーザーをグループ化する能力を測定する 

○ “平均的な”コサイン類似度を用いてこれを評価する 

● 各アルゴリズムのプライバシー特性を評価するために,以下の匿名性指標,anon-quantileをもちいる 

○ ただし,U(k)は少なくとも 𝑘のサイズのコホートに含まれるユーザー数 

○ つまり,𝛼 fractionのユーザーが 𝑘-anonymousであるコホートに属するような最大の 𝑘

EVALUATION ON PUBLIC DATASETS
22
● 結果は左図

● 正直これだけ見せられても...という感じはする 

● anon-quantileが離れてもそこそこの平均的なコサイン類似
度は保たれていそう 

Learning a logistic model from
aggregated data

23
Learning a logistic model from aggregated data
24
● AdKDDのpaper

● 著者はCriteo所属

Learning from aggregated data
25
● 従来得られているデータは左のTable 1のようなデータ 

● 個人Idによる識別が不可能になると,例えばTable 2のような
集計データしか得られなくなる 

● このようなデータしか得られなくなった時に,既存の予測モデ
ル(CTR予測など)は機能しなくなる 

● どのようなモデルを使えばいいのか? 

Formalizing the aggregated data
26
● そもそも集約データの問題はどう定式化できるか? 

● 特徴量とラベルがi.i.d.に(x i,
yi
)で与えられるとする 

● xを{0;1}D
にマッピングするQuadratic kernel Kが与えられたとする 

● この時,集計データは以下の式で表現できる 

アプローチ
27
● 以下のようなアプローチを取る 

● Modeling

○ 特徴量XとラベルYの 結合分布に関するパラメトリックモデルを選ぶ 

○ Pθ
(X = x, Y = y)

● Training

○ 尤度最大化を達成するθを選ぶ 

○ Argmaxθ
Pθ
(S = s, C =c)

● Predict

○ 上記で得られたθから,以下の条件律から予測を行う 

○ Pθ
(Y = 1 | X = x) = Pθ
(X = x, Y = 1) / ( Pθ
(X = x, Y = 1) + Pθ
(X = x, Y = 0))

Markov Random Field
28
● Modelingの時に,以下のパラメトリックモデルを使用する 

○ Pμ, θ
(X = x, Y = y) = exp(K(x)・μ + y・K(x)・θ) / Z μ, θ


○ ただし, Zμ, θ
は正規化のための定数 

● 上記のモデルは,Markov Random Field の一種と解釈できる 

● この時,Predictは以下の式で可能になる 

○ Pμ, θ
(Y=y | X=x) = σ(K(x)・θ) 

○ Zもμも関係なく,カーネルKが存在する場合のロジスティック回帰と解釈可能 

● Trainingは対数尤度のgradientの式が簡単に得られるので,MCMCなどで推定 

Experiments
29
● CriteoのPublic dataset(上)とCriteo AdKDD challenge(下)のデータセットで実験 

● featureは10 ~ 20とかそこらへん 

● 精度はそこそこ出るけどやっぱ重い... 

課題
30
● 最適化重すぎ

○ ギブスサンプラーがやっぱ重いとのこと 

● Validationどうする? 

○ 集約されてないデータでCVやってるのが現状 

○ 集計データでどうやってCVかけるの? 

まとめ/雑感
31
● 近年のプライバシー保護の流れから出てきた広告事業者の取り組みに関連した論文を2本紹介 

● FLoCが採用されていくかは正直わからない 

○ プライバシー保護の名目でどんどんプラットフォーマー側の力が強くなっていく 

○ 事前に感じていたブラックボックス感は大分なくなったが... 

● DSP側もかなり厳しい対応が必要になっていきそう 

○ paperの定式化自体は面白いし鮮やか 

○ ただ実務的に本当にMarkov Random Fieldとか回すの? というと... 

● 今後広告事業の風景がどうなっていくかはわからないが,時事的な流れを切り取ったpaperとしては一定の
面白さがある


Contenu connexe

Tendances

研究法(Claimとは)
研究法(Claimとは)研究法(Claimとは)
研究法(Claimとは)Jun Rekimoto
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方Shinagawa Seitaro
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心takehikoihayashi
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper. challenge
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-Shiga University, RIKEN
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?hoxo_m
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習Masaki Saito
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイするTakayuki Itoh
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイARISE analytics
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有Naoaki Okazaki
 
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)Preferred Networks
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめsleepy_yoshi
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925小川 雄太郎
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 

Tendances (20)

研究法(Claimとは)
研究法(Claimとは)研究法(Claimとは)
研究法(Claimとは)
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイする
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
 
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 

Similaire à Kdd 2021 読み会(clustering for private interest-based advertising & learning a logistic model from aggregated data)

Economic design in cryptoeconomics_game theory_mechanism design_market design...
Economic design in cryptoeconomics_game theory_mechanism design_market design...Economic design in cryptoeconomics_game theory_mechanism design_market design...
Economic design in cryptoeconomics_game theory_mechanism design_market design...Jongseung Kim
 
Fairness, Transparency, and Privacy in AI @ LinkedIn
Fairness, Transparency, and Privacy in AI @ LinkedInFairness, Transparency, and Privacy in AI @ LinkedIn
Fairness, Transparency, and Privacy in AI @ LinkedInKrishnaram Kenthapadi
 
Analytics what to look for sustaining your growing business-
Analytics   what to look for sustaining your growing business-Analytics   what to look for sustaining your growing business-
Analytics what to look for sustaining your growing business-Ajay Ohri
 
A federated information infrastructure that works
A federated information infrastructure that works A federated information infrastructure that works
A federated information infrastructure that works Stratebi
 
Hyperloglog Project
Hyperloglog ProjectHyperloglog Project
Hyperloglog ProjectKendrick Lo
 
A Survey on Security and Privacy of Machine Learning
A Survey on Security and Privacy of Machine LearningA Survey on Security and Privacy of Machine Learning
A Survey on Security and Privacy of Machine LearningThang Dang Duy
 
A Friendly Introduction to Machine Learning
A Friendly Introduction to Machine LearningA Friendly Introduction to Machine Learning
A Friendly Introduction to Machine LearningHaptik
 
Real-time personalized recommendations using product embeddings
Real-time personalized recommendations using product embeddingsReal-time personalized recommendations using product embeddings
Real-time personalized recommendations using product embeddingsJakub Macina
 
Move out from your comfort zone!
Move out from your comfort zone!Move out from your comfort zone!
Move out from your comfort zone!Osaka University
 
10518, 5(52 PMCollection – MSA 603 Strategic Planning for th.docx
10518, 5(52 PMCollection – MSA 603 Strategic Planning for th.docx10518, 5(52 PMCollection – MSA 603 Strategic Planning for th.docx
10518, 5(52 PMCollection – MSA 603 Strategic Planning for th.docxdrennanmicah
 
Building search and discovery services for Schibsted (LSRS '17)
Building search and discovery services for Schibsted (LSRS '17)Building search and discovery services for Schibsted (LSRS '17)
Building search and discovery services for Schibsted (LSRS '17)Sandra Garcia
 
Crypto & Crpyocurrencies Intro
Crypto & Crpyocurrencies IntroCrypto & Crpyocurrencies Intro
Crypto & Crpyocurrencies IntroTal Shmueli
 
Designing Blockchain Incentive Systems
Designing Blockchain Incentive SystemsDesigning Blockchain Incentive Systems
Designing Blockchain Incentive SystemsPaulo Fonseca
 
The Post Agile World of Framework-Driven Collaboration
The Post Agile World of Framework-Driven CollaborationThe Post Agile World of Framework-Driven Collaboration
The Post Agile World of Framework-Driven CollaborationLuke Hohmann
 
Smart Canvas @ Large Scale Recommender Systems Workshop 2015
Smart Canvas  @ Large Scale Recommender Systems Workshop 2015Smart Canvas  @ Large Scale Recommender Systems Workshop 2015
Smart Canvas @ Large Scale Recommender Systems Workshop 2015Gilmar Souza
 
National Wildlife Federation- OMS- Dreamcore 2011
National Wildlife Federation- OMS- Dreamcore 2011National Wildlife Federation- OMS- Dreamcore 2011
National Wildlife Federation- OMS- Dreamcore 2011nonlinear creations
 
Creating a customer segmentation workflow with knime
Creating a customer segmentation workflow with knimeCreating a customer segmentation workflow with knime
Creating a customer segmentation workflow with knimeKnoldus Inc.
 
Personalized news recommendation engine
Personalized news recommendation enginePersonalized news recommendation engine
Personalized news recommendation enginePrateek Sachdev
 

Similaire à Kdd 2021 読み会(clustering for private interest-based advertising & learning a logistic model from aggregated data) (20)

Economic design in cryptoeconomics_game theory_mechanism design_market design...
Economic design in cryptoeconomics_game theory_mechanism design_market design...Economic design in cryptoeconomics_game theory_mechanism design_market design...
Economic design in cryptoeconomics_game theory_mechanism design_market design...
 
Fairness, Transparency, and Privacy in AI @ LinkedIn
Fairness, Transparency, and Privacy in AI @ LinkedInFairness, Transparency, and Privacy in AI @ LinkedIn
Fairness, Transparency, and Privacy in AI @ LinkedIn
 
Analytics what to look for sustaining your growing business-
Analytics   what to look for sustaining your growing business-Analytics   what to look for sustaining your growing business-
Analytics what to look for sustaining your growing business-
 
A federated information infrastructure that works
A federated information infrastructure that works A federated information infrastructure that works
A federated information infrastructure that works
 
Hyperloglog Project
Hyperloglog ProjectHyperloglog Project
Hyperloglog Project
 
A Survey on Security and Privacy of Machine Learning
A Survey on Security and Privacy of Machine LearningA Survey on Security and Privacy of Machine Learning
A Survey on Security and Privacy of Machine Learning
 
A Friendly Introduction to Machine Learning
A Friendly Introduction to Machine LearningA Friendly Introduction to Machine Learning
A Friendly Introduction to Machine Learning
 
Real-time personalized recommendations using product embeddings
Real-time personalized recommendations using product embeddingsReal-time personalized recommendations using product embeddings
Real-time personalized recommendations using product embeddings
 
Move out from your comfort zone!
Move out from your comfort zone!Move out from your comfort zone!
Move out from your comfort zone!
 
10518, 5(52 PMCollection – MSA 603 Strategic Planning for th.docx
10518, 5(52 PMCollection – MSA 603 Strategic Planning for th.docx10518, 5(52 PMCollection – MSA 603 Strategic Planning for th.docx
10518, 5(52 PMCollection – MSA 603 Strategic Planning for th.docx
 
Building search and discovery services for Schibsted (LSRS '17)
Building search and discovery services for Schibsted (LSRS '17)Building search and discovery services for Schibsted (LSRS '17)
Building search and discovery services for Schibsted (LSRS '17)
 
Crypto & Crpyocurrencies Intro
Crypto & Crpyocurrencies IntroCrypto & Crpyocurrencies Intro
Crypto & Crpyocurrencies Intro
 
Designing Blockchain Incentive Systems
Designing Blockchain Incentive SystemsDesigning Blockchain Incentive Systems
Designing Blockchain Incentive Systems
 
The Post Agile World of Framework-Driven Collaboration
The Post Agile World of Framework-Driven CollaborationThe Post Agile World of Framework-Driven Collaboration
The Post Agile World of Framework-Driven Collaboration
 
Smart Canvas @ Large Scale Recommender Systems Workshop 2015
Smart Canvas  @ Large Scale Recommender Systems Workshop 2015Smart Canvas  @ Large Scale Recommender Systems Workshop 2015
Smart Canvas @ Large Scale Recommender Systems Workshop 2015
 
Nosql part3
Nosql part3Nosql part3
Nosql part3
 
National Wildlife Federation- OMS- Dreamcore 2011
National Wildlife Federation- OMS- Dreamcore 2011National Wildlife Federation- OMS- Dreamcore 2011
National Wildlife Federation- OMS- Dreamcore 2011
 
Creating a customer segmentation workflow with knime
Creating a customer segmentation workflow with knimeCreating a customer segmentation workflow with knime
Creating a customer segmentation workflow with knime
 
Personalized news recommendation engine
Personalized news recommendation enginePersonalized news recommendation engine
Personalized news recommendation engine
 
lsrs15_ciandt
lsrs15_ciandtlsrs15_ciandt
lsrs15_ciandt
 

Plus de Yusuke Kaneko

DID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpactDID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpactYusuke Kaneko
 
企業の中の経済学
企業の中の経済学企業の中の経済学
企業の中の経済学Yusuke Kaneko
 
LightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision treeLightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision treeYusuke Kaneko
 
How to correctly estimate the effect of online advertisement(About Double Mac...
How to correctly estimate the effect of online advertisement(About Double Mac...How to correctly estimate the effect of online advertisement(About Double Mac...
How to correctly estimate the effect of online advertisement(About Double Mac...Yusuke Kaneko
 
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)Yusuke Kaneko
 

Plus de Yusuke Kaneko (7)

DID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpactDID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpact
 
企業の中の経済学
企業の中の経済学企業の中の経済学
企業の中の経済学
 
TokyoR_74_RDD
TokyoR_74_RDDTokyoR_74_RDD
TokyoR_74_RDD
 
LightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision treeLightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision tree
 
Hastie_chapter5
Hastie_chapter5Hastie_chapter5
Hastie_chapter5
 
How to correctly estimate the effect of online advertisement(About Double Mac...
How to correctly estimate the effect of online advertisement(About Double Mac...How to correctly estimate the effect of online advertisement(About Double Mac...
How to correctly estimate the effect of online advertisement(About Double Mac...
 
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)
 

Dernier

Predictive Analysis for Loan Default Presentation : Data Analysis Project PPT
Predictive Analysis for Loan Default  Presentation : Data Analysis Project PPTPredictive Analysis for Loan Default  Presentation : Data Analysis Project PPT
Predictive Analysis for Loan Default Presentation : Data Analysis Project PPTBoston Institute of Analytics
 
Multiple time frame trading analysis -brianshannon.pdf
Multiple time frame trading analysis -brianshannon.pdfMultiple time frame trading analysis -brianshannon.pdf
Multiple time frame trading analysis -brianshannon.pdfchwongval
 
PKS-TGC-1084-630 - Stage 1 Proposal.pptx
PKS-TGC-1084-630 - Stage 1 Proposal.pptxPKS-TGC-1084-630 - Stage 1 Proposal.pptx
PKS-TGC-1084-630 - Stage 1 Proposal.pptxPramod Kumar Srivastava
 
科罗拉多大学波尔得分校毕业证学位证成绩单-可办理
科罗拉多大学波尔得分校毕业证学位证成绩单-可办理科罗拉多大学波尔得分校毕业证学位证成绩单-可办理
科罗拉多大学波尔得分校毕业证学位证成绩单-可办理e4aez8ss
 
Heart Disease Classification Report: A Data Analysis Project
Heart Disease Classification Report: A Data Analysis ProjectHeart Disease Classification Report: A Data Analysis Project
Heart Disease Classification Report: A Data Analysis ProjectBoston Institute of Analytics
 
原版1:1定制南十字星大学毕业证(SCU毕业证)#文凭成绩单#真实留信学历认证永久存档
原版1:1定制南十字星大学毕业证(SCU毕业证)#文凭成绩单#真实留信学历认证永久存档原版1:1定制南十字星大学毕业证(SCU毕业证)#文凭成绩单#真实留信学历认证永久存档
原版1:1定制南十字星大学毕业证(SCU毕业证)#文凭成绩单#真实留信学历认证永久存档208367051
 
Machine learning classification ppt.ppt
Machine learning classification  ppt.pptMachine learning classification  ppt.ppt
Machine learning classification ppt.pptamreenkhanum0307
 
Identifying Appropriate Test Statistics Involving Population Mean
Identifying Appropriate Test Statistics Involving Population MeanIdentifying Appropriate Test Statistics Involving Population Mean
Identifying Appropriate Test Statistics Involving Population MeanMYRABACSAFRA2
 
办理学位证纽约大学毕业证(NYU毕业证书)原版一比一
办理学位证纽约大学毕业证(NYU毕业证书)原版一比一办理学位证纽约大学毕业证(NYU毕业证书)原版一比一
办理学位证纽约大学毕业证(NYU毕业证书)原版一比一fhwihughh
 
Consent & Privacy Signals on Google *Pixels* - MeasureCamp Amsterdam 2024
Consent & Privacy Signals on Google *Pixels* - MeasureCamp Amsterdam 2024Consent & Privacy Signals on Google *Pixels* - MeasureCamp Amsterdam 2024
Consent & Privacy Signals on Google *Pixels* - MeasureCamp Amsterdam 2024thyngster
 
Call Girls In Dwarka 9654467111 Escorts Service
Call Girls In Dwarka 9654467111 Escorts ServiceCall Girls In Dwarka 9654467111 Escorts Service
Call Girls In Dwarka 9654467111 Escorts ServiceSapana Sha
 
While-For-loop in python used in college
While-For-loop in python used in collegeWhile-For-loop in python used in college
While-For-loop in python used in collegessuser7a7cd61
 
Generative AI for Social Good at Open Data Science East 2024
Generative AI for Social Good at Open Data Science East 2024Generative AI for Social Good at Open Data Science East 2024
Generative AI for Social Good at Open Data Science East 2024Colleen Farrelly
 
Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)
Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)
Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)jennyeacort
 
GA4 Without Cookies [Measure Camp AMS]
GA4 Without Cookies [Measure Camp AMS]GA4 Without Cookies [Measure Camp AMS]
GA4 Without Cookies [Measure Camp AMS]📊 Markus Baersch
 
INTERNSHIP ON PURBASHA COMPOSITE TEX LTD
INTERNSHIP ON PURBASHA COMPOSITE TEX LTDINTERNSHIP ON PURBASHA COMPOSITE TEX LTD
INTERNSHIP ON PURBASHA COMPOSITE TEX LTDRafezzaman
 
毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degree
毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degree毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degree
毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degreeyuu sss
 
Top 5 Best Data Analytics Courses In Queens
Top 5 Best Data Analytics Courses In QueensTop 5 Best Data Analytics Courses In Queens
Top 5 Best Data Analytics Courses In Queensdataanalyticsqueen03
 
NLP Data Science Project Presentation:Predicting Heart Disease with NLP Data ...
NLP Data Science Project Presentation:Predicting Heart Disease with NLP Data ...NLP Data Science Project Presentation:Predicting Heart Disease with NLP Data ...
NLP Data Science Project Presentation:Predicting Heart Disease with NLP Data ...Boston Institute of Analytics
 
Effects of Smartphone Addiction on the Academic Performances of Grades 9 to 1...
Effects of Smartphone Addiction on the Academic Performances of Grades 9 to 1...Effects of Smartphone Addiction on the Academic Performances of Grades 9 to 1...
Effects of Smartphone Addiction on the Academic Performances of Grades 9 to 1...limedy534
 

Dernier (20)

Predictive Analysis for Loan Default Presentation : Data Analysis Project PPT
Predictive Analysis for Loan Default  Presentation : Data Analysis Project PPTPredictive Analysis for Loan Default  Presentation : Data Analysis Project PPT
Predictive Analysis for Loan Default Presentation : Data Analysis Project PPT
 
Multiple time frame trading analysis -brianshannon.pdf
Multiple time frame trading analysis -brianshannon.pdfMultiple time frame trading analysis -brianshannon.pdf
Multiple time frame trading analysis -brianshannon.pdf
 
PKS-TGC-1084-630 - Stage 1 Proposal.pptx
PKS-TGC-1084-630 - Stage 1 Proposal.pptxPKS-TGC-1084-630 - Stage 1 Proposal.pptx
PKS-TGC-1084-630 - Stage 1 Proposal.pptx
 
科罗拉多大学波尔得分校毕业证学位证成绩单-可办理
科罗拉多大学波尔得分校毕业证学位证成绩单-可办理科罗拉多大学波尔得分校毕业证学位证成绩单-可办理
科罗拉多大学波尔得分校毕业证学位证成绩单-可办理
 
Heart Disease Classification Report: A Data Analysis Project
Heart Disease Classification Report: A Data Analysis ProjectHeart Disease Classification Report: A Data Analysis Project
Heart Disease Classification Report: A Data Analysis Project
 
原版1:1定制南十字星大学毕业证(SCU毕业证)#文凭成绩单#真实留信学历认证永久存档
原版1:1定制南十字星大学毕业证(SCU毕业证)#文凭成绩单#真实留信学历认证永久存档原版1:1定制南十字星大学毕业证(SCU毕业证)#文凭成绩单#真实留信学历认证永久存档
原版1:1定制南十字星大学毕业证(SCU毕业证)#文凭成绩单#真实留信学历认证永久存档
 
Machine learning classification ppt.ppt
Machine learning classification  ppt.pptMachine learning classification  ppt.ppt
Machine learning classification ppt.ppt
 
Identifying Appropriate Test Statistics Involving Population Mean
Identifying Appropriate Test Statistics Involving Population MeanIdentifying Appropriate Test Statistics Involving Population Mean
Identifying Appropriate Test Statistics Involving Population Mean
 
办理学位证纽约大学毕业证(NYU毕业证书)原版一比一
办理学位证纽约大学毕业证(NYU毕业证书)原版一比一办理学位证纽约大学毕业证(NYU毕业证书)原版一比一
办理学位证纽约大学毕业证(NYU毕业证书)原版一比一
 
Consent & Privacy Signals on Google *Pixels* - MeasureCamp Amsterdam 2024
Consent & Privacy Signals on Google *Pixels* - MeasureCamp Amsterdam 2024Consent & Privacy Signals on Google *Pixels* - MeasureCamp Amsterdam 2024
Consent & Privacy Signals on Google *Pixels* - MeasureCamp Amsterdam 2024
 
Call Girls In Dwarka 9654467111 Escorts Service
Call Girls In Dwarka 9654467111 Escorts ServiceCall Girls In Dwarka 9654467111 Escorts Service
Call Girls In Dwarka 9654467111 Escorts Service
 
While-For-loop in python used in college
While-For-loop in python used in collegeWhile-For-loop in python used in college
While-For-loop in python used in college
 
Generative AI for Social Good at Open Data Science East 2024
Generative AI for Social Good at Open Data Science East 2024Generative AI for Social Good at Open Data Science East 2024
Generative AI for Social Good at Open Data Science East 2024
 
Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)
Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)
Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)
 
GA4 Without Cookies [Measure Camp AMS]
GA4 Without Cookies [Measure Camp AMS]GA4 Without Cookies [Measure Camp AMS]
GA4 Without Cookies [Measure Camp AMS]
 
INTERNSHIP ON PURBASHA COMPOSITE TEX LTD
INTERNSHIP ON PURBASHA COMPOSITE TEX LTDINTERNSHIP ON PURBASHA COMPOSITE TEX LTD
INTERNSHIP ON PURBASHA COMPOSITE TEX LTD
 
毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degree
毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degree毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degree
毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degree
 
Top 5 Best Data Analytics Courses In Queens
Top 5 Best Data Analytics Courses In QueensTop 5 Best Data Analytics Courses In Queens
Top 5 Best Data Analytics Courses In Queens
 
NLP Data Science Project Presentation:Predicting Heart Disease with NLP Data ...
NLP Data Science Project Presentation:Predicting Heart Disease with NLP Data ...NLP Data Science Project Presentation:Predicting Heart Disease with NLP Data ...
NLP Data Science Project Presentation:Predicting Heart Disease with NLP Data ...
 
Effects of Smartphone Addiction on the Academic Performances of Grades 9 to 1...
Effects of Smartphone Addiction on the Academic Performances of Grades 9 to 1...Effects of Smartphone Addiction on the Academic Performances of Grades 9 to 1...
Effects of Smartphone Addiction on the Academic Performances of Grades 9 to 1...
 

Kdd 2021 読み会(clustering for private interest-based advertising & learning a logistic model from aggregated data)

  • 2. 自己紹介 2 名前: 金子 雄祐(29) 職業: AI事業本部 Dynalyst データサイエンスチームリーダー 経歴: 2018: 東京大学大学院経済学研究科統計学コース卒 (修士) 2018年: CyberAgent 新卒入社 2019年: Dynalyst異動 やってるタスク: 予測モデル開発, クリエイティブ評価&最適化改善, チームマネジメント paper: Kenshi Abe, Yusuke Kaneko: “Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games” AAMAS 2021 twitter: @coldstart_p 
 kaggle:
 @ykaneko1992

  • 3. 発表の流れ
 ● 近年のプライバシー保護とターゲティング広告の流れ
 ● プラットフォーマー側の取り組み
 ○ "Clustering for Private Interest-based Advertising"(Google)
 ● 広告配信事業者側の取り組み
 ○ " Learning a logistic model from aggregated data"(Criteo)
 3
  • 6. プライバシー保護とターゲティング広告 6 ● 近年,Web上におけるプライバシー保護 は非常に重要な問題 
 ○ (是非は置いておくとして)ユーザー行動のトラッキングをベースにしたビジネスモデルは変化や適応を 余儀なくされている
 ● 色々な出来事(3rd party cookie規制 → IDFA規制の流れ) 
 ○ 2018年5月 : 欧州でGDPR制定 
 ○ 2020年1月 : アメリカでCCPA(カリフォルニア州消費者プライバシー法)制定 
 ○ 2021年4月 : iOS14.5, ATTリリース 
 ● 上記の変更に置いてターゲティング広告配信事業者(DSP/SSP)が困難になること 
 ○ 広告効果の適切な計測
 ■ 広告をclickした後のユーザー行動計測が困難に 
 ○ 効果的なターゲティング広告 配信
 ■ そもそも識別子が流れてこないのでターゲティングもなにもない 

  • 7. Google, Appleの動き 7 ● デバイス提供を行うプラットフォーマー(Apple, Google) 
 ○ Apple 
 ■ ATTフレームワークの提供など,先進的にプライバシー保護を促進 
 ○ Google
 ■ Appleに追随しつつも,DSP/SSP事業者にはまだ優しい対応 
 ■ Chromeでの22年までの3rd party クッキー廃止 
 ■ 代替的に, プライバシー配慮を行う広告プラットフォーム, プライバシーサンドボックスフレーム ワークの提案
 ● Googleのほうが広告事業者としての色が強いので,両社の対応の違いが(多分)出ている 

  • 8. FLoC 8 ● Federated Learning of Cohorts(FLoC) はプライバシーサンドボックスの仕様の一つ 
 ● 結局何をやるのか?
 ○ MLで利用者のインターネット利用動向をデバイス上で分析 
 ○ これらのユーザーを類似性で分類 
 ○ 上記の分類ごとにクラスタIDを割り振り広告配信に活用するためにDSPやSSPに提供 
 ● 上記FLoCの業界の評判は,正直,非常に よろしくない
 ○ FLoCがブラックボックス過ぎる
 ○ クラスタIDをデポジットしておけば 個人識別が可能になる可能性がある 
 ○ 第三者の広告配信事業者は Googleのエコシステムに入らざるを得なくなる 
 ● なので,いずれ撤回されるだろう...というのが(KDD前の金子の)なんとなくの見立てだった 

  • 9. FLoCの論文を公開 9 ● KDD2021で初めてFLoCの仕様に関する論文が公開された 
 ● (多分)PR目的なのだろうが,少なくとも完全なブラックボックスではなくなった 

  • 10. DSP側の動き 10 ● 配信事業者(DSP)も色々な選択を迫られている 
 ● 大きな流れとしては以下? 
 ○ Googleのプライバシーサンドボックスに乗っかる 
 ○ 代替的な識別IDを第3者事業者合同で立ち上げる 
 ● 正直あまり業界の流れがfixされたとは言い難い 
 ● Q :「Googleのプライバシーサンドボックスに乗った場合,予測モデルはどう作ればいいのか? 」
 ○ 要するに,aggregatedなデータしか得られなくなるので従来の予測モデルが機能しなくなる 
 ○ これに応える論文がCriteoからAdKDD 2021で提案 
 ○ こちらの論文も紹介 

  • 12. Intro 12 ● インタレストベース広告(IBA)は広告主がユーザーの関心に基づいた広告表示を可能にするシステム 
 ● 市場効率を高める強力な広告である一方で,これを可能にするにはアドテク企業は個々のユーザーの詳 細なインタレストプロファイルを構築する必要がある 
 ○ 52社の広告会社が収集した情報は,ユーザーの閲覧履歴の 平均91%を復元できるとの調査も 
 ● 細かいパーソナライゼーションが必要かどうか再度問い直し, ユーザープライバシーを保証しながら競争力 のあるパフォーマンスを実現する広告メカニズムの提示 を目的とする
 ○ 要するにCookieを使用せずにIBAを実現することを目指す 
 ● FLoC APIの提案
 ○ ideaは,ユーザーをk個の匿名グループに分類し個人ごとではなくグループごとにプロファイルを作成 できるようにするというもの 
 ○ これが現在のユーザープロファイル作成のフレームワークを置換するのに十分かは非自明 

  • 13. FLoC API 13 ● FLoC APIで生成されるコホートIDは以下の性質を持つべき 
 ○ コホートIDは複数のユーザーで共有されるため,単独で使用した場合はウェブサイト間でユーザーを 再識別することはできない 
 ○ IDは,全く同じ関心事を共有する多数のユーザーで構成される 
 ● 要するにコホートID割当は単なるクラスタリング問題と解釈可能だが,以下の制約を持つ 
 ○ 𝐾-anonymity : 各コホートIDは少なくとも 𝑘人のユーザーが共有しなければならない 
 ○ Local computation:コホートIDはできれば監査が容易な方法でブラウザ内で計算する必要がある 
 ○ Central server trust : (正直要領を得ない記述だったが)現状の規制がかかっていない各種事業者が それぞれユーザープロファイルを持ってるのは少なくとも良くないよねという話 

  • 14. Algorithm 14 ● FLoC APIのクラスタリングアルゴリズムを設計する際には,実装のしやすさ,解釈のしやすさ,デバッグのし やすさを考慮する必要がある 
 ● これら以下の3つからなるが,簡単な順に説明する 
 ○ SimHash
 ○ SortingLSH
 ○ Graph-based clustering method 

  • 15. SimHash 15 ● SimHashはLocality Sensitive Hashing (LSH)ファミリーのアルゴリズムの一種 
 ○ 当初は重複している文書を素早く識別することを目的に開発された 
 ○ 𝑑次元ベクトル𝑥を入力とし,pビットのベクトル 𝐻𝑝 (𝑥)∈{0, 1}𝑝 を出力するが,これを 𝑥のハッシュと呼ぶ
 ● ハッシュベクトルの𝑖番目の座標は以下のルールで求められる 
 ○ ただし,wi はunit-normの確率ベクトル 

  • 16. SimHash 16 ● SimHashは似たようなベクトルは似ていないベクトルよりも同じコホートIDにハッシュ化される可能性が高い という特性を持つ
 ○ より正確には𝑥1 と𝑥2 が2つのベクトルである場合, 𝑥1 と𝑥2 が同じ𝑝ビットのコホートidにマッピングされる確 率は以下式のように与えられる 
 ○ ただし,θはx1 とx2 の間の角度を意味する 
 ● 要するに,x1 とx2 の間の角度が小さかったり,コサイン類似度が高くなると同じクラスタに入りやすくなる式 

  • 17. SimHash 17 ● SimHashを使う主な利点は あるユーザーのID計算が他のユーザーの情報に依存しない こと
 ○ ベクトル𝑥が与えられれば,そのコホートidは他のユーザーの情報を知らなくてもクライアントで計算可 能
 ● また,コホートIDを計算するために中央でデータを収集する必要もない 
 ○ 中央サーバーがユーザーの閲覧履歴を保存することなくクラスタリングが可能になる 
 ● SimHashの主な欠点は、最小のクラスタサイズを強制することができないこと 
 ○ この問題は各コホートのサイズを追跡する匿名性の高いサーバーを用意することで解決できる 
 ○ このサーバーはコホートの規模が十分でない場合APIがコホートIDを返すのをブロックすることが可能 

  • 18. SortingLSH 18 ● SimHashアルゴリズムを定義するビット数 𝑝の選択は非常に重要 
 ○ 低すぎるとコホートが大きくなり,異種のユーザーが同じコホートに属する可能性が高くなる 
 ○ 高すぎると𝑘-匿名性の要件に違反する 
 ● 𝑝の選択の難しさは,SimHashで生成されるコホートのサイズが非常に不均一であるという事実によってさら に悪化する
 ● SortingLSHは,この問題を解決しk-匿名性を確保すると同時にSimHashの品質を向上させる手法 
 ○ コホートのサイズを均一化することで達成される 
 ○ SimHashクラスタを後処理して 𝑘-anonymityを確保することを行う 

  • 19. SortingLSH 19 ● ℎ𝑖 =𝐻𝑝 (𝑥𝑖 )を,SimHashがユーザ 𝑖に対して生成したpビットのハッシュを表すとする 
 ● SortingLSHは,ユーザーをSimHashでグループ化してコホートを割り当てるのではなく以下のようにコホート を生成する
 ○ (1) ℎ1 , .. ... , ℎ𝑛 を辞書的順序でソートして,ハッシュℎ (1) , … ,ℎ(n) のソートされたリストを得る 
 ○ (2) ソートされたハッシュを,少なくともk人のユーザーを含む連続した区間に分割してコホートに割り 当てる
 ● order付けのステップは,この順番で連続したハッシュがほとんど類似したSimHash値を持つユーザーに対 応することを保証し,区間のサイズ制約はコホートが常に少なくともk人のユーザーを持つことを保証する 
 ● intervalの選択問題に関しては,PrefixLSHというアルゴリズムを使用している 

  • 20. Graph-based clustering methods 20 ● グラフベースのクラスタリングアルゴリズムを使用している 
 ● (時間制約上)詳しくは触れないが,以下の3ステップがある 
 ○ (1) graph construction : ユーザー間のコサイン類似度で重み付けしたグラフを作成 
 ○ (2) graph clustering : Affinity hierarchical clusteringとMETISという2つのアルゴリズムを使用,比較 評価する
 ○ (3) post-processing : Llyod’s clustering improvement roundsなどの種々の後処理を実行 

  • 21. EVALUATION ON PUBLIC DATASETS 21 ● Movielens 25Mと Million song datasetという2つのデータセットを使って評価している 
 ● クラスタリングアルゴリズムの品質を評価するために,類似したユーザーをグループ化する能力を測定する 
 ○ “平均的な”コサイン類似度を用いてこれを評価する 
 ● 各アルゴリズムのプライバシー特性を評価するために,以下の匿名性指標,anon-quantileをもちいる 
 ○ ただし,U(k)は少なくとも 𝑘のサイズのコホートに含まれるユーザー数 
 ○ つまり,𝛼 fractionのユーザーが 𝑘-anonymousであるコホートに属するような最大の 𝑘

  • 22. EVALUATION ON PUBLIC DATASETS 22 ● 結果は左図
 ● 正直これだけ見せられても...という感じはする 
 ● anon-quantileが離れてもそこそこの平均的なコサイン類似 度は保たれていそう 

  • 23. Learning a logistic model from aggregated data
 23
  • 24. Learning a logistic model from aggregated data 24 ● AdKDDのpaper
 ● 著者はCriteo所属

  • 25. Learning from aggregated data 25 ● 従来得られているデータは左のTable 1のようなデータ 
 ● 個人Idによる識別が不可能になると,例えばTable 2のような 集計データしか得られなくなる 
 ● このようなデータしか得られなくなった時に,既存の予測モデ ル(CTR予測など)は機能しなくなる 
 ● どのようなモデルを使えばいいのか? 

  • 26. Formalizing the aggregated data 26 ● そもそも集約データの問題はどう定式化できるか? 
 ● 特徴量とラベルがi.i.d.に(x i, yi )で与えられるとする 
 ● xを{0;1}D にマッピングするQuadratic kernel Kが与えられたとする 
 ● この時,集計データは以下の式で表現できる 

  • 27. アプローチ 27 ● 以下のようなアプローチを取る 
 ● Modeling
 ○ 特徴量XとラベルYの 結合分布に関するパラメトリックモデルを選ぶ 
 ○ Pθ (X = x, Y = y)
 ● Training
 ○ 尤度最大化を達成するθを選ぶ 
 ○ Argmaxθ Pθ (S = s, C =c)
 ● Predict
 ○ 上記で得られたθから,以下の条件律から予測を行う 
 ○ Pθ (Y = 1 | X = x) = Pθ (X = x, Y = 1) / ( Pθ (X = x, Y = 1) + Pθ (X = x, Y = 0))

  • 28. Markov Random Field 28 ● Modelingの時に,以下のパラメトリックモデルを使用する 
 ○ Pμ, θ (X = x, Y = y) = exp(K(x)・μ + y・K(x)・θ) / Z μ, θ 
 ○ ただし, Zμ, θ は正規化のための定数 
 ● 上記のモデルは,Markov Random Field の一種と解釈できる 
 ● この時,Predictは以下の式で可能になる 
 ○ Pμ, θ (Y=y | X=x) = σ(K(x)・θ) 
 ○ Zもμも関係なく,カーネルKが存在する場合のロジスティック回帰と解釈可能 
 ● Trainingは対数尤度のgradientの式が簡単に得られるので,MCMCなどで推定 

  • 29. Experiments 29 ● CriteoのPublic dataset(上)とCriteo AdKDD challenge(下)のデータセットで実験 
 ● featureは10 ~ 20とかそこらへん 
 ● 精度はそこそこ出るけどやっぱ重い... 

  • 30. 課題 30 ● 最適化重すぎ
 ○ ギブスサンプラーがやっぱ重いとのこと 
 ● Validationどうする? 
 ○ 集約されてないデータでCVやってるのが現状 
 ○ 集計データでどうやってCVかけるの? 

  • 31. まとめ/雑感 31 ● 近年のプライバシー保護の流れから出てきた広告事業者の取り組みに関連した論文を2本紹介 
 ● FLoCが採用されていくかは正直わからない 
 ○ プライバシー保護の名目でどんどんプラットフォーマー側の力が強くなっていく 
 ○ 事前に感じていたブラックボックス感は大分なくなったが... 
 ● DSP側もかなり厳しい対応が必要になっていきそう 
 ○ paperの定式化自体は面白いし鮮やか 
 ○ ただ実務的に本当にMarkov Random Fieldとか回すの? というと... 
 ● 今後広告事業の風景がどうなっていくかはわからないが,時事的な流れを切り取ったpaperとしては一定の 面白さがある