SlideShare une entreprise Scribd logo
1  sur  26
Télécharger pour lire hors ligne
DEEP LEARNING JP
[DL Papers]
“xDeepFM: Combining Explict and Implicit Feature
Interactions for Recommendation (KDD2018)”
Yoshifumi Seki, Gunosy
http://deeplearning.jp/
書誌情報
● タイトル: xDeepFM: Combining Explict and Implicit Feature Interactions for
Recommendation
● 著者: Jianxum Lian*1, Xiaohuan Zhou*1, Fuzheng Zhang*2, Zhongxia Chen*1,
Xing Xie*2, Guangzhong Sun*1
○ *1 University of Science and Technology of China
○ *2 Microsoft Research
● 投稿先
○ KDD2018
● 選定理由
○ Factorization Machinesの深層学習周りでの発展に関心あり
○ Explict and Implicit Feature Interactionsというキーワードがよくわからなかったので。
2
今日の話
● Factorization Machines is 何?
● DeepなFactorization Machinesの現状確認
● 提案手法のコンセプト
● 提案手法
○ CIN
○ xDeepFM
● 実験とその結果
● まとめ
3
Factorization Machines(FM) [S. Rendle, ICDM2010]
● 変数の交互作用を表現した回帰モデル
○ 例えば「男性」かつ「10代」といった特徴に重みをもたせたい
○ すべての組み合わせを学習させようとすると死ぬ
○ そこで、交互作用の重みを内積で表現するようにした
● Kaggleの広告コンペのChampionモデルとして何度か使われたことで広く知られる
ようになった
● 一般にFMというとこの定義だが、これは厳密には2nd-order FMである
○ 2次の交互作用のみ扱っている
○ 高次の交互作用を扱うモデルも最近提案されている[Blondel+, NIPS2016]
■ 一方で3次程度までしか精度向上は確認できていない
■ ノイズの影響で高次ではきついと言われている[Xiao+, IJICAI2017] 4
DeepなFactorization Machines
● Categorical変数のEmbedding (bit-wiseなfactorization)
○ Factorization-machine suppoerted Neural Network (FNN) [Zhang+, ECIR2016]
○ Deep Crossing Network (DCN) [Shan+, KDD2016]
○ Wide & Deep [Cheng+, arXiv:1606.07792 (2016)]
● vector-wiseなfactorization
○ Product-based Neural Network (PNN) [Qu+, ICDM2017]
○ DeepFM [Guo+, IJICAI2017]
● explicitな高次元のinteraction
○ Deep Cross Network (DCN) [Wang+, ADKDD2017]
5
Factorization-machine suppoerted Neural Network (FNN) [Zhang+, ECIR2016]
● 特徴量がカテゴリカル変数のような形与えられた特に、各カテゴリごとにembedding
をおこなう
6
Deep Crossing Network (DCN) [Shan+, KDD2016]
● FNNとほぼ同じ。違いは上に積んでいるのがResNetであること。
● 一方で引用数はFNNのほうが多い。FNNは57, DCNは38
○ FNNがオープンデータで検証したのに対して、DCNはプライベートなデータで検証されていた。
7
Wide & Deep [Cheng+, arXiv:1606.07792 (2016)]
● Wide (線形モデル) とDeepなモデルをそのままくっつけてる
○ TensorFlowに実装が載っている
● Deepなモデルは低次の特徴を学習しにくいので、くっつけてあげる
● (私見) データ少ない入力とかでも効きそう
8
bit-wiseなfactorization
● これら3つのモデルは交互作用をDeep Learningのアーキテクチャが行ってくれてい
るとしている
○ 変数A × 変数Bというような形ではなく、Embeddingしたベクトルの各次元の重み付け和を積み上げて
いく形
○ embedding + concatなので、どの値がどの変数からきたものか考慮されていない
● embeddingしたbit単位で交互作用を計算するため、bit-wiseなfactorizationと呼ぶ
○ これに対して、変数の情報を保持するものをvector-wiseなfactorizationと呼ぶ
9
Product-based Neural Network (PNN) [Qu+, ICDM2017]
● 各特徴量をそれぞれembeddingした上で、単体で入力するものと、2次の組み合わ
せで入力するものにわけている
10
Product-based Neural Network (PNN) [Qu+, ICDM2017]
11
● IPNN: inner product
● OPNN: outer product
● PNN*: inner + outer
● 明示的に2次の交互作用をDNNに入力したほうが良い結果になっている
DeepFM [Guo+, IJICAI2017]
● PNNと違って、Factorizationの上にネットワークを積まない
● FactorizationはシンプルにFMの式と一緒(embed+backpropされるだけ)
● 別途でDNNを用意してつなげる (Wide & Deep)
12
DeepFM [Guo+, IJICAI2017]
● PNNよりWide & Deep的なアーキテクチャのほうが良い精度になってる
○ つまりFactorizationの上に積むより、積まないほうがよい?
● bit-wiseな学習とvector-wiseな学習の組み合わせが重要?
13
vector-wiseなfactorization
● vector-wise > bit-wiseという結果
● 一方でvector-wiseでも積んで高次にしてもあまりよくならない?
○ PNNよりFMをwide & deepにしたほうが良くなってるの辛い
● 高次にするときにどこで高次にしているのかが明確ではない
○ implicitなhigh-order interaction
○ これをexplicitなものにできないか?
14
Deep Cross Network (DCN) [Wang+, ADKDD2017]
● x0が各Layerに常にかかる => Attentionっぽさがある
● vectorizeはされていない 15
Deep Cross Network (DCN) [Wang+, ADKDD2017]
● DCN (表ではDC), FNN (表ではDNN)と比較して改善している
○ 論文でW&Dと比較するって書いてあるのに結果では比較してない
● 各層をx_0とのスカラー積で表現できる
○ Pros: Feature Interactionを効率的に学習できる
○ Cons: x_0とのスカラー積という特殊な形にしか使えない
● bit-wiseなinteractionしかしてない
16
提案手法のコンセプト
● vector-wiseでexplicitなhigh-order interactionを実現する
○ vector-wise と bit-wise、explicit と implicitは異なる特徴をもつので、組み合わせたい
○ 現状ないのは、explicitでvector-wiseな手法
● interactionが高次になっても、複雑性が指数的に増加しない
○ この発表では触れない
17
Compressed Interaction Network (CIN)
18RNNっぽさがある
Compressed Interaction Network (CIN)
19
● CNNと類似しているともいえる
○ X^kとX^0の外積のテンソルZ^k+1を画像と考えると、W^kがフィルター
○ テンソルをフィルターを使ってデータ圧縮しているともいえる
eXtreme Deep Factorization Machines (xDeepFM)
● Liner + CIN + DNNの組み合わせ
○ CIN: explicitな高次元インタラクション (vector-wise)
○ DNN: implicitな高次元インタラクション
20
Experiments
● 3つの課題を検証したい
○ (1) CINは高次元のインタラクションを学習できているか?
○ (2) implicitとexplicitの組み合わせは有効か?
○ (3) xDeepFMのパラメータはどのようにチューニングするか?
■ この発表では触れない
● データセット
○ Criteo
■ 公開データ
○ Dianping
■ 中国のレストランレビューサイト、著者らが収集
○ Bing News
■ 内部データ
21
Baselines
● Logistic Regression (LR)
● Factorization Machines (FM)
● DNN
● PNN
● Wide & Deep
● DCN
● DeepFM
22
● シングルモデルでの比較
● CINがほとんどでBest
○ 特にDianping, Bingで良い
● 特にBingでは5次の特徴で良い結
果になっている
高次の学習ができている
23
● すべてのデータで最高の精度
○ implicitとexplictを組み合わせることは大切
● ほとんどのネットワークのDeptは浅い
24
まとめ
● 高次なfeature interactionについてimplicitなものとexplicitなものを定義して、それを
組み合わせたxDeepFMを提案
● その中で高次でexplicitなfeature interactionを実現するためのCINを提案
● 実社会データセットでover performした
25
感想
● FMをこの機会にがっつり調べて勉強になった
○ これまで画像とかテキスト系の研究ばっかりみてたのでWide & Deepみたいなノリの話あんまり知ら
なくてそういうのもあるのかという気持ちになった
● Factorizationを明示的にやったほうがDeepでも良いのは意外
○ CNNは画像の近傍に重要な情報があるという事前知識をいれているし、RNNは語順が大事という知
識をいれている
○ カテゴリカルな変数は組み合わせが大事という情報をいれるのは十分に妥当性があるし、それで精度
があがるのは納得感がある
● もしデータと計算資源が無限にあればシンプルなDNNのほうが強くなったりするんだ
ろうか
26

Contenu connexe

Tendances

Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
 

Tendances (20)

自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention Network
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 

Similaire à [DL輪読会]xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems(KDD2018)

Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東
Hokuto Kagaya
 

Similaire à [DL輪読会]xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems(KDD2018) (16)

DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
 
SakataMoriLab GNN勉強会第一回資料
SakataMoriLab GNN勉強会第一回資料SakataMoriLab GNN勉強会第一回資料
SakataMoriLab GNN勉強会第一回資料
 
【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmenta...
【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware  Panoptic Segmenta...【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware  Panoptic Segmenta...
【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmenta...
 
[DL輪読会]Feature Interaction Interpretability: A Case for Explanining Ad-Recomm...
[DL輪読会]Feature Interaction Interpretability: A Case for Explanining Ad-Recomm...[DL輪読会]Feature Interaction Interpretability: A Case for Explanining Ad-Recomm...
[DL輪読会]Feature Interaction Interpretability: A Case for Explanining Ad-Recomm...
 
第14回 KAIM M5StickV(K210)をDNNアクセラレータとして使おうとした試み
第14回 KAIM M5StickV(K210)をDNNアクセラレータとして使おうとした試み第14回 KAIM M5StickV(K210)をDNNアクセラレータとして使おうとした試み
第14回 KAIM M5StickV(K210)をDNNアクセラレータとして使おうとした試み
 
組込向けDeep Learning最新技術の紹介 量子化テクニックとDorefaNetについて
組込向けDeep Learning最新技術の紹介量子化テクニックとDorefaNetについて組込向けDeep Learning最新技術の紹介量子化テクニックとDorefaNetについて
組込向けDeep Learning最新技術の紹介 量子化テクニックとDorefaNetについて
 
FPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAFPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGA
 
キャリア網の完全なソフトウェア制御化への取り組み (沖縄オープンデイズ 2017) / Telecommunication Infrastructure ...
キャリア網の完全なソフトウェア制御化への取り組み (沖縄オープンデイズ 2017) / Telecommunication Infrastructure ...キャリア網の完全なソフトウェア制御化への取り組み (沖縄オープンデイズ 2017) / Telecommunication Infrastructure ...
キャリア網の完全なソフトウェア制御化への取り組み (沖縄オープンデイズ 2017) / Telecommunication Infrastructure ...
 
デバイスコネクト対応機の弊社確認結果とご相談
デバイスコネクト対応機の弊社確認結果とご相談デバイスコネクト対応機の弊社確認結果とご相談
デバイスコネクト対応機の弊社確認結果とご相談
 
Fpgax20180217
Fpgax20180217Fpgax20180217
Fpgax20180217
 
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組みDeep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組み
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 
Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東
 
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
 
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
 
20180227_最先端のディープラーニング 研究開発を支えるGPU計算機基盤 「MN-1」のご紹介
20180227_最先端のディープラーニング 研究開発を支えるGPU計算機基盤 「MN-1」のご紹介20180227_最先端のディープラーニング 研究開発を支えるGPU計算機基盤 「MN-1」のご紹介
20180227_最先端のディープラーニング 研究開発を支えるGPU計算機基盤 「MN-1」のご紹介
 

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Dernier

Dernier (12)

Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

[DL輪読会]xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems(KDD2018)

  • 1. DEEP LEARNING JP [DL Papers] “xDeepFM: Combining Explict and Implicit Feature Interactions for Recommendation (KDD2018)” Yoshifumi Seki, Gunosy http://deeplearning.jp/
  • 2. 書誌情報 ● タイトル: xDeepFM: Combining Explict and Implicit Feature Interactions for Recommendation ● 著者: Jianxum Lian*1, Xiaohuan Zhou*1, Fuzheng Zhang*2, Zhongxia Chen*1, Xing Xie*2, Guangzhong Sun*1 ○ *1 University of Science and Technology of China ○ *2 Microsoft Research ● 投稿先 ○ KDD2018 ● 選定理由 ○ Factorization Machinesの深層学習周りでの発展に関心あり ○ Explict and Implicit Feature Interactionsというキーワードがよくわからなかったので。 2
  • 3. 今日の話 ● Factorization Machines is 何? ● DeepなFactorization Machinesの現状確認 ● 提案手法のコンセプト ● 提案手法 ○ CIN ○ xDeepFM ● 実験とその結果 ● まとめ 3
  • 4. Factorization Machines(FM) [S. Rendle, ICDM2010] ● 変数の交互作用を表現した回帰モデル ○ 例えば「男性」かつ「10代」といった特徴に重みをもたせたい ○ すべての組み合わせを学習させようとすると死ぬ ○ そこで、交互作用の重みを内積で表現するようにした ● Kaggleの広告コンペのChampionモデルとして何度か使われたことで広く知られる ようになった ● 一般にFMというとこの定義だが、これは厳密には2nd-order FMである ○ 2次の交互作用のみ扱っている ○ 高次の交互作用を扱うモデルも最近提案されている[Blondel+, NIPS2016] ■ 一方で3次程度までしか精度向上は確認できていない ■ ノイズの影響で高次ではきついと言われている[Xiao+, IJICAI2017] 4
  • 5. DeepなFactorization Machines ● Categorical変数のEmbedding (bit-wiseなfactorization) ○ Factorization-machine suppoerted Neural Network (FNN) [Zhang+, ECIR2016] ○ Deep Crossing Network (DCN) [Shan+, KDD2016] ○ Wide & Deep [Cheng+, arXiv:1606.07792 (2016)] ● vector-wiseなfactorization ○ Product-based Neural Network (PNN) [Qu+, ICDM2017] ○ DeepFM [Guo+, IJICAI2017] ● explicitな高次元のinteraction ○ Deep Cross Network (DCN) [Wang+, ADKDD2017] 5
  • 6. Factorization-machine suppoerted Neural Network (FNN) [Zhang+, ECIR2016] ● 特徴量がカテゴリカル変数のような形与えられた特に、各カテゴリごとにembedding をおこなう 6
  • 7. Deep Crossing Network (DCN) [Shan+, KDD2016] ● FNNとほぼ同じ。違いは上に積んでいるのがResNetであること。 ● 一方で引用数はFNNのほうが多い。FNNは57, DCNは38 ○ FNNがオープンデータで検証したのに対して、DCNはプライベートなデータで検証されていた。 7
  • 8. Wide & Deep [Cheng+, arXiv:1606.07792 (2016)] ● Wide (線形モデル) とDeepなモデルをそのままくっつけてる ○ TensorFlowに実装が載っている ● Deepなモデルは低次の特徴を学習しにくいので、くっつけてあげる ● (私見) データ少ない入力とかでも効きそう 8
  • 9. bit-wiseなfactorization ● これら3つのモデルは交互作用をDeep Learningのアーキテクチャが行ってくれてい るとしている ○ 変数A × 変数Bというような形ではなく、Embeddingしたベクトルの各次元の重み付け和を積み上げて いく形 ○ embedding + concatなので、どの値がどの変数からきたものか考慮されていない ● embeddingしたbit単位で交互作用を計算するため、bit-wiseなfactorizationと呼ぶ ○ これに対して、変数の情報を保持するものをvector-wiseなfactorizationと呼ぶ 9
  • 10. Product-based Neural Network (PNN) [Qu+, ICDM2017] ● 各特徴量をそれぞれembeddingした上で、単体で入力するものと、2次の組み合わ せで入力するものにわけている 10
  • 11. Product-based Neural Network (PNN) [Qu+, ICDM2017] 11 ● IPNN: inner product ● OPNN: outer product ● PNN*: inner + outer ● 明示的に2次の交互作用をDNNに入力したほうが良い結果になっている
  • 12. DeepFM [Guo+, IJICAI2017] ● PNNと違って、Factorizationの上にネットワークを積まない ● FactorizationはシンプルにFMの式と一緒(embed+backpropされるだけ) ● 別途でDNNを用意してつなげる (Wide & Deep) 12
  • 13. DeepFM [Guo+, IJICAI2017] ● PNNよりWide & Deep的なアーキテクチャのほうが良い精度になってる ○ つまりFactorizationの上に積むより、積まないほうがよい? ● bit-wiseな学習とvector-wiseな学習の組み合わせが重要? 13
  • 14. vector-wiseなfactorization ● vector-wise > bit-wiseという結果 ● 一方でvector-wiseでも積んで高次にしてもあまりよくならない? ○ PNNよりFMをwide & deepにしたほうが良くなってるの辛い ● 高次にするときにどこで高次にしているのかが明確ではない ○ implicitなhigh-order interaction ○ これをexplicitなものにできないか? 14
  • 15. Deep Cross Network (DCN) [Wang+, ADKDD2017] ● x0が各Layerに常にかかる => Attentionっぽさがある ● vectorizeはされていない 15
  • 16. Deep Cross Network (DCN) [Wang+, ADKDD2017] ● DCN (表ではDC), FNN (表ではDNN)と比較して改善している ○ 論文でW&Dと比較するって書いてあるのに結果では比較してない ● 各層をx_0とのスカラー積で表現できる ○ Pros: Feature Interactionを効率的に学習できる ○ Cons: x_0とのスカラー積という特殊な形にしか使えない ● bit-wiseなinteractionしかしてない 16
  • 17. 提案手法のコンセプト ● vector-wiseでexplicitなhigh-order interactionを実現する ○ vector-wise と bit-wise、explicit と implicitは異なる特徴をもつので、組み合わせたい ○ 現状ないのは、explicitでvector-wiseな手法 ● interactionが高次になっても、複雑性が指数的に増加しない ○ この発表では触れない 17
  • 18. Compressed Interaction Network (CIN) 18RNNっぽさがある
  • 19. Compressed Interaction Network (CIN) 19 ● CNNと類似しているともいえる ○ X^kとX^0の外積のテンソルZ^k+1を画像と考えると、W^kがフィルター ○ テンソルをフィルターを使ってデータ圧縮しているともいえる
  • 20. eXtreme Deep Factorization Machines (xDeepFM) ● Liner + CIN + DNNの組み合わせ ○ CIN: explicitな高次元インタラクション (vector-wise) ○ DNN: implicitな高次元インタラクション 20
  • 21. Experiments ● 3つの課題を検証したい ○ (1) CINは高次元のインタラクションを学習できているか? ○ (2) implicitとexplicitの組み合わせは有効か? ○ (3) xDeepFMのパラメータはどのようにチューニングするか? ■ この発表では触れない ● データセット ○ Criteo ■ 公開データ ○ Dianping ■ 中国のレストランレビューサイト、著者らが収集 ○ Bing News ■ 内部データ 21
  • 22. Baselines ● Logistic Regression (LR) ● Factorization Machines (FM) ● DNN ● PNN ● Wide & Deep ● DCN ● DeepFM 22
  • 23. ● シングルモデルでの比較 ● CINがほとんどでBest ○ 特にDianping, Bingで良い ● 特にBingでは5次の特徴で良い結 果になっている 高次の学習ができている 23
  • 25. まとめ ● 高次なfeature interactionについてimplicitなものとexplicitなものを定義して、それを 組み合わせたxDeepFMを提案 ● その中で高次でexplicitなfeature interactionを実現するためのCINを提案 ● 実社会データセットでover performした 25
  • 26. 感想 ● FMをこの機会にがっつり調べて勉強になった ○ これまで画像とかテキスト系の研究ばっかりみてたのでWide & Deepみたいなノリの話あんまり知ら なくてそういうのもあるのかという気持ちになった ● Factorizationを明示的にやったほうがDeepでも良いのは意外 ○ CNNは画像の近傍に重要な情報があるという事前知識をいれているし、RNNは語順が大事という知 識をいれている ○ カテゴリカルな変数は組み合わせが大事という情報をいれるのは十分に妥当性があるし、それで精度 があがるのは納得感がある ● もしデータと計算資源が無限にあればシンプルなDNNのほうが強くなったりするんだ ろうか 26