SlideShare a Scribd company logo
1 of 14
Download to read offline
KDD 2015 勉強会
関東会場
E-commerce in your inbox:
Product Recommendations at scale
Akira Saigo
2015/8/29
概要
● Yahooメールについて、Emailのレシートに記載された内容を用いて、購買履歴
を特定して広告ターゲティングするシステムを開発した
● メールの9割が機械による、その内22%がオンラインショッピング(多くのメール
はコマーシャル目的)
● 29 million users、172 e-commerce website実験において、メールにおける広
告のCTRが9%改善、モデルはSGを拡張したNeural Language Model
● テストを経て、商用に活用している(2014~)
2
関連研究 & motivation
● 広告の関連研究では、広告主、パブリッシャー、ユーザーなど様々な視点で研
究が行われている
○ 見ているパブリッシャー側(サイト)の傾向で購買傾向を予測する
■ [9]N. Djuric., In IEEE International Conference on Data Mining,
Dec 2014.
● ただしpurchase intent しか分からない->ダイレクトな広告実施をしたい
● メールに限らず、レコメンデーションの研究も積極的
○ 行動が類似するユーザーから最も興味があるであろう商材を予測
■ [1]G. Linden, B. Smith, and J. York. Amazon.com
recommendations: Item-to-item collaborative filtering. IEEE
Internet Computing, 7(1):76–80, Jan. 2003.
● emailのレシートを読み込むことにより、数百の異なったe-commerceのデータか
らより精度の高い予測が可能
3
model : prod2vec
● Neural Language model
○ 古典的な単純な言語モデルでは限界がある
○ SGが提案されて近年、popularになってきた
○ [24]T. Mikolov, Distributed representations of
words and phrases and their
compositionality. In NIPS, pages 3111–3119,
2013.
○ 言語分野を超えて、グラフ構造内のノードなど
様々な応用がある
● 商用のレコメンデーションに使えないか?
● prod2vecの提案(fig2)
● SGを購入履歴を文、商品を単語として扱う
● 本研究の1つ目のモデルとして、商品購買すべてを
別々に考えるモデルを提案
4
model : prod2vec
● Objective function
○ 下記の対数尤度を目的関数として最大化したい
● Soft-max function
○ 上記のP(周辺商品の条件付き確率)は下記のソフトマックス関
数で定義され、これに従って入出力ベクトルV,V’を最適化する
○ 実際はSGDで求めたいところだが、計算を緩和するためネガ
ティブサンプリングで解いている[24]
5
model : bagged-prod2vec
● 2つ目は同じレシート(メール)上の購買を考慮した提案モデル(bagged-prod2vec
model)
● prod2vecは商品の同時購買を考慮できないのでSGを拡張したモデルを提案
● 目的関数は式(3.3)に定義
● emailの履歴はs、m:mailの数、k:商品の数
6
## product - product predictive
○ TopKとClusterの2つの方法で実施、どちらも普通に上位のアイテムを推薦しているだけ、説明は割愛
User to product predictive model
● 3番目は、product間だけでなく、userとproduct間の関係を考慮したモデル
● Googleのparagraph2vecに影響されて用いている
○ [21]Q. V. Le and T. Mikolov. Distributed representations of sentences
and documents. arXiv preprint arXiv:1405.4053, 2014.
● モデルの構造は下記のfig4、prod2vecの逆の構造
● 目的関数は2つの対数尤度の和を取る形
7
周辺商品とユーザー
の潜在ベクトルからi
番目の商品の確率を
をアウトプット
購入履歴からユー
ザーの潜在ベクトル
の確率をアウトプット
データ
● 使用データ
○ March to October 2014
○ Extracted product names and purchase times
○ 280.7M purchases from 172 commercial domains made by 29M users
○ 2.1M unique bought products priced over $5
● 基礎集計
○ ユーザーは女性が多い
○ 平均購入価格は男性が高い
● 年代、地域による違い
○ 平均購入価格、購入数
○ コーホート効果の有無がある
  と述べているが深い考察は無し
8
Experiments : popular product
● オフラインテストでの検証
● popular product
○ パフォーマンスの良い手法
○ cold start にも対処できる
● 過去dataは5日、検証期間は少なくとも3日
○ やや当たり前の結果
● セグメント毎の検証、過去データは5日に固定
● 性別、年代、地域情報(州)によるセグメントは
popular productsは全体よりも良い結果が得
られている
9
Experiments : Recommending predicted products
● オフラインテストでの検証
○ prod2vec-topK
○ bagged-prod2vec-topK
■ topKの商品を単純に並び替え
○ bagged-prod2vec-cluster
■ 商品iが所属するクラスターと遷
移するクラスター内で商品を並
び替え
○ user2vec
○ co-purchase
10
Experiments : Bucket results
● オンラインテスト Yahoo Mail上でのA/Bテスト
● 5%のユーザーを対象
● Control/Popular/Predictedで比較
○ 先の実験で最も良かったbagged-
prod2vec-clusterを採用
● CTRはPopular,Predicted共に良いがわずかに
Predictedが良い。YR(CVR)はPredictedが良
い。興味によりクリックさせただけでなく、強く商
品推薦のタスクを実現している
● 時間経過による評価でも、PopularはCTRが下
落している。モデル更新によるCTR改善が大きく
観察される
11
System deployment
● ファイルシステムはHDFS
● 独自のストレージシステム 分散KVS(similar to Cassandra)
● ユーザープロファイル(商品情報)は時間でUPDATE
● ユーザーの購買データは60日間保持
● 人気商品は3日ごとに再計算、過去5日のデータを利用
● 商品推薦の広告はjsとHTMLで実装
● アフィリエイトパートナーから500msのSLA
● etc
12
Conclusion
● Yahoo Mailにて商用adにおける大規模商品推薦を実施
● Neural language modelを商品推薦に用いた
○ SGを用いたモデル、及びその拡張
● 複数のモデルをオフラインでテスト
● 性能がよかったモデル候補をオンラインテストにかけ、最後に商用環境にローン
チを行った
● 今後も継続し、view,click,cv等のデータを用い推薦システムを改善していく予定
13
参考
本論文に関して
http://astro.temple.edu/~tuc17157/pdfs/grbovic2015kddB_slides.pdf
http://astro.temple.edu/~tua95067/grbovic_mail_kdd.pdf
W2V,SGに関して
http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-
phrases-and-their-compositionality.pdf
http://arxiv.org/pdf/1301.3781.pdf
http://cs.stanford.edu/~quocle/paragraph_vector.pdf
http://arxiv.org/pdf/1411.2738v1.pdf
その他(メールや広告、Yahoo関係など)
http://astro.temple.edu/~tua95067/grbovic_cikm.pdf
http://astro.temple.edu/~tua95067/grbovic_www.pdf
14

More Related Content

Similar to Kdd2015 study e commerce in your inbox- product recommendations at scale

【IMJ】パネルディスカッション|顧客ロイヤルティ施策とデータドリブンマーケティング(I・CON2014)
【IMJ】パネルディスカッション|顧客ロイヤルティ施策とデータドリブンマーケティング(I・CON2014)【IMJ】パネルディスカッション|顧客ロイヤルティ施策とデータドリブンマーケティング(I・CON2014)
【IMJ】パネルディスカッション|顧客ロイヤルティ施策とデータドリブンマーケティング(I・CON2014)IMJ Corporation
 
マーケターが把握しておきたいアプリ企画~開発まで - Yappli(ヤプリ)
マーケターが把握しておきたいアプリ企画~開発まで - Yappli(ヤプリ)マーケターが把握しておきたいアプリ企画~開発まで - Yappli(ヤプリ)
マーケターが把握しておきたいアプリ企画~開発まで - Yappli(ヤプリ)simakoo1
 
宣伝会議サミット2014
宣伝会議サミット2014 宣伝会議サミット2014
宣伝会議サミット2014 Vizury Japan
 
45分で理解する_マーケティング・システム入門_斉藤之雄
45分で理解する_マーケティング・システム入門_斉藤之雄45分で理解する_マーケティング・システム入門_斉藤之雄
45分で理解する_マーケティング・システム入門_斉藤之雄Yukio Saito
 
【Saleshub用】カウミー説明資料-ver4.pdf
【Saleshub用】カウミー説明資料-ver4.pdf【Saleshub用】カウミー説明資料-ver4.pdf
【Saleshub用】カウミー説明資料-ver4.pdfssuser7a8771
 
Webセントリックマーケティング
WebセントリックマーケティングWebセントリックマーケティング
WebセントリックマーケティングHirohiko Sasaki
 
業界での勝ち組になるためのビッグデータの取り組み~ここから始めよう!~
業界での勝ち組になるためのビッグデータの取り組み~ここから始めよう!~業界での勝ち組になるためのビッグデータの取り組み~ここから始めよう!~
業界での勝ち組になるためのビッグデータの取り組み~ここから始めよう!~IBM Systems @ IBM Japan, Ltd.
 
先進事例に学ぶ! 独自のメソッドによる ソーシャル活用の本質と考え方
先進事例に学ぶ! 独自のメソッドによる ソーシャル活用の本質と考え方先進事例に学ぶ! 独自のメソッドによる ソーシャル活用の本質と考え方
先進事例に学ぶ! 独自のメソッドによる ソーシャル活用の本質と考え方Hottolink
 
DI.コンサルティング&プランニング
DI.コンサルティング&プランニングDI.コンサルティング&プランニング
DI.コンサルティング&プランニングDigital Intelligence Inc.
 
CMS学会 第三回 研究報告
CMS学会 第三回 研究報告CMS学会 第三回 研究報告
CMS学会 第三回 研究報告loftwork
 
WebEffective overview 2012 japanese
WebEffective overview 2012 japaneseWebEffective overview 2012 japanese
WebEffective overview 2012 japaneseYoichiro Takehora
 
エンゲージメント・ダッシュボード
エンゲージメント・ダッシュボードエンゲージメント・ダッシュボード
エンゲージメント・ダッシュボードEngagement First inc.
 
インターネット通販のソーシャルメディア/レコメンド/フラッシュマーケティング活用
インターネット通販のソーシャルメディア/レコメンド/フラッシュマーケティング活用インターネット通販のソーシャルメディア/レコメンド/フラッシュマーケティング活用
インターネット通販のソーシャルメディア/レコメンド/フラッシュマーケティング活用玉腰泰三 個人事務所
 
Webエンゲージメントセミナー canon 20100902セミナー資料
Webエンゲージメントセミナー canon 20100902セミナー資料Webエンゲージメントセミナー canon 20100902セミナー資料
Webエンゲージメントセミナー canon 20100902セミナー資料loftwork
 
イマドキの改善!データ分析SDK導入のポイントとAI活用最新事例 / GTMF2019
イマドキの改善!データ分析SDK導入のポイントとAI活用最新事例 / GTMF2019イマドキの改善!データ分析SDK導入のポイントとAI活用最新事例 / GTMF2019
イマドキの改善!データ分析SDK導入のポイントとAI活用最新事例 / GTMF2019Game Tools & Middleware Forum
 
Learning kotler's basic marketing in one hour
Learning kotler's basic marketing in one hourLearning kotler's basic marketing in one hour
Learning kotler's basic marketing in one hourKoichi Okubo
 
Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]Shigeru Kishikawa
 

Similar to Kdd2015 study e commerce in your inbox- product recommendations at scale (20)

【IMJ】パネルディスカッション|顧客ロイヤルティ施策とデータドリブンマーケティング(I・CON2014)
【IMJ】パネルディスカッション|顧客ロイヤルティ施策とデータドリブンマーケティング(I・CON2014)【IMJ】パネルディスカッション|顧客ロイヤルティ施策とデータドリブンマーケティング(I・CON2014)
【IMJ】パネルディスカッション|顧客ロイヤルティ施策とデータドリブンマーケティング(I・CON2014)
 
Tokyowebmining2012
Tokyowebmining2012Tokyowebmining2012
Tokyowebmining2012
 
マーケターが把握しておきたいアプリ企画~開発まで - Yappli(ヤプリ)
マーケターが把握しておきたいアプリ企画~開発まで - Yappli(ヤプリ)マーケターが把握しておきたいアプリ企画~開発まで - Yappli(ヤプリ)
マーケターが把握しておきたいアプリ企画~開発まで - Yappli(ヤプリ)
 
宣伝会議サミット2014
宣伝会議サミット2014 宣伝会議サミット2014
宣伝会議サミット2014
 
45分で理解する_マーケティング・システム入門_斉藤之雄
45分で理解する_マーケティング・システム入門_斉藤之雄45分で理解する_マーケティング・システム入門_斉藤之雄
45分で理解する_マーケティング・システム入門_斉藤之雄
 
【Saleshub用】カウミー説明資料-ver4.pdf
【Saleshub用】カウミー説明資料-ver4.pdf【Saleshub用】カウミー説明資料-ver4.pdf
【Saleshub用】カウミー説明資料-ver4.pdf
 
Webセントリックマーケティング
WebセントリックマーケティングWebセントリックマーケティング
Webセントリックマーケティング
 
業界での勝ち組になるためのビッグデータの取り組み~ここから始めよう!~
業界での勝ち組になるためのビッグデータの取り組み~ここから始めよう!~業界での勝ち組になるためのビッグデータの取り組み~ここから始めよう!~
業界での勝ち組になるためのビッグデータの取り組み~ここから始めよう!~
 
先進事例に学ぶ! 独自のメソッドによる ソーシャル活用の本質と考え方
先進事例に学ぶ! 独自のメソッドによる ソーシャル活用の本質と考え方先進事例に学ぶ! 独自のメソッドによる ソーシャル活用の本質と考え方
先進事例に学ぶ! 独自のメソッドによる ソーシャル活用の本質と考え方
 
DI.コンサルティング&プランニング
DI.コンサルティング&プランニングDI.コンサルティング&プランニング
DI.コンサルティング&プランニング
 
CMS学会 第三回 研究報告
CMS学会 第三回 研究報告CMS学会 第三回 研究報告
CMS学会 第三回 研究報告
 
WebEffective overview 2012 japanese
WebEffective overview 2012 japaneseWebEffective overview 2012 japanese
WebEffective overview 2012 japanese
 
Jmrx6月30日【日産 配信用】
Jmrx6月30日【日産 配信用】Jmrx6月30日【日産 配信用】
Jmrx6月30日【日産 配信用】
 
エンゲージメント・ダッシュボード
エンゲージメント・ダッシュボードエンゲージメント・ダッシュボード
エンゲージメント・ダッシュボード
 
インターネット通販のソーシャルメディア/レコメンド/フラッシュマーケティング活用
インターネット通販のソーシャルメディア/レコメンド/フラッシュマーケティング活用インターネット通販のソーシャルメディア/レコメンド/フラッシュマーケティング活用
インターネット通販のソーシャルメディア/レコメンド/フラッシュマーケティング活用
 
Webエンゲージメントセミナー canon 20100902セミナー資料
Webエンゲージメントセミナー canon 20100902セミナー資料Webエンゲージメントセミナー canon 20100902セミナー資料
Webエンゲージメントセミナー canon 20100902セミナー資料
 
Digital Jungle Credentials (日本)
Digital Jungle Credentials (日本)Digital Jungle Credentials (日本)
Digital Jungle Credentials (日本)
 
イマドキの改善!データ分析SDK導入のポイントとAI活用最新事例 / GTMF2019
イマドキの改善!データ分析SDK導入のポイントとAI活用最新事例 / GTMF2019イマドキの改善!データ分析SDK導入のポイントとAI活用最新事例 / GTMF2019
イマドキの改善!データ分析SDK導入のポイントとAI活用最新事例 / GTMF2019
 
Learning kotler's basic marketing in one hour
Learning kotler's basic marketing in one hourLearning kotler's basic marketing in one hour
Learning kotler's basic marketing in one hour
 
Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]
 

Kdd2015 study e commerce in your inbox- product recommendations at scale

  • 1. KDD 2015 勉強会 関東会場 E-commerce in your inbox: Product Recommendations at scale Akira Saigo 2015/8/29
  • 2. 概要 ● Yahooメールについて、Emailのレシートに記載された内容を用いて、購買履歴 を特定して広告ターゲティングするシステムを開発した ● メールの9割が機械による、その内22%がオンラインショッピング(多くのメール はコマーシャル目的) ● 29 million users、172 e-commerce website実験において、メールにおける広 告のCTRが9%改善、モデルはSGを拡張したNeural Language Model ● テストを経て、商用に活用している(2014~) 2
  • 3. 関連研究 & motivation ● 広告の関連研究では、広告主、パブリッシャー、ユーザーなど様々な視点で研 究が行われている ○ 見ているパブリッシャー側(サイト)の傾向で購買傾向を予測する ■ [9]N. Djuric., In IEEE International Conference on Data Mining, Dec 2014. ● ただしpurchase intent しか分からない->ダイレクトな広告実施をしたい ● メールに限らず、レコメンデーションの研究も積極的 ○ 行動が類似するユーザーから最も興味があるであろう商材を予測 ■ [1]G. Linden, B. Smith, and J. York. Amazon.com recommendations: Item-to-item collaborative filtering. IEEE Internet Computing, 7(1):76–80, Jan. 2003. ● emailのレシートを読み込むことにより、数百の異なったe-commerceのデータか らより精度の高い予測が可能 3
  • 4. model : prod2vec ● Neural Language model ○ 古典的な単純な言語モデルでは限界がある ○ SGが提案されて近年、popularになってきた ○ [24]T. Mikolov, Distributed representations of words and phrases and their compositionality. In NIPS, pages 3111–3119, 2013. ○ 言語分野を超えて、グラフ構造内のノードなど 様々な応用がある ● 商用のレコメンデーションに使えないか? ● prod2vecの提案(fig2) ● SGを購入履歴を文、商品を単語として扱う ● 本研究の1つ目のモデルとして、商品購買すべてを 別々に考えるモデルを提案 4
  • 5. model : prod2vec ● Objective function ○ 下記の対数尤度を目的関数として最大化したい ● Soft-max function ○ 上記のP(周辺商品の条件付き確率)は下記のソフトマックス関 数で定義され、これに従って入出力ベクトルV,V’を最適化する ○ 実際はSGDで求めたいところだが、計算を緩和するためネガ ティブサンプリングで解いている[24] 5
  • 6. model : bagged-prod2vec ● 2つ目は同じレシート(メール)上の購買を考慮した提案モデル(bagged-prod2vec model) ● prod2vecは商品の同時購買を考慮できないのでSGを拡張したモデルを提案 ● 目的関数は式(3.3)に定義 ● emailの履歴はs、m:mailの数、k:商品の数 6 ## product - product predictive ○ TopKとClusterの2つの方法で実施、どちらも普通に上位のアイテムを推薦しているだけ、説明は割愛
  • 7. User to product predictive model ● 3番目は、product間だけでなく、userとproduct間の関係を考慮したモデル ● Googleのparagraph2vecに影響されて用いている ○ [21]Q. V. Le and T. Mikolov. Distributed representations of sentences and documents. arXiv preprint arXiv:1405.4053, 2014. ● モデルの構造は下記のfig4、prod2vecの逆の構造 ● 目的関数は2つの対数尤度の和を取る形 7 周辺商品とユーザー の潜在ベクトルからi 番目の商品の確率を をアウトプット 購入履歴からユー ザーの潜在ベクトル の確率をアウトプット
  • 8. データ ● 使用データ ○ March to October 2014 ○ Extracted product names and purchase times ○ 280.7M purchases from 172 commercial domains made by 29M users ○ 2.1M unique bought products priced over $5 ● 基礎集計 ○ ユーザーは女性が多い ○ 平均購入価格は男性が高い ● 年代、地域による違い ○ 平均購入価格、購入数 ○ コーホート効果の有無がある   と述べているが深い考察は無し 8
  • 9. Experiments : popular product ● オフラインテストでの検証 ● popular product ○ パフォーマンスの良い手法 ○ cold start にも対処できる ● 過去dataは5日、検証期間は少なくとも3日 ○ やや当たり前の結果 ● セグメント毎の検証、過去データは5日に固定 ● 性別、年代、地域情報(州)によるセグメントは popular productsは全体よりも良い結果が得 られている 9
  • 10. Experiments : Recommending predicted products ● オフラインテストでの検証 ○ prod2vec-topK ○ bagged-prod2vec-topK ■ topKの商品を単純に並び替え ○ bagged-prod2vec-cluster ■ 商品iが所属するクラスターと遷 移するクラスター内で商品を並 び替え ○ user2vec ○ co-purchase 10
  • 11. Experiments : Bucket results ● オンラインテスト Yahoo Mail上でのA/Bテスト ● 5%のユーザーを対象 ● Control/Popular/Predictedで比較 ○ 先の実験で最も良かったbagged- prod2vec-clusterを採用 ● CTRはPopular,Predicted共に良いがわずかに Predictedが良い。YR(CVR)はPredictedが良 い。興味によりクリックさせただけでなく、強く商 品推薦のタスクを実現している ● 時間経過による評価でも、PopularはCTRが下 落している。モデル更新によるCTR改善が大きく 観察される 11
  • 12. System deployment ● ファイルシステムはHDFS ● 独自のストレージシステム 分散KVS(similar to Cassandra) ● ユーザープロファイル(商品情報)は時間でUPDATE ● ユーザーの購買データは60日間保持 ● 人気商品は3日ごとに再計算、過去5日のデータを利用 ● 商品推薦の広告はjsとHTMLで実装 ● アフィリエイトパートナーから500msのSLA ● etc 12
  • 13. Conclusion ● Yahoo Mailにて商用adにおける大規模商品推薦を実施 ● Neural language modelを商品推薦に用いた ○ SGを用いたモデル、及びその拡張 ● 複数のモデルをオフラインでテスト ● 性能がよかったモデル候補をオンラインテストにかけ、最後に商用環境にローン チを行った ● 今後も継続し、view,click,cv等のデータを用い推薦システムを改善していく予定 13