Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Sano hmm 20150512

8 327 vues

Publié le

hivemall meetup

Publié dans : Données & analyses
  • Soyez le premier à commenter

Sano hmm 20150512

  1. 1. ネット広告で機械学習 Hivemallの活用例 2015/05/12(火)19:00 第一回Hivemall Meetup
  2. 2. アジェンダ • 自己紹介 • FreakOut • 分析チームの紹介 • 機械学習 – Hivemallの活用例
  3. 3. 自己紹介 • 佐野正和(さのまさかず, @Masa_S3) • FreakOutのデータマイニングエンジニア • 5年くらいネット広告分野で分析業務を担当 • バックグラウンドは素粒子物理学
  4. 4. • FreakOut
  5. 5. FreakOut • ネット広告の会社です。 • 広告入札システムを提供しています。
  6. 6. ネット広告売買の世界:Real Time Bidding(RTB) • SSP(Supply-Side Platform)がimpressionのオークションを仕切って、 それに複数のDSP(Demand-Side Platform )がセリに参加するイメー ジ。 DSP1 DSP2 DSP3 SSP いくらで 配信す るの? ¥10 ¥30 ¥20 DSP2を配信 ユーザID, 広告サイズ等 を開示 6
  7. 7. DSP (Demand-Side Platform)とは 7 これまで 現在 広告枠 広告主 広告枠 メディア ユーザ 広告枠 ? 広告主のロジックでの買い付けが可能に ネット広告のパラダイムシフト 取引対象が、「広告枠」から「人」へ変化 手売りでの 広告販売 RTBによる 自動買い付け 広告枠
  8. 8. 50ms or die. フリークアウトのTechチームが掲げるミッション。 月間2200億のリクエスト、 その1つ1つに対して50msでレスポンスを返さないと、 事業そのものが成り立たない
  9. 9. 50msでやっていること 広告主側のロジックで、 必要な枠、必要な人、必要な瞬間だけ をリアルタイムに判定して入札 ↓ 入札ロジックの洗練が利益に直 結
  10. 10. 分析チームの紹介
  11. 11. 分析チームの紹介 • 5名+3名アルバイト(現時点) • FreakOutとM.T.Burn(スマホ向けアドネットワーク)の プロダクト改善 • 広告配信アルゴリズム改善のための分析に関わること全般 を担当 • メンバーは実装できることが必須。
  12. 12. 分析チームの紹介 • 使用言語は自由:よく使われているのは Python, Perl, C++ • 集計にはHiveを活用 • 機械学習などの論文を参考にモデルを実装 • 検証(オンライン・オフライン)を繰り返す • 必要に応じて集計ベースの仮説検証も実施
  13. 13. • 機械学習 – Hivemallの活用例
  14. 14. • FreakOutでは常時複数のアルゴリズムが実行・ 検証されています • 使用されているアルゴリズムの一例としてクリッ ク予測モデルを例にHivemallの活用例を紹介し ます
  15. 15. ロジックの一例:クリック予測モデル Hivemallのロジスティック回帰を活用 • 操作がとても簡単。 jarを読み込んですぐ使える • Hueからも使えるので、コーディングが得意ではない人も簡単 に使える • 大規模データに対して学習可能 • Hiveで学習から検証まで実行することができるようになり作業 効率が良い
  16. 16. • 学習用のログは直近数日分のimpression & click log • 学習時間は数時間程度
  17. 17. 学習器 Impression log click log Hivemallで学習 (ロジスティ回帰) Clickする確率 ユーザ 入札価格の決定 Feature - weight 実配信 Hiveの操作
  18. 18. 学習器 Impression log click log Hivemallで学習 (ロジスティ回帰) Clickする確率 検証 Hiveの操作 評価
  19. 19. ロジックの一例:クリック予測モデル 工夫した点 • amplifyを使うと処理の途中過程で学習データが10倍程度に なる(設定による)。 • オンプレ環境ではデータ容量を大きくできない • 使用容量が多いと特徴量の種類を増やすことも容易ではな い • 精度を落とさず容量を減らしたい
  20. 20. ロジックの一例:クリック予測モデル Subsamplingの導入 Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES] Negative Samples (impresion log)Positive Samples (click log)
  21. 21. ロジックの一例:クリック予測モデル Subsamplingの導入 Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES] Negative samples Positive samples Subsampling rate r(<1)でnegative sampleからサンプリング。 subsampling
  22. 22. 学習器 Impression log click log Hivemallで学習 (ロジスティ回帰) Clickする確率 ユーザ 入札価格の決定 Feature - weight 実配信 Hiveの操作 subsampling
  23. 23. ロジックの一例:クリック予測モデル • 学習データを作る部分でSubsamplingの導入 • Hive内の処理で完結するのでHivemallと合わせ て簡単に使うことができる 精度をほぼ変えずに消費リソースの削減を実現 • r=0.2 • 60-80%の消費リソース減少 • 学習時間も半分以下に
  24. 24. まとめ • Hivemallの利用は簡単 • 大規模データに対して機械学習が簡単にできます • Hive queryが使えれば複雑な実装をしなくてもよい

×