Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
DMPの仕組み
株式会社adingo
@suzu_̲v
⾃自⼰己紹介
•  すずけんと申します。
•  2012年年4⽉月~∼  株式会社adingo

–  DMPの設計・開発、及び、データの解析業務に携
わっています。
–  http://cosmi.io

•  その前は⼤大学院でセマンティッ...
アジェンダ
•  DMPとは何か
–  DMPの役割

•  DMPの仕組み  –  cosmiを⽀支える技術
–  役割
–  アーキテクチャ

2014/01/15

CAアドテクスタジオ  &  VG合同勉強会
DMPとは何か
•  複数チャネルからのデータをまとめ、集計し、
活⽤用するためのツール
–  横断的に効果を検証する
–  ユーザの⾏行行動を分析し、広告配信に利利⽤用する

•  単にディスプレイ広告の領領域だけではないと
ころでも利利⽤用...
シンプルに⾔言うと
⼀一⾏行行⼀一⾏行行のログから
如何に価値を⽣生み出すか
ということを仕事にしています。
ユーザのセグメンテーション
趣味

性別

年年齢

趣向

職業
2014/01/15

どのようにセグメントしていくか?
CAアドテクスタジオ  &  VG合同勉強会
⾏行行動ログ

ECサイトA
商品B購⼊入ページ
Cookie
Dmp_̲id=hoge

サイトid=サイトA
商品id=商品B
⾏行行動=購⼊入
Cookie  dmpid=hoge
リファラ
Ipアドレス
Etc.

DMP

2014/...
⾏行行動ログ

ECサイトA
商品B購⼊入ページ
Cookie
Dmp_̲id=hoge

サイトid=サイトA
商品id=商品B
⾏行行動=購⼊入
Cookie  dmpid=hoge
リファラ
Ipアドレス
Etc.

ルール)
サイトAで...
⾏行行動ログ

ECサイトA
商品B購⼊入ページ
Cookie
Dmp_̲id=hoge

サイトid=サイトA
商品id=商品B
⾏行行動=購⼊入
Cookie  dmpid=hoge
リファラ
Ipアドレス
Etc.

ルール)
サイトAで...
cosmiを⽀支える技術について
cosmiの仕事
•  データ収集

–  様々なログを取り扱うコレクタ
–  Fluentdによる回収・転送

•  データ解析

–  Hadoopによるバッチ処理理
–  ストリームによるデータ処理理

•  データ利利⽤用

–  当該...
ログ周りの管理理の話
•  広告ログ解析基盤にFluentdを使っている
話  -‐‑‒  すずけんメモ
–  http://suzuken.hatenablog.jp/entry/
2013/12/14/195406

2014/01/15
...
ログの観察
•  短期間のログのモニタリングには
ElasticSearch  +  Kibana3を利利⽤用

–  例例)  特定のhostにおけるipアドレスのtop-‐‑‒k

•  アドホックなログの観察には
GrowthForeca...
蓄積したデータを観察する。メトリクス
に基いた定常的分析と、アドホックな分
析とを⾏行行なう。

検討

ユーザの⾏行行動データや関連
データを収集。トラッキング
を⾏行行なう。様々なチャネルか
らのデータを着実に蓄積する。

計測

仮説
施...
データストアの使い分け
•  S3

–  source  of  truth
–  すべてのログの保存  場所

•  DynamoDB

–  ベーシックなターゲティング
–  容易易なスループットコントロール

•  MongoDB

–...
http

⾏行行動ログコレクタ(Web)

EC2

…

EC2

EC2

社内⽤用管理理系統

aggregator  *  2

GrowthForecast

ログモニタリングストア
(ElasticSearch)

cron
S3...
細かい⼯工夫
•  EMRクラスタが落落ちてもデータは残る
–  S3に元のデータが残している

•  ElasticSearchのログ保持は短いスパンのものに絞る

–  種類によるが現在は1ノード100GB程度度を⽬目安にしている

•  ...
DevOps的なこと
•  デプロイはJenkins  +  fabric  +  make

–  make  installでどのapplicationもデプロイで
きるようになっている
–  各⾃自の開発環境も同様

•  AMIは弊社イ...
⼤大事なこと:  とにかく観察
•  観察からしか仮説は⽣生まれない
•  ⼤大きいデータでも、⼩小さいデータでも、⼤大事なこ
とは意味あるデータを⾒見見つけ、洗い出し、価値に
つなげること
•  なので、⼿手を替え、⼿手段を変える
–  Hi...
今後検証したいこと
•  td-‐‑‒agentの監視をより詳細に

–  Treasure  Data  Monitoring  Service

•  ElasticSearchのスケール
–  EBSの限界  1TB

•  ストリーム処...
まとめ
•  DMPはいい感じにログを整理理してモニタ
リングして利利⽤用できるようにするツール
です
•  cosmiではAWSを活⽤用しています
•  なるべく⼿手間と費⽤用をかけずに運⽤用でき
るように⼯工夫していますが、苦労はしま
す
...
参考資料料
cosmiにおける解析環境について
•  JenkinsとHadoopを利利⽤用した継続的デー
タ解析環境の構築

–  http://www.slideshare.net/suzuken/
jenkinshadoop
–  昨年年のad:te...
DMPに関するwhite  paper
•  Data  Management  Platforms  Poised  to  Become  
Scalable  Solution  to  ʻ‘Big  Dataʼ’  Challenges...
Prochain SlideShare
Chargement dans…5
×
Prochain SlideShare
ATARA オンラインアトリビューション概要資料
Suivant
Télécharger pour lire hors ligne et voir en mode plein écran

42

Partager

Télécharger pour lire hors ligne

DMPの仕組み

Télécharger pour lire hors ligne

2014/01/15に行われたCAアドテクスタジオ x VOYAGEGROUP 技術交流会での発表資料です。

DMPの仕組み

  1. 1. DMPの仕組み 株式会社adingo @suzu_̲v
  2. 2. ⾃自⼰己紹介 •  すずけんと申します。 •  2012年年4⽉月~∼  株式会社adingo –  DMPの設計・開発、及び、データの解析業務に携 わっています。 –  http://cosmi.io •  その前は⼤大学院でセマンティックWebと⼈人⼯工知 能の研究をしていました。 #ajiting  #sicp  #wakateweb  #hive  #R #php  #dmp  #aws  #voyagegroup twitter:  @suzu_̲v http://suzuken.hatenablog.jp 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  3. 3. アジェンダ •  DMPとは何か –  DMPの役割 •  DMPの仕組み  –  cosmiを⽀支える技術 –  役割 –  アーキテクチャ 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  4. 4. DMPとは何か •  複数チャネルからのデータをまとめ、集計し、 活⽤用するためのツール –  横断的に効果を検証する –  ユーザの⾏行行動を分析し、広告配信に利利⽤用する •  単にディスプレイ広告の領領域だけではないと ころでも利利⽤用されるようになってきています。 –  The  Data  Management  Platform:  Foundation   for  Right-‐‑‒Time  Customer  Engagement •  http://www.iab.net/DataManagementPlatforms   2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  5. 5. シンプルに⾔言うと ⼀一⾏行行⼀一⾏行行のログから 如何に価値を⽣生み出すか ということを仕事にしています。
  6. 6. ユーザのセグメンテーション 趣味 性別 年年齢 趣向 職業 2014/01/15 どのようにセグメントしていくか? CAアドテクスタジオ  &  VG合同勉強会
  7. 7. ⾏行行動ログ ECサイトA 商品B購⼊入ページ Cookie Dmp_̲id=hoge サイトid=サイトA 商品id=商品B ⾏行行動=購⼊入 Cookie  dmpid=hoge リファラ Ipアドレス Etc. DMP 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  8. 8. ⾏行行動ログ ECサイトA 商品B購⼊入ページ Cookie Dmp_̲id=hoge サイトid=サイトA 商品id=商品B ⾏行行動=購⼊入 Cookie  dmpid=hoge リファラ Ipアドレス Etc. ルール) サイトAで商品Bを購⼊入したユーザは セグメントSとする。 DMP Dmp_̲id:  hogeさんはセグメントSに属する。 セグメントDB 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  9. 9. ⾏行行動ログ ECサイトA 商品B購⼊入ページ Cookie Dmp_̲id=hoge サイトid=サイトA 商品id=商品B ⾏行行動=購⼊入 Cookie  dmpid=hoge リファラ Ipアドレス Etc. ルール) サイトAで商品Bを購⼊入したユーザは セグメントSとする。 2回⽬目の訪問 サイトB 2014/01/15 Dmp_̲id:  hogeさんはセグメントSに属する。 DSP:  商品Bを買ったユーザなら「この 商品Bを買ったユーザはこんな商品も 買っています」バナーなら効果⾼高そう DSP DMP セグメントDB DMP:  ユーザhogeはセグメントSです CAアドテクスタジオ  &  VG合同勉強会
  10. 10. cosmiを⽀支える技術について
  11. 11. cosmiの仕事 •  データ収集 –  様々なログを取り扱うコレクタ –  Fluentdによる回収・転送 •  データ解析 –  Hadoopによるバッチ処理理 –  ストリームによるデータ処理理 •  データ利利⽤用 –  当該ブラウザが特定のセグメントに属してい るかを返す 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  12. 12. ログ周りの管理理の話 •  広告ログ解析基盤にFluentdを使っている 話  -‐‑‒  すずけんメモ –  http://suzuken.hatenablog.jp/entry/ 2013/12/14/195406 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  13. 13. ログの観察 •  短期間のログのモニタリングには ElasticSearch  +  Kibana3を利利⽤用 –  例例)  特定のhostにおけるipアドレスのtop-‐‑‒k •  アドホックなログの観察には GrowthForecastを利利⽤用 –  data-‐‑‒counter,  flow-‐‑‒counter •  ⻑⾧長期間集計はS3  +  EMRのMapReduceで。 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  14. 14. 蓄積したデータを観察する。メトリクス に基いた定常的分析と、アドホックな分 析とを⾏行行なう。 検討 ユーザの⾏行行動データや関連 データを収集。トラッキング を⾏行行なう。様々なチャネルか らのデータを着実に蓄積する。 計測 仮説 施策 2014/01/15 仮説を元に施策を実⾏行行する。 次の収集のためのデザイン をする。 CAアドテクスタジオ  &  VG合同勉強会 データに基づき、 仮説をたてる。
  15. 15. データストアの使い分け •  S3 –  source  of  truth –  すべてのログの保存  場所 •  DynamoDB –  ベーシックなターゲティング –  容易易なスループットコントロール •  MongoDB –  多様なデータの持ち⽅方が可能 –  クライアントごとの要件にフィットさせやすい •  ElasticSearch –  短期間のログモニタリング 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  16. 16. http ⾏行行動ログコレクタ(Web) EC2 … EC2 EC2 社内⽤用管理理系統 aggregator  *  2 GrowthForecast ログモニタリングストア (ElasticSearch) cron S3 DynamoDB EC2 Amazon Elastic MapReduce 2014/01/15 オーディエンスデータDB (MongoDB) CAアドテクスタジオ  &  VG合同勉強会 EC2 … オーディエンスデータ Web  API EC2
  17. 17. 細かい⼯工夫 •  EMRクラスタが落落ちてもデータは残る –  S3に元のデータが残している •  ElasticSearchのログ保持は短いスパンのものに絞る –  種類によるが現在は1ノード100GB程度度を⽬目安にしている •  aggregatorノードはデータ収集サーバからラウンド ロビンで転送している –  primary  /  secondary構成を取るべき場⾯面もあるが、その ような処理理が必要のないように調整している –  aggregatorノードのscale  upが可能に •  データ収集サーバではファイルシステムからのin_̲tail でのみinputしている。 –  fluentdが落落ちた場合も最悪cronでs3に転送すればなんと かなる 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  18. 18. DevOps的なこと •  デプロイはJenkins  +  fabric  +  make –  make  installでどのapplicationもデプロイで きるようになっている –  各⾃自の開発環境も同様 •  AMIは弊社インフラ部⾨門で作成したものを 利利⽤用 •  ミドルウェア類はpuppetで管理理 •  全体の8割のサービスはelasticになってる –  MongoDB… 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  19. 19. ⼤大事なこと:  とにかく観察 •  観察からしか仮説は⽣生まれない •  ⼤大きいデータでも、⼩小さいデータでも、⼤大事なこ とは意味あるデータを⾒見見つけ、洗い出し、価値に つなげること •  なので、⼿手を替え、⼿手段を変える –  Hiveでメトリクスを意識識した中間データを作成 –  Rで回帰分析,  Cytoscapeでネットワーク分析 –  GrowthForecastで常に変化を観察する –  ElasticSearchで気になる指標をさっと抽出する •  今あるデータからわかることを明確にすること •  どんな⼿手間をかければもう少し良良いデータが取れ るのかを伝えられるようにすること 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  20. 20. 今後検証したいこと •  td-‐‑‒agentの監視をより詳細に –  Treasure  Data  Monitoring  Service •  ElasticSearchのスケール –  EBSの限界  1TB •  ストリーム処理理でできることを増やす –  単純なexecやexec_̲filterではなく、集合演算をストリームでや りやすくする –  Amazon  Kinesis •  EMR以外の数100TBオーダを分析⼿手段 –  EMRのalive運⽤用、クエリ⽤用クラスタ –  Presto –  シームレスなImpala利利⽤用 •  s3のファイルのindexをDynamoDBにもっておいていい感じ に参照する仕組み 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  21. 21. まとめ •  DMPはいい感じにログを整理理してモニタ リングして利利⽤用できるようにするツール です •  cosmiではAWSを活⽤用しています •  なるべく⼿手間と費⽤用をかけずに運⽤用でき るように⼯工夫していますが、苦労はしま す 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  22. 22. 参考資料料
  23. 23. cosmiにおける解析環境について •  JenkinsとHadoopを利利⽤用した継続的デー タ解析環境の構築 –  http://www.slideshare.net/suzuken/ jenkinshadoop –  昨年年のad:tech  Tokyoにてcosmiの解析環境 について発表した資料料です。Jenkinsを利利⽤用 してMapReduceジョブを継続的に回し、解 析を重ねるための環境及び利利⽤用しているツー ル群について紹介させていただきました。 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  24. 24. DMPに関するwhite  paper •  Data  Management  Platforms  Poised  to  Become   Scalable  Solution  to  ʻ‘Big  Dataʼ’  Challenges,   According  to  IAB  &  Winterberry  Group –  http://www.iab.net/about_̲the_̲iab/ recent_̲press_̲releases/press_̲release_̲archive/ press_̲release/pr-‐‑‒111212 •  上記の⽩白書を⽇日本語で解説した記事です。わかりやす くまとめられています。 –  DMP(データマネジメントプラットフォーム)を徹底解 説した、IABの⽩白書をまとめてみる  ~∼  admarketech. –  http://www.admarketech.com/2012/11/dmp-‐‑‒ iab.html 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  • takahiromishiro

    Jan. 1, 2017
  • yoskhdia

    Dec. 1, 2016
  • yoshifuji

    Oct. 28, 2016
  • takayukiwashino

    May. 4, 2016
  • kameisatoshi

    Jul. 12, 2015
  • ShoKamakura

    May. 27, 2015
  • backing0000

    May. 27, 2015
  • YOwatari

    Apr. 19, 2015
  • shigekiendo

    Apr. 9, 2015
  • SatoshiSatoshi1

    Mar. 29, 2015
  • MikioNozaki

    Feb. 26, 2015
  • AtsuraKoizumi1

    Jan. 17, 2015
  • manheejo9

    Dec. 16, 2014
  • taro0525

    Dec. 9, 2014
  • HitoshiKagiyama

    Nov. 24, 2014
  • takanorihayashi11

    Oct. 15, 2014
  • sakanakana

    Sep. 4, 2014
  • TakumaMorikawa

    Aug. 25, 2014
  • hasedge

    Jul. 16, 2014
  • saaaaaki

    Jul. 7, 2014

2014/01/15に行われたCAアドテクスタジオ x VOYAGEGROUP 技術交流会での発表資料です。

Vues

Nombre de vues

26 725

Sur Slideshare

0

À partir des intégrations

0

Nombre d'intégrations

18 045

Actions

Téléchargements

158

Partages

0

Commentaires

0

Mentions J'aime

42

×