AudienceOneにおけるTreasureData活用方法(TD Tech Talk 20180523)
- 1. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
TD Tech Talk 2018.5.23
AudienceOneにおける
TreasureData活用方法
デジタル・アドバタイジング・コンソーシアム株式会社
河原 亮介
- 2. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
自己紹介
2
• 河原 亮介(かわはら りょうすけ)
• デジタル・アドバタイジング・コンソーシアム(DAC)
• プロダクト開発本部 シニアマネージャー
• 主な業務: AudienceOne(DMP)の開発責任者
• TreasureData歴: 約5年半
- 3. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
本日話すこと
3
• DACについて
• DACにおけるTD利用状況
• AudienceOneにおけるTD活用方法
• AudienceOneとは
• ワークフロー / TD以外のデータベースサービス / デ
ータモニタリング
- 5. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 5
DACは、インターネット広告の黎明期にあたる1996年の設立以来、
市場の形成に携わり、業界をリードしてきました。
媒体社や広告会社などのパートナー企業に向けて、広告枠の仕入れ・販売、
プランニング、レポーティングまでトータルに支援するメディアレップ、
国内最大規模のトレーディングデスクによる広告運用、
高い技術力を誇るソリューション開発など、
デジタルマーケティングにおける広告を基点としたさまざまなサービスを提供しています。
デジタル・アドバタイジング・コンソーシアム
1996年
設立
40億円
資本金
2,083億円
売上高(DACHD連結)
1,812名
役職員数(DAC連結)
※2017年3月末現在/連結※D.A.コンソーシアムホールディングス
2018年3月期/連結
- 6. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 6
DACは、インターネット広告の黎明期にあたる1996年の設立以来、
市場の形成に携わり、業界をリードしてきました。
媒体社や広告会社などのパートナー企業に向けて、広告枠の仕入れ・販売、
プランニング、レポーティングまでトータルに支援するメディアレップ、
国内最大規模のトレーディングデスクによる広告運用、
高い技術力を誇るソリューション開発など、
デジタルマーケティングにおける広告を基点としたさまざまなサービスを提供しています。
デジタル・アドバタイジング・コンソーシアム
1996年
設立
40億円
資本金
2,083億円
売上高(DACHD連結)
1,812名
役職員数(DAC連結)
※2017年3月末現在/連結※D.A.コンソーシアムホールディングス
2018年3月期/連結
要するに
インターネット広告の会社です
- 7. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
DACが提供しているソリューションサービス
7
アドサーバー
広
告
会
社
/
広
告
主
媒
体
社
プライベート
DMP
アクセス解析
ツール
LPOツール
競合調査
ダッシュ
ボード
MAツール
広告主保有チャネル
(オウンドメディア)
パブリックDMP
プランニング
ダッシュボード
トラッキング
ソーシャル
広告管理
DSP SSP
業務管理
PMP
広告プランニング・ダッシュボード
API連携
可視
化
統合データ
セグメント連携
在庫管理・入稿管理・トラッキング
広告
配信
データ提供
DealID
発行
セ
グ
メ
ン
ト
配
信
情報
収集
データ
連携
オーディエンス
連携
トラッキング
データ連携
広告配信
分析
データ
データ
連携
データ
連携
データ
連携
データ
連携
データ
連携
広告
配信
進行
管理
- 8. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
DACが提供しているソリューションサービス
8
アドサーバー
広
告
会
社
/
広
告
主
媒
体
社
プライベート
DMP
アクセス解析
ツール
LPOツール
競合調査
ダッシュ
ボード
MAツール
広告主保有チャネル
(オウンドメディア)
パブリックDMP
プランニング
ダッシュボード
トラッキング
ソーシャル
広告管理
DSP SSP
業務管理
PMP
広告プランニング・ダッシュボード
API連携
可視
化
統合データ
セグメント連携
在庫管理・入稿管理・トラッキング
広告
配信
データ提供
DealID
発行
セ
グ
メ
ン
ト
配
信
情報
収集
データ
連携
オーディエンス
連携
トラッキング
データ連携
広告配信
分析
データ
データ
連携
データ
連携
データ
連携
データ
連携
データ
連携
広告
配信
進行
管理
いろいろアドテクやってます
- 10. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
TreasureDataを利用しているサービス
10
アドサーバー
広
告
会
社
/
広
告
主
媒
体
社
プライベート
DMP
アクセス解析
ツール
LPOツール
競合調査
ダッシュ
ボード
MAツール
広告主保有チャネル
(オウンドメディア)
パブリックDMP
プランニング
ダッシュボード
トラッキング
ソーシャル
広告管理
DSP SSP
業務管理
PMP
広告プランニング・ダッシュボード
API連携
可視
化
統合データ
セグメント連携
在庫管理・入稿管理・トラッキング
広告
配信
データ提供
DealID
発行
セ
グ
メ
ン
ト
配
信
情報
収集
データ
連携
オーディエンス
連携
トラッキング
データ連携
広告配信
分析
データ
データ
連携
データ
連携
データ
連携
データ
連携
データ
連携
広告
配信
進行
管理
- 11. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
数字で見るTreasureData利用状況
11
ユーザ数 200
Import レコード数 / 1日 80億
Job数 / 1日 15,000
※ Hive/Presto/Deleteなどすべて
処理レコード数 / 1日 4兆 ※hive
300億 ※presto
- 12. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
AudienceOneにおける
TD活用方法
12
ここからやっと本題
- 14. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 14
1. 統 合
2. 分 析
3. 捕 捉
4. 活 用
オフラインデータも含む1st Partyデータの
管理も可能。プライベートDMP / パブリッ
クDMP両方の機能を担います。
■ 自社サイトデータ収集
■ CRMデータ連携機能
■ 広告配信データの連携
UI提供に加え、データ解析士による高度な
分析サービスを提供。複雑化する顧客イン
サイトの可視化を支援します。
■ 興味関心分析・デモグラ属性分析
■ 商圏分析
■ R/F分析・重複分析
■ インテント可視化・ジャーニー分析
セグメントを生成し顧客ごとに施策を最適
化。特許を有する高精度な推計・拡張技術
が効果の最大化を支援します。
■ オーディエンス拡張機能
■ 検索キーワード推定機能
■ クロスデバイスマッチング機能
広告をはじめ,メールやメッセージ配信等
の各マーケティングチャネルへ連携し、統
合的なデータ活用を実現します。
■ 広告配信連携機能
■ メール・メッセージ配信ツール連携機能
■ プライベートDMP連携機能
月間4.8億ユニークブラウザのcookieデータを保有するデータマネジメントプラットフォーム(DMP)で、広告出稿時に取得で
きるデータ、webサイト、ソーシャル/CRMのデータなど様々なデータを収集し、用途に応じて利用する事が可能です。
ソリューションコンサルティング
自社内外のデータを統合
解析士による顧客分析
特許技術でのユーザー捕捉
主要チャネルを網羅
約4.8億UB分のcookie
約9,000万のモバイル広告ID
1兆レコードからなる膨大なデータを解析
国内最大級規模の
オーディエンスデータを提供する
データ・マネジメント・プラットフォーム
- 15. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 15
1. ワークフローの使い分け
2. TreasureData以外のデータベース使い分け
3. データのモニタリング/監視
AudienceOneにおける活用方法
- 16. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
データまわりのシステム構成
データフローを説明
16
その前に、
- 17. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
(データ解析用環境)
自社サービス
データ
17
Webサイト
CRMなどの
顧客データ
アライアンスデータ
(データモニタリング)
レポート用DB
セグメント見積用
複雑な計算・集計用
・Luigi
・Treasure Workflow
(ワークフロー管理)
- 18. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
(データ解析用環境)
自社サービス
データ
18
Webサイト
CRMなどの
顧客データ
アライアンスデータ
(データモニタリング)
レポート用DB
セグメント見積用
・Luigi
・Treasure Workflow
(ワークフロー管理)
複雑な計算・集計用
- 19. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 19
1. ワークフローの使い分け
2. TreasureData以外のデータベース使い分け
3. データのモニタリング/監視
AudienceOneにおける活用方法
- 20. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 20
AudienceOneにおけるデータ開発フロー
課題認識
データ解析/
アルゴリズム開
発
実証実験
(テスト配信)
AudienceOneへ
実装
- 21. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 21
AudienceOneにおけるデータ開発フロー
課題認識
データ解析/
アルゴリズム開
発
実証実験
(テスト配信)
AudienceOneへ
実装
Treasure
Workflow
Luigi
- 22. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 22
Treasure Workflow
・開発したデータが本当に有用かどうか試す実証実験などで利用
・yamlで簡単にかけるのでSQLさえ書ければだれでもできる
・低コストで短期導入が可能
Luigi
・AudienceOneの機能として実装する場合に利用
・複雑な依存関係も管理しやすい
・多いものだと7~8の集計を待ってから起動するものもある
・逆に1つの集計処理を70のバッチ処理が待っているものなんかもある
- 23. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 23
1. ワークフローの使い分け
2. TreasureData以外のデータベース使い分け
3. データのモニタリング/監視
AudienceOneにおける活用方法
- 24. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
(データ解析用環境)
自社サービス
データ
24
Webサイト
CRMなどの
顧客データ
アライアンスデータ
(データモニタリング)
レポート用DB
セグメント見積用
複雑な計算・集計用
・Luigi
・Treasure Workflow
(ワークフロー管理)
ココ→
- 25. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
Treasure Data以外のデータベースとその利用方法
25
Redshift その1
- レポートデータ格納用
- AudienceOneのレポート画面から参照
- 集計数値のみ格納
- データ量多い(現状約110億レコード)
→レポートの種類や軸が多く、過去データの保持期間も長いため
- 26. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
Treasure Data以外のデータベースとその利用方法
26
- セグメントサイズ(UU数)の見積もり用
- サンプリングしたデータを格納
- セグメント作成に使える軸・条件は多数
- 条件を細かく変えながら何度も見積もりを行うのでレイテンシーはで
きるだけ低いほうがよい
- 事前の集計はできない
- ざっくりボリュームがわかればいいので精度はそこまで求められない
ElasticSearch
- 27. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
Treasure Data以外のデータベースとその利用方法
27
- オーディエンス拡張(Lookalike)のモデリング・スコアリング用
- 元データは約40億レコード
- AudienceOneでは個別にモデリングを実施
- オーディエンス拡張機能で作成されるセグメントは約4,000
→ すべて個別のSQLで抽出する必要がある
→ 更新頻度は日次
Redshift その2
- 28. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 28
1. ワークフローの使い分け
2. TreasureData以外のデータベース使い分け
3. データのモニタリング/監視
AudienceOneにおける活用方法
- 29. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
モニタリングしている内容
29
• トレンド
UU数の推移、比率(OS別, ブラウザ別)
• データの精度
オーディエンス拡張のモデル精度
推定データの精度
• 急激な増加/減少、異常値
- 30. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
• トレンド
UU数の推移、比率(OS別, 性年齢別)
• データの精度
オーディエンス拡張のモデル精度
推定データの精度
• 急激な増加/減少、異常値
モニタリングしている内容
30
Spread sheet/GoogleAppsScript/Slack
- 31. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
データモニタリング
31
- データソースはBigQuery, TreasureData(Presto)を利用
ローデータに近いもの→BigQuery、集計されたもの→TD
- re:dashで実現することで、データ解析チームやデータプラニング、オ
ペレーションチームも参照可能
re:dash
- 32. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
データモニタリング
32
- hourly/daily/weeklyで特定のデータを集計しSpreadSheetへ出力
- AppsScriptで大幅な増加/減少などがあった際にSlackへ通知
- 異常を定義できる簡単なものだけ利用
人の目で見ないと判断できないものはre:dashでモニタリング
SpreadSheet & GAS & Slack
- 33. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
【おまけ】モニタリング
33
弊社のTD利用者の中には非エンジニアも多く
トンデモナイクエリが投げられることも・・・
- 34. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
【おまけ】モニタリング
34
GASでモニタリング
TreasureData警察
- 35. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
まとめ(まとまってない)
35
• Treasure Workflowは非常に強力
• 適材適所
とはいえ、気持ちとしてはできるだけTDに寄せたい
• TreasureData警察に休みはない
- 36. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 36
We are hiring!
既存システムの改善や新規サービス開発を行うプロダクトマネージャーや
エンジニア募集してます
http://www.dac.co.jp/recruit/product_development/index.html
Notes de l'éditeur
- aa
- 30秒
- 1.5分
本日のアジェンダになります
はじめに、弊社DACについて簡単に紹介させていただきます。次に弊社がどれくらいトレジャーデータを使っているかご紹介させてください。というのも実は弊社かなりヘビーユーザで、それについてお話します。
そして、本題であるAudienceOneにおけるトレジャーデータの活用方法についてご紹介させていただきます。
はじめにDMPであるAudienceOneについて簡単に紹介させていただき、ワークフローやトレジャーデータの以外のデータベースサービスの利用、データのモニタリングをどのようにおこなっているのかお話させていただきます。
- 1996年に設立された会社です。書いてあるとおりなんですが、インターネット広告の仕入れ、販売がメインのビジネスで、最近だと広告関連のソリューションも多数提供しています。
売上や従業員数などはここに記載されているような規模になっております。
- 次に弊社が提供しているソリューションサービスについて紹介させていただきます。
DMPやDSP、SSPをはじめ、多数のアドテクのソリューションを提供しています。すべて自社開発しています。
本日お話するのは、真ん中にあるAudienceOneというDMPにおけるトレジャーデータの活用方法になります
- 要するに
- 会社紹介は以上で次に弊社がどれくらいトレジャーデータを利用しているのか、どれくらいヘビーユーザなのか、お話させていただきます
- さきほど弊社で提供しているソリューションサービスのお話をしましたが、実はそのほとんどのサービスでトレジャーデータを利用しています
- 次にどのくらいトレジャーデータを使っているのか数字で出してみました。
ユーザ数が約200。Importしているデータ量はDataconnectorで入れているものやfluentdで入れているものもありますが、もろもろあわせると約80億レコードくらいです。
また、1日に流れるjobの数はhiveやpresto,deleteも含め15,000くらいになります。
処理レコード数についてはサポートの高橋さんにお願いして出してもらいましたが、hive/prestoでそれぞれこれくらい処理しています。
- ではここからやっと本題である、AudienceOneでどのようにトレジャーデータを利用しているのかお話します
- 本題に入る前に最後に1つだけ。AudienceOneについて簡単にどういうものなのかご紹介させてください。
- (7分以内)
AudienceOneは、あくまで自称ですが、国内最大級規模のデータマネジメントプラットフォームです。
4.8億のブラウザCookie、9,000万のモバイル広告IDを持っています。
AudienceOneにはCRMなどのデータの取り込みもできる、いわゆるプライベートDMPっぽい機能もあるのですが、
特徴・強みとしては、3rdPartyデータを豊富にもっていること、また弊社がインターネット広告の販売も行っていることから広告配信に強いことがあげられます。
- ここからが本当に本題です。今日お話するのは3つです。
ワークフローを複数使っているですが、どのように使い分けているのか、
TreasureData以外のデータベースサービスも使っているのですがなにをどのように使っているのか
またDMPにとして3rdPartyデータを大量に保有していますが、そのデータをどのようにモニタリングしているのかお話させていただきたいと思います
- その前に、が多くて非常に恐縮ですが、AudienceOneのデータまわりのシステム構成とデータフローについて簡単にご説明したいと思います
- AudienceOneではTreasureDataをメインの集計基盤、ストレージ基盤として利用しています。
TreasureDataにはいわゆるAudienceOneの計測タグ、トラッキングタグで取得したWebログやAudienceOneを利用しているお客さまのCRMなどのデータ、
またAudienceOneではデータを保有している様々なデータアライアンスパートナーがおり、そういったデータもトレジャーデータに取り込んでおります。
加えて、弊社のサービスである、DSPやアドサーバなどのデータも同様にトレジャーデータへ取り込んでいます。
AudienceOneではほとんどの集計処理をトレジャーデータ上で行っていて、集計、加工した結果を右側のレポート用DBなどに出力してます。
ほとんどの処理を、と言いましたが、一部の複雑な集計のみRedshiftを利用しています。これについてはこのあと詳しくお話します。
集計処理はluigi、これはspotifyがOSSとして開発しているワークフローですね、それとTreasure workflowの2つを利用しています
また、データモニタリングのためにBigQueryやredash、スプレッドシートなども利用しています。これらもすべてトレジャーデータ上で一時集計、加工したデータを格納しています。
本日は詳細については話しませんが、ちょっとだけデータ解析環境について触れておくと、トレジャーデータと別の環境になっており、RedShiftをメインで利用しています。
そしていわゆるデータサイエンティストチームが、RやPython、IBMのSPSSを使いデータの解析を行っています。
- 本日お話するのはここのオレンジ色で囲った3つになります
- ワークフローをどのように使い分けているか話す前に、
AudienceOneでは3rdPartyDMPとして様々なデータを開発しているのですが、フローとしてはざっくりこのようになっています。
最初になにかしらの課題があり、それを解決するようなデータ解析やアルゴリズムの開発を行います。これはもちろん弊社が持っているデータだけではなくアライアンス先のデータも含めて行います、
ある程度、内容が固まってくると実証実験を行い効果検証を行います。弊社の場合、広告での利用が多いので、具体的には実際にターゲティング配信を行って効果検証という形が多いです。
実際の効果があった場合、AudienceOneの機能として実装、というような流れになることが多いです。
- で、ワークフローをどのように使い分けているかというと、フェーズによって使い分けています。実証実験のようなフェーズではTreasure workflow、AudienceOneの機能として提供する場合はluigiを使っています。
- いま話した内容とそれぞれのワークフローの特徴をまとめるとこんな感じかなと
実証実験のようなフェーズではとにかくやってみる、ということが大事なので低コストで簡単にできるTreasure workflowは非常にあっているかなと。
Yamlで簡単にワークフローを書けるので非エンジニアでもSQLさえ書ければなんとかなります
逆にAudienceOneの機能として実装する場合はそれなりの品質が必要ですし、汎用化するので実証実験フェーズ処理もより複雑になります。
実証実験の場合は、固定でよかったものが管理画面で登録した内容に応じて処理したり、など
また、複雑な依存関係も管理しやすいですね。AudienceOneではすでにたくさんのバッチ処理が動いており、その中に組み込んでいかないといけないのでどうしても依存関係が複雑になるのですが、
Luigiを使えば割と簡単に管理できます。
どのくらい複雑かというと、多いもので7〜8の集計処理を待ってから起動するものや逆に1つの集計処理が終わってそのあと70くらいのバッチ処理が動き出すものなんかもあります。
- 次のトレジャーデータ以外のデータベースサービスをどのように使っているのかお話します
- この部分です。レポート用のRedshift、セグメントのUU数見積もり用のElasticSearch、複雑な計算、集計用のRedshift、3つについてお話します。
- まずは1つ目のRedshiftです。AudienceOneのレポートデータ格納用として利用しています。
管理画面から直接参照しています。格納しているデータとしては、集計された値のみ格納しています。
集計された値だけなんですが、レポートの種類や集計軸が多いです、レポートの内容としてはユニークユーザー数のレポートがほとんどのため、集計軸が増えれば増えるほどレコード数も増えてしまいます。
また、データの保持期間も1年以上あり、レコード数がそれなりに多いです。ここにも書いていますが、約110億レコードあります。
そのため、MySQLやPostgresのようなRDBではなく、Redshiftを採用しています。
- 次にElasticSearchです。
これはセグメントサイズの見積もり用に利用しています。
セグメントサイズの見積もりって言われてもよくわからないと思うので簡単に説明すると、AudienceOneの管理画面上でセグメントを定義できるのですが、いろいろな条件で作成することができます。
例えば、特定のURLに直近1ヶ月で2回きた、とか、それにAudienceOneが持っているデータをかけ合わせて20代男性、とかサッカーに興味がある人などです。
かつ、And条件だけではなく、ORやNOTの条件なども設定できます。
AudienceOneを利用しているユーザはセグメントを作成する前にざっくりどれくらいのユーザ数なのか確認します。
広告配信の場合、どれだけいいセグメントでもそれなりにユーザ数がいないと配信できないので事前にユーザ数を確認できるのは非常に重要です。
この機能の性質上、どういう条件、セグメントが入ってくるかわからないので事前集計ができません、ただしざっくりとしたボリュームがわかればいいので正確な値である必要はありません。
そのためほぼローデータに近いデータをサンプリングしてElasticSearchに格納して、管理画面から参照しています。
- 最後に2つ目のRedshiftです。用途としてはオーディエンス拡張(Lookalike)の機能で利用しています。
これは簡単に言うと似たユーザ探す機能で、具体的には会員登録などコンバージョンしたユーザと似たユーザ、つまりまだコンバージョンしていないけど、コンバージョンしそうなユーザを抽出するような機能です。
AudienceOneの拡張機能は、個別にモデルを作成しています。個別にというのは管理画面で拡張の依頼をかけるのですが、その依頼毎に拡張モデルを作成しています。
また拡張結果、つまりモデルからスコアリングした結果からセグメントを作成できるのがですが、これがいま約4000セグメントあります。それぞれのモデル、スコアリング結果が違うので、
この4,000のセグメントを抽出するSQLすべて個別になっています。1つのSQLもかなり複雑でこのSQLを投げるテーブルのデータが約40億レコードあり、かつ元データは毎日更新されるのでセグメントの内容も毎日更新する必要があります。
TreasureDataでの実装も何度か試したのですが、処理がまわらず、Redshiftを採用しています。
Activeな拡張依頼は約4570
- ここまで20分目安
最後にデータのモニタリングや監視についてお話します。
- 3rdPartyデータを大量に保有しているDMPとして、データのモニタリングもとても重要です。
細かくいうと他にも多数あるんですが、ざっくりいうとここに記載しているような内容をモニタリングしています。
トレンド、これはUU数の推移だったり、比率です。iOSのOSバージョンごと比率だったりとか
また、一番重要なのがデータの精度ですね。さきほどお話したオーディエンス拡張のモデルの精度の傾向だったり、
それとAudienceOneでは推定データ、性別年齢のようなデモグラフィックデータがあるのですが、データアライアンス先からもらっている正解データと付きあわせて精度のモニタリングを行っています。
最後に急激になにかが増えたとか、減ったとかいわゆる異常値、のようなものもモニタリングしています。
- これらのモニタリングをre:dashやBigQuery、あるいはSpreadsheetとAppsScript,Slackなんかを使ってモニタリングしています
- Re:dashのデータソースとしてはBigQuery/TreasureData(Presto)を利用しています。
データソースの使い分けとしては、ローデータに近いものをBigQueryである程度集計されたものをTreasureData(Presto)を利用しています。
re:dashを利用した背景としては、開発チームだけでなく、データ解析チームや、ビジネスサイドのチームも参照できるようにするためにre:dashを採用しました。
- 次のSpreadSheetのほうなんですが、hourly、dailyで特定のデータをTreasureで集計し、SpreadSheetに出力しています。
そのあと、AppsScriptで大幅な増加/減少があった場合にSlackに通知するようにしています。実際のSlackの通知はこんな感じです。
Redashとの使い分けとしては異常を定義できる簡単なものだけ利用しています。
- 弊社のTDのユーザアカウントが最初に200くらいいるとお話しましたが、その中には非エンジニアも多数おります。
ほぼすべてのデータを格納しているので、めちゃくちゃ巨大なテーブルもあるんですが、たまに(週1回くらい)トンデモナイクエリが投げられます。
よくあるのがTD_TIME_RANGEをうまく書けてないとか。そうすると
AudienceOneのサービスとしてものすごい影響があります。なのでAudienceOneの開発チームではそういったクエリが投げられていないかモニタリングを行っています
- こんな感じで。社内ではTreasureData警察と呼んでいます。