Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

BigQueryを活用したPrivate DMPを作って使ってるお話

3 195 vues

Publié le

#bq_sushi tokyo #6 20171215での発表資料
https://bq-sushi.connpass.com/event/70655/

Publié dans : Données & analyses
  • Hi there! I just wanted to share a list of sites that helped me a lot during my studies: .................................................................................................................................... www.EssayWrite.best - Write an essay .................................................................................................................................... www.LitReview.xyz - Summary of books .................................................................................................................................... www.Coursework.best - Online coursework .................................................................................................................................... www.Dissertations.me - proquest dissertations .................................................................................................................................... www.ReMovie.club - Movies reviews .................................................................................................................................... www.WebSlides.vip - Best powerpoint presentations .................................................................................................................................... www.WritePaper.info - Write a research paper .................................................................................................................................... www.EddyHelp.com - Homework help online .................................................................................................................................... www.MyResumeHelp.net - Professional resume writing service .................................................................................................................................. www.HelpWriting.net - Help with writing any papers ......................................................................................................................................... Save so as not to lose
       Répondre 
    Voulez-vous vraiment ?  Oui  Non
    Votre message apparaîtra ici

BigQueryを活用したPrivate DMPを作って使ってるお話

  1. 1. BigQueryを活用したPrivate DMPを作って 使ってるお話 #bq_sushi tokyo #6 川田 雅人、木村 豊、黒澤 慎太郎、その他BQerの皆様サンクス ソニーネットワークコミュニケーションズ(株) クラウド・アプリ事業部門
  2. 2. 2 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. イントロダクション R&D、組み込み、新規事業企画、 IT営業、エンジニアなどを経たものの、 コアはソフトウェアエンジニアとして クラウド&データ歴6年 @ソニーネットワークコミュニケーションズ(SNC) 川田雅人 Masato Kawada 今回の内容は宣言通り 「今年のGC Nextのキーノートで 発表した内容の技術的Deep dive です。データ設計のキモ、比較、イケ てないところなど、言えなかったことをお 話しします!」 です。 キーノートと全然テイスト違います!
  3. 3. 3 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. SNC クラウド&アプリ事業とデータ活用 ソニーグループ製品・サービスへの クラウドサービス開発運用、 分析・グロース支援 アプリ&データを活用した メディア事業、デジタル配信事業
  4. 4. 4 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. なんでBigQuery使うの?
  5. 5. 5 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. 答え: データ分析・ビジネス活用の生産性をあげたかったから 2014 2015 2016 2017 year #records /month (billion) 1.8 7 12 PDCA Volume & Variety データが容量も種類も増 えているのに、予算や人 が増えない。。 Background Agility PDCAを速く回すには 分析官がストレスの少 ないデータ環境がいる To-Be No-system ops インフラ・システムを運用 するんじゃなくて データを運用する Democratization データドリブンビジネスを するために 分析官が満足するだけで なく、企画やエンジニアに も敷居をさげる Biz operator Data scientist Engineer 一番の理由は、分析官もエンジニアもやりたかったから!
  6. 6. 6 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. クラウドシステムアーキテクチャ (2016年初め) Device & application Frontend, Service provision Backend for big data ほとんどの要素はAWSで構成、Hadoop使い始めたのが2013年。 BigQueryをアドホック分析で使い始めていた
  7. 7. 7 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. アドホック分析環境から、商用データ分析基盤にするには アドホック環境要件 クエリ速く! 安く! Data scientist クエリエラーしてもねー ちょちょいとなんとかしちゃうよー ID管理 アクセスコントロール セキュリティ 利用者拡大しつつ、 性能・ガバナンス担保 分析結果をBI・外部 連携にすぐ自動化 理解しやすい、分析し やすいデータ構造 商用データ分析基盤要件 Biz operator Data scientist Engineer 連続稼動性、セキュリティ、使いやすさ、性能、 コスト管理、運用性、ユーザ多い。。。 GAP
  8. 8. 8 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. Hive on EMR Redshift BigQuery クエリ HiveQL PostgreSQL BigQuery SQL (その後Standard SQL) クエリ パフォーマンス 速い しっかりチューニングすれば とても速い とても速い (エラーが起きることもある…) コスト クラスタのインフラコスト クラスタのインフラコスト クエリのデータ使用量 安い!(ただしうまく使えば) システム運用 クラスタのお守りが必要 クラスタのお守りと十分なチュー ニングが必要 マネージドサービスとして ほぼ不要 (不安があったが、、、) セキュリティは 社内ルール的に 十分? 十分、Passed (VPC, ACL/IAM) 十分、Passed (VPC, ACL/IAM) 十分でない (IPアドレスが絞れない、 ACL/IAMがまだ不十分だった) 商用データ基盤で使うか、検証POCをしました in 2016 「BigQueryはセキュリティ要件以外は望ましい」  「使うデータを選んで使う」
  9. 9. 9 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. ETL Analysis Data Mart Private DMPアーキテクチャ: フルマネージドにできる Data Loader Data warehouse, Intermediate & Data mart Querying Framework Data studio Architecture: Private DMP SFTP API Source Stream & Bulk
  10. 10. 10 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. 工夫1: クエリ開発&実行フレームワーク Pull Req 分析結果をすぐに商用サービス・PDCAに適用する 簡単なチューニングは、SQLを少し書ける人でもできる! Querying Framework • SQL (+ UDF) • Schedule • Target output Review, Merge 定期実行 Biz operator 主任級?の 分析官・エンジニア Data scientist
  11. 11. 11 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. 工夫2: 階層的データ構成 Metadata SQL, csv, etc ETL Clean sing Raw Layer Intermediate layer Raw A Raw B Raw C Int A’ Int C’ Standard format Join metadata Int BC’ Int A“B” Int ABC” App / Mart layerApp 1 JOIN、補間、統計計算、K-匿名化 App 2 App 3 Sources ID matching and tokenize 1次抽出・変換・時系列管理 中間層のデータ設計で、系の性能・ROIを決める (ユーザ・用途に応じたテーブル、理解しやすいデータ、クエリの性能・コスト、アクセスコントロール)
  12. 12. 12 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. クラウドシステムアーキテクチャ (2017年初め) Device & application Frontend, Service provision Backend for big data データ要件に応じて、AWSとGCPを併用、となりました Data with strong security Private DMP Anonymized data 秘密の データ
  13. 13. 13 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. その後どうでしょう?
  14. 14. 14 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. しっかり使ってます! セグメントを作るためのクエリは約60本 (Bizの人がほぼチューンできちゃう) 他の分析PJで約100本 システム運用メンバ x >> X データ運用メンバ y < Y データ分析メンバ z << Z クエリするBizの人 0 < A No-opsは無理 だが システム運用から データ運用へ データ 民主化! まだ改善点が多いですが データ分析・運用にフォーカスしたチーム構成に 人が増えても XX万円溶けたってことはなくなったかな。。。 以前 今
  15. 15. 15 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. その他技術的なノウハウ Schema-lessなJSONの安定投入 コスト、アクセス権対策のため テーブルパーティション分割は細かめに id b c Error Column 1 “D" true 2 NULL false 3 Value of key b is invalid json_payload "{ "id": 1, "b": “D”, "c": true}" "{ "id": 2, "c": false}" “{ ”id“: 3, ”b“: 10, ”c“: false}” 不正 UDF(Null補間、データエラーチェック) JSON Raw table 遺産があり注意(全部変えるのは大変) ルールを作る ・古いもの レガシーSQL + 過去のテーブルモデル ・新しいもの スタンダードSQL + 日付や種類でパーティション &レイヤ構造  過ちが少ない、アクセスコントロールできる
  16. 16. 16 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. できちゃうからこそ、ご利用は計画的に 色んな人が使うDMP基盤なので DataStudioでコスト・データ量管理 生々しくてお見せできません Billing情報と利用情報から 全体見たり、権限つけたり、傾向見たり 高速・並列で出来ちゃうからこそ 使いすぎに注意! BQ police GKE Analysis BQ-Police Billing情報 XX万円! 学習データ BQとGKE を用いた分散機械学習基盤で コストを監視 超並列 分散学習
  17. 17. 17 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. 現場の声(素直でごめんなさい) Legacy SQLと Standard SQLを よく間違う (BigQuery Mate愛用) Legacy SQLが技術負債 に、、、いきなりアナウンス無し に動かなくなることが 日本のサポート が、、、 UDFすごく便利! 並列計算爆速! DataStudioはシンプ ルで無料でうれしい あまりも気軽すぎて分 析設計がおざなりにw 社内セキュリティ要件 の対応はこれから UDFの同時実行数 など上限には注意
  18. 18. 18 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.  BigQueryを商用で使うのは、(特に2016年では)チャレンジでした。  データを扱いやすくするため、柔軟性、コスト、変換、などトレードオフ要素を考えて行っ た一つのデータレイク設計事例として参考にしていただければ幸いです  グループ会社内でBigQueryを使う人が増えています • 実際はAWS/Azureを含めて増えているとは思います • 社内外で分け隔てなく仲間を作っていきたいです • Googleさんの支援を引き続きお願いします!  データはおいしく調理しつづけて行きたいです。社員(分析官)が喜びます。 まとめ
  19. 19. 19 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. Happy Holidays!! Special thanks to 木村さん、鈴木さん 黒澤さん、楠本さん、 パートナーの皆様 (特に照井さん!) 高倉さん、増田さん G社にいっちゃったYさん
  20. 20. SONYはソニー株式会社の登録商標または商標です。 各ソニー製品の商品名・サービス名はソニー株式会社またはグループ各社の登録商標または商標です。その他の製品および会社名は、各社の商号、登録商標または商標です。

×