Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
Confidential & Proprietary
基本から学ぶ
ビッグデータ / データ分析 / 機械学習
サービス群
第 2 回 Google Cloud INSIDE Games & Apps
Confidential & Proprietary
下田 倫大( Norihiro Shimoda )
データアナリティクステクニカルスペシャリスト
Google クラウド
本日お話すること :
GCP 上でのデータ分析の基本的考え方
Confidential & Proprietary
集める 貯める 処理する
データ分析のワークフロー
分析する 可視化する
+ 結果をアプリケーションで使う
Data ScienTISTS & Data EngineerS
ビジネス課題に対してデータを利用して科学
的に課題を解決する
最近では機械学習エンジニアと呼ばれる職種
も出てきた
データサイエンティストの道具
- 基礎集計( SQL )
- 統計学
- 機械学習
- etc...
データサイエンティスト
データセットを用意するためのインフラを構築 /
運用/保守する
データエンジニアの道具
- {クラウド|オンプレ}インフラ
- DB
- ストレージ
- DWH
- Hadoop / Spark などの分散処理系
- etc...
データエンジ...
Data ScienTISTS & Data EngineerS
こんな処理がしたい、でもイ
ンフラとか詳しくないのでアル
ゴリズムのプロダクション向
けの実装やデプロイはお願
いしたい
インフラに余裕がないので、あん
まり負荷が高い処理は増や...
データサイエンティスト
の
守備範囲
データエンジニア
の
守備範囲
Confidential & Proprietary
データ分析を
簡単に、効果的に
データの収集 / 保存
Confidential & Proprietary
大量に、高速に、安価に集めて保存
Cloud Pub/Sub
イベント・メトリックなどをストリーミングで収集
Cloud Storage
オブジェクトストレージのサービス
生ログ、ファイル、...
Confidential & Proprietary
Subscriber
Publish / Subscribe のパターン
Publisher
Subscriber
Topic
Subscription
Message
Message
Pu...
Confidential & Proprietary
Data
Log
Event
Metrics
File
データの処理
Confidential & Proprietary
高速に、サーバレスでデータ処理
Cloud Dataproc
マネージドHadoop / Sparkのサービス
安価で簡単にクラスタ構築が可能に
Cloud Dataflow
パイプラインの...
Confidential & Proprietary
Dataflow のコンセプト
● Pipeline IO : 外部のデータリポジトリに対するデータのリードとライト
● PCollection : 内部的なデータ型
● PTransfor...
Confidential & Proprietary
Dataflow の特徴
ジョブのオートスケーリング
フルマネージドで自動構成
最適な実行パスのための自動グラフ最適化
ジョブの動的な負荷のリバランシング
1
2
3
4
Confidential & Proprietary
ジョブのオートスケーリング
フルマネージドで自動構成
最適な実行パスのための自動グラフ最適化
ジョブの動的な負荷のリバランシング
1
2
3
4
C D
C+D
C
C+D
A GBK +
...
Confidential & Proprietary
800 RPS 1200 RPS
ジョブのオートスケーリング
フルマネージドで自動構成
最適な実行パスのための自動グラフ最適化
ジョブの動的な負荷のリバランシング
1
2
3
4
Dataf...
Confidential & Proprietary
ジョブのオートスケーリング
フルマネージドで自動構成
最適な実行パスのための自動グラフ最適化
ジョブの動的な負荷のリバランシング
1
2
3
4
Dataflow の特徴
Confidential & Proprietary
Data
Batch
Stream
Batch
Log
Event
Metrics
File
Confidential & Proprietary
機械学習をベースとしたデータ変換のレコメンデーション
データソース
ベースのデータ準備ツール
上に構築され、コードは不要
Confidential & Proprietary
データの分析(集計 / 検索)
Confidential & Proprietary
大量のデータに素早くアクセス
BigQuery
ペタバイト級のデータも低料金で保存でき、
数秒オーダーで処理できるフルマネージドのデータウェアハウス
Confidential & Proprietary
Data
Batch
Stream
Batch
Log
Event
Metrics
File
Confidential & Proprietary
Devices
GCP 以外でデータ分析基盤を作ると...
Google App Engine
1 分間でどれくらいのアクティブユーザーが得られたか?
チューニングも運用もすごく大変
Confidential & Proprietary
Devices
Cloud Pub/Sub Cloud Dataflow BigQuery
1 分間でどれくらいのアクティブユーザーが得られたか?
Google App Engine
GCP...
データの分析(機械学習)
Confidential & Proprietary
No Ops でのモデル作成 / 学習済みモデルへの適用
Cloud ML Engine
フルマネージドな TensorFlow の実行環境
分散学習やバッチ / オンライン予測も実行可能
...
Confidential & Proprietary
TensorFlow Cloud ML Engine ML APIs
- マネージドな TensorFlow の実行環境
- アルゴリズムの実装は自分で行う
- 実行環境が用意される
- T...
Confidential & Proprietary
Data
Batch
Stream
Batch
Log
Event
Metrics
File
データの可視化
Confidential & Proprietary
データの可視化
Cloud Datalab
インタラクティブなデータの探索、分析、可視化、機械学習のための使いや
すいインタラクティブなツール( Jupyter )
Cloud Data S...
Confidential & Proprietary
Cloud Datalab
- インタラクティブなツール( Jupyter )
- オープンソースとしての開発
- GCP の各サービスとのインテグレーション
- GCS
- BigQuer...
Confidential & Proprietary
Cloud Data Studio
- 様々なデータソースからデータを取得して簡単にレ
ポートを作成することができるサービス
- 定期的なレポート出力に向いている
Confidential & Proprietary
Data
Batch
Stream
Batch
DataScientist
Apps
Log
Event
Metrics
File
事実上無制限にスケールする
- 小さく始めて、同じ構成でそのまま使い続けられる
- ストレージ容量の上限に悩まされない
- リソース枯渇による「詰まり」が起こらない
PaaS / SaaS のみで構築できる
- 専任のインフラエンジニアが事実上...
Confidential & Proprietary
No Ops Data Platform
Confidential & Proprietary
データの利活用に
フォーカスできる
Confidential & Proprietary
Thank you
Prochain SlideShare
Chargement dans…5
×

基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群

10 087 vues

Publié le

2017-11-22 wed.
第 2 回 Google Cloud INSIDE Games & Apps

Google Cloud データアナリティクステクニカルスペシャリスト 下田 倫大 の登壇スライドです。

Publié dans : Ingénierie
  • Identifiez-vous pour voir les commentaires

基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群

  1. 1. Confidential & Proprietary 基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群 第 2 回 Google Cloud INSIDE Games & Apps
  2. 2. Confidential & Proprietary 下田 倫大( Norihiro Shimoda ) データアナリティクステクニカルスペシャリスト Google クラウド
  3. 3. 本日お話すること : GCP 上でのデータ分析の基本的考え方
  4. 4. Confidential & Proprietary 集める 貯める 処理する データ分析のワークフロー 分析する 可視化する + 結果をアプリケーションで使う
  5. 5. Data ScienTISTS & Data EngineerS
  6. 6. ビジネス課題に対してデータを利用して科学 的に課題を解決する 最近では機械学習エンジニアと呼ばれる職種 も出てきた データサイエンティストの道具 - 基礎集計( SQL ) - 統計学 - 機械学習 - etc... データサイエンティスト
  7. 7. データセットを用意するためのインフラを構築 / 運用/保守する データエンジニアの道具 - {クラウド|オンプレ}インフラ - DB - ストレージ - DWH - Hadoop / Spark などの分散処理系 - etc... データエンジニア
  8. 8. Data ScienTISTS & Data EngineerS こんな処理がしたい、でもイ ンフラとか詳しくないのでアル ゴリズムのプロダクション向 けの実装やデプロイはお願 いしたい インフラに余裕がないので、あん まり負荷が高い処理は増やしたく ないのですが、本当にその処理 必要ですか?
  9. 9. データサイエンティスト の 守備範囲 データエンジニア の 守備範囲
  10. 10. Confidential & Proprietary データ分析を 簡単に、効果的に
  11. 11. データの収集 / 保存
  12. 12. Confidential & Proprietary 大量に、高速に、安価に集めて保存 Cloud Pub/Sub イベント・メトリックなどをストリーミングで収集 Cloud Storage オブジェクトストレージのサービス 生ログ、ファイル、外部システムのデータなどあらゆる データの保存場所
  13. 13. Confidential & Proprietary Subscriber Publish / Subscribe のパターン Publisher Subscriber Topic Subscription Message Message Publisher Subscriber Message Subscriber Message Message Message Subscriber Publisher Subscriber Topic Message Message Message Message Message Message Publisher Message Message Topic Subscription Subscription Subscription
  14. 14. Confidential & Proprietary Data Log Event Metrics File
  15. 15. データの処理
  16. 16. Confidential & Proprietary 高速に、サーバレスでデータ処理 Cloud Dataproc マネージドHadoop / Sparkのサービス 安価で簡単にクラスタ構築が可能に Cloud Dataflow パイプラインのストリーミングとバッチ実行をサポートする フルマネージドのデータ処理サービス
  17. 17. Confidential & Proprietary Dataflow のコンセプト ● Pipeline IO : 外部のデータリポジトリに対するデータのリードとライト ● PCollection : 内部的なデータ型 ● PTransformation : 入力を変換する関数 ● Pipeline : PipelineIO と PTransformation から構成されるデータの流れ Pipeline IO (Input) PTransform PTransform PTransform PCollection (Data) Pipeline Data Input
  18. 18. Confidential & Proprietary Dataflow の特徴 ジョブのオートスケーリング フルマネージドで自動構成 最適な実行パスのための自動グラフ最適化 ジョブの動的な負荷のリバランシング 1 2 3 4
  19. 19. Confidential & Proprietary ジョブのオートスケーリング フルマネージドで自動構成 最適な実行パスのための自動グラフ最適化 ジョブの動的な負荷のリバランシング 1 2 3 4 C D C+D C C+D A GBK + A+ GBK + Dataflow の特徴
  20. 20. Confidential & Proprietary 800 RPS 1200 RPS ジョブのオートスケーリング フルマネージドで自動構成 最適な実行パスのための自動グラフ最適化 ジョブの動的な負荷のリバランシング 1 2 3 4 Dataflow の特徴
  21. 21. Confidential & Proprietary ジョブのオートスケーリング フルマネージドで自動構成 最適な実行パスのための自動グラフ最適化 ジョブの動的な負荷のリバランシング 1 2 3 4 Dataflow の特徴
  22. 22. Confidential & Proprietary Data Batch Stream Batch Log Event Metrics File
  23. 23. Confidential & Proprietary 機械学習をベースとしたデータ変換のレコメンデーション データソース ベースのデータ準備ツール 上に構築され、コードは不要
  24. 24. Confidential & Proprietary
  25. 25. データの分析(集計 / 検索)
  26. 26. Confidential & Proprietary 大量のデータに素早くアクセス BigQuery ペタバイト級のデータも低料金で保存でき、 数秒オーダーで処理できるフルマネージドのデータウェアハウス
  27. 27. Confidential & Proprietary Data Batch Stream Batch Log Event Metrics File
  28. 28. Confidential & Proprietary Devices GCP 以外でデータ分析基盤を作ると... Google App Engine 1 分間でどれくらいのアクティブユーザーが得られたか? チューニングも運用もすごく大変
  29. 29. Confidential & Proprietary Devices Cloud Pub/Sub Cloud Dataflow BigQuery 1 分間でどれくらいのアクティブユーザーが得られたか? Google App Engine GCP でデータ分析基盤を作ると...
  30. 30. データの分析(機械学習)
  31. 31. Confidential & Proprietary No Ops でのモデル作成 / 学習済みモデルへの適用 Cloud ML Engine フルマネージドな TensorFlow の実行環境 分散学習やバッチ / オンライン予測も実行可能 ML APIs 学習済みモデルに対してデータを適用することのできるサービス - VisionAPI - SpeechAPI - NL API - Translation API - VideoIngeligence API
  32. 32. Confidential & Proprietary TensorFlow Cloud ML Engine ML APIs - マネージドな TensorFlow の実行環境 - アルゴリズムの実装は自分で行う - 実行環境が用意される - TensorFlow のバージョンや各種ライブ ラリは Cloud ML Engine が提供するもの のみ インフラについてはすべて GCP に任せら れるため、機械学習アルゴリズムの実装 に集中できる - 機械学習のライブラリ - アルゴリズムの実装は自分で行う - 実行環境は自分で用意する - TensorFlow のバージョンや各種ライブ ラリは好きなものを自分で用意すること ができる 自由度は高いが、使いこなすには機械 学習及びインフラに関する知識が必要 - ML の特定のタスクの学習済みモデルを API 経由で利用することができる - 機械学習を適用したいデータを用意した ら後は API をコールするだけ - モデルに変更は加えられない やりたいことと提供されているものがマッチ する場合は非常に良い選択肢 TensorFlow / CloudML / ML APIsの違い
  33. 33. Confidential & Proprietary Data Batch Stream Batch Log Event Metrics File
  34. 34. データの可視化
  35. 35. Confidential & Proprietary データの可視化 Cloud Datalab インタラクティブなデータの探索、分析、可視化、機械学習のための使いや すいインタラクティブなツール( Jupyter ) Cloud Data Studio データ可視化 / レポート作成サービス
  36. 36. Confidential & Proprietary Cloud Datalab - インタラクティブなツール( Jupyter ) - オープンソースとしての開発 - GCP の各サービスとのインテグレーション - GCS - BigQuery - etc...
  37. 37. Confidential & Proprietary Cloud Data Studio - 様々なデータソースからデータを取得して簡単にレ ポートを作成することができるサービス - 定期的なレポート出力に向いている
  38. 38. Confidential & Proprietary Data Batch Stream Batch DataScientist Apps Log Event Metrics File
  39. 39. 事実上無制限にスケールする - 小さく始めて、同じ構成でそのまま使い続けられる - ストレージ容量の上限に悩まされない - リソース枯渇による「詰まり」が起こらない PaaS / SaaS のみで構築できる - 専任のインフラエンジニアが事実上不要 - データサイエンティスト - 分析作業に集中できる - 機械学習エンジニア - アルゴリズム開発に集中できる 分析環境 on GCP のメリット
  40. 40. Confidential & Proprietary No Ops Data Platform
  41. 41. Confidential & Proprietary データの利活用に フォーカスできる
  42. 42. Confidential & Proprietary Thank you

×