Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Google cloudnext recap_DataAnalytics

900 vues

Publié le

サンフランシスコで開催されたGoogleCloudNext2018で発表されたデータ周り(主にBigQuery)の発表まとめと、ユーザ事例のまとめです

・BigQuery
DDL
NewUI
GIS
BQML
Clustering
Integration with google sheets
One click visualize

リクルートライフスタイル 山田 雄(ヤマダ ユウ)

Publié dans : Technologie
  • Login to see the comments

  • Soyez le premier à aimer ceci

Google cloudnext recap_DataAnalytics

  1. 1. Google Cloud Next ’18 Recap/報告会 ~Data関連~ 2018/08/01 山田 雄
  2. 2. ■山田 雄(ヤマダ ユウ) 株式会社 リクルートライフスタイル ネットビジネス本部 データプラットフォームT (株式会社 リクルート) Twitter:@nii_yan GitHub:https://github.com/yu-yamada ・以前はメールマーケティング用基盤の作成からデータ分析まで関わる 現在はリクルートライフスタイルの共通分析基盤の開発、運用全般を担当 ビックデータ、Ruby、お祭り、ビール、カップ焼きそばが好き。 自己紹介
  3. 3. Spotify ユーザー事例
  4. 4. BigQueryへの移行前 4 years ago… ・ほぼ、オンプレとベアメタルを使っていた(Hadoop) ・分析の仕事をするのがとても大変だった ・そこでクラウドへの移行を決断した
  5. 5. BigQueryへ移行してみて 大成功だったよ!!! Spotifyでは分析にBigQueryを使うのが当たり前になった ・はるかに早く、大きな結果を得ることが出来るようになった ・必要な時に簡単にキャパシティを追加できる(?) ・既存のクラウドとの統合が出来た ・使用するのが簡単なので、サイエンティストからの質問がなくなった Hiveでは16分かかっていた処理が33秒に!
  6. 6. 移行に際して ・Administration BQの定額料金契約をすることで、定常的にslotを確保 subreservationを切ることで、プロジェクト毎にslotを配布 ・Education batch modeとinteractive modeを使うことで、jobを制御 Dremel architectureを理解してチューニング BQのbest practiceをみんなに知らせるようにした
  7. 7. 移行に際して ・Integration BQAPIを使用して、独自の開発ツールを作成し、独自のエコシステムと統合 GCPのサービス内では簡単にデータ移動が出来るので、ジョブに最適なツー ルを柔軟に使える ・Partnership BQのチームと密接に連携して、機能拡張などを行った 色んなチャンネルでサポートを受けた
  8. 8. Twitter ユーザー事例
  9. 9. scale ・20TB/day of raw log data ・>100k events/sec
  10. 10. Legacy system Row logs Stream aggregation Batch aggregation Ephemeral KV store Persisted KV store Serving fronted Lambda architecture
  11. 11. Project goals ・運用コストを減らす ・ビジネスロジック、aggregation、ストレージ、クエリ実行を切り離す ・データへのaccessibilityを上げる ・今の10倍までスケール出来るようにする
  12. 12. Next generation system Row logs Stream aggregation Internal fronted BigTable BigQuery Serving fronted Kappa architecture
  13. 13. Work in progress Row logs Hadoop Internal fronted BigTable BigQuery Serving fronted Dataflow
  14. 14. DDL BQ新機能紹介
  15. 15. DDL(GA) Create Table… がGAに Create Table as Selectも使える https://cloud.google.com/bigquery/docs/reference/standard-sql/data-definition-language
  16. 16. Clustering BQ新機能紹介
  17. 17. Clustering(Alpha Beta) パーティションを切ったテーブルで、パーティションの中をさらにClusterで切 ることが出来る。 secondly indexのようなイメージ (パーティションテーブル以外には使用不可) https://cloud.google.com/bigquery/docs/clustered-tables CREATE TABLE `mydataset.ClusteredSalesData` PARTITION BY DATE(timestamp) CLUSTER BY customer_id, product_id, order_id AS SELECT * FROM `mydataset.SalesData` 7/30にBeta
  18. 18. GIS BQ新機能紹介
  19. 19. GIS(Alpha) SQLを利用して、地理情報をBQ上で分析可能に
  20. 20. NewUI BQ新機能紹介
  21. 21. NewUI(Beta) bigquery.cloud.google.com -> console.cloud.google.com/bigquery Standard SQLがデフォルト設定に!!
  22. 22. NewConnectors BQ新機能紹介
  23. 23. New Connectors ・Google AdWords(GA) ・YouTube(GA) ・Google Play Store(Beta) https://cloud.google.com/bigquery/docs/transfer-service-overview
  24. 24. Integration with Google Sheets BQ新機能紹介
  25. 25. Integration with Google Sheets(Alpha) Google SheetsでSQLを書き、BQからのデータの取り出し、表示が可能
  26. 26. One Click Visualize BQ新機能紹介
  27. 27. One Click Visualize(Beta) BQ上(NewUI)からOneClickでDataStudio上でデータの可視化可能
  28. 28. BQML BQ新機能紹介
  29. 29. BigQueryML(Beta) SQLだけで機械学習が可能 現在はロジスティック回帰と線形回帰のみ
  30. 30. Stream Analytics features
  31. 31. Stream Analytics features ・Python streaming(Beta) Author streaming jobs in Python through Apache Beam. ・Dataflow Streaming Engine Enable separation of compute and storage for more responsive autoscaling on fewer resources. ・Dataflow Shuffle(batch) Improve underlying capabilities of Dataflow. Yielding faster and analytics and transformations. ・Better, Faster Pub/Sub High perf client libraries in 7 languages, GRPC streaming APIs. ・Confluent Kafka Service Managed Kafka service on GCP from Confluent.
  32. 32. Dataproc and Composer features
  33. 33. Dataproc and Composer features ・Cloud Composer GA Managed Airflow service Cloud Composer now Available in GA. ・Dataproc enhancements release 1.3 Spark 2.3, Hadoop 2.9, Defaults include Tez, YARN timeline server, HCatalog. ・Customer managed Encryption Keys CMEK support for BQ(GA). GCE(Beta) and GCS(Beta). ・Autoscaling & custom packages(Alpha) Autoscaling Hadoop and Spark clusters & selection of Apache projects. ・Hortonworks support for GCP Run HDP and HDF on GCP with GCS as data lake.

×