Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

GCP для работы с большими данными

86 vues

Publié le

В своей презентации Сергей Бондарь, Team Lead of BI Compute | OWOX, поделился тем как он вместе с командой использует Google Cloud Platform для построения прогнозов.

Publié dans : Données & analyses
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

GCP для работы с большими данными

  1. 1. Сегодня в программе ● Инструменты для сбора данных ● Инструменты для обработки данных ● Инструменты для хранения данных ● Пример архитектуры для прогнозирования данных
  2. 2. Streaming processing in GCP
  3. 3. Cloud Pub/Sub
  4. 4. Streaming processing in GCP
  5. 5. Варианты преобразования
  6. 6. Данные приходят с задержкой
  7. 7. Можно разделить данные на окна
  8. 8. Но тогда потеряем данные пришедшие с опозданием
  9. 9. Apache Beam поддерживает концепцию окон
  10. 10. Cloud Dataflow serverless fully-managed сервис для запуска пайплайнов Apache Beam
  11. 11. Streaming processing in GCP
  12. 12. BigQuery Стриминг данных в BigQuery ● BigQuery позволяет сохранять данные со скоростью 100 000 строк в секунду для одной таблицы ○ актуально как для партиционированных таблиц так и для обычных ○ работает через REST API ● Стриминговые данные могут запрашиваться сразу же после добавления ○ доступность спустя секунды ● serverless fully-managed data warehouse ● колоночная база данных ● масштабируется на петабайты
  13. 13. Cloud Bigtable ● fully-managed data warehouse ● колоночная NoSQL база данных ● масштабируется на терабайты
  14. 14. Cloud Bigtable Когда стоит использовать: ● при необходимости быстрого чтения и высокой пропускной способности ● при неструктурированных данных ● когда размер элемента данных <10Mb а общий размер данных >1Tb ● когда нет необходимости в транзакциях
  15. 15. Cloud Bigtable Когда не стоит использовать: ● при необходимости транзакций - стоит использовать Cloud SQL или Cloud Spanner ● при общем объеме данных меньше чем 1Tb (не будет паралелизации) ● если есть необходимость Business Intelligence - стоит использовать BigQuery ● для хранения документов или структурированных иерархий - стоит использовать DataStore ● для хранения больших сырых данных, например фильмов - стоит использовать Cloud Storage
  16. 16. Cloud Storage ● хранилище объектов ● гибкое, масштабируемое, надежное ● практически бесконечный размер, но один объект максимум 5 Тb ● используется если скорость получения не критична ● и когда есть необходимость разделять данные между несколькими инстансами или зонами ● производительность зависит от класса хранилища ○ Multi-regional ○ Regional ○ Nearline ○ Coldline
  17. 17. Streaming processing in GCP
  18. 18. Cloud DataProc DataProc это managed Hadoop и Spark сервис используемый для выполнения задач на кластере Compute Engine.
  19. 19. типичный деплой Spark или Hadoop
  20. 20. Dataproc упрощает работу с управлением Hadoop
  21. 21. Cloud ML Engine Managed execution environment for machine learning Поддерживаемые фреймворки: ● TensorFlow ● Scikit-learn ● XGBoost Автоматически масштабируемый Версионирование моделей Позволяет делать AB тесты моделей Нет lock-in, обученную модель можно использовать где угодно ML engine predictions service позволяет получать предсказания с помощью REST API
  22. 22. Как мы работаем с GCP

×