Présentation Google Dataflow

•Télécharger en tant que PPTX, PDF•

4 j'aime•1,049 vues

Geoffrey Garnotel

Slide de ma présentation lors de la soirée technique sur la manipulation de donnée du 03/12/2015

Données & analyses

Sommaire
Origine et principe
Mise en place
Concepts
Windowing / Watermark

Dataflow origine
MapReduce
2004
FlumeJava
2010
MillWheel
2013

Présentation Dataflow
“ Se concentrer sur la logique des process plutôt que sur
l’orchestration physique pour mettre des traitements en
parallèle “

Présentation Dataflow
SDK
Job de Traitement de
donnée
GCP Service
Intégration et utilisation
de la Google Cloud
Platform et de ses outils

Mise en place sur le cloud
Création Compte GCP
Mettre disponible les APIs :
Google Cloud Dataflow API
Compute Engine API (Google Compute Engine)
Google Cloud Logging API
Google Cloud Storage
Google Cloud Storage JSON API
BigQuery API
Google Cloud Pub/Sub
Google Cloud Datastore API

Launcher
DirectPipelineRunner : execution local
DataFlowPipelineRunner : lance l’execution / s’arrete
BlockingDataflowPipelineRunner : lance l’execution et
attends qu’il se termine.

Launcher
Cloud Storage Buckets
BigQuery Datasets
Pub/Sub Topics and Subscriptions
Cloud Datastore
=> Go to the Pipelines World

Concept
Source
PCollection PCollection PCollection
Transform Transform
PIPELINES
Sink
Sink
Sink
Source

Concept
Pipelines : ensemble d’opération qui lis les données, les
transforme et qui écris les résultats / job
PCollections : Ensemble de données (bounded /
unbounded )
Transforms : Action pour manipuler les données, prend
N PCollection en entrée et en fournit une autre en
sortie
I/O sources and sinks : sources en entrée / Sink en
sortie.

Concept - Pipelines
“ensemble des opérations qui lis les données, les transforme et
qui écris les résultats”
Possibilité de créer plusieurs Pipelines mais pas d’interaction
entre.
Runner Cloud Dataflow Service ou autre.

Concept - PCollections
“represents a very large data set in the cloud”
immutable
pas de ramdom access
Uniquement dans le pipelines

Concept - PCollections
Bounded
Unbounded

Transform
ParDo
GroupByKey
Combine
Flatten
Transform

Transform - ParDo (“Parallel Do”)
LowerCase Filter
Data, Sfeir, Cloud, ...
data, sfeir, cloud, ...
Data, Sfeir, Cloud, ...
Sfeir, Cloud, ...

Transform - ParDo (“Parallel Do”)
ExplodePrefixes KeyByFirstLetter
Data, Sfeir, Cloud, ...
d, da, dat, data, s, sf,
sfe, sfei, sfeir, c, cl,
clo, clou, cloud, ...
Data, Sfeir, Cloud, Sync
...
<d, Data>, <s, Sfeir>,
<c, Cloud>, <s, Sync>...

Transform - GroupByKey
GroupByKey
<d, {Data}>, <s, { Sfeir,
Sync}>, <c, {Cloud}>
<d, Data>, <s, Sfeir>,
<c, Cloud>, <s, Sync>...

Transform - Combine
Combine.perKey(C
ountFn())
GroupByKey
<d, Data>, <s, Sfeir>,
<c, Cloud>, <s, Sync>...
<d, {Data}>, <s, { Sfeir,
Sync}>, <c, {Cloud}>
CountByKey
<d, 1>, <s, 2>, <c, 1>
<d, Data>, <s, Sfeir>,
<c, Cloud>, <s, Sync>...
<d, 1>, <s, 2>, <c, 1>

Exemple
splitwords
Count
Format TopAndBottom

Windowing
Combine
GroupByKey
DataSet limité

Windowing - Fixed
9:00 9:209:10 9:30 9:40
Défini le temps de la Window
Time

Windowing - Sliding
9:00 9:209:10 9:30 9:40
Défini le temps de la Window et la slide period
Time
Period

Windowing - Session
9:00 9:209:10 9:30 9:40
Défini le temps sans élement

Windowing
On joue avec le temps
Event Time Processing
Time

Windowing - Watermark
9:00 9:209:10 9:30 9:40
Gérer le décalage entre le time event et le processing time
Event Time
Processing Time
1
4
2
3
1
23
4
5
5

Windowing - Watermark
9:00 9:209:10 9:30 9:40
Event Time
Processing Time
1
4
2
3
1
23
4
5
5
Le Watermark va permettre de prendre en compte la donnée 2 mais la donnée 5 sera considéré comme une
donnée en retard (data late)
On peut ajouter une gestion des data late au Watermark

Trigger
Aider à gérer les late data / Récupérer des informations sur les
aggrégations en cours
3 types :
Time based
Data driven
Combined

Link
DataFlow Model
http://www.vldb.org/pvldb/vol8/p1792-Akidau.pdf
Video Frances Perry :
https://www.youtube.com/watch?v=3UfZN59Nsk8
Dataflow GCP : https://cloud.google.com/dataflow/

Geoffrey Garnotel
Email : ggarnotel@gmail.com
Twitter : @ggarnotel

Contenu connexe

Similaire à Présentation Google Dataflow

SSL 2011 : Présentation de 2 bases noSQL

Hervé Leclerc

"Continuous Delivery" et "DevOps" font partis des buzz word du moment dans l'IT. Si vous n'êtes pas encore entrés dans ces démarches, ce n'est qu'une question de temps ! Préparez-vous à voir bientôt débarquer votre chef sur le bench avec le bouquin "Découvrir DevOps" sous le bras. Mais pour les développeurs, ça change quoi le DevOps ? A travers cette conférence, je vais vous faire part des mes différents retours d'expérience sur ces changements autour des pratiques, organisations et outillages.

Au secours, mon chef m'a demandé de passer au DevOps

antony_guilloteau

Depuis toujours nous souhaitons développer au mieux des procédures stockées dans SQL Server, afin de clarifier ou d’optimiser nos développements. Depuis 2005, les procédures stockées et les triggers peuvent être développés en .NET, grâce à votre langage favoris : C#, VB.NET, etc. Nous pouvons ainsi tirer parti de toute la puissance de ce Framework : fonctions mathématiques, cryptages, gestion de chaine de caractères, manipulation des dates, etc. Lors de cette session, nous expliquerons comment créer des procédures, des triggers et des fonctions d’agrégations dans ce mode CLR. Nous passerons en revue les trucs et astuces utiles pour optimiser nos requêtes. Nous verrons quels sont les avantages de concevoir des procédures SQL en .NET ; mais également quels en sont les inconvénients. Finalement, nous verrons comment déployer facilement les bibliothèques .NET créées, dans SQL Server : quels outils utiliser.

Procédures CLR pour SQL Server : avantages et inconvénients

Denis Voituron

Stream processing et SQL

Bruno Bonnin

Google est le champion de la data et naturellement sa plateforme cloud propose toutes les briques nécessaires pour mettre en place un Data lake. Dans cette présentation, nous vous détaillerons les différents services permettant de mettre en place concrètement un data lake, et ainsi répondre aux questions suivantes: Comment stocker mes données ? Comment les intégrer ? Comment les exploiter ? Comment orchestrer des traitements ? Comment maitriser mon data lake ?

Construire un data lake managé - GDG Paris - Juin 2019

Jean-Baptiste Claramonte

Livecast: Mettez à disposition de vos partenaires une base de données SQL Azure

Microsoft Technet France

Digital GraphTour Paris - Neo4j 4.0, les nouveautés

Neo4j

Vous ne voulez plus gérer vos problèmes Hardware ? Vous ne voulez plus gérer vos mises à jour de sécurité ? Vous voulez de la haute disponibilité à moindre coût et en gagnant du temps ? Vous êtes dans un environnement sécurisé ? Alors n’hésitez pas à migrer vos bases dans Azure. Accompagné de Nicolas Soukoff (Senior Premier Field Engineer – SQL Server ), nous vous guiderons sur les choix de solution et les étapes de migration : – VM dans Azure / SQL Azure Database – Solution de HA (AlwaysOn) – Comment migrer simplement – Gérer son Disaster Recovery dans Azure. Session présentée lors du SQLSaturday Paris 2014

SQLSaturday Paris 2014 - Et hop, ma base migre dans Azure

GUSS

Activity

dido

Actuellement, on parle beaucoup de traitement en lots (batch) dans le monde du Big Data. Mais qu’en est-il du Streaming et du temps réel ? Beaucoup de frameworks Big Data tentent de répondre à cette problématique. En tête de liste figure Spark : grâce à son composant Spark Streaming, il permet un traitement en continu des flux de données et une disponibilité 24/7. Au programme : - Streaming et Architecture Big Data - Hello world Spark Streaming - Intégration de Flume à Spark Streaming - Use case “métriques sur des logs applicatifs” - Architecture physique : driver / workers / receivers - Monitoring de Spark Streaming - Fail over : reliable / unreliable sources, checkpoint, recover - Tuning et performance. Speakers : - Nadhem LAMTI, Architecte Technique chez PALO IT Depuis 10 ans, Nadhem intervient principalement sur des projets JAVA JEE de grande envergure dans différents secteurs (Télécommunication, Banque, Finance, Transports, Tourisme, etc.), développant ainsi une expertise polyvalente en abordant multiples technologies et architectures. Fort d’une expérience concluante en tant qu’Ingénieur Performance & Support, Nadhem est capable d’intervenir sur des problématiques de production liées à des systèmes d’informations complexes. Actuellement en mission chez Voyages SNCF, il contribue à un grand chantier Big Data de centralisation de logs et s’intéresse tout particulièrement au nouveau produit phare de traitement de données Apache Spark. - Saâd-Eddine MALTI, Expert BDD chez Voyages SNCF En poste depuis 10 ans chez Voyages SNCF, Saâd-Eddine intervient en tant qu’Expert BDD sur toutes les applications de manière transverse. L’orientation affichée de Voyages SNCF vers le Big Data pousse Saâd-Eddine à s’investir pleinement dans ce domaine, également sur le nouveau produit phare de traitement de données Apache Spark.

Spark Streaming

PALO IT

Symposium n°7 : Plateforme Meteor

ArthurMaroulier

Stream processing et SQL

Bruno Bonnin

Java Database Connectivity

Korteby Farouk

Terraform - IAC - de quoi s'agit t'il ?.pdf

Dominique Dumont

Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013

serge luca

Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...

Bruno Bonnin

Stream processing et SQL

Bruno Bonnin

Rapport tp3 j2ee

Soukaina Boujadi

Vous allez voir comment collecter des informations JSON (ou autre) venant de différentes instances d’applications mobiles sur une ferme Web, agréger ces données sous formes de fichiers dans le nuage (blobs). Vous allez également voir comment créer par script un cluster Hadoop en tant que service, comment lui soumettre un script à la SQL (HIVE) pour analyser les données ainsi collectées avant de détruire le cluster. Enfin, vous alllez voir comment récupérer les résultats (sans que le cluster Hadoop ait besoin d’être allumé) dans Excel Power Query, pour alimenter un modèle Power Pivot et visualiser le résultat sur une carte dans Power View. Ces différentes parties sont relativement indépendantes. Elles peuvent être réutilisées indépendamment les unes des autres. Ensemble, elles constituent une solution de type cloud hybride, où des applications mobiles situées par définition à des endroits très divers envoient des données dans le cloud pour analyse avant visualisation dans les murs de l’entreprise (Excel). Le cloud hybride, cela peut correspondre à des solutions aussi concrètes que cela !

[Tuto] Big datatrack : Web Tracker

Microsoft Technet France

Performance et optimisation de PrestaShop

PrestaShop

Similaire à Présentation Google Dataflow (20)

SSL 2011 : Présentation de 2 bases noSQL

Au secours, mon chef m'a demandé de passer au DevOps

Procédures CLR pour SQL Server : avantages et inconvénients

Stream processing et SQL

Construire un data lake managé - GDG Paris - Juin 2019

Livecast: Mettez à disposition de vos partenaires une base de données SQL Azure

Digital GraphTour Paris - Neo4j 4.0, les nouveautés

SQLSaturday Paris 2014 - Et hop, ma base migre dans Azure

Activity

Spark Streaming

Symposium n°7 : Plateforme Meteor

Stream processing et SQL

Java Database Connectivity

Terraform - IAC - de quoi s'agit t'il ?.pdf

Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013

Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...

Stream processing et SQL

Rapport tp3 j2ee

[Tuto] Big datatrack : Web Tracker

Performance et optimisation de PrestaShop

Présentation Google Dataflow

1. Google Dataflow

2. Sommaire Origine et principe Mise en place Concepts Windowing / Watermark

3. Présentation GCP

4. Dataflow origine MapReduce 2004 FlumeJava 2010 MillWheel 2013

5. Présentation Dataflow “ Se concentrer sur la logique des process plutôt que sur l’orchestration physique pour mettre des traitements en parallèle “

6. Présentation Dataflow SDK Job de Traitement de donnée GCP Service Intégration et utilisation de la Google Cloud Platform et de ses outils

7. Mise en place sur le cloud Création Compte GCP Mettre disponible les APIs : Google Cloud Dataflow API Compute Engine API (Google Compute Engine) Google Cloud Logging API Google Cloud Storage Google Cloud Storage JSON API BigQuery API Google Cloud Pub/Sub Google Cloud Datastore API

8. Mise en place local

9. Launcher DirectPipelineRunner : execution local DataFlowPipelineRunner : lance l’execution / s’arrete BlockingDataflowPipelineRunner : lance l’execution et attends qu’il se termine.

10. Launcher Cloud Storage Buckets BigQuery Datasets Pub/Sub Topics and Subscriptions Cloud Datastore => Go to the Pipelines World

11. Concept Source PCollection PCollection PCollection Transform Transform PIPELINES Sink Sink Sink Source

12. Concept Pipelines : ensemble d’opération qui lis les données, les transforme et qui écris les résultats / job PCollections : Ensemble de données (bounded / unbounded ) Transforms : Action pour manipuler les données, prend N PCollection en entrée et en fournit une autre en sortie I/O sources and sinks : sources en entrée / Sink en sortie.

13. Concept - Pipelines “ensemble des opérations qui lis les données, les transforme et qui écris les résultats” Possibilité de créer plusieurs Pipelines mais pas d’interaction entre. Runner Cloud Dataflow Service ou autre.

14. Concept - PCollections “represents a very large data set in the cloud” immutable pas de ramdom access Uniquement dans le pipelines

15. Concept - PCollections Bounded Unbounded

16. Transform ParDo GroupByKey Combine Flatten Transform

17. Transform - ParDo (“Parallel Do”) LowerCase Filter Data, Sfeir, Cloud, ... data, sfeir, cloud, ... Data, Sfeir, Cloud, ... Sfeir, Cloud, ...

18. Transform - ParDo (“Parallel Do”) ExplodePrefixes KeyByFirstLetter Data, Sfeir, Cloud, ... d, da, dat, data, s, sf, sfe, sfei, sfeir, c, cl, clo, clou, cloud, ... Data, Sfeir, Cloud, Sync ... <d, Data>, <s, Sfeir>, <c, Cloud>, <s, Sync>...

19. Transform - GroupByKey GroupByKey <d, {Data}>, <s, { Sfeir, Sync}>, <c, {Cloud}> <d, Data>, <s, Sfeir>, <c, Cloud>, <s, Sync>...

20. Transform - Combine Combine.perKey(C ountFn()) GroupByKey <d, Data>, <s, Sfeir>, <c, Cloud>, <s, Sync>... <d, {Data}>, <s, { Sfeir, Sync}>, <c, {Cloud}> CountByKey <d, 1>, <s, 2>, <c, 1> <d, Data>, <s, Sfeir>, <c, Cloud>, <s, Sync>... <d, 1>, <s, 2>, <c, 1>

21. Source / Sink

22. Exemple splitwords Count Format

23. Exemple splitwords Count Format TopAndBottom

24.

25. Windowing Combine GroupByKey DataSet limité

26. Windowing 9:00 9:209:10 9:409:30

27. Windowing - Fixed 9:00 9:209:10 9:30 9:40 Défini le temps de la Window Time

28. Windowing - Sliding 9:00 9:209:10 9:30 9:40 Défini le temps de la Window et la slide period Time Period

29. Windowing - Session 9:00 9:209:10 9:30 9:40 Défini le temps sans élement

30. Windowing On joue avec le temps Event Time Processing Time

31. Windowing - Watermark 9:00 9:209:10 9:30 9:40 Gérer le décalage entre le time event et le processing time Event Time Processing Time 1 4 2 3 1 23 4 5 5

32. Windowing - Watermark 9:00 9:209:10 9:30 9:40 Event Time Processing Time 1 4 2 3 1 23 4 5 5 Le Watermark va permettre de prendre en compte la donnée 2 mais la donnée 5 sera considéré comme une donnée en retard (data late) On peut ajouter une gestion des data late au Watermark

33. Trigger Aider à gérer les late data / Récupérer des informations sur les aggrégations en cours 3 types : Time based Data driven Combined

34.

35. WordCount BigQuery + TOP & MIN value

36. Link DataFlow Model http://www.vldb.org/pvldb/vol8/p1792-Akidau.pdf Video Frances Perry : https://www.youtube.com/watch?v=3UfZN59Nsk8 Dataflow GCP : https://cloud.google.com/dataflow/

37. Geoffrey Garnotel Email : ggarnotel@gmail.com Twitter : @ggarnotel

Notes de l'éditeur

Ensemble de données typés non limité : en mémoire sur une simple instance Compute Engine ou sur un datastore plus important … … ou en stream : seul contrainte être capable de les sérialiser soit en utilisant des données que dataflow maitrise soit en lui fornissant comment les encoder.
Transforme les données : d’une(N) PCollection à 1 (N) PCollection Ne sont pas forcément appliquer dans l’ordre qu’ils sont mis. Dataflow va améliorer l’ordre selon un ordre de dépendance et une optimisation des exec.
How to convert input into accumulators How to combine accumulators How to extract output from accumulators
Transforme les données : d’une(N) PCollection à 1 (N) PCollection Ne sont pas forcément appliquer dans l’ordre qu’ils sont mis. Dataflow va améliorer l’ordre selon un ordre de dépendance et une optimisation des exec.
Transforme les données : d’une(N) PCollection à 1 (N) PCollection Ne sont pas forcément appliquer dans l’ordre qu’ils sont mis. Dataflow va améliorer l’ordre selon un ordre de dépendance et une optimisation des exec.
Transforme les données : d’une(N) PCollection à 1 (N) PCollection Ne sont pas forcément appliquer dans l’ordre qu’ils sont mis. Dataflow va améliorer l’ordre selon un ordre de dépendance et une optimisation des exec.
Transforme les données : d’une(N) PCollection à 1 (N) PCollection Ne sont pas forcément appliquer dans l’ordre qu’ils sont mis. Dataflow va améliorer l’ordre selon un ordre de dépendance et une optimisation des exec.
Toute les données n’arrive pas forcément en même temps, les données ne sont pas garanti pour arrivé dans le correct ordre temporel
Dataflow “surveille” un temps les données arrivant avec le même timestamps : watermark celle qui arrive plus tard sont des late data Une window de 60 s, un watermark de 10 seconde, Dataflow va surveiller les données de 0 à 70 / de 60 à 130s … Data lag
Trigger : accumulation mode : Permet de dire quand on peut acceder au donnée “en avance” par exemple: temps de 10 minutes mais on veut suivre l’évolution d’une moyenne par exemple tous les 100 éléments . activer : accumulatingFiredPanes / discardingFiredPanes
Transforme les données : d’une(N) PCollection à 1 (N) PCollection Ne sont pas forcément appliquer dans l’ordre qu’ils sont mis. Dataflow va améliorer l’ordre selon un ordre de dépendance et une optimisation des exec.
Trigger : accumulation mode : Permet de dire quand on peut acceder au donnée “en avance” par exemple: temps de 10 minutes mais on veut suivre l’évolution d’une moyenne par exemple tous les 100 éléments . activer : accumulatingFiredPanes / discardingFiredPanes
Trigger : accumulation mode : Permet de dire quand on peut acceder au donnée “en avance” par exemple: temps de 10 minutes mais on veut suivre l’évolution d’une moyenne par exemple tous les 100 éléments . activer : accumulatingFiredPanes / discardingFiredPanes

Présentation Google Dataflow

Recommandé

Recommandé

Contenu connexe

Similaire à Présentation Google Dataflow

Similaire à Présentation Google Dataflow (20)

Présentation Google Dataflow

Notes de l'éditeur