8. 8
• Service managé
• Repose sur Apache Airflow
• En python
• Intégré aux services B
• BigQuery, Dataflow, Dataproc, Datastore, Cloud Storage, Pub/Sub, Cloud ML engine
• Autres Cloud
AIRFLOW :
9. 9
• Pas seulement un CRON
• Un workflow robuste
• Génération de métadata
• Reprise des tâches
• Dispose d’une interface
• Workflow as Code
• De nombreux fonctionnalités
• Reprises
• SLA
• Workflow complexe
AIRFLOW :
10. 10
• Qu’est ce qu’un DAG
• Permet de définir une hiérarchie / workflow
• Le workflow est un ensemble de tâches
SON RÔLE
« Un graphe orienté acyclique est un graphe orienté qui ne possède pas de circuit » wikipedia
11. 11
• Le DAG
SON RÔLE
Définition
• Une date de
début
• Des paramètres
de mailing, de
reprise
Opération(s)
• Description du
processus
• Une
implémentation
d’un opérateur
est une tâche
Relation
• Relation entre
des opérations
• Branching
conditionnel
12. 12
• Une tâche doit avoir des paramètres
• A quel moment elle commence ?
• Le nombre de fois qu’on peut recommencer ? Le délai entre deux essaies
• Les actions d’envoie de mail, de callback
• Si les tâches dépendent du passé
FOCUS DEFINITION
13. 13
Operator VS Sensor
Execution VS Trigger
FOCUS OPERATOR
HttpSensor
HdfsSensorS3Sensor
HttpSensor
HdfsSensorS3Sensor
BigqueryOperator
• Possibilité de rajouter des paramètres pour rendre dynamique
• Récupérer des fichiers sur Cloud Storage etc..
14. 14
Interface VS commandLine
gcloud beta composer environments create dev --
location us-central1 --zone us-central1-f --
machine-type n1-standard-2 --labels env=beta
CRÉATION DE L’ENVIRONNEMENT