--session donnée dans le cadre du 24HOP Francophone--
http://www.sqlpass.org/24hours/2016/french/Sessions.aspx
Les données sont le nouveau pétrole ? Alors vous avez besoin de pipelines.
Azure Data Factory est la solution pour déplacer des données entre vos briques de stockage ou de calcul, qu’elles soient dans le Cloud ou dans votre Data Center.
Dans cette session, vous découvrirez cette technologie et comment construire votre 1er pipeline.
--session donnée dans le cadre du 24HOP Francophone--
http://www.sqlpass.org/24hours/2016/french/Sessions.aspx
Les données sont le nouveau pétrole ? Alors vous avez besoin de pipelines.
Azure Data Factory est la solution pour déplacer des données entre vos briques de stockage ou de calcul, qu’elles soient dans le Cloud ou dans votre Data Center.
Dans cette session, vous découvrirez cette technologie et comment construire votre 1er pipeline.
1.
Azure Data Factory
Mouvement de données hybride
2.
Jean-Pierre Riehl
Practice Manager Data & BI AZEO
MVP Data Platform
Chapter Leader GUSS
@djeepy1
http://blog.djeepy1.net
3.
Azure Data Factory, c’est quoi ?
Consume, Orchestrate, Transform
Principe de « Data Pipeline »
Cloud-ETL ?
4.
Azure Data Factory, c’est quoi ?
« Mouvement de données hybride (mais
principalement dans le Cloud) et Orchestration
des briques Data dans Azure »
5.
Azure Data Factory, les concepts
Data Factory : représente l’unité de base d’ADF, elle contient des pipelines
Pipeline : représente le flux qui sera exécuté
Activité : représente une action réalisée (copie, entrainement de modèle, etc.)
Jeu de données : définit les données manipulées (colonnes, etc.)
Tranche : représente une instance d’un jeu de données
Service Lié : représente une source de données, un service
Passerelle : permet d’accéder à des ressources On-Prem
6.
L’interface
L’interface est dans le portail Azure
Editeur de code intégré
Assistant pipeline de copie
Interface de monitoring
Objets
Diagnostics et alertes
Vision Diagramme
7.
Gestion du code avec Visual Studio
Diagramme
Solution &
objets
Code JSON
12.
Eléments décortiqués : Service Lié
type définit la source
typeProperties contient les propriétés
propres à la source
Ex : hiveConfiguration, mlEndpoint
On précisera la Gateway pour les
sources On-Premises
Possibilité de chiffrer les informations de
connexion (credentials) côté OnPrem
On peut préciser un autre service lié
complémentaire
Ex : Azure Storage pour HDInsight
Possibilité de faire de On-Demand
{
"name": "Djeepy1SQL",
"properties": {
"type": "OnPremisesSqlServer",
"typeProperties": {
"connectionString": "Data
Source=L0171;Initial Catalog=xxx",
"gatewayName": "SQLServer"
}
}
}
13.
Eléments décortiqués : Jeu de données
type dépend de la source
properties/typeProperties contiennent la
définition
On précise le service lié
La structure peut être omise
On peut définir la « disponibilité » du jeu de
données
On peut définir des règles de validation
Ex : nombre minimum de lignes
On peut définir un partitionnement
Ex : source de type fichier
Possibilité d’avoir un Scoped Dataset
{
"name": "FactSalesView_Azure",
"properties": {
"type": "AzureSqlTable",
"linkedServiceName": "AzureSQL",
"structure": [],
"typeProperties": {
"tableName": "FactSalesView_Azure"
},
"external": true,
"availability": {
"frequency": "Minute","interval": 30
},
"policy": {}
}
}
14.
Eléments décortiqués : Activité
Référence les Datasets d’entrée et de
sortie, et donc les Services Liés
On peut définir des informations sur les
sources et les destinations
Ex : le mapping, la requête à exécuter
Possibilité d’écrire des fonctions
On définit la planification
Doit être aligné sur la disponibilité du
Dataset de sortie
On peut définir des conditions d’exécution
Ex : règle de retry
{
"name": "CopyView",
"type": "Copy",
"inputs": [], "outputs": [],
"typeProperties": {
"source": {
"type": "SqlSource",
"sqlReaderQuery": "select * from
dbo.SalesByStoreYear"
},
"sink": {
"type": "SqlSink"
}
},
"policy": { }
"scheduler": { }
}}
15.
Eléments décortiqués : Pipeline
Contient les activités
Détermine quand le pipeline est actif
Start /End
IsPaused
{
"name": "CopyTables",
"properties": {
"description": "Copie d'une vue et
d'une requête custom",
"activities": [
...
],
"start": "2016-09-11T20:00",
"end": "2016-09-11T21:00"
}
}
16.
Activité de copie : Source & Sink
Source
• Méta portées par le Dataset et/ou le
pipeline
• Possibilité d’injecter des paramètres
Sink = Destination
• Mapping possible
Propriétés disponibles dépendantes du
Data Store
Au 19/09/2016
17.
Besoin d’une passerelle ?
DMZ
SQL
Cloud On-Prem
Oracle
…
Data
Management
Gateway
OnPrem Data Sources
Azure Data Factory
19.
Activités de calcul
Il est possible d’utiliser les briques
Data d’Azure pour réaliser des
opérations :
HDInsight (HADOOP, Spark, etc.)
Azure Data Lake
Azure Machine Learning
Utilisé pour la transformation ou le
calcul
Ex :
Requêtes Hive / Pig / MapR / U-SQL
Entrainement de modèle
Appel WS Azure ML
etc.
20.
Activités de calcul
2 modes :
On-Demand
Bring-your-own
On passe la configuration par des
propriétés dans l’activité JSON
22.
Principe de Slicing
La disponibilité et la planification des Datasets conditionnent l’exécution
On parle de Slice (tranche)
Ce sont les Slices qui vont transiter entre les activités des pipelines
Principe d’alignement des Slices (+ planifications)
Possibilité de partitionnement
Dépendances & Policies
Certaines sources sont « toujours disponibles » (ex : SQL Server)
23.
Principe de Slicing
Alignement de planifications
Partitionnement
Dépendances
Policies
Data source « toujours disponible »
Il semblerait que vous ayez déjà ajouté cette diapositive à .
Créer un clipboard
Vous avez clippé votre première diapositive !
En clippant ainsi les diapos qui vous intéressent, vous pourrez les revoir plus tard. Personnalisez le nom d’un clipboard pour mettre de côté vos diapositives.
Créer un clipboard
Partager ce SlideShare
Vous avez les pubs en horreur?
Obtenez SlideShare sans publicité
Bénéficiez d'un accès à des millions de présentations, documents, e-books, de livres audio, de magazines et bien plus encore, sans la moindre publicité.
Offre spéciale pour les lecteurs de SlideShare
Juste pour vous: Essai GRATUIT de 60 jours dans la plus grande bibliothèque numérique du monde.
La famille SlideShare vient de s'agrandir. Profitez de l'accès à des millions de livres numériques, livres audio, magazines et bien plus encore sur Scribd.
Apparemment, vous utilisez un bloqueur de publicités qui est en cours d'exécution. En ajoutant SlideShare à la liste blanche de votre bloqueur de publicités, vous soutenez notre communauté de créateurs de contenu.
Vous détestez les publicités?
Nous avons mis à jour notre politique de confidentialité.
Nous avons mis à jour notre politique de confidentialité pour nous conformer à l'évolution des réglementations mondiales en matière de confidentialité et pour vous informer de la manière dont nous utilisons vos données de façon limitée.
Vous pouvez consulter les détails ci-dessous. En cliquant sur Accepter, vous acceptez la politique de confidentialité mise à jour.