SlideShare une entreprise Scribd logo
Azure Data Lake
La Big Data 2.0
Jean-Pierre Riehl – Fabien Adato
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
2
Meet the Team
Jean-Pierre Riehl
Practice Manager Data & BI
Fabien Adato
Expert Data & BI
@fabienAD
http://fadata-blog.com
MVP Data Platform
French Data
Community Leader
@djeepy1
http://blog.djeepy1.net
MVP Data Platform
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
3
 Azure Data Lake, c’est quoi ?
 Azure Data Lake Store
 Azure Data Lake Analytics
 Outillage
 Coder en U-SQL
 Etendre ADLA
 ADL avec PowerShell
 Q&R
Agenda
Azure Data Lake, c’est quoi ?
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
5
Un peu d’histoire
Microsoft a
besoin d’une
technologie pour
analyser des Péta-
octets de données
2007-2008
MS Research crée
« Cosmos »
2011-2012
Le phénomène
Big Data démarre
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
6
Solution « Big Data » managée proposée sur Azure
 ADL Store : un système de stockage distribué de type HDFS
 ADL Analytics : un moteur de requêtage « analytique »
 U-SQL : La simplicité du SQL, la puissance de .NET
Azure Data Lake
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
7
Cortana Analytics Suite
Transform data into intelligent action
Business
apps
Custom
apps
Sensors
and devices
People
Automated
Systems
Data Collection ToolsData Collection Tools
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
8
Azure Data Lake
Analytics
Storage
Azure Data Lake Analytics
Azure Data Lake Store
HDInsight
(“managed clusters”)
U-SQL
Azure Blob
Azure Data Lake Store
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
10
Azure Data Lake Store
 Pushing the Limits !!!
 Pas de limite sur les tailles de fichier / stockage
 « massive throughput, low latency »
 Sécurité avancée (type NTFS/POSIX)
 Compatible HDFS, WebHDFS
 « Optimisé pour l’analytique »
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
11
Azure Blob vs. ADL Store
 Le prix :
 ADL : 34€ / To / mois
 Azure Blob : 20€ / To / mois*
* Hot LRS, First 100TB
?
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
12
Azure Data Lake Store
Focus Sécurité
 Chiffré avec Azure Key Vault
 Authentification moderne (OAuth, MFA, etc.)
 Intégration Azure Active Directory
 Autorisation avec ACL (type POSIX)
 Audit
DEMO
Azure Data Lake Store
Azure Data Lake Analytics
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
15
Azure Data Lake Analytics
Les arguments Marketing
 “Elastic analytics service”
 “all data, at any size”
 “No Limits to Scale”
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
16
Azure Data Lake Analytics
 Service PaaS, serverless
 Mode batch (on parle de « job »)
 Modèle de tarification à l’exécution
 Sécurité et Audit
 Optimisé pour ADL Store
 Langage dédié : U-SQL
Les + :
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
DEMO
Azure Data Lake Analytics
U-SQL
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
19
Le language U-SQL
Les basiques de SQL
 Clauses de base
 SELECT, FROM, WHERE
 GROUP BY, JOIN, OVER
 Fonctionne sur des données
structurées et non-structurées
 Modèle relationnel pour les
méta-données
La puissance de .NET
 C# Expressions
 Code Behind
 Types
 Fonctions
 Agrégats
 Extractors / Outputters
 Processors
 Réutilisation d’Assemblies .NET
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
20
Usages U-SQL
Source @DoktorKermit
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
21
Ma 1ere requête U-SQL
@checkins =
EXTRACT [Date] DateTime,
[Checkins] int,
[DenRatio] string, [MayorRatio] string,
[Category] string, [Subcategory] string,
Venue string, Country string, City string,
Latitude string, Longitude string
FROM "/Samples/Data/Djeepy1Foursquare/Export-ADL-20170305.csv"
USING Extractors.Csv(skipFirstNRows : 1);
@resByCat =
SELECT [Category],
COUNT( * ) AS NbCheckins
FROM @checkins
GROUP BY [Category];
OUTPUT @resByCat
TO "/Samples/Data/Djeepy1Foursquare/Out-ByCat-FirstQuery.csv"
USING Outputters.Csv();
Extraction des données
Schema-on-Read
Manipulation des données
Sortie
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
DEMO
Ma 1ere requête U-SQL
Exécution d’un job
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
25
L’exécution d’un job U-SQL
Job
Scheduler &
Queue
Front-EndService
Vertex Execution
Consume
Local
Storage
Data Lake
Store
Author
Plan
Compiler Optimizer
Vertexes
running in
YARN
Containers
U-SQL
Runtime
Optimized
Plan
Vertex Scheduling
On containers
Job Manager
USQL
Compiler
Service &
USQL Catalog
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
26
Plan d’exécution (aka “Job Graph”)
Le job est découpé en
Vertex
Les vertex sont organisés par
“type de travail” (SuperVertex)
“Job Graph”
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
DEMO
Ma 1ere exécution
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
28
Ma première exécution
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
29
Analyse de l’exécution
5 DLAU
allouées
1 DLAU
consommée
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
30
Data Lake Analytical Unit
 ADLAU : unité d’exécution d’un Job
 ADLAU = 1 VM avec 2 cœurs et 6Go de RAM
 Déclaratif : on indique combien d’ADLAU on souhaite
 Les Vertex sont « affectés » sur des ADLAU pour exécution
 La facturation se fait sur les ADLAU allouées
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
31
Tarification
Outillage
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
33
Visual Studio
 Intellisense
 Exécution locale
 Visualisation des jobs
 Optimisation
 Replay
 Debug
Téléchargez
Azure Data Lake Tools
Etendre ADLA
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
35
Etendre U-SQL avec .NET
 C# Expressions
 UDFs : Fonctions
 UDAGGs : Agrégats
 UDOs : Opérations (Extractors, Outputters)
 PROCESS : traitements
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
DEMO
Etendre U-SQL
ADL avec PowerShell
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
38
ADL Store - commandes
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
39
ADL Analytics - commandes
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
DEMO
Azure Data Lake & PowerShell
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
41
Merci !
Questions…
…et réponses
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
42
Merci à nos sponsors
PLATINUM
LOCAUX
PARTENAIRES MEDIA
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
43
Sponsors internationaux
www.azug.fr
© 2017 AZUG FR. All Rights Reserved.
44
Nous suivre
Facebook
facebook.com/groups/azugfr/
Twitter
twitter.com/AZUGFR
Meetup
meetup.com/AZUG-FR/
LinkedIn
Linkedin.com/inspirasign
Web
www.azug.fr
Merci
d’être venus
A bientôt !

Contenu connexe

Tendances

DataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le CloudDataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le Cloud
Victor Coustenoble
 
Datalake de l'idée à la plateforme
Datalake de l'idée à la plateformeDatalake de l'idée à la plateforme
Datalake de l'idée à la plateforme
Novencia Groupe
 
Azure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides KeynoteAzure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides Keynote
Microsoft
 
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
DataStax
 
GUSS - CRITEO Meetup Scale SQL for the Web
GUSS - CRITEO Meetup Scale SQL for the WebGUSS - CRITEO Meetup Scale SQL for the Web
GUSS - CRITEO Meetup Scale SQL for the Web
GUSS
 
Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Jean-Pierre Riehl
 
Jss 2015 - Microsoft Stream analytics
Jss 2015 -  Microsoft Stream analyticsJss 2015 -  Microsoft Stream analytics
Jss 2015 - Microsoft Stream analytics
Georges Damien
 
Aws vs azure
Aws vs azureAws vs azure
Aws vs azure
Manfred Dardenne
 
Azure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaAzure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmedia
Microsoft
 
Delta lake - des data lake fiables a grande échelle
Delta lake - des data lake fiables a grande échelleDelta lake - des data lake fiables a grande échelle
Delta lake - des data lake fiables a grande échelle
françois de Buttet
 
Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?
Victor Coustenoble
 
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
Mathieu DESPRIEE
 
AWS Internet of Things and Machine Learning
AWS Internet of Things and Machine LearningAWS Internet of Things and Machine Learning
AWS Internet of Things and Machine Learning
Amazon Web Services
 
HUG France - 20160114 industrialisation_process_big_data CanalPlus
HUG France -  20160114 industrialisation_process_big_data CanalPlusHUG France -  20160114 industrialisation_process_big_data CanalPlus
HUG France - 20160114 industrialisation_process_big_data CanalPlus
Modern Data Stack France
 
04 big data fournisseurs
04 big data fournisseurs04 big data fournisseurs
04 big data fournisseurs
Patrick Bury
 
Présentation JSS2015 - Le Query Store de SQL Server 2016
Présentation JSS2015 - Le Query Store de SQL Server 2016Présentation JSS2015 - Le Query Store de SQL Server 2016
Présentation JSS2015 - Le Query Store de SQL Server 2016
Guillaume Nocent
 
DataStax Enterprise - Cas d'usage
DataStax Enterprise - Cas d'usageDataStax Enterprise - Cas d'usage
DataStax Enterprise - Cas d'usage
Claude-Alain Glauser
 
Dans les coulisses de Google BigQuery
 Dans les coulisses de Google BigQuery Dans les coulisses de Google BigQuery
Dans les coulisses de Google BigQuery
Duchess France
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
acogoluegnes
 
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
MS Cloud Summit
 

Tendances (20)

DataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le CloudDataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le Cloud
 
Datalake de l'idée à la plateforme
Datalake de l'idée à la plateformeDatalake de l'idée à la plateforme
Datalake de l'idée à la plateforme
 
Azure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides KeynoteAzure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides Keynote
 
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
 
GUSS - CRITEO Meetup Scale SQL for the Web
GUSS - CRITEO Meetup Scale SQL for the WebGUSS - CRITEO Meetup Scale SQL for the Web
GUSS - CRITEO Meetup Scale SQL for the Web
 
Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données
 
Jss 2015 - Microsoft Stream analytics
Jss 2015 -  Microsoft Stream analyticsJss 2015 -  Microsoft Stream analytics
Jss 2015 - Microsoft Stream analytics
 
Aws vs azure
Aws vs azureAws vs azure
Aws vs azure
 
Azure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaAzure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmedia
 
Delta lake - des data lake fiables a grande échelle
Delta lake - des data lake fiables a grande échelleDelta lake - des data lake fiables a grande échelle
Delta lake - des data lake fiables a grande échelle
 
Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?
 
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
 
AWS Internet of Things and Machine Learning
AWS Internet of Things and Machine LearningAWS Internet of Things and Machine Learning
AWS Internet of Things and Machine Learning
 
HUG France - 20160114 industrialisation_process_big_data CanalPlus
HUG France -  20160114 industrialisation_process_big_data CanalPlusHUG France -  20160114 industrialisation_process_big_data CanalPlus
HUG France - 20160114 industrialisation_process_big_data CanalPlus
 
04 big data fournisseurs
04 big data fournisseurs04 big data fournisseurs
04 big data fournisseurs
 
Présentation JSS2015 - Le Query Store de SQL Server 2016
Présentation JSS2015 - Le Query Store de SQL Server 2016Présentation JSS2015 - Le Query Store de SQL Server 2016
Présentation JSS2015 - Le Query Store de SQL Server 2016
 
DataStax Enterprise - Cas d'usage
DataStax Enterprise - Cas d'usageDataStax Enterprise - Cas d'usage
DataStax Enterprise - Cas d'usage
 
Dans les coulisses de Google BigQuery
 Dans les coulisses de Google BigQuery Dans les coulisses de Google BigQuery
Dans les coulisses de Google BigQuery
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
 
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
 

Similaire à Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)

Gab17 lyon - La BI traditionnelle est une histoire du passée. Impacts de la r...
Gab17 lyon - La BI traditionnelle est une histoire du passée. Impacts de la r...Gab17 lyon - La BI traditionnelle est une histoire du passée. Impacts de la r...
Gab17 lyon - La BI traditionnelle est une histoire du passée. Impacts de la r...
AZUG FR
 
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...
Jean-Pierre Riehl
 
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsUSI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
Joseph Glorieux
 
Monter des environnements dev test efficaces avec Windows Azure
Monter des environnements dev test efficaces avec Windows AzureMonter des environnements dev test efficaces avec Windows Azure
Monter des environnements dev test efficaces avec Windows Azure
Microsoft Technet France
 
GAB 2017 PARIS - Azure Functions et les architectures serverless par Laurent Yin
GAB 2017 PARIS - Azure Functions et les architectures serverless par Laurent YinGAB 2017 PARIS - Azure Functions et les architectures serverless par Laurent Yin
GAB 2017 PARIS - Azure Functions et les architectures serverless par Laurent Yin
AZUG FR
 
Exadays cloud – Enjeux et Transformation du SI
Exadays   cloud – Enjeux et Transformation du SIExadays   cloud – Enjeux et Transformation du SI
Exadays cloud – Enjeux et Transformation du SI
Samir Arezki ☁
 
BBL - Monitoring - kyriba
BBL - Monitoring - kyribaBBL - Monitoring - kyriba
BBL - Monitoring - kyriba
Olivier BAZOUD
 
Lost in serverless AWS Lambda, Google Cloud Function, Azure Function quelle s...
Lost in serverless AWS Lambda, Google Cloud Function, Azure Function quelle s...Lost in serverless AWS Lambda, Google Cloud Function, Azure Function quelle s...
Lost in serverless AWS Lambda, Google Cloud Function, Azure Function quelle s...
sebastienmoreno
 
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...
GUSS
 
GAB 2017 PARIS - La santé de votre environnement Azure par Manon Pernin et Ma...
GAB 2017 PARIS - La santé de votre environnement Azure par Manon Pernin et Ma...GAB 2017 PARIS - La santé de votre environnement Azure par Manon Pernin et Ma...
GAB 2017 PARIS - La santé de votre environnement Azure par Manon Pernin et Ma...
AZUG FR
 
AZUG FR - Meetup Nov 2016 @ Arolla
AZUG FR - Meetup Nov 2016 @ ArollaAZUG FR - Meetup Nov 2016 @ Arolla
AZUG FR - Meetup Nov 2016 @ Arolla
AZUG FR
 
CV - Database Administrator ( French )
CV - Database Administrator ( French )CV - Database Administrator ( French )
CV - Database Administrator ( French )
Franck VICTORIA
 
Le cloud-in-a-box avec Cloud Platform System (CPS) et Windows Azure Pack
Le cloud-in-a-box avec Cloud Platform System (CPS) et Windows Azure PackLe cloud-in-a-box avec Cloud Platform System (CPS) et Windows Azure Pack
Le cloud-in-a-box avec Cloud Platform System (CPS) et Windows Azure Pack
Microsoft Décideurs IT
 
Gab 2017 Lyon - les strategies d'intégration avec Azure iPaaS - Samir Arezki
Gab 2017 Lyon - les strategies d'intégration avec Azure iPaaS - Samir ArezkiGab 2017 Lyon - les strategies d'intégration avec Azure iPaaS - Samir Arezki
Gab 2017 Lyon - les strategies d'intégration avec Azure iPaaS - Samir Arezki
Samir Arezki ☁
 
Gab 2017 Lyon - les strategies d'intégration avec Azure iPaaS - Samir Arezki
Gab 2017 Lyon - les strategies d'intégration avec Azure iPaaS - Samir ArezkiGab 2017 Lyon - les strategies d'intégration avec Azure iPaaS - Samir Arezki
Gab 2017 Lyon - les strategies d'intégration avec Azure iPaaS - Samir Arezki
AZUG FR
 
La santé de votre environnement Azure, entre Monitor, AppInsights et Log Anal...
La santé de votre environnement Azure, entre Monitor, AppInsights et Log Anal...La santé de votre environnement Azure, entre Monitor, AppInsights et Log Anal...
La santé de votre environnement Azure, entre Monitor, AppInsights et Log Anal...
Marius Zaharia
 
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
serge luca
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
Converteo
 

Similaire à Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017) (20)

Gab17 lyon - La BI traditionnelle est une histoire du passée. Impacts de la r...
Gab17 lyon - La BI traditionnelle est une histoire du passée. Impacts de la r...Gab17 lyon - La BI traditionnelle est une histoire du passée. Impacts de la r...
Gab17 lyon - La BI traditionnelle est une histoire du passée. Impacts de la r...
 
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...
 
Fusion io
Fusion ioFusion io
Fusion io
 
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsUSI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
 
Monter des environnements dev test efficaces avec Windows Azure
Monter des environnements dev test efficaces avec Windows AzureMonter des environnements dev test efficaces avec Windows Azure
Monter des environnements dev test efficaces avec Windows Azure
 
GAB 2017 PARIS - Azure Functions et les architectures serverless par Laurent Yin
GAB 2017 PARIS - Azure Functions et les architectures serverless par Laurent YinGAB 2017 PARIS - Azure Functions et les architectures serverless par Laurent Yin
GAB 2017 PARIS - Azure Functions et les architectures serverless par Laurent Yin
 
Exadays cloud – Enjeux et Transformation du SI
Exadays   cloud – Enjeux et Transformation du SIExadays   cloud – Enjeux et Transformation du SI
Exadays cloud – Enjeux et Transformation du SI
 
BBL - Monitoring - kyriba
BBL - Monitoring - kyribaBBL - Monitoring - kyriba
BBL - Monitoring - kyriba
 
Lost in serverless AWS Lambda, Google Cloud Function, Azure Function quelle s...
Lost in serverless AWS Lambda, Google Cloud Function, Azure Function quelle s...Lost in serverless AWS Lambda, Google Cloud Function, Azure Function quelle s...
Lost in serverless AWS Lambda, Google Cloud Function, Azure Function quelle s...
 
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...
 
GAB 2017 PARIS - La santé de votre environnement Azure par Manon Pernin et Ma...
GAB 2017 PARIS - La santé de votre environnement Azure par Manon Pernin et Ma...GAB 2017 PARIS - La santé de votre environnement Azure par Manon Pernin et Ma...
GAB 2017 PARIS - La santé de votre environnement Azure par Manon Pernin et Ma...
 
AZUG FR - Meetup Nov 2016 @ Arolla
AZUG FR - Meetup Nov 2016 @ ArollaAZUG FR - Meetup Nov 2016 @ Arolla
AZUG FR - Meetup Nov 2016 @ Arolla
 
CV - Database Administrator ( French )
CV - Database Administrator ( French )CV - Database Administrator ( French )
CV - Database Administrator ( French )
 
Le cloud-in-a-box avec Cloud Platform System (CPS) et Windows Azure Pack
Le cloud-in-a-box avec Cloud Platform System (CPS) et Windows Azure PackLe cloud-in-a-box avec Cloud Platform System (CPS) et Windows Azure Pack
Le cloud-in-a-box avec Cloud Platform System (CPS) et Windows Azure Pack
 
Inf208
Inf208Inf208
Inf208
 
Gab 2017 Lyon - les strategies d'intégration avec Azure iPaaS - Samir Arezki
Gab 2017 Lyon - les strategies d'intégration avec Azure iPaaS - Samir ArezkiGab 2017 Lyon - les strategies d'intégration avec Azure iPaaS - Samir Arezki
Gab 2017 Lyon - les strategies d'intégration avec Azure iPaaS - Samir Arezki
 
Gab 2017 Lyon - les strategies d'intégration avec Azure iPaaS - Samir Arezki
Gab 2017 Lyon - les strategies d'intégration avec Azure iPaaS - Samir ArezkiGab 2017 Lyon - les strategies d'intégration avec Azure iPaaS - Samir Arezki
Gab 2017 Lyon - les strategies d'intégration avec Azure iPaaS - Samir Arezki
 
La santé de votre environnement Azure, entre Monitor, AppInsights et Log Anal...
La santé de votre environnement Azure, entre Monitor, AppInsights et Log Anal...La santé de votre environnement Azure, entre Monitor, AppInsights et Log Anal...
La santé de votre environnement Azure, entre Monitor, AppInsights et Log Anal...
 
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
 

Plus de Jean-Pierre Riehl

Club Power BI - Partage et Collaboration avec Power BI
Club Power BI - Partage et Collaboration avec Power BIClub Power BI - Partage et Collaboration avec Power BI
Club Power BI - Partage et Collaboration avec Power BI
Jean-Pierre Riehl
 
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Jean-Pierre Riehl
 
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
Jean-Pierre Riehl
 
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
Jean-Pierre Riehl
 
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Jean-Pierre Riehl
 
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Jean-Pierre Riehl
 
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Jean-Pierre Riehl
 
Gateways to Power BI, Connect PowerBI.com to your On-Prem Data
Gateways to Power BI, Connect PowerBI.com to your On-Prem DataGateways to Power BI, Connect PowerBI.com to your On-Prem Data
Gateways to Power BI, Connect PowerBI.com to your On-Prem Data
Jean-Pierre Riehl
 
Partage et Collaboration avec Power BI
Partage et Collaboration avec Power BIPartage et Collaboration avec Power BI
Partage et Collaboration avec Power BI
Jean-Pierre Riehl
 
Azure Data Factory, Mouvement de données hybride
Azure Data Factory, Mouvement de données hybrideAzure Data Factory, Mouvement de données hybride
Azure Data Factory, Mouvement de données hybride
Jean-Pierre Riehl
 
From Personal BI to Managed BI with Power BI
From Personal BI to Managed BI with Power BIFrom Personal BI to Managed BI with Power BI
From Personal BI to Managed BI with Power BI
Jean-Pierre Riehl
 
Deep Dive DMG (september update)
Deep Dive DMG (september update)Deep Dive DMG (september update)
Deep Dive DMG (september update)
Jean-Pierre Riehl
 
Deep Dive Data Management Gateway - SQLSaturday Edinburgh
Deep Dive Data Management Gateway - SQLSaturday EdinburghDeep Dive Data Management Gateway - SQLSaturday Edinburgh
Deep Dive Data Management Gateway - SQLSaturday Edinburgh
Jean-Pierre Riehl
 
Power BI 365
Power BI 365Power BI 365
Power BI 365
Jean-Pierre Riehl
 
Deep Dive Data Management Gateway
Deep Dive Data Management GatewayDeep Dive Data Management Gateway
Deep Dive Data Management Gateway
Jean-Pierre Riehl
 
TechDays 2015 - La gouvernance des données
TechDays 2015 - La gouvernance des donnéesTechDays 2015 - La gouvernance des données
TechDays 2015 - La gouvernance des données
Jean-Pierre Riehl
 
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Jean-Pierre Riehl
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?
Jean-Pierre Riehl
 
Attachez vos ceintures et écoutez le Data Steward
Attachez vos ceintures et écoutez le Data StewardAttachez vos ceintures et écoutez le Data Steward
Attachez vos ceintures et écoutez le Data Steward
Jean-Pierre Riehl
 
Power BI hybride - La Passerelle de Gestion des Données
Power BI hybride - La Passerelle de Gestion des DonnéesPower BI hybride - La Passerelle de Gestion des Données
Power BI hybride - La Passerelle de Gestion des Données
Jean-Pierre Riehl
 

Plus de Jean-Pierre Riehl (20)

Club Power BI - Partage et Collaboration avec Power BI
Club Power BI - Partage et Collaboration avec Power BIClub Power BI - Partage et Collaboration avec Power BI
Club Power BI - Partage et Collaboration avec Power BI
 
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
 
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
 
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
 
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
 
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
 
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
 
Gateways to Power BI, Connect PowerBI.com to your On-Prem Data
Gateways to Power BI, Connect PowerBI.com to your On-Prem DataGateways to Power BI, Connect PowerBI.com to your On-Prem Data
Gateways to Power BI, Connect PowerBI.com to your On-Prem Data
 
Partage et Collaboration avec Power BI
Partage et Collaboration avec Power BIPartage et Collaboration avec Power BI
Partage et Collaboration avec Power BI
 
Azure Data Factory, Mouvement de données hybride
Azure Data Factory, Mouvement de données hybrideAzure Data Factory, Mouvement de données hybride
Azure Data Factory, Mouvement de données hybride
 
From Personal BI to Managed BI with Power BI
From Personal BI to Managed BI with Power BIFrom Personal BI to Managed BI with Power BI
From Personal BI to Managed BI with Power BI
 
Deep Dive DMG (september update)
Deep Dive DMG (september update)Deep Dive DMG (september update)
Deep Dive DMG (september update)
 
Deep Dive Data Management Gateway - SQLSaturday Edinburgh
Deep Dive Data Management Gateway - SQLSaturday EdinburghDeep Dive Data Management Gateway - SQLSaturday Edinburgh
Deep Dive Data Management Gateway - SQLSaturday Edinburgh
 
Power BI 365
Power BI 365Power BI 365
Power BI 365
 
Deep Dive Data Management Gateway
Deep Dive Data Management GatewayDeep Dive Data Management Gateway
Deep Dive Data Management Gateway
 
TechDays 2015 - La gouvernance des données
TechDays 2015 - La gouvernance des donnéesTechDays 2015 - La gouvernance des données
TechDays 2015 - La gouvernance des données
 
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?
 
Attachez vos ceintures et écoutez le Data Steward
Attachez vos ceintures et écoutez le Data StewardAttachez vos ceintures et écoutez le Data Steward
Attachez vos ceintures et écoutez le Data Steward
 
Power BI hybride - La Passerelle de Gestion des Données
Power BI hybride - La Passerelle de Gestion des DonnéesPower BI hybride - La Passerelle de Gestion des Données
Power BI hybride - La Passerelle de Gestion des Données
 

Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)

  • 1. Azure Data Lake La Big Data 2.0 Jean-Pierre Riehl – Fabien Adato
  • 2. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 2 Meet the Team Jean-Pierre Riehl Practice Manager Data & BI Fabien Adato Expert Data & BI @fabienAD http://fadata-blog.com MVP Data Platform French Data Community Leader @djeepy1 http://blog.djeepy1.net MVP Data Platform
  • 3. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 3  Azure Data Lake, c’est quoi ?  Azure Data Lake Store  Azure Data Lake Analytics  Outillage  Coder en U-SQL  Etendre ADLA  ADL avec PowerShell  Q&R Agenda
  • 4. Azure Data Lake, c’est quoi ?
  • 5. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 5 Un peu d’histoire Microsoft a besoin d’une technologie pour analyser des Péta- octets de données 2007-2008 MS Research crée « Cosmos » 2011-2012 Le phénomène Big Data démarre
  • 6. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 6 Solution « Big Data » managée proposée sur Azure  ADL Store : un système de stockage distribué de type HDFS  ADL Analytics : un moteur de requêtage « analytique »  U-SQL : La simplicité du SQL, la puissance de .NET Azure Data Lake
  • 7. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 7 Cortana Analytics Suite Transform data into intelligent action Business apps Custom apps Sensors and devices People Automated Systems Data Collection ToolsData Collection Tools
  • 8. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 8 Azure Data Lake Analytics Storage Azure Data Lake Analytics Azure Data Lake Store HDInsight (“managed clusters”) U-SQL Azure Blob
  • 10. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 10 Azure Data Lake Store  Pushing the Limits !!!  Pas de limite sur les tailles de fichier / stockage  « massive throughput, low latency »  Sécurité avancée (type NTFS/POSIX)  Compatible HDFS, WebHDFS  « Optimisé pour l’analytique »
  • 11. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 11 Azure Blob vs. ADL Store  Le prix :  ADL : 34€ / To / mois  Azure Blob : 20€ / To / mois* * Hot LRS, First 100TB ?
  • 12. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 12 Azure Data Lake Store Focus Sécurité  Chiffré avec Azure Key Vault  Authentification moderne (OAuth, MFA, etc.)  Intégration Azure Active Directory  Autorisation avec ACL (type POSIX)  Audit
  • 14. Azure Data Lake Analytics
  • 15. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 15 Azure Data Lake Analytics Les arguments Marketing  “Elastic analytics service”  “all data, at any size”  “No Limits to Scale”
  • 16. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 16 Azure Data Lake Analytics  Service PaaS, serverless  Mode batch (on parle de « job »)  Modèle de tarification à l’exécution  Sécurité et Audit  Optimisé pour ADL Store  Langage dédié : U-SQL Les + :
  • 17. www.azug.fr © 2017 AZUG FR. All Rights Reserved. DEMO Azure Data Lake Analytics
  • 18. U-SQL
  • 19. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 19 Le language U-SQL Les basiques de SQL  Clauses de base  SELECT, FROM, WHERE  GROUP BY, JOIN, OVER  Fonctionne sur des données structurées et non-structurées  Modèle relationnel pour les méta-données La puissance de .NET  C# Expressions  Code Behind  Types  Fonctions  Agrégats  Extractors / Outputters  Processors  Réutilisation d’Assemblies .NET
  • 20. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 20 Usages U-SQL Source @DoktorKermit
  • 21. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 21 Ma 1ere requête U-SQL @checkins = EXTRACT [Date] DateTime, [Checkins] int, [DenRatio] string, [MayorRatio] string, [Category] string, [Subcategory] string, Venue string, Country string, City string, Latitude string, Longitude string FROM "/Samples/Data/Djeepy1Foursquare/Export-ADL-20170305.csv" USING Extractors.Csv(skipFirstNRows : 1); @resByCat = SELECT [Category], COUNT( * ) AS NbCheckins FROM @checkins GROUP BY [Category]; OUTPUT @resByCat TO "/Samples/Data/Djeepy1Foursquare/Out-ByCat-FirstQuery.csv" USING Outputters.Csv(); Extraction des données Schema-on-Read Manipulation des données Sortie
  • 22. www.azug.fr © 2017 AZUG FR. All Rights Reserved. DEMO Ma 1ere requête U-SQL
  • 24. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 25 L’exécution d’un job U-SQL Job Scheduler & Queue Front-EndService Vertex Execution Consume Local Storage Data Lake Store Author Plan Compiler Optimizer Vertexes running in YARN Containers U-SQL Runtime Optimized Plan Vertex Scheduling On containers Job Manager USQL Compiler Service & USQL Catalog
  • 25. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 26 Plan d’exécution (aka “Job Graph”) Le job est découpé en Vertex Les vertex sont organisés par “type de travail” (SuperVertex) “Job Graph”
  • 26. www.azug.fr © 2017 AZUG FR. All Rights Reserved. DEMO Ma 1ere exécution
  • 27. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 28 Ma première exécution
  • 28. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 29 Analyse de l’exécution 5 DLAU allouées 1 DLAU consommée
  • 29. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 30 Data Lake Analytical Unit  ADLAU : unité d’exécution d’un Job  ADLAU = 1 VM avec 2 cœurs et 6Go de RAM  Déclaratif : on indique combien d’ADLAU on souhaite  Les Vertex sont « affectés » sur des ADLAU pour exécution  La facturation se fait sur les ADLAU allouées
  • 30. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 31 Tarification
  • 32. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 33 Visual Studio  Intellisense  Exécution locale  Visualisation des jobs  Optimisation  Replay  Debug Téléchargez Azure Data Lake Tools
  • 34. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 35 Etendre U-SQL avec .NET  C# Expressions  UDFs : Fonctions  UDAGGs : Agrégats  UDOs : Opérations (Extractors, Outputters)  PROCESS : traitements
  • 35. www.azug.fr © 2017 AZUG FR. All Rights Reserved. DEMO Etendre U-SQL
  • 37. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 38 ADL Store - commandes
  • 38. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 39 ADL Analytics - commandes
  • 39. www.azug.fr © 2017 AZUG FR. All Rights Reserved. DEMO Azure Data Lake & PowerShell
  • 40. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 41 Merci ! Questions… …et réponses
  • 41. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 42 Merci à nos sponsors PLATINUM LOCAUX PARTENAIRES MEDIA
  • 42. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 43 Sponsors internationaux
  • 43. www.azug.fr © 2017 AZUG FR. All Rights Reserved. 44 Nous suivre Facebook facebook.com/groups/azugfr/ Twitter twitter.com/AZUGFR Meetup meetup.com/AZUG-FR/ LinkedIn Linkedin.com/inspirasign Web www.azug.fr

Notes de l'éditeur

  1. HDFS, Yarn