SlideShare une entreprise Scribd logo
1  sur  40
Azure Data Lake, le Big Data 2.0
Jean-Pierre Riehl, Practice Manager Data & BI, AZEO
Jean-Pierre Riehl
Practice Manager Data & BI
@djeepy1
http://blog.djeepy1.net
MVP Data Platform
French Data
Community Leader
Agenda
 Azure Data Lake, c’est quoi ?
 Azure Data Lake Store
 Azure Data Lake Analytics
 Outillage
 Coder en U-SQL
 Etendre ADLA
 ADL avec PowerShell
 Q&R
Azure Data Lake, c’est
quoi ?
Un peu d’histoire
 Microsoft a besoin d’une technologie pour analyser des Péta-
octets de données
 2007-2008 - MS Research crée « Cosmos »
 2011-2012 - Le phénomène Big Data démarre
Azure Data Lake
Solution « Big Data » managée proposée sur Azure
 ADL Store : un système de stockage distribué de type HDFS
 ADL Analytics : un moteur de requêtage « analytique »
 U-SQL : La simplicité du SQL, la puissance de .NET
SQLSaturday Montreal 2017
Cortana Analytics Suite
Transform data into intelligent action
Business
apps
Custom
apps
Sensors
and devices
People
Automated
Systems
Data Collection ToolsData Collection Tools
Azure Data Lake
Analytics
Storage
Azure Data Lake Analytics
Azure Data Lake Store
HDInsight
(“managed clusters”)
U-SQL
Azure Blob
Azure Data Lake Store
Azure Data Lake Store
 Pushing the Limits !!!
 Pas de limite sur les tailles de fichier / stockage
 « massive throughput, low latency »
 Sécurité avancée (type NTFS/POSIX)
 Compatible HDFS, WebHDFS
 « Optimisé pour l’analytique »
Azure Blob vs. ADL Store
 Le prix :
 ADL : 34€ / To / mois
 Azure Blob : 20€ / To / mois*
* Hot LRS, First 100TB
?
Azure Data Lake Store
Focus Sécurité
 Chiffré avec Azure Key Vault
 Authentification moderne (OAuth, MFA, etc.)
 Intégration Azure Active Directory
 Autorisation avec ACL (type POSIX)
 Audit
Azure Data Lake Store
Azure Data Lake
Analytics
Azure Data Lake Analytics
Les arguments Marketing
 “Elastic analytics service”
 “all data, at any size”
 “No Limits to Scale”
Azure Data Lake Analytics
 Service PaaS
 Mode batch (on parle de « job »)
 Modèle de tarification à l’exécution
 Sécurité et Audit
 Optimisé pour ADL Store
 Langage dédié : U-SQL
Les + :
Azure Data Lake Analytics
U-SQL
Le language U-SQL
Les basiques de SQL
• Clauses de base
• SELECT, FROM, WHERE
• GROUP BY, JOIN, OVER
• Fonctionne sur des données
structurées et non-structurées
• Modèle relationnel pour les
méta-données
La puissance de .NET
• C# Expressions
• Code Behind
• Types
• Fonctions
• Agrégats
• Extractors / Outputters
• Processors
• Réutilisation d’Assemblies .NET
Usages U-SQL
Source @DoktorKermit
Ma 1ere requête U-SQL
@checkins =
EXTRACT [Date] DateTime,
[Checkins] int,
[DenRatio] string, [MayorRatio] string,
[Category] string, [Subcategory] string,
Venue string, Country string, City string,
Latitude string, Longitude string
FROM "/Samples/Data/Djeepy1Foursquare/Export-ADL-20170305.csv"
USING Extractors.Csv(skipFirstNRows : 1);
@resByCat =
SELECT [Category],
COUNT( * ) AS NbCheckins
FROM @checkins
GROUP BY [Category];
OUTPUT @resByCat
TO "/Samples/Data/Djeepy1Foursquare/Out-ByCat-FirstQuery.csv"
USING Outputters.Csv();
Extraction des données
Schema-on-Read
Manipulation des données
Sortie
Ma 1ere requête U-SQL
Exécution d’un job
L’exécution d’un job U-SQL
Job Scheduler
& Queue
Front-EndService
Vertex Execution
Consume
Local
Storage
Data Lake
Store
Author
Plan
Compiler Optimizer
Vertexes
running in
YARN
Containers
U-SQL
Runtime
Optimized
Plan
Vertex Scheduling
On containers
Job Manager
USQL Compiler
Service & USQL
Catalog
Plan d’exécution (aka “Job Graph”)
Le job est découpé en
Vertex
Les vertex sont organisés par
“type de travail”
(SuperVertex)
“Job Graph”
Ma 1ere exécution
Ma première exécution
Analyse de l’exécution
5 DLAU
allouées
1 DLAU
consommée
Data Lake Analytical Unit
 ADLAU : unité d’exécution d’un Job
 ADLAU = 1 VM avec 2 cœurs et 6Go de RAM
 Déclaratif : on indique combien d’ADLAU on souhaite
 Les Vertex sont « affectés » sur des ADLAU pour exécution
 La facturation se fait sur les ADLAU allouées
Tarification
Outillage
Visual Studio
 Intellisense
 Exécution locale
 Visualisation des jobs
 Optimisation
 Replay
 Debug
Téléchargez
Azure Data Lake Tools
Etendre ADLA
Etendre U-SQL avec .NET
 C# Expressions
 UDFs : Fonctions
 UDAGGs : Agrégats
 UDOs : Opérations (Extractors, Outputters)
 PROCESS : traitements
Etendre U-SQL
ADL avec PowerShell
ADL Store - commandes
ADL Analytics - commandes
Azure Data Lake & PowerShell
QUESTIONS?
Merci !

Contenu connexe

Tendances

Une plateforme Data 360 au Ministère des Armements avec la Suite Elastic
Une plateforme Data 360 au Ministère des Armements avec la Suite ElasticUne plateforme Data 360 au Ministère des Armements avec la Suite Elastic
Une plateforme Data 360 au Ministère des Armements avec la Suite ElasticElasticsearch
 
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Jean-Pierre Riehl
 
Datalake de l'idée à la plateforme
Datalake de l'idée à la plateformeDatalake de l'idée à la plateforme
Datalake de l'idée à la plateformeNovencia Groupe
 
Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données Jean-Pierre Riehl
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Jean-Pierre Riehl
 
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...MS Cloud Summit
 
Jss 2015 - Microsoft Stream analytics
Jss 2015 -  Microsoft Stream analyticsJss 2015 -  Microsoft Stream analytics
Jss 2015 - Microsoft Stream analyticsGeorges Damien
 
Exadays cloud – Enjeux et Transformation du SI
Exadays   cloud – Enjeux et Transformation du SIExadays   cloud – Enjeux et Transformation du SI
Exadays cloud – Enjeux et Transformation du SISamir Arezki ☁
 
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...Yassine, LASRI
 
Data Modeling Power BI [SqlSat '18]
Data Modeling Power BI [SqlSat '18]Data Modeling Power BI [SqlSat '18]
Data Modeling Power BI [SqlSat '18]Joël Crest
 
Webinar elastic stack telecom regulation by data
Webinar elastic stack telecom regulation by dataWebinar elastic stack telecom regulation by data
Webinar elastic stack telecom regulation by dataYassine, LASRI
 
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...Jean-Pierre Riehl
 
Monitorez votre solution IoT avec Stream Analytics et Power BI
Monitorez votre solution IoT avec Stream Analytics et Power BIMonitorez votre solution IoT avec Stream Analytics et Power BI
Monitorez votre solution IoT avec Stream Analytics et Power BIJoël Crest
 
Dans les coulisses de Google BigQuery - DevFest Toulouse 2016
Dans les coulisses de Google BigQuery - DevFest Toulouse 2016Dans les coulisses de Google BigQuery - DevFest Toulouse 2016
Dans les coulisses de Google BigQuery - DevFest Toulouse 2016Aurélie Vache
 
[JSS2015] Power BI: Nouveautés archi et hybrides
[JSS2015] Power BI: Nouveautés archi et hybrides[JSS2015] Power BI: Nouveautés archi et hybrides
[JSS2015] Power BI: Nouveautés archi et hybridesGUSS
 

Tendances (19)

Une plateforme Data 360 au Ministère des Armements avec la Suite Elastic
Une plateforme Data 360 au Ministère des Armements avec la Suite ElasticUne plateforme Data 360 au Ministère des Armements avec la Suite Elastic
Une plateforme Data 360 au Ministère des Armements avec la Suite Elastic
 
Azure Data Factory-Rebuild 2017
Azure Data Factory-Rebuild 2017 Azure Data Factory-Rebuild 2017
Azure Data Factory-Rebuild 2017
 
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
 
Datalake de l'idée à la plateforme
Datalake de l'idée à la plateformeDatalake de l'idée à la plateforme
Datalake de l'idée à la plateforme
 
Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?
 
DataStax Enterprise BBL
DataStax Enterprise BBLDataStax Enterprise BBL
DataStax Enterprise BBL
 
Démarche d'une data factory par Xebia
Démarche d'une data factory par XebiaDémarche d'une data factory par Xebia
Démarche d'une data factory par Xebia
 
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
 
Jss 2015 - Microsoft Stream analytics
Jss 2015 -  Microsoft Stream analyticsJss 2015 -  Microsoft Stream analytics
Jss 2015 - Microsoft Stream analytics
 
Exadays cloud – Enjeux et Transformation du SI
Exadays   cloud – Enjeux et Transformation du SIExadays   cloud – Enjeux et Transformation du SI
Exadays cloud – Enjeux et Transformation du SI
 
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
 
Data Modeling Power BI [SqlSat '18]
Data Modeling Power BI [SqlSat '18]Data Modeling Power BI [SqlSat '18]
Data Modeling Power BI [SqlSat '18]
 
Webinar elastic stack telecom regulation by data
Webinar elastic stack telecom regulation by dataWebinar elastic stack telecom regulation by data
Webinar elastic stack telecom regulation by data
 
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
 
Aws vs azure
Aws vs azureAws vs azure
Aws vs azure
 
Monitorez votre solution IoT avec Stream Analytics et Power BI
Monitorez votre solution IoT avec Stream Analytics et Power BIMonitorez votre solution IoT avec Stream Analytics et Power BI
Monitorez votre solution IoT avec Stream Analytics et Power BI
 
Dans les coulisses de Google BigQuery - DevFest Toulouse 2016
Dans les coulisses de Google BigQuery - DevFest Toulouse 2016Dans les coulisses de Google BigQuery - DevFest Toulouse 2016
Dans les coulisses de Google BigQuery - DevFest Toulouse 2016
 
[JSS2015] Power BI: Nouveautés archi et hybrides
[JSS2015] Power BI: Nouveautés archi et hybrides[JSS2015] Power BI: Nouveautés archi et hybrides
[JSS2015] Power BI: Nouveautés archi et hybrides
 

Similaire à 24HOP French 2017 - Azure Data Lake, le Big Data 2.0

Panorama de l'écosystème Microsoft Data Platform
Panorama de l'écosystème Microsoft Data PlatformPanorama de l'écosystème Microsoft Data Platform
Panorama de l'écosystème Microsoft Data PlatformPhilippe Geiger
 
Paris Tug - Session d'octobre
Paris Tug - Session d'octobreParis Tug - Session d'octobre
Paris Tug - Session d'octobreGeoffrey Felix
 
Azure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaAzure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaMicrosoft
 
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data LakeGUSS
 
SQL Server et les développeurs
SQL Server et les développeurs SQL Server et les développeurs
SQL Server et les développeurs Microsoft
 
AWS Internet of Things and Machine Learning
AWS Internet of Things and Machine LearningAWS Internet of Things and Machine Learning
AWS Internet of Things and Machine LearningAmazon Web Services
 
SQLSaturday Paris 2014 - Bien choisir sa plate-forme de données
SQLSaturday Paris 2014 - Bien choisir sa plate-forme de donnéesSQLSaturday Paris 2014 - Bien choisir sa plate-forme de données
SQLSaturday Paris 2014 - Bien choisir sa plate-forme de donnéesGUSS
 
Azure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides KeynoteAzure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides KeynoteMicrosoft
 
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013serge luca
 
Gouvernance des données avec SQL Server et ETL en Self-Service avec Data Expl...
Gouvernance des données avec SQL Server et ETL en Self-Service avec Data Expl...Gouvernance des données avec SQL Server et ETL en Self-Service avec Data Expl...
Gouvernance des données avec SQL Server et ETL en Self-Service avec Data Expl...Microsoft Décideurs IT
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Jean-Pierre Riehl
 
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?JSS2014 – Cloud et BI, quelle architecture pour 2014 ?
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?GUSS
 
DevOps Day - Monitoring
DevOps Day - MonitoringDevOps Day - Monitoring
DevOps Day - MonitoringRadoine Douhou
 
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...GUSS
 
Rendez vos objets connectés intelligents avec la "Lambda architecture"
Rendez vos objets connectés intelligents avec la "Lambda architecture"Rendez vos objets connectés intelligents avec la "Lambda architecture"
Rendez vos objets connectés intelligents avec la "Lambda architecture"Microsoft Technet France
 
Rendez vos objets connectés intelligents avec la "Lambda architecture"
Rendez vos objets connectés intelligents avec la "Lambda architecture"Rendez vos objets connectés intelligents avec la "Lambda architecture"
Rendez vos objets connectés intelligents avec la "Lambda architecture"Microsoft Décideurs IT
 
Retour d'expérience : rendre votre IT agile grâce au cloud hybride
Retour d'expérience : rendre votre IT agile grâce au cloud hybrideRetour d'expérience : rendre votre IT agile grâce au cloud hybride
Retour d'expérience : rendre votre IT agile grâce au cloud hybrideMicrosoft Décideurs IT
 
Retour d'expérience : rendre votre IT agile grâce au cloud hybride
Retour d'expérience : rendre votre IT agile grâce au cloud hybrideRetour d'expérience : rendre votre IT agile grâce au cloud hybride
Retour d'expérience : rendre votre IT agile grâce au cloud hybrideMicrosoft Technet France
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 

Similaire à 24HOP French 2017 - Azure Data Lake, le Big Data 2.0 (20)

Panorama de l'écosystème Microsoft Data Platform
Panorama de l'écosystème Microsoft Data PlatformPanorama de l'écosystème Microsoft Data Platform
Panorama de l'écosystème Microsoft Data Platform
 
Paris Tug - Session d'octobre
Paris Tug - Session d'octobreParis Tug - Session d'octobre
Paris Tug - Session d'octobre
 
Azure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaAzure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmedia
 
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
 
SQL Server et les développeurs
SQL Server et les développeurs SQL Server et les développeurs
SQL Server et les développeurs
 
AWS Internet of Things and Machine Learning
AWS Internet of Things and Machine LearningAWS Internet of Things and Machine Learning
AWS Internet of Things and Machine Learning
 
SQLSaturday Paris 2014 - Bien choisir sa plate-forme de données
SQLSaturday Paris 2014 - Bien choisir sa plate-forme de donnéesSQLSaturday Paris 2014 - Bien choisir sa plate-forme de données
SQLSaturday Paris 2014 - Bien choisir sa plate-forme de données
 
Azure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides KeynoteAzure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides Keynote
 
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
 
Gouvernance des données avec SQL Server et ETL en Self-Service avec Data Expl...
Gouvernance des données avec SQL Server et ETL en Self-Service avec Data Expl...Gouvernance des données avec SQL Server et ETL en Self-Service avec Data Expl...
Gouvernance des données avec SQL Server et ETL en Self-Service avec Data Expl...
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?
 
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?JSS2014 – Cloud et BI, quelle architecture pour 2014 ?
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?
 
DevOps Day - Monitoring
DevOps Day - MonitoringDevOps Day - Monitoring
DevOps Day - Monitoring
 
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...
 
Dev ops Monitoring
Dev ops   MonitoringDev ops   Monitoring
Dev ops Monitoring
 
Rendez vos objets connectés intelligents avec la "Lambda architecture"
Rendez vos objets connectés intelligents avec la "Lambda architecture"Rendez vos objets connectés intelligents avec la "Lambda architecture"
Rendez vos objets connectés intelligents avec la "Lambda architecture"
 
Rendez vos objets connectés intelligents avec la "Lambda architecture"
Rendez vos objets connectés intelligents avec la "Lambda architecture"Rendez vos objets connectés intelligents avec la "Lambda architecture"
Rendez vos objets connectés intelligents avec la "Lambda architecture"
 
Retour d'expérience : rendre votre IT agile grâce au cloud hybride
Retour d'expérience : rendre votre IT agile grâce au cloud hybrideRetour d'expérience : rendre votre IT agile grâce au cloud hybride
Retour d'expérience : rendre votre IT agile grâce au cloud hybride
 
Retour d'expérience : rendre votre IT agile grâce au cloud hybride
Retour d'expérience : rendre votre IT agile grâce au cloud hybrideRetour d'expérience : rendre votre IT agile grâce au cloud hybride
Retour d'expérience : rendre votre IT agile grâce au cloud hybride
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 

Plus de Jean-Pierre Riehl

Club Power BI - Partage et Collaboration avec Power BI
Club Power BI - Partage et Collaboration avec Power BIClub Power BI - Partage et Collaboration avec Power BI
Club Power BI - Partage et Collaboration avec Power BIJean-Pierre Riehl
 
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...Jean-Pierre Riehl
 
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...Jean-Pierre Riehl
 
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...Jean-Pierre Riehl
 
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...Jean-Pierre Riehl
 
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017Jean-Pierre Riehl
 
Gateways to Power BI, Connect PowerBI.com to your On-Prem Data
Gateways to Power BI, Connect PowerBI.com to your On-Prem DataGateways to Power BI, Connect PowerBI.com to your On-Prem Data
Gateways to Power BI, Connect PowerBI.com to your On-Prem DataJean-Pierre Riehl
 
Partage et Collaboration avec Power BI
Partage et Collaboration avec Power BIPartage et Collaboration avec Power BI
Partage et Collaboration avec Power BIJean-Pierre Riehl
 
Azure Data Factory, Mouvement de données hybride
Azure Data Factory, Mouvement de données hybrideAzure Data Factory, Mouvement de données hybride
Azure Data Factory, Mouvement de données hybrideJean-Pierre Riehl
 
From Personal BI to Managed BI with Power BI
From Personal BI to Managed BI with Power BIFrom Personal BI to Managed BI with Power BI
From Personal BI to Managed BI with Power BIJean-Pierre Riehl
 
Deep Dive DMG (september update)
Deep Dive DMG (september update)Deep Dive DMG (september update)
Deep Dive DMG (september update)Jean-Pierre Riehl
 
Deep Dive Data Management Gateway - SQLSaturday Edinburgh
Deep Dive Data Management Gateway - SQLSaturday EdinburghDeep Dive Data Management Gateway - SQLSaturday Edinburgh
Deep Dive Data Management Gateway - SQLSaturday EdinburghJean-Pierre Riehl
 
Deep Dive Data Management Gateway
Deep Dive Data Management GatewayDeep Dive Data Management Gateway
Deep Dive Data Management GatewayJean-Pierre Riehl
 
TechDays 2015 - La gouvernance des données
TechDays 2015 - La gouvernance des donnéesTechDays 2015 - La gouvernance des données
TechDays 2015 - La gouvernance des donnéesJean-Pierre Riehl
 
Attachez vos ceintures et écoutez le Data Steward
Attachez vos ceintures et écoutez le Data StewardAttachez vos ceintures et écoutez le Data Steward
Attachez vos ceintures et écoutez le Data StewardJean-Pierre Riehl
 
Power BI hybride - La Passerelle de Gestion des Données
Power BI hybride - La Passerelle de Gestion des DonnéesPower BI hybride - La Passerelle de Gestion des Données
Power BI hybride - La Passerelle de Gestion des DonnéesJean-Pierre Riehl
 
Fasten you seatbelt and listen to the Data Steward
Fasten you seatbelt and listen to the Data StewardFasten you seatbelt and listen to the Data Steward
Fasten you seatbelt and listen to the Data StewardJean-Pierre Riehl
 
SQLSaturday Rheinland 2014 - Power query vs. ssis
SQLSaturday Rheinland 2014 - Power query vs. ssisSQLSaturday Rheinland 2014 - Power query vs. ssis
SQLSaturday Rheinland 2014 - Power query vs. ssisJean-Pierre Riehl
 

Plus de Jean-Pierre Riehl (19)

Club Power BI - Partage et Collaboration avec Power BI
Club Power BI - Partage et Collaboration avec Power BIClub Power BI - Partage et Collaboration avec Power BI
Club Power BI - Partage et Collaboration avec Power BI
 
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
 
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
 
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
 
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
 
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
 
Gateways to Power BI, Connect PowerBI.com to your On-Prem Data
Gateways to Power BI, Connect PowerBI.com to your On-Prem DataGateways to Power BI, Connect PowerBI.com to your On-Prem Data
Gateways to Power BI, Connect PowerBI.com to your On-Prem Data
 
Partage et Collaboration avec Power BI
Partage et Collaboration avec Power BIPartage et Collaboration avec Power BI
Partage et Collaboration avec Power BI
 
Azure Data Factory, Mouvement de données hybride
Azure Data Factory, Mouvement de données hybrideAzure Data Factory, Mouvement de données hybride
Azure Data Factory, Mouvement de données hybride
 
From Personal BI to Managed BI with Power BI
From Personal BI to Managed BI with Power BIFrom Personal BI to Managed BI with Power BI
From Personal BI to Managed BI with Power BI
 
Deep Dive DMG (september update)
Deep Dive DMG (september update)Deep Dive DMG (september update)
Deep Dive DMG (september update)
 
Deep Dive Data Management Gateway - SQLSaturday Edinburgh
Deep Dive Data Management Gateway - SQLSaturday EdinburghDeep Dive Data Management Gateway - SQLSaturday Edinburgh
Deep Dive Data Management Gateway - SQLSaturday Edinburgh
 
Power BI 365
Power BI 365Power BI 365
Power BI 365
 
Deep Dive Data Management Gateway
Deep Dive Data Management GatewayDeep Dive Data Management Gateway
Deep Dive Data Management Gateway
 
TechDays 2015 - La gouvernance des données
TechDays 2015 - La gouvernance des donnéesTechDays 2015 - La gouvernance des données
TechDays 2015 - La gouvernance des données
 
Attachez vos ceintures et écoutez le Data Steward
Attachez vos ceintures et écoutez le Data StewardAttachez vos ceintures et écoutez le Data Steward
Attachez vos ceintures et écoutez le Data Steward
 
Power BI hybride - La Passerelle de Gestion des Données
Power BI hybride - La Passerelle de Gestion des DonnéesPower BI hybride - La Passerelle de Gestion des Données
Power BI hybride - La Passerelle de Gestion des Données
 
Fasten you seatbelt and listen to the Data Steward
Fasten you seatbelt and listen to the Data StewardFasten you seatbelt and listen to the Data Steward
Fasten you seatbelt and listen to the Data Steward
 
SQLSaturday Rheinland 2014 - Power query vs. ssis
SQLSaturday Rheinland 2014 - Power query vs. ssisSQLSaturday Rheinland 2014 - Power query vs. ssis
SQLSaturday Rheinland 2014 - Power query vs. ssis
 

Dernier

ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attalcontact Elabe
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023France Travail
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentationbahija babzine
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...France Travail
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformersbahija babzine
 
Les Français, l'Europe et Emmanuel Macron
Les Français, l'Europe et Emmanuel MacronLes Français, l'Europe et Emmanuel Macron
Les Français, l'Europe et Emmanuel Macroncontact Elabe
 
Recurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxRecurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxbahija babzine
 

Dernier (7)

ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentation
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 
Les Français, l'Europe et Emmanuel Macron
Les Français, l'Europe et Emmanuel MacronLes Français, l'Europe et Emmanuel Macron
Les Français, l'Europe et Emmanuel Macron
 
Recurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxRecurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptx
 

24HOP French 2017 - Azure Data Lake, le Big Data 2.0

  • 1. Azure Data Lake, le Big Data 2.0 Jean-Pierre Riehl, Practice Manager Data & BI, AZEO
  • 2. Jean-Pierre Riehl Practice Manager Data & BI @djeepy1 http://blog.djeepy1.net MVP Data Platform French Data Community Leader
  • 3. Agenda  Azure Data Lake, c’est quoi ?  Azure Data Lake Store  Azure Data Lake Analytics  Outillage  Coder en U-SQL  Etendre ADLA  ADL avec PowerShell  Q&R
  • 4. Azure Data Lake, c’est quoi ?
  • 5. Un peu d’histoire  Microsoft a besoin d’une technologie pour analyser des Péta- octets de données  2007-2008 - MS Research crée « Cosmos »  2011-2012 - Le phénomène Big Data démarre
  • 6. Azure Data Lake Solution « Big Data » managée proposée sur Azure  ADL Store : un système de stockage distribué de type HDFS  ADL Analytics : un moteur de requêtage « analytique »  U-SQL : La simplicité du SQL, la puissance de .NET
  • 7. SQLSaturday Montreal 2017 Cortana Analytics Suite Transform data into intelligent action Business apps Custom apps Sensors and devices People Automated Systems Data Collection ToolsData Collection Tools
  • 8. Azure Data Lake Analytics Storage Azure Data Lake Analytics Azure Data Lake Store HDInsight (“managed clusters”) U-SQL Azure Blob
  • 10. Azure Data Lake Store  Pushing the Limits !!!  Pas de limite sur les tailles de fichier / stockage  « massive throughput, low latency »  Sécurité avancée (type NTFS/POSIX)  Compatible HDFS, WebHDFS  « Optimisé pour l’analytique »
  • 11. Azure Blob vs. ADL Store  Le prix :  ADL : 34€ / To / mois  Azure Blob : 20€ / To / mois* * Hot LRS, First 100TB ?
  • 12. Azure Data Lake Store Focus Sécurité  Chiffré avec Azure Key Vault  Authentification moderne (OAuth, MFA, etc.)  Intégration Azure Active Directory  Autorisation avec ACL (type POSIX)  Audit
  • 15. Azure Data Lake Analytics Les arguments Marketing  “Elastic analytics service”  “all data, at any size”  “No Limits to Scale”
  • 16. Azure Data Lake Analytics  Service PaaS  Mode batch (on parle de « job »)  Modèle de tarification à l’exécution  Sécurité et Audit  Optimisé pour ADL Store  Langage dédié : U-SQL Les + :
  • 17. Azure Data Lake Analytics
  • 18. U-SQL
  • 19. Le language U-SQL Les basiques de SQL • Clauses de base • SELECT, FROM, WHERE • GROUP BY, JOIN, OVER • Fonctionne sur des données structurées et non-structurées • Modèle relationnel pour les méta-données La puissance de .NET • C# Expressions • Code Behind • Types • Fonctions • Agrégats • Extractors / Outputters • Processors • Réutilisation d’Assemblies .NET
  • 21. Ma 1ere requête U-SQL @checkins = EXTRACT [Date] DateTime, [Checkins] int, [DenRatio] string, [MayorRatio] string, [Category] string, [Subcategory] string, Venue string, Country string, City string, Latitude string, Longitude string FROM "/Samples/Data/Djeepy1Foursquare/Export-ADL-20170305.csv" USING Extractors.Csv(skipFirstNRows : 1); @resByCat = SELECT [Category], COUNT( * ) AS NbCheckins FROM @checkins GROUP BY [Category]; OUTPUT @resByCat TO "/Samples/Data/Djeepy1Foursquare/Out-ByCat-FirstQuery.csv" USING Outputters.Csv(); Extraction des données Schema-on-Read Manipulation des données Sortie
  • 24. L’exécution d’un job U-SQL Job Scheduler & Queue Front-EndService Vertex Execution Consume Local Storage Data Lake Store Author Plan Compiler Optimizer Vertexes running in YARN Containers U-SQL Runtime Optimized Plan Vertex Scheduling On containers Job Manager USQL Compiler Service & USQL Catalog
  • 25. Plan d’exécution (aka “Job Graph”) Le job est découpé en Vertex Les vertex sont organisés par “type de travail” (SuperVertex) “Job Graph”
  • 28. Analyse de l’exécution 5 DLAU allouées 1 DLAU consommée
  • 29. Data Lake Analytical Unit  ADLAU : unité d’exécution d’un Job  ADLAU = 1 VM avec 2 cœurs et 6Go de RAM  Déclaratif : on indique combien d’ADLAU on souhaite  Les Vertex sont « affectés » sur des ADLAU pour exécution  La facturation se fait sur les ADLAU allouées
  • 32. Visual Studio  Intellisense  Exécution locale  Visualisation des jobs  Optimisation  Replay  Debug Téléchargez Azure Data Lake Tools
  • 34. Etendre U-SQL avec .NET  C# Expressions  UDFs : Fonctions  UDAGGs : Agrégats  UDOs : Opérations (Extractors, Outputters)  PROCESS : traitements
  • 37. ADL Store - commandes
  • 38. ADL Analytics - commandes
  • 39. Azure Data Lake & PowerShell

Notes de l'éditeur

  1. Cortana Analytics Suite delivers an end-to-end platform with integrated and comprehensive set of tools and services to help you build intelligent applications that let you easily take advantage of Advanced Analytics. First Cortana Analytics Suite provides services to bring data in, so that you can analyze it.  It provides information management capabilities like Azure Data Factory so that you can pull data from any source (relational DB like SQL or non-relational ones like your Hadoop cluster) in an automated and scheduled way, while performing the necessary data transforms (like setting certain data colums as dates vs. currency etc).  Think ETL (Extract, Transform, Load) in the cloud. Event hub does the same for IoT type ingestion of data that streams in from lots of end points. The data brought in then can be persisted in flexible big data storage services like Data Lake and Azure SQL DW. You can then use a wide range of analytics services from Azure ML to Azure HDInsight to Azure Stream Analytics to analyze the data that are stored in the big data storage.  This means you can create analytics services and models specific to your business need (say real time demand forecasting). The resultant analytics services and models created by taking these steps can then be surfaced as interactive dashboards and visualizations via Power BI These same analytics services and models created can also be integrated into various different UI (web apps or mobile apps or rich client apps) as well as via integrations with Cortana, so end users can naturally interact with them via speech etc., and so that end users can get proactively be notified by Cortana if the analytics model finds a new anomaly (unusual growth in certain product purchases- in the case of real time demand forecasting example given above) or whatever deserves the attention of the business users.
  2. HDFS, Yarn
  3. https://docs.microsoft.com/en-us/azure/storage/storage-scalability-targets 500To / 50k blocks / 100Mo par block
  4. Portail Projet .NET
  5. Portail Projet .NET
  6. Portail Projet .NET
  7. Portail Projet .NET
  8. https://www.microsoft.com/en-us/download/details.aspx?id=49504
  9. Portail Projet .NET