SlideShare une entreprise Scribd logo
Azure Data Lake
SELECT People
FROM DataLake
WHERE Happy = TRUE
Jean-Pierre Riehl
MVP Data Platform
Thank you Sponsors
You are Community
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
Jean-Pierre Riehl
Practice Manager Data & BI
@djeepy1
http://blog.djeepy1.net
MVP Data Platform
French Data
Community Leader
Azure Data Lake
C’est quoi ?
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
Azure Data Lake
Solution « Big Data » managée proposée sur Azure
ADL Store : un système de stockage distribué de type HDFS
ADL Analytics : un moteur de requêtage « analytique »
U-SQL : La simplicité du SQL, la puissance de .NET
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
Azure Data Lake
Analytics
Storage
Azure Data Lake Analytics
Azure Data Lake Store
HDInsight
(“managed clusters”)
U-SQL
Azure Blob
Azure
Data Lake Store
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
Azure Data Lake Store
Pushing the Limits !!!
Pas de limite sur les tailles de fichier / stockage
« massive throughput, low latency »
Sécurité avancée (type NTFS/POSIX)
Compatible HDFS, WebHDFS
« Optimisé pour l’analytique »
70% plus cher
que du Blob
classique
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
Azure Data Lake Store
Focus Sécurité
Chiffré avec Azure Key Vault
Authentification moderne (OAuth, MFA, etc.)
Intégration Azure Active Directory
Autorisation avec RBAC + ACL (type POSIX)
Audit natif
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WHERE happy = TRUE
Azure
Data Lake Analytics
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
Azure Data Lake Analytics
Les arguments Marketing
“Elastic analytics service”
“all data, at any size”
“No Limits to Scale”
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
Azure Data Lake Analytics
Service PaaS
Mode batch (on parle de « job »)
Modèle de tarification à l’exécution
Sécurité et Audit
Optimisé pour ADL Store
Langage dédié : U-SQL
Les + :
U-SQL
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
Le language U-SQL
Les basiques de SQL
Clauses de base
SELECT, FROM, WHERE
GROUP BY, JOIN, OVER
Fonctionne sur des données
structurées et non-structurées
Modèle relationnel pour les
méta-données
La puissance de .NET
C# Expressions
Code Behind
Types
Fonctions
Agrégats
Extractors / Outputters
Processors
Réutilisation d’Assemblies .NET
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
Usages U-SQL
Source @DoktorKermit
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WHERE happy = TRUE
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
Ma 1ere requête U-SQL
@checkins =
EXTRACT [Date] DateTime,
[Checkins] int,
[DenRatio] string, [MayorRatio] string,
[Category] string, [Subcategory] string,
Venue string, Country string, City string,
Latitude string, Longitude string
FROM "/Samples/Data/Djeepy1Foursquare/Export-ADL-20170305.csv"
USING Extractors.Csv(skipFirstNRows : 1);
@resByCat =
SELECT [Category],
COUNT( * ) AS NbCheckins
FROM @checkins
GROUP BY [Category];
OUTPUT @resByCat
TO "/Samples/Data/Djeepy1Foursquare/Out-ByCat-FirstQuery.csv"
USING Outputters.Csv();
Extraction des données
Schema-on-Read
Manipulation des données
Sortie
Execution d’un job
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
L’exécution d’un job U-SQL
Job
Scheduler &
Queue
Front-EndService
Vertex Execution
Consume
Local
Storage
Data Lake
Store
Author
Plan
Compiler Optimizer
Vertexes
running in
YARN
Containers
U-SQL
Runtime
Optimized
Plan
Vertex Scheduling
On containers
Job Manager
USQL
Compiler
Service &
USQL Catalog
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
Plan d’exécution (aka “Job Graph”)
Le job est découpé en
Vertex
Les vertex sont organisés par
“type de travail”
(SuperVertex)
“Job Graph”
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
Data Lake Analytical Unit
ADLAU : unité d’exécution d’un Job
ADLAU = 1 VM avec 2 cœurs et 6Go de RAM
Déclaratif : on indique combien d’ADLAU on souhaite
Les Vertex sont « affectés » sur des ADLAU pour exécution
La facturation se fait sur les ADLAU allouées 1,69€ / ADLAU /
Heure
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
Analyse de l’exécution
5 DLAU
allouées
2 DLAU
consommées
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WHERE happy = TRUE
U-SQL
Extensions
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
Etendre U-SQL avec .NET
C# Expressions
UDFs : Fonctions
UDAGGs : Agrégats
UDOs : Opérations (Extractors, Outputters)
PROCESS : traitements
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WHERE happy = TRUE
Analyse des images
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WHERE happy = TRUE
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
Avec du R : https://msdn.microsoft.com/en-
us/magazine/mt784661.aspx
#SQLSatToulouse - SQLSaturday Toulouse 2017Un événement
Ressources
• http://azure.github.io/AzureDataLake/
• http://usql.io/
• https://github.com/Azure-Samples?q=usql
• https://github.com/Azure/USQL
• Présentations :
https://onedrive.live.com/?authkey=%21ALgjIa0PMWYU6C
M&id=3BDE3286AB2E59F7%21454&cid=3BDE3286AB2E5
9F7
• Suivre Michael Rys (@MikeDoesBigData) @azuredatalake
Questions
& Réponses
Merci !

Contenu connexe

Tendances

Exadays cloud – Enjeux et Transformation du SI
Exadays   cloud – Enjeux et Transformation du SIExadays   cloud – Enjeux et Transformation du SI
Exadays cloud – Enjeux et Transformation du SI
Samir Arezki ☁
 
Démarche d'une data factory par Xebia
Démarche d'une data factory par XebiaDémarche d'une data factory par Xebia
Démarche d'une data factory par Xebia
Publicis Sapient Engineering
 
GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...
GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...
GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...
AZUG FR
 
Datalake de l'idée à la plateforme
Datalake de l'idée à la plateformeDatalake de l'idée à la plateforme
Datalake de l'idée à la plateforme
Novencia Groupe
 
Dans les coulisses de Google BigQuery
 Dans les coulisses de Google BigQuery Dans les coulisses de Google BigQuery
Dans les coulisses de Google BigQuery
Duchess France
 
XebiConFr 15 - Be Data Driven : Monter son Data Lab
XebiConFr 15 - Be Data Driven : Monter son Data LabXebiConFr 15 - Be Data Driven : Monter son Data Lab
XebiConFr 15 - Be Data Driven : Monter son Data Lab
Publicis Sapient Engineering
 
La Suite Elastic à BPCE IT: Centre de service Elastic et Security Analytics
La Suite Elastic à BPCE IT: Centre de service Elastic et Security AnalyticsLa Suite Elastic à BPCE IT: Centre de service Elastic et Security Analytics
La Suite Elastic à BPCE IT: Centre de service Elastic et Security Analytics
Elasticsearch
 
Réalité augmentée et Big Data dans Azure
Réalité augmentée et Big Data dans AzureRéalité augmentée et Big Data dans Azure
Réalité augmentée et Big Data dans Azure
Fabrice JEAN-FRANCOIS
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big data
Romain Jouin
 
DataStax Enterprise BBL
DataStax Enterprise BBLDataStax Enterprise BBL
DataStax Enterprise BBL
Victor Coustenoble
 
Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...
Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...
Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...
Jean-Michel Franco
 
Data Modeling Power BI [SqlSat '18]
Data Modeling Power BI [SqlSat '18]Data Modeling Power BI [SqlSat '18]
Data Modeling Power BI [SqlSat '18]
Joël Crest
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Microsoft
 
Jss 2015 - Microsoft Stream analytics
Jss 2015 -  Microsoft Stream analyticsJss 2015 -  Microsoft Stream analytics
Jss 2015 - Microsoft Stream analytics
Georges Damien
 
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Yassine, LASRI
 
Webinar elastic stack telecom regulation by data
Webinar elastic stack telecom regulation by dataWebinar elastic stack telecom regulation by data
Webinar elastic stack telecom regulation by data
Yassine, LASRI
 
Offrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clicOffrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clic
Jean-Michel Franco
 
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Jean-Pierre Riehl
 
Vos premiers pas avec Qlik Sense® Cloud
Vos premiers pas avec Qlik Sense® CloudVos premiers pas avec Qlik Sense® Cloud
Vos premiers pas avec Qlik Sense® Cloud
Qlik
 
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
DataStax
 

Tendances (20)

Exadays cloud – Enjeux et Transformation du SI
Exadays   cloud – Enjeux et Transformation du SIExadays   cloud – Enjeux et Transformation du SI
Exadays cloud – Enjeux et Transformation du SI
 
Démarche d'une data factory par Xebia
Démarche d'une data factory par XebiaDémarche d'une data factory par Xebia
Démarche d'une data factory par Xebia
 
GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...
GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...
GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...
 
Datalake de l'idée à la plateforme
Datalake de l'idée à la plateformeDatalake de l'idée à la plateforme
Datalake de l'idée à la plateforme
 
Dans les coulisses de Google BigQuery
 Dans les coulisses de Google BigQuery Dans les coulisses de Google BigQuery
Dans les coulisses de Google BigQuery
 
XebiConFr 15 - Be Data Driven : Monter son Data Lab
XebiConFr 15 - Be Data Driven : Monter son Data LabXebiConFr 15 - Be Data Driven : Monter son Data Lab
XebiConFr 15 - Be Data Driven : Monter son Data Lab
 
La Suite Elastic à BPCE IT: Centre de service Elastic et Security Analytics
La Suite Elastic à BPCE IT: Centre de service Elastic et Security AnalyticsLa Suite Elastic à BPCE IT: Centre de service Elastic et Security Analytics
La Suite Elastic à BPCE IT: Centre de service Elastic et Security Analytics
 
Réalité augmentée et Big Data dans Azure
Réalité augmentée et Big Data dans AzureRéalité augmentée et Big Data dans Azure
Réalité augmentée et Big Data dans Azure
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big data
 
DataStax Enterprise BBL
DataStax Enterprise BBLDataStax Enterprise BBL
DataStax Enterprise BBL
 
Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...
Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...
Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...
 
Data Modeling Power BI [SqlSat '18]
Data Modeling Power BI [SqlSat '18]Data Modeling Power BI [SqlSat '18]
Data Modeling Power BI [SqlSat '18]
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
 
Jss 2015 - Microsoft Stream analytics
Jss 2015 -  Microsoft Stream analyticsJss 2015 -  Microsoft Stream analytics
Jss 2015 - Microsoft Stream analytics
 
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
 
Webinar elastic stack telecom regulation by data
Webinar elastic stack telecom regulation by dataWebinar elastic stack telecom regulation by data
Webinar elastic stack telecom regulation by data
 
Offrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clicOffrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clic
 
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
 
Vos premiers pas avec Qlik Sense® Cloud
Vos premiers pas avec Qlik Sense® CloudVos premiers pas avec Qlik Sense® Cloud
Vos premiers pas avec Qlik Sense® Cloud
 
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
 

Similaire à SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WHERE happy = TRUE

JSS2015 - Keynote jour 1
JSS2015 - Keynote jour 1JSS2015 - Keynote jour 1
JSS2015 - Keynote jour 1
GUSS
 
Panorama de l'écosystème Microsoft Data Platform
Panorama de l'écosystème Microsoft Data PlatformPanorama de l'écosystème Microsoft Data Platform
Panorama de l'écosystème Microsoft Data Platform
Philippe Geiger
 
Paris Tug - Session d'octobre
Paris Tug - Session d'octobreParis Tug - Session d'octobre
Paris Tug - Session d'octobre
Geoffrey Felix
 
SQLSaturday Paris 2014 - Bien choisir sa plate-forme de données
SQLSaturday Paris 2014 - Bien choisir sa plate-forme de donnéesSQLSaturday Paris 2014 - Bien choisir sa plate-forme de données
SQLSaturday Paris 2014 - Bien choisir sa plate-forme de données
GUSS
 
Big Data et Business Intelligence de A… Azure
Big Data et Business Intelligence de A… AzureBig Data et Business Intelligence de A… Azure
Big Data et Business Intelligence de A… Azure
Microsoft Décideurs IT
 
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
MS Cloud Summit
 
Retour d'expérience : rendre votre IT agile grâce au cloud hybride
Retour d'expérience : rendre votre IT agile grâce au cloud hybrideRetour d'expérience : rendre votre IT agile grâce au cloud hybride
Retour d'expérience : rendre votre IT agile grâce au cloud hybride
Microsoft Décideurs IT
 
Retour d'expérience : rendre votre IT agile grâce au cloud hybride
Retour d'expérience : rendre votre IT agile grâce au cloud hybrideRetour d'expérience : rendre votre IT agile grâce au cloud hybride
Retour d'expérience : rendre votre IT agile grâce au cloud hybride
Microsoft Technet France
 
SQL Server et les développeurs
SQL Server et les développeurs SQL Server et les développeurs
SQL Server et les développeurs
Microsoft
 
Big Data et Business Intelligence de A… Azure
Big Data et Business Intelligence de A… AzureBig Data et Business Intelligence de A… Azure
Big Data et Business Intelligence de A… Azure
Microsoft Technet France
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?
Jean-Pierre Riehl
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?
Jean-Pierre Riehl
 
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?JSS2014 – Cloud et BI, quelle architecture pour 2014 ?
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?
GUSS
 
Journées SQL Server 2014 - Keynote Jour 1
Journées SQL Server 2014 - Keynote Jour 1Journées SQL Server 2014 - Keynote Jour 1
Journées SQL Server 2014 - Keynote Jour 1
GUSS
 
Stream processing et SQL
Stream processing et SQLStream processing et SQL
Stream processing et SQL
Bruno Bonnin
 
SQL Saturday Haïti 2023 - Bien maîtriser Azure Data Studio et les Notebooks
SQL Saturday Haïti 2023 - Bien maîtriser Azure Data Studio et les NotebooksSQL Saturday Haïti 2023 - Bien maîtriser Azure Data Studio et les Notebooks
SQL Saturday Haïti 2023 - Bien maîtriser Azure Data Studio et les Notebooks
Philippe Geiger
 
Big Data & Real Time #JSS2014
Big Data & Real Time #JSS2014Big Data & Real Time #JSS2014
Big Data & Real Time #JSS2014
Romain Casteres
 
AWS Internet of Things and Machine Learning
AWS Internet of Things and Machine LearningAWS Internet of Things and Machine Learning
AWS Internet of Things and Machine Learning
Amazon Web Services
 
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
serge luca
 
Stream processing et SQL
Stream processing et SQLStream processing et SQL
Stream processing et SQL
Bruno Bonnin
 

Similaire à SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WHERE happy = TRUE (20)

JSS2015 - Keynote jour 1
JSS2015 - Keynote jour 1JSS2015 - Keynote jour 1
JSS2015 - Keynote jour 1
 
Panorama de l'écosystème Microsoft Data Platform
Panorama de l'écosystème Microsoft Data PlatformPanorama de l'écosystème Microsoft Data Platform
Panorama de l'écosystème Microsoft Data Platform
 
Paris Tug - Session d'octobre
Paris Tug - Session d'octobreParis Tug - Session d'octobre
Paris Tug - Session d'octobre
 
SQLSaturday Paris 2014 - Bien choisir sa plate-forme de données
SQLSaturday Paris 2014 - Bien choisir sa plate-forme de donnéesSQLSaturday Paris 2014 - Bien choisir sa plate-forme de données
SQLSaturday Paris 2014 - Bien choisir sa plate-forme de données
 
Big Data et Business Intelligence de A… Azure
Big Data et Business Intelligence de A… AzureBig Data et Business Intelligence de A… Azure
Big Data et Business Intelligence de A… Azure
 
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
 
Retour d'expérience : rendre votre IT agile grâce au cloud hybride
Retour d'expérience : rendre votre IT agile grâce au cloud hybrideRetour d'expérience : rendre votre IT agile grâce au cloud hybride
Retour d'expérience : rendre votre IT agile grâce au cloud hybride
 
Retour d'expérience : rendre votre IT agile grâce au cloud hybride
Retour d'expérience : rendre votre IT agile grâce au cloud hybrideRetour d'expérience : rendre votre IT agile grâce au cloud hybride
Retour d'expérience : rendre votre IT agile grâce au cloud hybride
 
SQL Server et les développeurs
SQL Server et les développeurs SQL Server et les développeurs
SQL Server et les développeurs
 
Big Data et Business Intelligence de A… Azure
Big Data et Business Intelligence de A… AzureBig Data et Business Intelligence de A… Azure
Big Data et Business Intelligence de A… Azure
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?
 
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?JSS2014 – Cloud et BI, quelle architecture pour 2014 ?
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?
 
Journées SQL Server 2014 - Keynote Jour 1
Journées SQL Server 2014 - Keynote Jour 1Journées SQL Server 2014 - Keynote Jour 1
Journées SQL Server 2014 - Keynote Jour 1
 
Stream processing et SQL
Stream processing et SQLStream processing et SQL
Stream processing et SQL
 
SQL Saturday Haïti 2023 - Bien maîtriser Azure Data Studio et les Notebooks
SQL Saturday Haïti 2023 - Bien maîtriser Azure Data Studio et les NotebooksSQL Saturday Haïti 2023 - Bien maîtriser Azure Data Studio et les Notebooks
SQL Saturday Haïti 2023 - Bien maîtriser Azure Data Studio et les Notebooks
 
Big Data & Real Time #JSS2014
Big Data & Real Time #JSS2014Big Data & Real Time #JSS2014
Big Data & Real Time #JSS2014
 
AWS Internet of Things and Machine Learning
AWS Internet of Things and Machine LearningAWS Internet of Things and Machine Learning
AWS Internet of Things and Machine Learning
 
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
 
Stream processing et SQL
Stream processing et SQLStream processing et SQL
Stream processing et SQL
 

Plus de Jean-Pierre Riehl

Club Power BI - Partage et Collaboration avec Power BI
Club Power BI - Partage et Collaboration avec Power BIClub Power BI - Partage et Collaboration avec Power BI
Club Power BI - Partage et Collaboration avec Power BI
Jean-Pierre Riehl
 
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Jean-Pierre Riehl
 
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
Jean-Pierre Riehl
 
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
Jean-Pierre Riehl
 
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Jean-Pierre Riehl
 
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Jean-Pierre Riehl
 
Gateways to Power BI, Connect PowerBI.com to your On-Prem Data
Gateways to Power BI, Connect PowerBI.com to your On-Prem DataGateways to Power BI, Connect PowerBI.com to your On-Prem Data
Gateways to Power BI, Connect PowerBI.com to your On-Prem Data
Jean-Pierre Riehl
 
Partage et Collaboration avec Power BI
Partage et Collaboration avec Power BIPartage et Collaboration avec Power BI
Partage et Collaboration avec Power BI
Jean-Pierre Riehl
 
Azure Data Factory, Mouvement de données hybride
Azure Data Factory, Mouvement de données hybrideAzure Data Factory, Mouvement de données hybride
Azure Data Factory, Mouvement de données hybride
Jean-Pierre Riehl
 
Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Jean-Pierre Riehl
 
From Personal BI to Managed BI with Power BI
From Personal BI to Managed BI with Power BIFrom Personal BI to Managed BI with Power BI
From Personal BI to Managed BI with Power BI
Jean-Pierre Riehl
 
Deep Dive DMG (september update)
Deep Dive DMG (september update)Deep Dive DMG (september update)
Deep Dive DMG (september update)
Jean-Pierre Riehl
 
Deep Dive Data Management Gateway - SQLSaturday Edinburgh
Deep Dive Data Management Gateway - SQLSaturday EdinburghDeep Dive Data Management Gateway - SQLSaturday Edinburgh
Deep Dive Data Management Gateway - SQLSaturday Edinburgh
Jean-Pierre Riehl
 
Power BI 365
Power BI 365Power BI 365
Power BI 365
Jean-Pierre Riehl
 
Deep Dive Data Management Gateway
Deep Dive Data Management GatewayDeep Dive Data Management Gateway
Deep Dive Data Management Gateway
Jean-Pierre Riehl
 
TechDays 2015 - La gouvernance des données
TechDays 2015 - La gouvernance des donnéesTechDays 2015 - La gouvernance des données
TechDays 2015 - La gouvernance des données
Jean-Pierre Riehl
 
Attachez vos ceintures et écoutez le Data Steward
Attachez vos ceintures et écoutez le Data StewardAttachez vos ceintures et écoutez le Data Steward
Attachez vos ceintures et écoutez le Data Steward
Jean-Pierre Riehl
 
Power BI hybride - La Passerelle de Gestion des Données
Power BI hybride - La Passerelle de Gestion des DonnéesPower BI hybride - La Passerelle de Gestion des Données
Power BI hybride - La Passerelle de Gestion des Données
Jean-Pierre Riehl
 
Fasten you seatbelt and listen to the Data Steward
Fasten you seatbelt and listen to the Data StewardFasten you seatbelt and listen to the Data Steward
Fasten you seatbelt and listen to the Data Steward
Jean-Pierre Riehl
 
SQLSaturday Rheinland 2014 - Power query vs. ssis
SQLSaturday Rheinland 2014 - Power query vs. ssisSQLSaturday Rheinland 2014 - Power query vs. ssis
SQLSaturday Rheinland 2014 - Power query vs. ssis
Jean-Pierre Riehl
 

Plus de Jean-Pierre Riehl (20)

Club Power BI - Partage et Collaboration avec Power BI
Club Power BI - Partage et Collaboration avec Power BIClub Power BI - Partage et Collaboration avec Power BI
Club Power BI - Partage et Collaboration avec Power BI
 
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
 
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
 
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
 
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
 
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
 
Gateways to Power BI, Connect PowerBI.com to your On-Prem Data
Gateways to Power BI, Connect PowerBI.com to your On-Prem DataGateways to Power BI, Connect PowerBI.com to your On-Prem Data
Gateways to Power BI, Connect PowerBI.com to your On-Prem Data
 
Partage et Collaboration avec Power BI
Partage et Collaboration avec Power BIPartage et Collaboration avec Power BI
Partage et Collaboration avec Power BI
 
Azure Data Factory, Mouvement de données hybride
Azure Data Factory, Mouvement de données hybrideAzure Data Factory, Mouvement de données hybride
Azure Data Factory, Mouvement de données hybride
 
Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données
 
From Personal BI to Managed BI with Power BI
From Personal BI to Managed BI with Power BIFrom Personal BI to Managed BI with Power BI
From Personal BI to Managed BI with Power BI
 
Deep Dive DMG (september update)
Deep Dive DMG (september update)Deep Dive DMG (september update)
Deep Dive DMG (september update)
 
Deep Dive Data Management Gateway - SQLSaturday Edinburgh
Deep Dive Data Management Gateway - SQLSaturday EdinburghDeep Dive Data Management Gateway - SQLSaturday Edinburgh
Deep Dive Data Management Gateway - SQLSaturday Edinburgh
 
Power BI 365
Power BI 365Power BI 365
Power BI 365
 
Deep Dive Data Management Gateway
Deep Dive Data Management GatewayDeep Dive Data Management Gateway
Deep Dive Data Management Gateway
 
TechDays 2015 - La gouvernance des données
TechDays 2015 - La gouvernance des donnéesTechDays 2015 - La gouvernance des données
TechDays 2015 - La gouvernance des données
 
Attachez vos ceintures et écoutez le Data Steward
Attachez vos ceintures et écoutez le Data StewardAttachez vos ceintures et écoutez le Data Steward
Attachez vos ceintures et écoutez le Data Steward
 
Power BI hybride - La Passerelle de Gestion des Données
Power BI hybride - La Passerelle de Gestion des DonnéesPower BI hybride - La Passerelle de Gestion des Données
Power BI hybride - La Passerelle de Gestion des Données
 
Fasten you seatbelt and listen to the Data Steward
Fasten you seatbelt and listen to the Data StewardFasten you seatbelt and listen to the Data Steward
Fasten you seatbelt and listen to the Data Steward
 
SQLSaturday Rheinland 2014 - Power query vs. ssis
SQLSaturday Rheinland 2014 - Power query vs. ssisSQLSaturday Rheinland 2014 - Power query vs. ssis
SQLSaturday Rheinland 2014 - Power query vs. ssis
 

SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WHERE happy = TRUE

  • 1. Azure Data Lake SELECT People FROM DataLake WHERE Happy = TRUE Jean-Pierre Riehl MVP Data Platform
  • 2. Thank you Sponsors You are Community
  • 3. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement Jean-Pierre Riehl Practice Manager Data & BI @djeepy1 http://blog.djeepy1.net MVP Data Platform French Data Community Leader
  • 5. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement Azure Data Lake Solution « Big Data » managée proposée sur Azure ADL Store : un système de stockage distribué de type HDFS ADL Analytics : un moteur de requêtage « analytique » U-SQL : La simplicité du SQL, la puissance de .NET
  • 6. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement Azure Data Lake Analytics Storage Azure Data Lake Analytics Azure Data Lake Store HDInsight (“managed clusters”) U-SQL Azure Blob
  • 8. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement Azure Data Lake Store Pushing the Limits !!! Pas de limite sur les tailles de fichier / stockage « massive throughput, low latency » Sécurité avancée (type NTFS/POSIX) Compatible HDFS, WebHDFS « Optimisé pour l’analytique » 70% plus cher que du Blob classique
  • 9. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement Azure Data Lake Store Focus Sécurité Chiffré avec Azure Key Vault Authentification moderne (OAuth, MFA, etc.) Intégration Azure Active Directory Autorisation avec RBAC + ACL (type POSIX) Audit natif
  • 12. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement Azure Data Lake Analytics Les arguments Marketing “Elastic analytics service” “all data, at any size” “No Limits to Scale”
  • 13. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement Azure Data Lake Analytics Service PaaS Mode batch (on parle de « job ») Modèle de tarification à l’exécution Sécurité et Audit Optimisé pour ADL Store Langage dédié : U-SQL Les + :
  • 14. U-SQL
  • 15. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement Le language U-SQL Les basiques de SQL Clauses de base SELECT, FROM, WHERE GROUP BY, JOIN, OVER Fonctionne sur des données structurées et non-structurées Modèle relationnel pour les méta-données La puissance de .NET C# Expressions Code Behind Types Fonctions Agrégats Extractors / Outputters Processors Réutilisation d’Assemblies .NET
  • 16. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement Usages U-SQL Source @DoktorKermit
  • 18. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement Ma 1ere requête U-SQL @checkins = EXTRACT [Date] DateTime, [Checkins] int, [DenRatio] string, [MayorRatio] string, [Category] string, [Subcategory] string, Venue string, Country string, City string, Latitude string, Longitude string FROM "/Samples/Data/Djeepy1Foursquare/Export-ADL-20170305.csv" USING Extractors.Csv(skipFirstNRows : 1); @resByCat = SELECT [Category], COUNT( * ) AS NbCheckins FROM @checkins GROUP BY [Category]; OUTPUT @resByCat TO "/Samples/Data/Djeepy1Foursquare/Out-ByCat-FirstQuery.csv" USING Outputters.Csv(); Extraction des données Schema-on-Read Manipulation des données Sortie
  • 20. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement L’exécution d’un job U-SQL Job Scheduler & Queue Front-EndService Vertex Execution Consume Local Storage Data Lake Store Author Plan Compiler Optimizer Vertexes running in YARN Containers U-SQL Runtime Optimized Plan Vertex Scheduling On containers Job Manager USQL Compiler Service & USQL Catalog
  • 21. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement Plan d’exécution (aka “Job Graph”) Le job est découpé en Vertex Les vertex sont organisés par “type de travail” (SuperVertex) “Job Graph”
  • 22. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement Data Lake Analytical Unit ADLAU : unité d’exécution d’un Job ADLAU = 1 VM avec 2 cœurs et 6Go de RAM Déclaratif : on indique combien d’ADLAU on souhaite Les Vertex sont « affectés » sur des ADLAU pour exécution La facturation se fait sur les ADLAU allouées 1,69€ / ADLAU / Heure
  • 23. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement Analyse de l’exécution 5 DLAU allouées 2 DLAU consommées
  • 26. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement Etendre U-SQL avec .NET C# Expressions UDFs : Fonctions UDAGGs : Agrégats UDOs : Opérations (Extractors, Outputters) PROCESS : traitements
  • 30. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement Avec du R : https://msdn.microsoft.com/en- us/magazine/mt784661.aspx
  • 31. #SQLSatToulouse - SQLSaturday Toulouse 2017Un événement Ressources • http://azure.github.io/AzureDataLake/ • http://usql.io/ • https://github.com/Azure-Samples?q=usql • https://github.com/Azure/USQL • Présentations : https://onedrive.live.com/?authkey=%21ALgjIa0PMWYU6C M&id=3BDE3286AB2E59F7%21454&cid=3BDE3286AB2E5 9F7 • Suivre Michael Rys (@MikeDoesBigData) @azuredatalake

Notes de l'éditeur

  1. HDFS, Yarn
  2. https://docs.microsoft.com/en-us/azure/storage/storage-scalability-targets 500To / 50k blocks / 100Mo par block ADL : 34€ / To / mois Azure Blob : 20€ / To / mois* * Hot LRS, First 100TB
  3. Exemple : 5 ADLAU (valeur par défaut) 90 seconds =1,69 * 5 * 90/3600 = 0,21€