--session donnée dans le cadre du 24 Hours of PASS en français, édition 2017--
Azure Data Lake est LA technologie « big data » maison de Microsoft. En provenance de MS Research (nom de code Cosmos), elle est utilisée en interne par les équipes X-Box, Bing, O365 depuis quelques années déjà. Cette technologie est disponible depuis l’été dernier dans Azure et s’enrichit mois après mois.
ADL, concrètement, c’est quoi ? C’est la possibilité de stocker et analyser une quantité illimitée de données et de requêter avec un nouveau langage : le U-SQL
Dans cette session, vous découvrirez Azure Data Lake et toutes les possibilités qui s’ouvrent à vous
3. Agenda
Azure Data Lake, c’est quoi ?
Azure Data Lake Store
Azure Data Lake Analytics
Outillage
Coder en U-SQL
Etendre ADLA
ADL avec PowerShell
Q&R
5. Un peu d’histoire
Microsoft a besoin d’une technologie pour analyser des Péta-
octets de données
2007-2008 - MS Research crée « Cosmos »
2011-2012 - Le phénomène Big Data démarre
6. Azure Data Lake
Solution « Big Data » managée proposée sur Azure
ADL Store : un système de stockage distribué de type HDFS
ADL Analytics : un moteur de requêtage « analytique »
U-SQL : La simplicité du SQL, la puissance de .NET
7. SQLSaturday Montreal 2017
Cortana Analytics Suite
Transform data into intelligent action
Business
apps
Custom
apps
Sensors
and devices
People
Automated
Systems
Data Collection ToolsData Collection Tools
10. Azure Data Lake Store
Pushing the Limits !!!
Pas de limite sur les tailles de fichier / stockage
« massive throughput, low latency »
Sécurité avancée (type NTFS/POSIX)
Compatible HDFS, WebHDFS
« Optimisé pour l’analytique »
11. Azure Blob vs. ADL Store
Le prix :
ADL : 34€ / To / mois
Azure Blob : 20€ / To / mois*
* Hot LRS, First 100TB
?
12. Azure Data Lake Store
Focus Sécurité
Chiffré avec Azure Key Vault
Authentification moderne (OAuth, MFA, etc.)
Intégration Azure Active Directory
Autorisation avec ACL (type POSIX)
Audit
15. Azure Data Lake Analytics
Les arguments Marketing
“Elastic analytics service”
“all data, at any size”
“No Limits to Scale”
16. Azure Data Lake Analytics
Service PaaS
Mode batch (on parle de « job »)
Modèle de tarification à l’exécution
Sécurité et Audit
Optimisé pour ADL Store
Langage dédié : U-SQL
Les + :
19. Le language U-SQL
Les basiques de SQL
• Clauses de base
• SELECT, FROM, WHERE
• GROUP BY, JOIN, OVER
• Fonctionne sur des données
structurées et non-structurées
• Modèle relationnel pour les
méta-données
La puissance de .NET
• C# Expressions
• Code Behind
• Types
• Fonctions
• Agrégats
• Extractors / Outputters
• Processors
• Réutilisation d’Assemblies .NET
21. Ma 1ere requête U-SQL
@checkins =
EXTRACT [Date] DateTime,
[Checkins] int,
[DenRatio] string, [MayorRatio] string,
[Category] string, [Subcategory] string,
Venue string, Country string, City string,
Latitude string, Longitude string
FROM "/Samples/Data/Djeepy1Foursquare/Export-ADL-20170305.csv"
USING Extractors.Csv(skipFirstNRows : 1);
@resByCat =
SELECT [Category],
COUNT( * ) AS NbCheckins
FROM @checkins
GROUP BY [Category];
OUTPUT @resByCat
TO "/Samples/Data/Djeepy1Foursquare/Out-ByCat-FirstQuery.csv"
USING Outputters.Csv();
Extraction des données
Schema-on-Read
Manipulation des données
Sortie
24. L’exécution d’un job U-SQL
Job Scheduler
& Queue
Front-EndService
Vertex Execution
Consume
Local
Storage
Data Lake
Store
Author
Plan
Compiler Optimizer
Vertexes
running in
YARN
Containers
U-SQL
Runtime
Optimized
Plan
Vertex Scheduling
On containers
Job Manager
USQL Compiler
Service & USQL
Catalog
25. Plan d’exécution (aka “Job Graph”)
Le job est découpé en
Vertex
Les vertex sont organisés par
“type de travail”
(SuperVertex)
“Job Graph”
29. Data Lake Analytical Unit
ADLAU : unité d’exécution d’un Job
ADLAU = 1 VM avec 2 cœurs et 6Go de RAM
Déclaratif : on indique combien d’ADLAU on souhaite
Les Vertex sont « affectés » sur des ADLAU pour exécution
La facturation se fait sur les ADLAU allouées
Cortana Analytics Suite delivers an end-to-end platform with integrated and comprehensive set of tools and services to help you build intelligent applications that let you easily take advantage of Advanced Analytics.
First Cortana Analytics Suite provides services to bring data in, so that you can analyze it. It provides information management capabilities like Azure Data Factory so that you can pull data from any source (relational DB like SQL or non-relational ones like your Hadoop cluster) in an automated and scheduled way, while performing the necessary data transforms (like setting certain data colums as dates vs. currency etc). Think ETL (Extract, Transform, Load) in the cloud. Event hub does the same for IoT type ingestion of data that streams in from lots of end points.
The data brought in then can be persisted in flexible big data storage services like Data Lake and Azure SQL DW.
You can then use a wide range of analytics services from Azure ML to Azure HDInsight to Azure Stream Analytics to analyze the data that are stored in the big data storage. This means you can create analytics services and models specific to your business need (say real time demand forecasting).
The resultant analytics services and models created by taking these steps can then be surfaced as interactive dashboards and visualizations via Power BI
These same analytics services and models created can also be integrated into various different UI (web apps or mobile apps or rich client apps) as well as via integrations with Cortana, so end users can naturally interact with them via speech etc., and so that end users can get proactively be notified by Cortana if the analytics model finds a new anomaly (unusual growth in certain product purchases- in the case of real time demand forecasting example given above) or whatever deserves the attention of the business users.
HDFS, Yarn
https://docs.microsoft.com/en-us/azure/storage/storage-scalability-targets
500To / 50k blocks / 100Mo par block