#JSS2015
Les journées
SQL Server 2015
Un événement organisé par GUSS
Azure SQL Data Warehouse & Data Lake
@GUSS_FRANCE
Franck Mercier
Microsoft DX
Data Platform
Romain Casteres
Microsoft PFE
SQL Server, BI, Big Data
#JSS2015
Merci à nos sponsors
#JSS2015
• Introduction
• SQL Data Warehouse
– Introduction
– Performance DWU
– Polybase
• Azure Data Lake
– Le Store
– Analytics
– U-SQL
• Comparaison
Agenda
SQL
#JSS2015
Data Warehouse traditionnel
#JSS2015
Data Warehouse moderne
#JSS2015
Les 3 challenges du Big data
#JSS2015
La vision de Microsoft
On-Premises
Data Warehouse Big Data
Cloud
#JSS2015
SQL Data Warehouse Service
Un service de base de données, géré par Microsoft
Data Warehouse s’appuyant sur les fonctionnalités de SQL Server
Supporte tous les besoins en terme de taille se stockage
Saas
Azure
Public
Cloud
Office 365Office 365
AzureAzure
#JSS2015
Mise à l’échelle
Mise à l’echelle en quelques secondes
Facturation à l’usage
Séparation entre le moteur de calcul et le stockage
Office 365
#JSS2015
Pause
Les données restent en place. Pas de rechargement ni de restauration
En pause, le coût de stockage est réduit au minimum
Pilotable via PowerShell/REST API
$$$$
#JSS2015
Data Warehouse Unit (DWU)
Scan 1 B rows
100 DWU = 297 sec
400 DWU = 74 sec
800 DWU = 37 sec
1600 DWU = 19 sec
Azure SQL Data Warehouse
Control
Compute
Azure Storage Blob(s)
Compute
Compute
Compute
Compute
Compute D52D51 D53 D54 D55 D56 D58D57 D59 D60
D12D11 D13 D14 D15 D16 D18D17 D19 D20
D22D21 D23 D24 D25 D26 D28D27 D29 D30
D32D31 D33 D34 D35 D36 D38D37 D39 D40
D42D41 D43 D44 D45 D46 D48D47 D49 D50
D2D1 D3 D4 D5 D6 D8D7 D9 D10
Azure SQL Data Warehouse
Control Compute
Azure Storage Blob(s)
D12D11 D13 D14 D15 D16 D18D17 D19 D20
D22D21 D23 D24 D25 D26 D28D27 D29 D30
D32D31 D33 D34 D35 D36 D38D37 D39 D40
D42D41 D43 D44 D45 D46 D48D47 D49 D50
D52D51 D53 D54 D55 D56 D58D57 D59 D60
D2D1 D3 D4 D5 D6 D8D7 D9 D10
#JSS2015
• Requêtes sur des distributions Hadoop (HDP &
Cloudera) ou des fichiers Hadoop dans un stockage
Azure
• Permet de conserver les compétences SQL et BI
• Supporte de nombreux formats de fichiers
• Réduit le « Time to Insights »
• ETL simplifié
Polybase permet l’exécution de requêtes aussi bien sur
des données structurées que sur des données non
structurées (Hadoop)
SQL DW Instance
Scale out compute
Hadoop VMs /
Azure StoragePolyBase
Traitement de données non structurées avec
Polybase/T-SQL
#JSS2015
Polybase
Adresser des données relationnelle et non relationnelle dans la même requete T-SQL
T-SQL query
SQL Server Hadoop
Quote:
************************
**********************
*********************
**********************
***********************
$658.39
Jim Gray
Name
11/13/58
DOB
WA
State
Ann Smith 04/29/76 ME
#JSS2015
SQL Data Warehouse
Event Hub Stream Analytics
Data Factory
HDInsight Storage
Power BI
Machine Learning
SQL DW dans l’écosystem Azure
#JSS2015
Azure Data Warehouse 1. Creation
2. Resizing
3. Pause
4. Polybase
5. Power BI
Demo
#JSS2015
Azure Data Lake
YARN
HDFS
Clickstream
Sensors
Video
Social
Web
Devices
Relational
Applications
HDInsightAnalytics
Service
Partners
U-SQL
AnalyticsStore
#JSS2015
Les briques de Cortana Analytics Suite
Business
apps
Custom
apps
Sensors
and devices
INTELLIGENCE
People
Automated
Systems
ACTION
#JSS2015
Azure Data Lake Store
LOB Applications
SocialDevices
Clickstream
Sensors
Video
Web
Relational
HDInsight
ADL Analytics
Machine Learning
Spark
R
ADL Store
#JSS2015
Azure Data Lake Store
Securisé (AAD) Native format
Faible latence
Multiple analytic
frameworks
Details
Haut débit
Fiable
Scalable All sources
Type de Jobs : Batch, Streaming, Machine Learning, Real Time
#JSS2015
ADLS : Alimentation
Server logs
Azure Event Hub
Apache
Flume
Azure Storage Blobs
Custom programs
.NET SDK
JavaScript CLI
Azure Portal
Azure PowerShell
Azure Data Factory
Apache Sqoop
Azure SQL DB
Azure SQL DW
Azure tables
Table Storage
On-premises databases
SQL
ADL Store
Built-in
copy service
#JSS2015
ADLS : Export
Azure SQL DB
SQL
Azure SQL DW
Azure Tables
Table Storage
On-premises databases
Azure Data Factory
Apache Sqoop
Azure Storage Blobs
Custom programs
.NET SDK
JavaScript CLI
Azure Portal
Azure PowerShell
Built-in
copy service
ADL Store
#JSS2015
Azure Data Lake Store 1. Creation
2. Azure File Preview
3. Azure Active Directory
4. HDInsight
Demo
#JSS2015
Azure Data Lake Analytics
Azure Data Lake
Analytics
Azure SQL DW Azure SQL DB
Azure
Storage Blobs
Azure
Data Lake Store
SQL DB in an
Azure VM
#JSS2015
• Déployer votre projet Big Data rapidement
(Minutes)
• Aucun matériel à installer, ajuster,
configurer ou déployer
• Aucune infrastructure ou un logiciel a
gérer
• Elasticité du nombre de machines
ADLA : Infrastructure
#JSS2015
• Intégration complète à Visual Studio
• Facile de prise en main
• Création de scripts U-SQL, Hive et
Storm
• Optimisation facilité par la visualisation
des performances
ADLA : Visual Studio
#JSS2015
ADLA : U-SQL language
• Unifie la nature déclarative de SQL avec la puissance
expressive de C#
• Facilement extensible
• Fonctionne sur des données structurées et non
structurées
– Schema on read over files
– Relational metadata objects (e.g. database,
table)
• Parallélisassions et élasticité pour les commande :
– EXTRACTOR
– OUTPUTTER
– PROCESSOR
– REDUCER
– COMBINERS
– APPLIER
REFERENCE MyDB.MyAssembly;
CREATE TABLE T( cid int, first_order DateTime
, last_order DateTime, order_count int
, order_amount float );
@o = EXTRACT oid int, cid int, odate DateTime, amount float
FROM "/input/orders.txt“
USING Extractors.Csv();
@c = EXTRACT cid int, name string, city string
FROM "/input/customers.txt“
USING Extractors.Csv();
@j = SELECT c.cid, MIN(o.odate) AS firstorder
, MAX(o.date) AS lastorder, COUNT(o.oid) AS ordercnt
, SUM(c.amount) AS totalamount
FROM @c AS c LEFT OUTER JOIN @o AS o ON c.cid == o.cid
WHERE c.city.StartsWith("New")
&& MyNamespace.MyFunction(o.odate) > 10
GROUP BY c.cid;
OUTPUT @j TO "/output/result.txt"
USING new MyData.Write();
INSERT INTO T SELECT * FROM @j;
#JSS2015
Azure Data Lake 1. Visual Studio
2. U-SQL
3. Power BI
Demo
Bonus *
Job Automatisation via
Azure Data Factor
Azure Data Lake Tools : https://aka.ms/ADLTools
#JSS2015
Comparaisons
HDInsight SQL DWH
Azure Data Lake
Analytic
Service Managed IaaS PaaS Job Service
Pour les
développeurs
Open Source : Java,
Eclipse, Hive, etc.
T-SQL, Polybase*
U-SQL, C#, SQL et
PowerShell
Management
Customisation et
flexibilité
Azure, Visual Studio
Job Service prêt à
l’emploi et Scalable,
Visual Studio, Azure
#JSS2015#JSS2015
Les évaluations des sessions,
c’est important !!
http://GUSS.Pro/jss
#JSS2015
Merci à nos volontaires…
#JSS2015
Azure Data Lake
Demo
Bonus *
Job Automatisation via
Azure Data Factor “La suite”
Azure Data Lake Tools : https://aka.ms/ADLTools
#JSS2015#JSS2015

[JSS2015] Azure SQL Data Warehouse - Azure Data Lake

  • 1.
    #JSS2015 Les journées SQL Server2015 Un événement organisé par GUSS Azure SQL Data Warehouse & Data Lake @GUSS_FRANCE Franck Mercier Microsoft DX Data Platform Romain Casteres Microsoft PFE SQL Server, BI, Big Data
  • 2.
  • 3.
    #JSS2015 • Introduction • SQLData Warehouse – Introduction – Performance DWU – Polybase • Azure Data Lake – Le Store – Analytics – U-SQL • Comparaison Agenda SQL
  • 4.
  • 5.
  • 6.
  • 7.
    #JSS2015 La vision deMicrosoft On-Premises Data Warehouse Big Data Cloud
  • 8.
    #JSS2015 SQL Data WarehouseService Un service de base de données, géré par Microsoft Data Warehouse s’appuyant sur les fonctionnalités de SQL Server Supporte tous les besoins en terme de taille se stockage Saas Azure Public Cloud Office 365Office 365 AzureAzure
  • 9.
    #JSS2015 Mise à l’échelle Miseà l’echelle en quelques secondes Facturation à l’usage Séparation entre le moteur de calcul et le stockage Office 365
  • 10.
    #JSS2015 Pause Les données restenten place. Pas de rechargement ni de restauration En pause, le coût de stockage est réduit au minimum Pilotable via PowerShell/REST API $$$$
  • 11.
    #JSS2015 Data Warehouse Unit(DWU) Scan 1 B rows 100 DWU = 297 sec 400 DWU = 74 sec 800 DWU = 37 sec 1600 DWU = 19 sec Azure SQL Data Warehouse Control Compute Azure Storage Blob(s) Compute Compute Compute Compute Compute D52D51 D53 D54 D55 D56 D58D57 D59 D60 D12D11 D13 D14 D15 D16 D18D17 D19 D20 D22D21 D23 D24 D25 D26 D28D27 D29 D30 D32D31 D33 D34 D35 D36 D38D37 D39 D40 D42D41 D43 D44 D45 D46 D48D47 D49 D50 D2D1 D3 D4 D5 D6 D8D7 D9 D10 Azure SQL Data Warehouse Control Compute Azure Storage Blob(s) D12D11 D13 D14 D15 D16 D18D17 D19 D20 D22D21 D23 D24 D25 D26 D28D27 D29 D30 D32D31 D33 D34 D35 D36 D38D37 D39 D40 D42D41 D43 D44 D45 D46 D48D47 D49 D50 D52D51 D53 D54 D55 D56 D58D57 D59 D60 D2D1 D3 D4 D5 D6 D8D7 D9 D10
  • 12.
    #JSS2015 • Requêtes surdes distributions Hadoop (HDP & Cloudera) ou des fichiers Hadoop dans un stockage Azure • Permet de conserver les compétences SQL et BI • Supporte de nombreux formats de fichiers • Réduit le « Time to Insights » • ETL simplifié Polybase permet l’exécution de requêtes aussi bien sur des données structurées que sur des données non structurées (Hadoop) SQL DW Instance Scale out compute Hadoop VMs / Azure StoragePolyBase Traitement de données non structurées avec Polybase/T-SQL
  • 13.
    #JSS2015 Polybase Adresser des donnéesrelationnelle et non relationnelle dans la même requete T-SQL T-SQL query SQL Server Hadoop Quote: ************************ ********************** ********************* ********************** *********************** $658.39 Jim Gray Name 11/13/58 DOB WA State Ann Smith 04/29/76 ME
  • 14.
    #JSS2015 SQL Data Warehouse EventHub Stream Analytics Data Factory HDInsight Storage Power BI Machine Learning SQL DW dans l’écosystem Azure
  • 15.
    #JSS2015 Azure Data Warehouse1. Creation 2. Resizing 3. Pause 4. Polybase 5. Power BI Demo
  • 16.
  • 17.
    #JSS2015 Les briques deCortana Analytics Suite Business apps Custom apps Sensors and devices INTELLIGENCE People Automated Systems ACTION
  • 18.
    #JSS2015 Azure Data LakeStore LOB Applications SocialDevices Clickstream Sensors Video Web Relational HDInsight ADL Analytics Machine Learning Spark R ADL Store
  • 19.
    #JSS2015 Azure Data LakeStore Securisé (AAD) Native format Faible latence Multiple analytic frameworks Details Haut débit Fiable Scalable All sources Type de Jobs : Batch, Streaming, Machine Learning, Real Time
  • 20.
    #JSS2015 ADLS : Alimentation Serverlogs Azure Event Hub Apache Flume Azure Storage Blobs Custom programs .NET SDK JavaScript CLI Azure Portal Azure PowerShell Azure Data Factory Apache Sqoop Azure SQL DB Azure SQL DW Azure tables Table Storage On-premises databases SQL ADL Store Built-in copy service
  • 21.
    #JSS2015 ADLS : Export AzureSQL DB SQL Azure SQL DW Azure Tables Table Storage On-premises databases Azure Data Factory Apache Sqoop Azure Storage Blobs Custom programs .NET SDK JavaScript CLI Azure Portal Azure PowerShell Built-in copy service ADL Store
  • 22.
    #JSS2015 Azure Data LakeStore 1. Creation 2. Azure File Preview 3. Azure Active Directory 4. HDInsight Demo
  • 23.
    #JSS2015 Azure Data LakeAnalytics Azure Data Lake Analytics Azure SQL DW Azure SQL DB Azure Storage Blobs Azure Data Lake Store SQL DB in an Azure VM
  • 24.
    #JSS2015 • Déployer votreprojet Big Data rapidement (Minutes) • Aucun matériel à installer, ajuster, configurer ou déployer • Aucune infrastructure ou un logiciel a gérer • Elasticité du nombre de machines ADLA : Infrastructure
  • 25.
    #JSS2015 • Intégration complèteà Visual Studio • Facile de prise en main • Création de scripts U-SQL, Hive et Storm • Optimisation facilité par la visualisation des performances ADLA : Visual Studio
  • 26.
    #JSS2015 ADLA : U-SQLlanguage • Unifie la nature déclarative de SQL avec la puissance expressive de C# • Facilement extensible • Fonctionne sur des données structurées et non structurées – Schema on read over files – Relational metadata objects (e.g. database, table) • Parallélisassions et élasticité pour les commande : – EXTRACTOR – OUTPUTTER – PROCESSOR – REDUCER – COMBINERS – APPLIER REFERENCE MyDB.MyAssembly; CREATE TABLE T( cid int, first_order DateTime , last_order DateTime, order_count int , order_amount float ); @o = EXTRACT oid int, cid int, odate DateTime, amount float FROM "/input/orders.txt“ USING Extractors.Csv(); @c = EXTRACT cid int, name string, city string FROM "/input/customers.txt“ USING Extractors.Csv(); @j = SELECT c.cid, MIN(o.odate) AS firstorder , MAX(o.date) AS lastorder, COUNT(o.oid) AS ordercnt , SUM(c.amount) AS totalamount FROM @c AS c LEFT OUTER JOIN @o AS o ON c.cid == o.cid WHERE c.city.StartsWith("New") && MyNamespace.MyFunction(o.odate) > 10 GROUP BY c.cid; OUTPUT @j TO "/output/result.txt" USING new MyData.Write(); INSERT INTO T SELECT * FROM @j;
  • 27.
    #JSS2015 Azure Data Lake1. Visual Studio 2. U-SQL 3. Power BI Demo Bonus * Job Automatisation via Azure Data Factor Azure Data Lake Tools : https://aka.ms/ADLTools
  • 28.
    #JSS2015 Comparaisons HDInsight SQL DWH AzureData Lake Analytic Service Managed IaaS PaaS Job Service Pour les développeurs Open Source : Java, Eclipse, Hive, etc. T-SQL, Polybase* U-SQL, C#, SQL et PowerShell Management Customisation et flexibilité Azure, Visual Studio Job Service prêt à l’emploi et Scalable, Visual Studio, Azure
  • 29.
    #JSS2015#JSS2015 Les évaluations dessessions, c’est important !! http://GUSS.Pro/jss
  • 30.
    #JSS2015 Merci à nosvolontaires…
  • 31.
    #JSS2015 Azure Data Lake Demo Bonus* Job Automatisation via Azure Data Factor “La suite” Azure Data Lake Tools : https://aka.ms/ADLTools
  • 32.