SQLSaturday Paris 2015
All in one with Polybase
SQL Server 2016,
Azure SQL DataWarehouse,
…
SQLSaturday Paris 2015
Merci à nos sponsors…
SQLSaturday Paris 2015
Speakers
Romain Casteres
Microsoft PFE Data Platform
@PulsWeb
www.PulsWeb.fr
Arnaud Voisin
Consultant BI Data Platform
@ArnaudVoisinSQL
www.arnaudvoisin.blogspot.fr
SQLSaturday Paris 2015
Agenda
 Polybase
 Big Picture
 Apache SQOOP
 Cas d’usages
 Les outils & services autour de Polybase
 HDInsight
 Azure Blob Storage // HDFS
 APS : Appliance MPP
 Azure SQL DataWarehouse
 Polybase dans SQL Server 2016 CTP 2.x
 Démos : “ Analyse des comportements des automobilistes ” 
 Architecture, Installation, Configuration, Analyse
SQLSaturday Paris 2015
Les limites du DWH traditionnel
Data sources
ETL
Data warehouse
BI and analytics
Augmentation
du volume
de données
1
Real-time
Analysis
3
Non-relational data
De nouvelles sources
et types de données
2
Cloud data
4
SQLSaturday Paris 2015

Data sources Non-relational data
Le DataWarehouse moderne
SQLSaturday Paris 2015
Big Picture
SQLSaturday Paris 2015
Hybrid SQL & Hadoop solutions
(Microsoft PolyBase, Teradata
QueryGrid, IBM Big SQL etc.)
RDBMS HDFS
Les données proviennent des
deux mondes
Cheap and
scalable data
store
Cold Data
Load first,
schema later
Familiar SQL
interface
Decades of
research and
optimization
Hot Data
SQL Server
Polybase
SQL
Résultat
Pourquoi ?
Les réponses aux nouvelles questions
≠ Big Data
≠ Données relationnelles
SQLSaturday Paris 2015
Polybase vs SQOOP
 SQOOP :
 Transfert de données entre Hadoop et des SGBDR (SQL To Hadoop)
 Génération de Jobs Map Reduce
Export
Import
SQLSaturday Paris 2015
Cas d’usages
SQLSaturday Paris 2015
HDInsight
SQLSaturday Paris 2015
HDInsight : Le stockage
 Déconnexion des données et des
Compute Nodes
 Les données sont persistées même
après désallocation du cluster
 Plusieurs cluster Hadoop peuvent
utiliser le même set de données
HDFS WASB
 Système de fichier distribué et
extensible (scalable)
 Le stockage est attaché à son
Datanode
SQLSaturday Paris 2015
APS : Appliance MPP
APS
0TB 6PB
APS /
HDInsight
APS /
HDInsight
APS /
HDInsight
APS /
HDInsight
APS /
HDInsight
APS /
HDInsight
SQLSaturday Paris 2015
Polybase dans APS
 Permet d’accéder à un
cluster Hadoop interne ou
externe, ou à un conteneur
WASB
 Importer des données d’un
système EXTERNE grâce
au CTAS
Analytics
Platform
System
Hortonworks
(Windows, Linux),
Cloudera
Windows Azure
HDInsight
PolyBase
Microsoft
HDInsight
Select…
Result
set
SQLSaturday Paris 2015
SQL DataWarehouse
 Base de données distribuée dans Azure
 Scalable à la demande : Accroître, réduire ou interrompre les
ressources de calcul (DWU)
 Traitement MPP en mode PaaS basé sur APS
 Possibilité de connecter SQL DataWarehouse avec les système On-
Premise
HDINSIGHT
Stockage données
SQL Server
Exploitation &
Analyse
Azure DW
Traitement &
agrégation
SQLSaturday Paris 2015
Polybase dans SQL Server 2016ExternalTable
External Datasource
External File Format
Headnode
Azure Blob Storage (WASB)
Supportes différents format et compression :
• CSV
• ORC
• RC FILE
Azure Blob
Storage (WASB)
Ressource
Manager
Compute/D
ata Node
1
Compute/D
ata Node
Compute/D
ata Node
Cluster Hadoop
2
3
Moteur SQL 16
Jobs
map/reduce
Gestion de
rejets
SQLSaturday Paris 2015
Notre scénario : « Pay-How-You-Drive »
Une assurance ajustée
selon votre utilisation !
SQLSaturday Paris 2015
Architecture 1 – Polybase & WASB
SQLSaturday Paris 2015
Installation & Configuration
Prérequis :
• 64-bit SQL Server Evaluation edition
• Microsoft .NET Framework 4.0.
• Oracle Java SE RunTime Environment (JRE)
• Minimum memory: 4GB
• Minimum hard disk space: 2GB
Dans l’onglet de configuration du serveur, le
service Polybase Engine et Polybase Data
Movement doivent s’exécuter avec le même
compte.
A noter 3 bases sont installées :
DWConfiguration, DWDiagnostics, DWQueue
Fichier de configuration : C:Program FilesMicrosoft SQL ServerMSSQL13.MSSQLSERVERMSSQLBinnPolybase
SQLSaturday Paris 2015
Démo Architecture WASB
SQLSaturday Paris 2015
Architecture 2 – Polybase & SQL DHW
Envoie toutes les
minutes des
évènements
Hadoop
Azure SQL Data
Warehouse
Power BI
WASB
PolyBase
Queries
SQLSaturday Paris 2015
Démo Architecture SQL DWH
SQLSaturday Paris 2015
Exemple de Rapport
SQLSaturday Paris 2015
Limites & Evolutions : CTP3, …
CTP2
CTP3
Export de données relationnelles vers Hadoop ou Wasbs à
des fins d’archivage
Architecture Scale-out : Configuration de cluster d’instance
pour attaquer une source Hadoop ou Azure Blob Storage.
De nouveaux formats pris en charge : Parquet, Avro ?
SQLSaturday Paris 2015
Merci !
SQLSaturday Paris 2015
Merci à nos volontaires…
SQLSaturday Paris 2015
…Et en plus on peut gagner des cadeaux
http://GUSS.pro/sqlsat

SQL Saturday Paris 2015 - Polybase

  • 1.
    SQLSaturday Paris 2015 Allin one with Polybase SQL Server 2016, Azure SQL DataWarehouse, …
  • 2.
    SQLSaturday Paris 2015 Mercià nos sponsors…
  • 3.
    SQLSaturday Paris 2015 Speakers RomainCasteres Microsoft PFE Data Platform @PulsWeb www.PulsWeb.fr Arnaud Voisin Consultant BI Data Platform @ArnaudVoisinSQL www.arnaudvoisin.blogspot.fr
  • 4.
    SQLSaturday Paris 2015 Agenda Polybase  Big Picture  Apache SQOOP  Cas d’usages  Les outils & services autour de Polybase  HDInsight  Azure Blob Storage // HDFS  APS : Appliance MPP  Azure SQL DataWarehouse  Polybase dans SQL Server 2016 CTP 2.x  Démos : “ Analyse des comportements des automobilistes ”   Architecture, Installation, Configuration, Analyse
  • 5.
    SQLSaturday Paris 2015 Leslimites du DWH traditionnel Data sources ETL Data warehouse BI and analytics Augmentation du volume de données 1 Real-time Analysis 3 Non-relational data De nouvelles sources et types de données 2 Cloud data 4
  • 6.
    SQLSaturday Paris 2015  Datasources Non-relational data Le DataWarehouse moderne
  • 7.
  • 8.
    SQLSaturday Paris 2015 HybridSQL & Hadoop solutions (Microsoft PolyBase, Teradata QueryGrid, IBM Big SQL etc.) RDBMS HDFS Les données proviennent des deux mondes Cheap and scalable data store Cold Data Load first, schema later Familiar SQL interface Decades of research and optimization Hot Data SQL Server Polybase SQL Résultat Pourquoi ? Les réponses aux nouvelles questions ≠ Big Data ≠ Données relationnelles
  • 9.
    SQLSaturday Paris 2015 Polybasevs SQOOP  SQOOP :  Transfert de données entre Hadoop et des SGBDR (SQL To Hadoop)  Génération de Jobs Map Reduce Export Import
  • 10.
  • 11.
  • 12.
    SQLSaturday Paris 2015 HDInsight: Le stockage  Déconnexion des données et des Compute Nodes  Les données sont persistées même après désallocation du cluster  Plusieurs cluster Hadoop peuvent utiliser le même set de données HDFS WASB  Système de fichier distribué et extensible (scalable)  Le stockage est attaché à son Datanode
  • 13.
    SQLSaturday Paris 2015 APS: Appliance MPP APS 0TB 6PB APS / HDInsight APS / HDInsight APS / HDInsight APS / HDInsight APS / HDInsight APS / HDInsight
  • 14.
    SQLSaturday Paris 2015 Polybasedans APS  Permet d’accéder à un cluster Hadoop interne ou externe, ou à un conteneur WASB  Importer des données d’un système EXTERNE grâce au CTAS Analytics Platform System Hortonworks (Windows, Linux), Cloudera Windows Azure HDInsight PolyBase Microsoft HDInsight Select… Result set
  • 15.
    SQLSaturday Paris 2015 SQLDataWarehouse  Base de données distribuée dans Azure  Scalable à la demande : Accroître, réduire ou interrompre les ressources de calcul (DWU)  Traitement MPP en mode PaaS basé sur APS  Possibilité de connecter SQL DataWarehouse avec les système On- Premise HDINSIGHT Stockage données SQL Server Exploitation & Analyse Azure DW Traitement & agrégation
  • 16.
    SQLSaturday Paris 2015 Polybasedans SQL Server 2016ExternalTable External Datasource External File Format Headnode Azure Blob Storage (WASB) Supportes différents format et compression : • CSV • ORC • RC FILE Azure Blob Storage (WASB) Ressource Manager Compute/D ata Node 1 Compute/D ata Node Compute/D ata Node Cluster Hadoop 2 3 Moteur SQL 16 Jobs map/reduce Gestion de rejets
  • 17.
    SQLSaturday Paris 2015 Notrescénario : « Pay-How-You-Drive » Une assurance ajustée selon votre utilisation !
  • 18.
  • 19.
    SQLSaturday Paris 2015 Installation& Configuration Prérequis : • 64-bit SQL Server Evaluation edition • Microsoft .NET Framework 4.0. • Oracle Java SE RunTime Environment (JRE) • Minimum memory: 4GB • Minimum hard disk space: 2GB Dans l’onglet de configuration du serveur, le service Polybase Engine et Polybase Data Movement doivent s’exécuter avec le même compte. A noter 3 bases sont installées : DWConfiguration, DWDiagnostics, DWQueue Fichier de configuration : C:Program FilesMicrosoft SQL ServerMSSQL13.MSSQLSERVERMSSQLBinnPolybase
  • 20.
  • 21.
    SQLSaturday Paris 2015 Architecture2 – Polybase & SQL DHW Envoie toutes les minutes des évènements Hadoop Azure SQL Data Warehouse Power BI WASB PolyBase Queries
  • 22.
    SQLSaturday Paris 2015 DémoArchitecture SQL DWH
  • 23.
  • 24.
    SQLSaturday Paris 2015 Limites& Evolutions : CTP3, … CTP2 CTP3 Export de données relationnelles vers Hadoop ou Wasbs à des fins d’archivage Architecture Scale-out : Configuration de cluster d’instance pour attaquer une source Hadoop ou Azure Blob Storage. De nouveaux formats pris en charge : Parquet, Avro ?
  • 25.
  • 26.
    SQLSaturday Paris 2015 Mercià nos volontaires…
  • 27.
    SQLSaturday Paris 2015 …Eten plus on peut gagner des cadeaux http://GUSS.pro/sqlsat