Les architectures de références SQL Server Fast-Track et SQL Server 2008 R2 Parallel Datawarehouse sont des appliances permettant d'accélérer et de réduire les risques de la mise en œuvre des entrepôts de données tout en garantissant des niveaux de performance exceptionnels avec un coût de mise en œuvre réduit. Cette session présentera les offres en détails et vous permettra de mieux appréhender leurs apports pour vos projets, elle sera également l’occasion de présenter des retours d’expérience d’implémentation.
2. Accélérez vos entrepôts de données avec
les Appliances Microsoft
SQL Server Fast Track
Parallel Data Warehouse
7 Février 2012
Olivier Tolon - Spécialiste Solution SQL Server PDW
Gilbert Breton – Architecte SQL Server PDW
Microsoft
3. Agenda
• Data Warehousing aujourd’hui & Challenges Associés
• Vision Microsoft
• Appliance ?
• Rappel SMP / MPP
• Solutions
– SQL Server Fast Track Data Warehouse
• Concept
• Apports Architectures de référence
– SQL Server Parallel Data Warehouse
• Architecture Hardware
• Architecture Logicielle
• Apports MPP
• Distributed Data Warehouse Architecture
• Résumé
5. Vision Microsoft Data Warehouse
Faire de SQL Server la plus rapide et la plus abordable des bases
pour tous les clients quelle que soit la taille de base
Evolutivité Massive à prix Choix et flexibilité Solution Data
réduit Warehouse Complete
Adminsitration Simplifiée du Data Warehouse
6. Appliance ????
Définition générale
• Dispositif, outil ou système conçu pour un
usage particulier
Transposition aux Entrepôts de Données :
• Infrastructure matérielle dédiée
• Logiciel SGBD dédié / Configuration optimisée
• Service dédié
(Assemblage/Installation/Maintenance…)
7.
8. Goulots d’étranglement matériels potentiels
DISK DISK
A A
FC SWITCH
FC
SQL SERVER
CPU CORES
WINDOWS
A
SERVER
B HBA B
CACHE
LUN
CACHE
A STORAGE A
B CONTROLLER B DISK DISK
A FC A
HBA B
B B
LUN
CPU Feed Rate ? SQL Server Rate ? HBA Port Rate ?Switch Port Rate ? SP Port Rate ? LUN Read Rate ? Disk Feed Rate
Read Ahead
? ? ? ? ? ? ?
9. Microsoft Data Warehousing
Offerings
Fast Track Data Parallel Data
Enterprise BDW Appliance
Warehouse RA Warehouse
Reference Appliance for high end
Scalable and reliable Scalable and reliable
architectures offering MPP Data Warehousing
SMP platform for data platform for data
best price delivering highest
warehousing on any warehousing on any
performance for data scalability and
hardware hardware
warehousing performance
Ideal for data marts or Ideal for data marts or
Ideal for large data Ideal for high scale or
small to mid-sized small to mid-sized
marts or mid-sized high performance data
enterprise data data warehouses with
EDWs marts and EDWs
warehouses (EDWs) scan-centric workloads
Reference
Integrated Appliance DW Appliance
Architectures
Software only (Software and (Fully integrated
(Software and
Hardware) Software and Hardware)
Hardware)
Scale-Up DW Scale-Up DW Scale-Up DW Scale-Out DW with MPP
10s of terabytes <5 terabytes 5–120 terabytes 5s - 100s of TB
10. Rappel SMP vs MPP
CPU
CPU CPU Stockage
CPU
7
CPU
SMP
Stockage
6 CPU
Stockage 5
CPU
Stockage
CPU
CPU CPU CPU CPU
Process Time
4 CPU
Stockage
CPU
3
CPU
MPP
2 Stockage
Stockage CPU
CPU CPU CPU CPU CPU CPU CPU CPU
CPU
1
Stockage
CPU
0
1TB 5TB 10TB 15TB 20TBCPU
Stockage
CPU
CPU
Stockage CPU
Stockage
11. Avantages MPP
• Evolutivité (Scalabilité)
• Puissance CPU virtuellement illimité
• Stockage virtuellement illimité
• Architecture shared nothing limitation des contentions
possible, notamment
– Bus
– Stockage
– Memory
• Pas de goulet d’étranglement au chargement, autant de bases
de données que de noeuds
Contrainte MPP
• Choix de la clé de distribution déterminant pour les performances du
système
12. SQL Server Fast Track Architecture de
Data Warehouse référence
13. SQL Server Fast Track Data Warehouse
Une méthode de conception de systèmes équilibrés
et performance à un ratio prix/performances réduit
pour les workloads Data Warehouse
Des configurations de référence hardware
développées en collaboration avec des partenaires
constructeur et basées sur cette méthode
Des Best practices de répartition, chargement et
administration de données
14. Composants Fast Track Data Warehouse
Software:
• SQL Server 2008 Enterprise
• Windows Server 2008
Configuration guidelines:
• Physical table structures
• Indexes
• Compression
• SQL Server settings
• Windows Server settings
• Loading
Hardware:
• Tight specifications for servers,
storage and networking
• ‘Per core’ building block
19. Introduction à Parallel Data Warehouse
• Offre appliance Enterprise Data Warehouse High End
– Haute évolutivité - Dizaine à centaines de terabytes
– Haute performance grâce à un système MPP
• Flexibilité et choix
– Plusieurs Fournisseurs matériel possibles
– Possibilité de déploiement au travers d’architecture distribuées
• Solution la plus complète
– Solution data warehouse complète couvrant le poste de travail, data
warehouse d’ enterprise (EDW), et les data marts
– Intégration forte avec l’offre de business intelligence Microsoft
– Outillage complet: BI, ETL, MDM, et streaming data
20. Control Rack Data Rack
Compute Nodes Storage Nodes
Control
Nodes
Control Nodes SQL
Active / Passive
SQL
SQL SQL
SQL
Management Servers
Dual Fiber Channel
SQL
Dual Infiniband
SQL
Landing Built-in SQL
Zone Landing ZoneBackup
SQL
SQL
Backup Node
SQL
Spare Compute Node
Private Network
21. Appliance Parallel Data Warehouse
Architecture matérielle
Compute Nodes Storage Nodes
Control Nodes SQL
Active/Passive
SQL
Client Drivers SQL
SQL
SQL
Star Schema
Management Servers SQL
Or
Dual Fiber Channel
Dual Infiniband
Data Center SQL
Monitoring Normalized Data
SQL
Landing Zone
SQL
ETL Load Interface Data stored
on servers
SQL
Backup Node
SQL
Corporate Backup Backup
Solution Data
Spare Database Server
Corporate Network Private Network
22. Apports PDW– Traitement parallèle massif
Control Rack Data Rack
Compute Nodes Storage Nodes
La requête 1 est
Control Nodes
soumise à SQL Server
SQL
sur le Control Node
Active / Passive
? SQL
Requête 1 SQL
? SQL
? SQL
Management Servers ? La requête est
Dual Fiber Channel
SQL
Dual Infiniband
? exécutée sur les
? SQL 10 noeuds
Landing Zone ? SQL
Le résultat est
? SQL
envoyé au client
? SQL
Backup
Node
? SQL
Spare Compute Node
Private Network
23. Apports PDW– Traitement parallèle massif
Control Rack Data Rack
Compute Nodes Storage Nodes
Requêtes multiples
exécutées simultanémen
Control Nodes SQL sur tous les noeuds
? Active / Passive
???? ? ??? SQL
PDW supporte le
? SQL
???? ? ??? requêtage pendant le
? ? ??
SQL
chargement de données
???? ? ???
? ?? ??
SQL
Management Servers
???? ? ???
Dual Fiber Channel
SQL
Dual Infiniband
? ?? ?? ? ??? SQL
???? ? ???
Landing Zone
???? ? ??? SQL
? ???? ? ??? SQL
? Backup
???? ? ??? SQL
Node ???? ? ??? SQL
? Spare Compute Node
?
Private Network
Performance hors normes grâce à la parallélisation massive des requêtes sur des
nœuds ultra shared nothing hautement performants.
24. Possibilités de positionnement de
données
• Répliquée
Une structure de table est copiée dans son intégralité sur chaque nœud PDW.
• Distribuée
Une structure de table qui est répartie uniformément sur tous les nœuds sur la base
d’une colonne de distribution uniforme. (Chaque distribution est une table physique
séparée au niveau moteur de chaque nœud)
• Ultra Shared Nothing
Capacité à mixé à la fois des tables distribuée et répliquées pour minimiser les
mouvements entre les nœuds.
• Les petites tables sont stockées plus efficacement en les répliquant sur
chaque nœud.
• Certaines opération seront alors plus efficaces (opérations mono nœuds, ex:
jointure compatibles avec la clé de distribution)
25. Tables répliquées
Exemple de schéma en étoile:
Les petites tables de dimensions sont répliquées
TD
TD PD
PD
SFSF
011-
SD
SD 08 MD
MD
Time Dim
Date Dim ID
Calendar Year Product Dim
Calendar Qtr
Calendar Mo Prod Dim ID TD PD
SF
Calendar Day Prod Category
09-
Prod Sub Cat SD MD
16
Prod Desc
Sales Facts
TD PD
SF
Date Dim ID
17-
Store Dim ID SD MD
24
Prod Dim ID
Mktg Camp Id
Qty Sold
Dollars Sold
Store Dim Mktg TD PD
Campaign SF
25-
Store Dim ID Dim SD 32 MD
Store Name Mktg Camp ID
Store Mgr Camp Name
Store Size Camp Mgr
Camp Start
Camp End
TD PD
SF
33-
SD 40 MD
26. Tables distribuées
Exemple de schéma en étoile;
Les grandes tables de faits sont distribuées (hash) sur tous les « database
serveurs » de la configuration
TD
TD PD
PD
SF
SF
01-
1
SD
SD 08 MD
MD
Time Dim
Date Dim ID
Calendar Year
Calendar Qtr Product Dim
Calendar Mo
Calendar Day Prod Dim ID TD PD
SF
Prod Category
09-
Prod Sub Cat SD MD
16
Prod Desc
Sales Facts
TD PD
SF
Date Dim ID
17-
Store Dim ID SD MD
24
Prod Dim ID
Mktg Camp Id
Qty Sold
Dollars Sold
Store Dim Mktg TD PD
Campaign SF
25-
Store Dim ID Dim SD 32 MD
Store Name Mktg Camp ID
Store Mgr Camp Name
Store Size Camp Mgr
Camp Start
Camp End
TD PD
SF
33-
SD 40 MD
27. SQL Server PDW : Create table…
Create Table store_sales (column defs)
with
distribute_on (ss_item_sk),
cluster_on (ss_date_sk),
partition_on (ss_date_sk) range for values (0,1,2,3,4,5)
Create Table h_store_sales_a
Create Table h_store_sales b 8 Cluster Index Tables per node
Create Table h_store_sales_ … 1 per File Group- Dist a to h
Create Table h_store_sales_h
6 Partition functions
(ss_date_sk) per table
per filegroup
8K
8K
8K N-number of
8K Pages
8K
Tuple
28. PDW : Puissance de traitement
Etapes élémentaires
d’exécution Database Server Q1
Control Node Madison
Database Server Q1 Q2
Plan ID Database Server Q1Q2 Q3
Select * DSQL Plan Database Server
from store_sales ;
Q1Q2Q3 Q4
SQL Server Q2Q3Q4 Q5
mad_store_sales_a Q3Q4Q5 Q6
Temp Table mad_store_sales_b
Q6 Q7
mad_store_sales_c Q4Q5
mad_store_sales_d
Translation to SQL Server 2008 Q6Q7 Q8
mad_store_sales_e Q5
Select * from mad_store_sales_a
mad_store_sales_f
Select * from mad_store_sales_b Q7
Select * from mad_store_sales_c
mad_store_sales_g Q6 Q8
mad_store_sales_h
Select * from mad_store_sales_d Q8
Select * from mad_store_sales_e Q7
Select * from mad_store_sales_f
Select * from mad_store_sales_g Q8
Select * from mad_store_sales_h
Les 8 requêtes sont exécutées en
parallèle sur chacun des “Database
L’ensemble des requêtes est Servers” au niveau de chacune des
envoyé à chacun des “Database distributions
server” via Infiniband
30. Parallel Data Warehouse
Expérience en mode appliance
• Matériel fournis par un seul fournisseur
• Choix parmi plusieurs fournisseurs
• Commandable par rack
• Le fournisseur:
– Assemble l’appliance
– Installe l’appliance avec OS, SQL
Server, et logiciel PDW
• Appliance installée en 1 – 2 jours
• Support
– Microsoft reçoit le 1er appel
– Le partenaire matériel fourni le support
site
32. Prêt à l‘emploi
• PDW livré prêt à l‘usage
Complètement pré-installé & pré-configuré
• Plug & Play
• Industry Standard
– Software
– Servers
– Storage components
– Network Switches
– Cabling
– Licences
– Power consumption
– 19“Racks
33. Simplicité d’utilisation
Nativement optimisé – Création de base
Spécification des tailles répliquée et distributée
Création et dimensonnement automatiques des bases sur les
noeuds
CREATE DATABASE PDW
WITH
(AUTOGROW = ON,
REPLICATED_SIZE = 1000 GB,
DISTRIBUTED_SIZE = 100 GB,
LOG_SIZE = 10 GB);
37. Chargements ultra rapides
Fichier plat 75 GB / 600 millions de lignes
Option Loadtime MB/sec
Reload 09 min 35 sec 133
Append 09 min 42 sec 131
Command syntax:
dwloader.exe FastAppend 02 min 23sec 534.7
-i D:TPCHlineItem.tbl
-M Fastappend -E -m
-d tpch_100gb
-E -c -b 10000 -rt value -rv 100
-R LineItem.tbl.rejects Sans
-e ascii -t "|" -r rn optimisation :
-U sa -P {password} 45 fois plus
-T tpch_100gb.dbo.lineitem_Load
rapide...
38. Performance de copie
Table LineItem précédemment chargée : 75 GB / 600 million
de lignes
14 fois
select * into lineitem_compressed FROM plus
tpch_100gb.dbo.lineitem rapide
36 min 07 sec (SMP) contre 2 min 12 sec ... sur PDW
39. Architecture Data Warehouse distribuée
Flexibilité et alignement Business
La technologie de copie Permet le support de
rapide de données groupe utilisateurs ayant
permet des mouvements des SLA différents:
de données rapide et la • Performance
consistance entre l’ EDW • Capacité
et les Data Marts • Chargement
• Concurrence
• Sécurité
Création de Data Marts SQL Server 2008, Fast Track Data Warehouse, et SQL Server
Analysis Services
Une architecture distributée permet la flexibilité d’ajouter ou changer des workloads ou groupes
d’utilisateurs variés, tout en maintenant la consistance des données au travers de l’entreprise.
40. Hub & Spoke
Urbanisation maîtrisée
TOP UP
Data Warehouse
Application E
Master
Data Mgmt
Application A Application D
Fast Track Fast Track
Infiniband
BOTTOM
Application B App
DOWN Application C App App
C App
Fast Track Fast Track A B E
App
D
Fast Track Fast Track Fast Track
41. Remote table copy
Création d’une tabler Heap sur un serveur destination SMP
NYCPDW-LZ01 :
CREATE REMOTE TABLE destdb.dbo.LineItem_test AT
( 'Data Source = NYCPDW-LZ01,1433; User ID = sa; Password = x
;' )
AS SELECT * FROM tpch_100gb.dbo.lineitem_load
Résultat: Vériciation statut:
21 min 25 sec !!! SELECT * FROM sys.dm_pdw_dms_workers
600 millions de lignes WHERE type = 'PARALLEL_COPY_READER'
and destination_info =
'[destdb].[dbo].[LineItem_test]'
43. Conclusion - Points forts
• Fast Track Data Warehouse offre
• Haute performance SMP
• 5 à 120 terabytes en v3.0
• Déploiement rapide
• Parallel Data Warehouse offre
– Evolutivité Massive jusqu’à plusieurs 10 à plusieurs centaines de terabytes
– Appliances massivement parallèles (Massively Parallel Processing: Query, Load)
– Déploiement immédiat / Administration réduite
– Chargement ultra rapide
– Support de requêtes complexes et non prédictibles
– Enterprise Data Warehouse Distribué (Hub & Spoke)
• Commun
– Choix de matériels standard et de type commodité
– Intégration à la plateforme Microsoft BI et solutions tierces