Big Data : SQL, NoSQL ? Pourquoi faire un choix ?

Donnez votre avis !
Depuis votre smartphone, sur :
http://notes.mstechdays.fr

De nombreux lots à gagner toutes les heures !!!
Claviers, souris et jeux Microsoft…

Merci de nous aider à améliorer les TechDays

http://notes.mstechdays.fr

Big Data : SQL ? NoSQL ?
Pourquoi faire un choix ?
Gilbert Breton – Bruno Lucas – Olivier Tolon
Architectes Avant-Ventes
Dell / Microsoft

Serveurs / Entreprise / Réseaux / IT

UN NOUVEAU MONDE DES
DONNÉES

LE MONDE DES DONNÉES À CHANGÉ


AUJOURD’HUI, LES QUESTIONS BUSINESS
POSÉES ONT CHANGÉ


LES LIMITATIONS DES OPTIONS “BIG DATA”
ACTUELLES …
Utilisation de Achat appliance Achat solution Achat suite
l’existant complexe et dédiée “Big Data” dédiée Business
spécifique Intelligence

Scalabilité Coûts Montée en Complexité
Limitée élevés compétence de la
longue solution

INTRODUCTION DE SQL SERVER 2012 PARALLEL DATA WAREHOU
Générer de la valeur depuis TOUTES vos données, QUELLE que soit leur taille


CONCU POUR BIG DATA


DES CARACTERISTIQUES DIFFERENTES


LIMITATIONS DE L’ANALYSE BIG DATA
Prise en main complexe : Lent & Peu éfficace
AUJOURD’HUI

ET/OU

Avant analyse, extraction technique de
Apprentissage HDFS vers l’entrepôt de données
MapReduce

QU'EST-CE QUE HADOOP ?
Hadoop est un projet Open Source géré par Apache Software Fundation basé sur le principe Map Reduce et de Google File System, deux
produits Google Corp.

Hadoop est un système de traitement de données évolutif pour le stockage et le traitement par lot de très grande quantité de données.
Il est adapté aux stockages de grande taille et aux analyses de type "ad hoc" sur de très grandes quantité de données.

Hadoop est une plateforme de stockage de données consolidée (HDFS) et le traitement (MapReduce) qui est hautement évolutive, à tolérance
de pannes, et Open Source.

Hadoop ne couvre pas tous les aspects de Big Data, mais adresse particulièrement les grandes volumétries et variés (processus par lots
Hadoop et n’est pas adapté pour l’analyse en temps réel)
Composants HADOOP

Hadoop Distributed MapReduce
File System (HDFS)

Le partage de fichiers et la Traitement distribué sur
protection des données sur plusieurs serveurs
des serveurs physiques

Ce qui rend Hadoop unique?
Consolide Tout - Toutes vos données en un seul endroit stockées dans HDFS
Excelle dans l'analyse complexe – Analyse massivement parallèle sur plusieurs nœuds
Economique - Peut être installé sur des serveurs x86 standard
1 4/11/201
Serveurs / Entreprise / Réseaux /3IT
1
Confidential

UN CAS D’UTILISATION

1 4/11/201
2
Confidential

QUELQUES DOMAINES D'UTILISATION POUR
HADOOP… Valorisez vos données
…

Banque Vente de détail
Analyse de risques • Inventaire prédictif
Bâle III Tests de liquidités
Détection de fraudes Sécurité
• Traitement des Log
Télécommunications • Traitement des menaces
• Données des mobiles
• ETL complexe Général
• Plate-forme commune de
Web données
• Profil publicité • BdD évolutivité
• Réseaux sociaux • Stockage traditionnel
• Maîtrise des coûts
1 4/11/201
3
Confidential

Hadoop Ecosystem.

Distributed Processing
(Map Reduce)

Distributed Storage
(HDFS)

Matériels standards – Serveurs & Réseau
1 4/11/201
4

Une architecture évolutive
EXEMPLE D’UN CAS CLIENT efficace pour l'analyse d'image
Besoins client satellite
Définir une solution innovante pour stocker et analyser de
grandes quantités d'images satellites
Solution Dell
– Logiciel Apache Hadoop
– Cloudera partnership
• 188 x Worker Node PE-C 6105 servers with 2 nodes
including each
• 2 x AMD processors 8c 2.5Ghz / 24GB RAM
• 4 x HDD 2TB SAS NL 7.2K RPM
• 2 x Dual Port GbE
– 4 x Master Node PE-R715 servers including each
• 2 x AMD processors 8c 2.6Ghz / 128GB RAM
• 5 x HDD 1TB SAS NL 7.2K RPM
• 2 x Dual Port 10GbE
– 2 x Dell Force 10 switch 44-port GbE on top of
rack PE-C6105 Server PE-R715 Server
– 2 Dell Force10 Z9000 32-port 40GbE pour la
couche d’aggrégation
– Dell on-site Installation, + Dell ProSupport
1 4/11/201
5

ARCHITECTURE DE RÉFÉRENCE
1 x AdminNode
• 2 CPU 6 core
• 48GB RAM
• 6 x HDD 600GB 15K (Raid1)
• 2 x 10GbE Ports

Network Switches

2 x EdgeNode 2 x NameNode/BackupNode 3 to n DataNode
• 2 CPU 6 core • 2 CPU 6 core • 2 CPU 6 core
• 48GB RAM • 96GB RAM • 32GB RAM Mini
• 6 x HDD 600GB 15K (Raid1) • 6 x HDD 600GB 15K (Raid1) • 12 x HDD 3TB 7.5K
• 2 x 10GbE Ports • 2 x 10GbE Ports • 2 x 10GbE Ports

Edge Nodes Control Nodes Worker Nodes
1 4/11/201
6

INTRODUCTION À POLYBASE
Avancée fondamentale dans le traitement des données

SQL Requête unique; Structuré & non-structuré
SQL Server • Requêter et joindre des tables Hadoop avec des tables
2012 PDW relationnelles
Powered by
PolyBase • Utilisation de language SQL Standard
• Select, From Where

Compétences Pas Gain de coûts Analyze de tous
SQL Existantes d’intervention IT et de temps types de
données

INTEGRATION AVEC HADOOP Regular
T-SQL
Results

Enhanced
External Tables and full SQL query access to data PDW Query
Engine
stored in HDFS

HDFS bridge for direct & fully parallelized
access of data in HDFS

Joining ‘on-the-fly’ PDW data with data from HDFS PDW V2
Structured data
Parallel import of data from HDFS in PDW tables for External Table
persistent storage
HDFS bridge

Parallel export of PDW data into HDFS including
‘round-tripping’ of data
HDFS Data Nodes
Unstructured data

PROJECT POLYBASE
• Accès aux données en parallèles entre les PDW Compute Nodes et Hadoop Data Nodes
• Support de tous type de fichiers HDFS
• “Structure” des données “non-structures”

Query Results Query

1 3 1

Hadoop PDW Hadoop PDW

2
2
HDFS DB
HDFS DB

SQL in, results out SQL in, results stored in HDFS


PROJECT POLYBASE
Transfert des données en parallèles

PDW Appliance

Control Node Compute Node Compute Node

Hadoop Cluster

Name Node Data Data Data Data Data Data Data Data
Node Node Node Node Node Node Node Node


TABLE EXTERNE
• Representation interne des données résidant dans Hadoop/HDFS
• Nouvelle syntaxe T-SQL

CREATE EXTERNAL TABLE table_name ({<column_definition>} [,...n ])
{WITH (LOCATION =‘<URI>’,[FORMAT_OPTIONS = (<VALUES>)])}
[;]

1. 2. 3.
Indicates Required location of Optional Format Options associated
‘External’ Table Hadoop cluster and file with data import from HDFS
(support of delimited text (e.g. arbitrary field delimiters & reject-
file only in PDW V2) related thresholds)


PROJET POLYBASE – EVOLUTION
• Cost-based decision on how much data needs to be pushed to PDW
• SQL operations on HDFS data pushed into Hadoop as MapReduce jobs

SQL Results

1 7
Map job
Hadoop 2 PDW
MapReduce

3 4 6
5

HDFS DB


PERFORMANCE ET ÉVOLUTIVITÉ
NOUVELLE GÉNÉRATION

LIMITATIONS: PERFORMANCE ET
ÉVOLUTIVITÉ

Tables actuelles (Partitions)

Evolutivité limitée pour Performances non-
architecture monolithique optimales de certaines
(SMP) requêtes DW

MOTEUR MPP - MASSIVELY PARALLEL
PROCESSING

MPP permet une évolutivité quasi linéaire
• Architecture MPP - Massively Parallel Processing
… • Scale Out: Ajout incrémental de matériel pour une
évolutivité quasi linéaire

• Shared Nothing Architecture

Jusque 100X + Tâches complexes Evolutivité quasi Easy to Scale
rapide que SMP linéaire (Pas d’upgrade
DW coûteux)

XVELOCITY - PERFORMANCES NOUVELLE GÉNÉRATION
Traitement de requêtes ultra rapide
Customer

Products

Sales

Supplier

Country
Columnstore fournit des performance hors-
norme
• xVelocity columnstore stocke les données compressées et
modifiables

• Stocke les données en format colonne

• Performances nouvelle génération optimisées in-Memory

• Updateable pour supporter l’import massif comme le
chargement au fil de l’eau

Jusqu’à 50X Compression Gain de coûts DW Temps
+ rapide jusqu’à 15x et de temps réel


ColumnStore Index Exemple
OrderDateKey ProductKey StoreKey RegionKey Quantity SalesAmount
20101107 106 01 1 6 30.00
20101107 103 04 2 1 17.00
20101107 109 04 2 2 20.00
20101107 103 03 2 1 17.00
20101107 106 05 3 4 20.00
20101108 106 02 1 5 25.00
20101108 102 02 1 1 14.00
20101108 106 03 2 5 25.00
20101108 109 01 1 1 10.00
20101109 106 04 2 4 20.00
20101109 106 04 2 5 25.00
20101109 103 01 1 1 17.00


1. Horizontally Partition (create Row
Groups)

20101107 106 01 1 6 30.00

20101107 103 04 2 1 17.00

20101107 109 04 2 2 20.00
~1M rows
20101107 103 03 2 1 17.00

20101107 106 05 3 4 20.00

20101108 106 02 1 5 25.00


20101108 102 02 1 1 14.00

20101108 106 03 2 5 25.00

20101108 109 01 1 1 10.00

20101109 106 04 2 4 20.00

20101109 106 04 2 5 25.00

20101109 103 01 1 1 17.00

2. Vertically Partition (create
Segments)

20101107 106 01 1 6 30.00

20101107 103 04 2 1 17.00

20101107 109 04 2 2 20.00

20101107 103 03 2 1 17.00

20101107 106 05 3 4 20.00

20101108 106 02 1 5 25.00


20101108 102 02 1 1 14.00

20101108 106 03 2 5 25.00

20101108 109 01 1 1 10.00

20101109 106 04 2 4 20.00

20101109 106 04 2 5 25.00

20101109 103 01 1 1 17.00


3. Compress Each Segment
20101107
106 01 1 6 30.00
20101107
103 2 1
04 17.00
20101107
2
109 2
20101107 04 20.00
2
103 1
20101107 03 3 17.00
20101108 106 4
05 1 20.00
106 5
OrderDateKey 02 25.00
RegionKey
20101108 ProductKey Quantity
StoreKey 1
20101108 102 1 SalesAmount
02 2
20101108 106 5 14.00
03 1
20101109 109 1
2 25.00
01
20101109 106 4
2 10.00
20101109 04 5
106 1
20.00
103
04 1

01 25.00

17.00

Some segments will compress more than others
*Encoding and reordering not shown

4. Read The Data
SELECT ProductKey, SUM (SalesAmount)
FROM SalesTable
WHERE OrderDateKey < 20101108

20101107
106 01 1 6 30.00
20101107 2
103 04 1 17.00
20101107
2
109 2
20101107 04 20.00
2
103 1
20101107 03 17.00
3
20101108 106 4
05 1 20.00
106 5
OrderDateKey 02 25.00
RegionKey
20101108 ProductKey Quantity
StoreKey 1

Elimination
20101108 102 1 SalesAmount
02 2
5

Segment
20101108 106 14.00
03 1
20101109 109 1
2 25.00
01
20101109 106 4
2 10.00
20101109 04 5
106 1
20.00
103
04 1

01 25.00

17.00

Column Elimination

CLUSTERED COLUMNSTORE INDEX

Space Used in GB (101 million row
• Pourquoi est-ce important? table)
20.0
– Reduction de l’espace de stockage
– Administration simplifié – pas d’index 15.0
secondaires à positionner
10.0 91%
– Tous les types de données supportés par PDW
savings
peuvent être utilisés
5.0

• Clustered Columnstore est le stockage 0.0

à priviliégié avec PDW 2012

** Space Used = Table space + Index space


AMELIORATION DES PERFORMANCES AVEC
CCI
10000.00
345.0
302.4
295.0
1000.00
223.9 245.0

195.0
100.00
145.0
92.1
10.00 95.0

22.7 31.0
10.3 45.0
1.7 1.7 3.2 -1.0 1.3 7.5 1.5 1.6 3.9
1.00 -5.0

Query 8
Query 1

Query 2

Query 3

Query 4

Query 5

Query 9
Query 3.5

Query 4.5

Query 10

Query 12

Query 13

Query 14

Query 15

Query 16

Query 17
Row Store Column Store Improvement


CONÇU POUR UNE VALEUR
OPTIMALE

UTILISATION D’EXCEL POUR LE BIG DATA

Outils familiers pour l’analyse Big Data
• Intégration native Microsoft BI et PDW

• Données structurées et non structurée dans une même
feuillle Excel

• Outils largement déployés et facilement utilisables

Excel largement Pas Analyze de tous
déployé d’intervention IT types de données


Ajout de Capacité de traitement
Démarrer petit et croitre avec les besoins

Add
Capacity
Du + petit (0TB) au + grand (5PB)
• Démarrer petit avec un entrepôt de quelques
Terabyte
Ajout de
capacité
• Ajout de capacité jusque 5 Petabytes

0TB 5 PB

Démarrer petit VL DW Pas
et croitre PB d’indisponibilité

POWER OF COMBINING THE WORLDS DATA

Value


MICROSOFT BIG DATA SOLUTION

Map Reduce Polybase SQL


SQL SERVER PDW 2012 REPOUSSE LES
LIMITES

Parallel Data Warehouse
Hautemen Coûts Simplicité de
t Evolutif Reduits SQL la solution

Conception Matérielle et Conçu pour le Big Data avec Integration native avec les
Performance et scalabilité Logicielle pour une apport requêtage intégré basé sur outils BI familiés et
nouvelle génération optimal au meilleur prix du SQL Standard largement adoptés


Développeurs Pros de l’IT
http://aka.ms/generation-app Formez-vous en ligne www.microsoftvirtualacademy.com

http://aka.ms/evenements-
developpeurs Retrouvez nos évènements http://aka.ms/itcamps-france

Les accélérateurs
Faites-vous accompagner
Windows Azure, Windows Phone,
gratuitement
Windows 8

Essayer gratuitement nos http://aka.ms/telechargements
solutions IT

La Dev’Team sur MSDN Retrouver nos experts L’IT Team sur TechNet
http://aka.ms/devteam Microsoft http://aka.ms/itteam

Pour
candidater, rendez-vous sur le stand
Server & Cloud

Un lien pour tout savoir sur SQL
Server 2012 : www.microsoft.fr/SQL

Big Data : SQL, NoSQL ? Pourquoi faire un choix ?

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à Big Data : SQL, NoSQL ? Pourquoi faire un choix ?

Similaire à Big Data : SQL, NoSQL ? Pourquoi faire un choix ? (20)

Plus de Microsoft Décideurs IT

Plus de Microsoft Décideurs IT (20)

Big Data : SQL, NoSQL ? Pourquoi faire un choix ?

Notes de l'éditeur