Le stockage des données a toujours été une des problématiques les plus difficiles à maitriser. L’augmentation massive de la quantités de données disponibles, le phénomène Big Data, incite les sociétés à moderniser leur environnement décisionnel. Dès lors, beaucoup se posent la question du choix entre SQL et NoSQL. Microsoft, avec son offre SQL Server Parallel Data Warehouse 2012 réconcilie le meilleur des technologies actuelles. Un seul moto ‘Insights on Any Data of Any Size’
Migrer de 2003 à 2012 R2, adopter HyperV ou Microsoft Azure : comment réalise...
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
1. Donnez votre avis !
Depuis votre smartphone, sur :
http://notes.mstechdays.fr
De nombreux lots à gagner toutes les heures !!!
Claviers, souris et jeux Microsoft…
Merci de nous aider à améliorer les TechDays
http://notes.mstechdays.fr
2. Big Data : SQL ? NoSQL ?
Pourquoi faire un choix ?
Gilbert Breton – Bruno Lucas – Olivier Tolon
Architectes Avant-Ventes
Dell / Microsoft
Serveurs / Entreprise / Réseaux / IT
3. UN NOUVEAU MONDE DES
DONNÉES
Serveurs / Entreprise / Réseaux / IT
4. LE MONDE DES DONNÉES À CHANGÉ
Serveurs / Entreprise / Réseaux / IT
6. LES LIMITATIONS DES OPTIONS “BIG DATA”
ACTUELLES …
Utilisation de Achat appliance Achat solution Achat suite
l’existant complexe et dédiée “Big Data” dédiée Business
spécifique Intelligence
Scalabilité Coûts Montée en Complexité
Limitée élevés compétence de la
longue solution
Serveurs / Entreprise / Réseaux / IT
7. INTRODUCTION DE SQL SERVER 2012 PARALLEL DATA WAREHOU
Générer de la valeur depuis TOUTES vos données, QUELLE que soit leur taille
Serveurs / Entreprise / Réseaux / IT
10. LIMITATIONS DE L’ANALYSE BIG DATA
Prise en main complexe : Lent & Peu éfficace
AUJOURD’HUI
ET/OU
Avant analyse, extraction technique de
Apprentissage HDFS vers l’entrepôt de données
MapReduce
Serveurs / Entreprise / Réseaux / IT
11. QU'EST-CE QUE HADOOP ?
Hadoop est un projet Open Source géré par Apache Software Fundation basé sur le principe Map Reduce et de Google File System, deux
produits Google Corp.
Hadoop est un système de traitement de données évolutif pour le stockage et le traitement par lot de très grande quantité de données.
Il est adapté aux stockages de grande taille et aux analyses de type "ad hoc" sur de très grandes quantité de données.
Hadoop est une plateforme de stockage de données consolidée (HDFS) et le traitement (MapReduce) qui est hautement évolutive, à tolérance
de pannes, et Open Source.
Hadoop ne couvre pas tous les aspects de Big Data, mais adresse particulièrement les grandes volumétries et variés (processus par lots
Hadoop et n’est pas adapté pour l’analyse en temps réel)
Composants HADOOP
Hadoop Distributed MapReduce
File System (HDFS)
Le partage de fichiers et la Traitement distribué sur
protection des données sur plusieurs serveurs
des serveurs physiques
Ce qui rend Hadoop unique?
Consolide Tout - Toutes vos données en un seul endroit stockées dans HDFS
Excelle dans l'analyse complexe – Analyse massivement parallèle sur plusieurs nœuds
Economique - Peut être installé sur des serveurs x86 standard
1 4/11/201
Serveurs / Entreprise / Réseaux /3IT
1
Confidential
12. UN CAS D’UTILISATION
1 4/11/201
Serveurs / Entreprise / Réseaux /3IT
2
Confidential
13. QUELQUES DOMAINES D'UTILISATION POUR
HADOOP… Valorisez vos données
…
Banque Vente de détail
Analyse de risques • Inventaire prédictif
Bâle III Tests de liquidités
Détection de fraudes Sécurité
• Traitement des Log
Télécommunications • Traitement des menaces
• Données des mobiles
• ETL complexe Général
• Plate-forme commune de
Web données
• Profil publicité • BdD évolutivité
• Réseaux sociaux • Stockage traditionnel
• Maîtrise des coûts
1 4/11/201
Serveurs / Entreprise / Réseaux /3IT
3
Confidential
15. Une architecture évolutive
EXEMPLE D’UN CAS CLIENT efficace pour l'analyse d'image
Besoins client satellite
Définir une solution innovante pour stocker et analyser de
grandes quantités d'images satellites
Solution Dell
– Logiciel Apache Hadoop
– Cloudera partnership
• 188 x Worker Node PE-C 6105 servers with 2 nodes
including each
• 2 x AMD processors 8c 2.5Ghz / 24GB RAM
• 4 x HDD 2TB SAS NL 7.2K RPM
• 2 x Dual Port GbE
– 4 x Master Node PE-R715 servers including each
• 2 x AMD processors 8c 2.6Ghz / 128GB RAM
• 5 x HDD 1TB SAS NL 7.2K RPM
• 2 x Dual Port 10GbE
– 2 x Dell Force 10 switch 44-port GbE on top of
rack PE-C6105 Server PE-R715 Server
– 2 Dell Force10 Z9000 32-port 40GbE pour la
couche d’aggrégation
– Dell on-site Installation, + Dell ProSupport
1 4/11/201
Serveurs / Entreprise / Réseaux /3IT
5
16. ARCHITECTURE DE RÉFÉRENCE
1 x AdminNode
• 2 CPU 6 core
• 48GB RAM
• 6 x HDD 600GB 15K (Raid1)
• 2 x 10GbE Ports
Network Switches
2 x EdgeNode 2 x NameNode/BackupNode 3 to n DataNode
• 2 CPU 6 core • 2 CPU 6 core • 2 CPU 6 core
• 48GB RAM • 96GB RAM • 32GB RAM Mini
• 6 x HDD 600GB 15K (Raid1) • 6 x HDD 600GB 15K (Raid1) • 12 x HDD 3TB 7.5K
• 2 x 10GbE Ports • 2 x 10GbE Ports • 2 x 10GbE Ports
Edge Nodes Control Nodes Worker Nodes
1 4/11/201
Serveurs / Entreprise / Réseaux /3IT
6
17. INTRODUCTION À POLYBASE
Avancée fondamentale dans le traitement des données
SQL Requête unique; Structuré & non-structuré
SQL Server • Requêter et joindre des tables Hadoop avec des tables
2012 PDW relationnelles
Powered by
PolyBase • Utilisation de language SQL Standard
• Select, From Where
Compétences Pas Gain de coûts Analyze de tous
SQL Existantes d’intervention IT et de temps types de
données
Serveurs / Entreprise / Réseaux / IT
18. INTEGRATION AVEC HADOOP Regular
T-SQL
Results
Enhanced
External Tables and full SQL query access to data PDW Query
Engine
stored in HDFS
HDFS bridge for direct & fully parallelized
access of data in HDFS
Joining ‘on-the-fly’ PDW data with data from HDFS PDW V2
Structured data
Parallel import of data from HDFS in PDW tables for External Table
persistent storage
HDFS bridge
Parallel export of PDW data into HDFS including
‘round-tripping’ of data
HDFS Data Nodes
Unstructured data
Serveurs / Entreprise / Réseaux / IT
19. PROJECT POLYBASE
• Accès aux données en parallèles entre les PDW Compute Nodes et Hadoop Data Nodes
• Support de tous type de fichiers HDFS
• “Structure” des données “non-structures”
Query Results Query
1 3 1
Hadoop PDW Hadoop PDW
2
2
HDFS DB
HDFS DB
SQL in, results out SQL in, results stored in HDFS
Serveurs / Entreprise / Réseaux / IT
20. PROJECT POLYBASE
Transfert des données en parallèles
PDW Appliance
Control Node Compute Node Compute Node
Hadoop Cluster
Name Node Data Data Data Data Data Data Data Data
Node Node Node Node Node Node Node Node
Serveurs / Entreprise / Réseaux / IT
21. TABLE EXTERNE
• Representation interne des données résidant dans Hadoop/HDFS
• Nouvelle syntaxe T-SQL
CREATE EXTERNAL TABLE table_name ({<column_definition>} [,...n ])
{WITH (LOCATION =‘<URI>’,[FORMAT_OPTIONS = (<VALUES>)])}
[;]
1. 2. 3.
Indicates Required location of Optional Format Options associated
‘External’ Table Hadoop cluster and file with data import from HDFS
(support of delimited text (e.g. arbitrary field delimiters & reject-
file only in PDW V2) related thresholds)
Serveurs / Entreprise / Réseaux / IT
22. PROJET POLYBASE – EVOLUTION
• Cost-based decision on how much data needs to be pushed to PDW
• SQL operations on HDFS data pushed into Hadoop as MapReduce jobs
SQL Results
1 7
Map job
Hadoop 2 PDW
MapReduce
3 4 6
5
HDFS DB
Serveurs / Entreprise / Réseaux / IT
24. LIMITATIONS: PERFORMANCE ET
ÉVOLUTIVITÉ
Tables actuelles (Partitions)
Evolutivité limitée pour Performances non-
architecture monolithique optimales de certaines
(SMP) requêtes DW
Serveurs / Entreprise / Réseaux / IT
25. MOTEUR MPP - MASSIVELY PARALLEL
PROCESSING
MPP permet une évolutivité quasi linéaire
• Architecture MPP - Massively Parallel Processing
… • Scale Out: Ajout incrémental de matériel pour une
évolutivité quasi linéaire
• Shared Nothing Architecture
Jusque 100X + Tâches complexes Evolutivité quasi Easy to Scale
rapide que SMP linéaire (Pas d’upgrade
DW coûteux)
Serveurs / Entreprise / Réseaux / IT
26. XVELOCITY - PERFORMANCES NOUVELLE GÉNÉRATION
Traitement de requêtes ultra rapide
Customer
Products
Sales
Supplier
Country
Columnstore fournit des performance hors-
norme
• xVelocity columnstore stocke les données compressées et
modifiables
• Stocke les données en format colonne
• Performances nouvelle génération optimisées in-Memory
• Updateable pour supporter l’import massif comme le
chargement au fil de l’eau
Jusqu’à 50X Compression Gain de coûts DW Temps
+ rapide jusqu’à 15x et de temps réel
Serveurs / Entreprise / Réseaux / IT
32. CLUSTERED COLUMNSTORE INDEX
Space Used in GB (101 million row
• Pourquoi est-ce important? table)
20.0
– Reduction de l’espace de stockage
– Administration simplifié – pas d’index 15.0
secondaires à positionner
10.0 91%
– Tous les types de données supportés par PDW
savings
peuvent être utilisés
5.0
• Clustered Columnstore est le stockage 0.0
à priviliégié avec PDW 2012
** Space Used = Table space + Index space
Serveurs / Entreprise / Réseaux / IT
34. CONÇU POUR UNE VALEUR
OPTIMALE
Serveurs / Entreprise / Réseaux / IT
35. UTILISATION D’EXCEL POUR LE BIG DATA
Outils familiers pour l’analyse Big Data
• Intégration native Microsoft BI et PDW
• Données structurées et non structurée dans une même
feuillle Excel
• Outils largement déployés et facilement utilisables
Excel largement Pas Analyze de tous
déployé d’intervention IT types de données
Serveurs / Entreprise / Réseaux / IT
36. Ajout de Capacité de traitement
Démarrer petit et croitre avec les besoins
Add
Capacity
Du + petit (0TB) au + grand (5PB)
• Démarrer petit avec un entrepôt de quelques
Terabyte
Ajout de
capacité
• Ajout de capacité jusque 5 Petabytes
0TB 5 PB
Démarrer petit VL DW Pas
et croitre PB d’indisponibilité
Serveurs / Entreprise / Réseaux / IT
37. POWER OF COMBINING THE WORLDS DATA
Value
Serveurs / Entreprise / Réseaux / IT
38. MICROSOFT BIG DATA SOLUTION
Map Reduce Polybase SQL
Serveurs / Entreprise / Réseaux / IT
39. SQL SERVER PDW 2012 REPOUSSE LES
LIMITES
Parallel Data Warehouse
Hautemen Coûts Simplicité de
t Evolutif Reduits SQL la solution
Conception Matérielle et Conçu pour le Big Data avec Integration native avec les
Performance et scalabilité Logicielle pour une apport requêtage intégré basé sur outils BI familiés et
nouvelle génération optimal au meilleur prix du SQL Standard largement adoptés
Serveurs / Entreprise / Réseaux / IT
40. Développeurs Pros de l’IT
http://aka.ms/generation-app Formez-vous en ligne www.microsoftvirtualacademy.com
http://aka.ms/evenements-
developpeurs Retrouvez nos évènements http://aka.ms/itcamps-france
Les accélérateurs
Faites-vous accompagner
Windows Azure, Windows Phone,
gratuitement
Windows 8
Essayer gratuitement nos http://aka.ms/telechargements
solutions IT
La Dev’Team sur MSDN Retrouver nos experts L’IT Team sur TechNet
http://aka.ms/devteam Microsoft http://aka.ms/itteam
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Hadoop: framework Java libre destiné à faciliter la création d'applications distribuées et scalablesHadoopDistributed File System :Système de fichiers distribué d'Hadoop fait partie des composants de base.MapReduce : MapReduce est un mécanisme de partitionnement de tâches en vue d’une exécution distribuée sur un grand nombre de serveurs. Hadoop dispose d'une implémentation complète de l'algorithme de MapReduce.Hbase : Base de données distribuée disposant d'un stockage structuré pour les grandes tables. HBase est une base de données orientée colonnes.ZooKeeper: Logiciel de gestion de configuration pour systèmes distribués, basé sur le logiciel Chubby développé par Google. Il est utilisé entre autres pour l'implémentation de HBase.Hive : Logiciel d'analyse de données permettant d'utiliser Hadoop avec une syntaxe proche du SQL. Hive a été initialement développé par Facebook.Pig : Logiciel d'analyse de données comparable à Hive, mais qui utilise le langage Pig Latin. Il a été initialement développé par Yahoo!.Qui utilise Hadoop ?Facebook, Twitter, Yahoo…Depuis 2010, Facebook exploite le plus grand cluster Hadoop au monde.Distribution Une version d'Hadoop est distribuée par Cloudera, qui propose un service de formation et un support commercial
Pour illustrer l’algorithme MapReduce, considérons un jeu de données constitué des 3 phrases suivantes :savoir être etsavoir fairesans faire savoirLe but de l’illustration est d’appliquer le modèle MapReduce afin de sortir le nombre d’occurrences des mots constituant le texte. L’ensemble du processus est schématisé ci-dessous :
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
HDFS / MapReduce :HadoopDistributed File System pour le stockage et HadoopMapReduce pour calculer. Haute disponibilité et évolutivité. Logiciels libres (Open Source )Hive pour requête par lot ad'hoc au dessus de Hadoop basée sur HiveQL. Logiciels libres (Open Source )Pig est un langage de haut niveau de flux de données et un cadre d'exécution pour le calcul parallèle simple d’usage. La manipulation des données. pour améliorer extraire, transformer et charger des données dans HDFS ou de HDFS dans les systèmes cibles. Logiciels libres (Open Source ) Sqoopest un outil conçu pour transférer des données entre Hadoop et les bases de données relationnelles. Sqoop permet d'importer des données à partir d'un système de gestion de base de données relationnelle (SGBDR) comme MySQL ou Oracle dans le système HadoopDistributed File (HDFS), transformer les données dans HadoopMapReduce, puis exporter les données dans un SGBDR.Flume est un système distribué, efficace, fiable et disponible pour la collecte, le regroupement et le déplacement de grandes quantités des données des journaux ( fichiers Log )
Un cluster Hadoop est typiquement organisé en configuration maître/esclaves et fait cohabiter les agents (ou services) suivants :Un NameNode (exécuté sur la machine maître) et plusieurs DataNode (exécutés sur les machines esclaves) Un JobTracker (exécuté sur la machine maître) et plusieurs TaskManager (exécutés sur les machines esclaves)HDFS : le système de fichier distribué de Hadoop est conçu pour traiter des quantités gigantesques de données.Sous HDFS, les fichiers sont partitionnés par blocs de 64 MB par défaut.Un cluster HDFS repose sur deux types de composants majeurs, le NameNode et le DataNode :Le NameNode gère l’espace de nommage et l’arborescence du système de fichiers, les métadonnées (noms, permissions, etc.) des fichiers et répertoires. Il centralise la localisation des blocs de données répartis sur le système. Sans Namenode, tous les fichiers peuvent être considérés comme perdus car il n’y aurait alors aucun moyen de reconstituer les fichiers à partir des blocs.Il n’y a qu’une instance de NameNode par cluster HDFS. L’historique des modifications dans le système de fichier est géré par une instance secondaire cohabitant en backup. Les DataNodes stockent et restituent les blocs de données. Par ailleurs, ils communiquent périodiquement au NameNode la liste des blocs qu’ils hébergent. L’écriture d’un bloc sur un DataNode peut être propagée en cascade par copie sur d’autres DataNodes.Le processus de lecture d’un fichier sur HDFS commence par l’interrogation du NameNode afin de localiser les blocs sous-jacents. Pour chaque bloc, le NameNode renvoie l’adresse du DataNodele plus proche possédant une copie du bloc. L’unité de distance n’est autre que la bande passante disponible. Ainsi, plus la bande passante est importante entre un client et un DataNode, plus ce dernier est considéré comme proche. Deux autres types de composants permettent de contrôler le processus d’exécution d’un job : un JobTracker et plusieurs TaskTrackers.Le JobTracker coordonne l’exécution des jobs sur l’ensemble du cluster. Il communique avec les TaskTrackers en leur attribuant des tâches d’exécution (map ou reduce). Dans le cas d’utilisation (théorique) présenté dans le premier article de la série, le JobTracker distribuerait 3 tâches map et 5 tâches reduce.Par ailleurs, il permet d’avoir une vision globale sur la progression ou l’état du traitement distribué via une console d’administration web accessible par défaut sur le port 50030.Le JobTracker est un démon cohabitant avec le NameNode. Il n’y a donc qu’une instance par cluster. Les TaskTrackers exécutent les tâches (map ou reduce) au sein d’une nouvelle JVM instantiée par le TaskTracker. Un crash de la machine virtuelle n’impactera pas le TaskTracker.Par ailleurs, ils notifient périodiquement le JobTracker du niveau de progression d’une tâche ou bien le notifient en cas d’erreur afin que celui-ci puissent reprogrammer et assigner une nouvelle tâche.Un TaskTracker est un démon cohabitant avec un DataNode. Il y a donc autant d’instances que de nœuds esclaves.
Evolutivitéjusqu’à 1280 nodes en 1GbE ou 10GbEEt 2560 nodes avec uneagrégation 40GbEIntegration avec PDW : connection possible via switch Infiniband (56Gb)
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurssontéditables et peuventreprendre la couleur du type de session qui estdonnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Microsoft is focused on bringing Insights to all users for every data warehouse implementation. In previous / other Microsoft products, we released Power View with SQL Server 2008 R2. This allowed for users to interactively build data visualizations over the web. Microsoft also announced that in Office 2013 and SQL Server 2012 SP1, we’ll release Power View and PowerPivot directly in Microsoft Excel. This means users simply need to open up their Excel client to enable in-memory BI capabilities. In PDW V2 RTM, we’ll give users the ability to do direct query with Power View. This unlocks the ability for Power View to do analysis on PDW and interactively visualize all data in the warehouse within a web browser. Power View was designed from the ground-up to provide familiar end user experiences in a very visual and immersive way. Your business users will love the visuals and the intuitiveness of the UI.In the Appliance Update 2 timeframe, PDW will gain the ability to do deep in-database analytics. This will first manifest itself with integration with SAS and R. Both these predictive analytics will now be supported with PDW.Native deep integration via the SAS Embedded Process (EP). Capability to run the SAS Scoring Accelerator for in-database analytics maximizing investments in SAS tools for data mining, statistical analyses and data science.Native and deep integration with open source ‘R’ . Ability to run ‘R’ in-database for advanced analytics and processing using the power and performance of MPP data warehousing.
SQL Server 2012 is a pre-built appliance that ships to the customer’s door. As an appliance, all of the hardware has been pre-built: Servers, storage arrays, switches, power, racks, etc. Also, all the software has been installed, configured, and tuned. Customers are delivered a fully packaged appliance solution that just works. All they have to do is plug the appliance in and start integrating their specific data into the solution.
SQL Server 2012 is a pre-built appliance that ships to the customer’s door. As an appliance, all of the hardware has been pre-built: Servers, storage arrays, switches, power, racks, etc. Also, all the software has been installed, configured, and tuned. Customers are delivered a fully packaged appliance solution that just works. All they have to do is plug the appliance in and start integrating their specific data into the solution.
SQL Server 2012 is a pre-built appliance that ships to the customer’s door. As an appliance, all of the hardware has been pre-built: Servers, storage arrays, switches, power, racks, etc. Also, all the software has been installed, configured, and tuned. Customers are delivered a fully packaged appliance solution that just works. All they have to do is plug the appliance in and start integrating their specific data into the solution.