• Partagez
  • E-mail
  • Intégrer
  • J'aime
  • Télécharger
  • Contenu privé
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
 

Big Data : SQL, NoSQL ? Pourquoi faire un choix ?

on

  • 784 vues

Le stockage des données a toujours été une des problématiques les plus difficiles à maitriser. L’augmentation massive de la quantités de données disponibles, le phénomène Big Data, incite ...

Le stockage des données a toujours été une des problématiques les plus difficiles à maitriser. L’augmentation massive de la quantités de données disponibles, le phénomène Big Data, incite les sociétés à moderniser leur environnement décisionnel. Dès lors, beaucoup se posent la question du choix entre SQL et NoSQL. Microsoft, avec son offre SQL Server Parallel Data Warehouse 2012 réconcilie le meilleur des technologies actuelles. Un seul moto ‘Insights on Any Data of Any Size’

Statistiques

Vues

Total des vues
784
Vues sur SlideShare
784
Vues externes
0

Actions

J'aime
0
Téléchargements
47
Commentaires
0

0 Ajouts 0

No embeds

Accessibilité

Catégories

Détails de l'import

Uploaded via as Microsoft PowerPoint

Droits d'utilisation

© Tous droits réservés

Report content

Signalé comme inapproprié Signaler comme inapproprié
Signaler comme inapproprié

Indiquez la raison pour laquelle vous avez signalé cette présentation comme n'étant pas appropriée.

Annuler
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Votre message apparaîtra ici
    Processing...
Poster un commentaire
Modifier votre commentaire
  • Notation
  • Intro Serveurs / Entreprise / Reseaux / IT
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Hadoop: framework Java libre destiné à faciliter la création d'applications distribuées et scalablesHadoopDistributed File System :Système de fichiers distribué d'Hadoop fait partie des composants de base.MapReduce : MapReduce est un mécanisme de partitionnement de tâches en vue d’une exécution distribuée sur un grand nombre de serveurs. Hadoop dispose d'une implémentation complète de l'algorithme de MapReduce.Hbase : Base de données distribuée disposant d'un stockage structuré pour les grandes tables. HBase est une base de données orientée colonnes.ZooKeeper: Logiciel de gestion de configuration pour systèmes distribués, basé sur le logiciel Chubby développé par Google. Il est utilisé entre autres pour l'implémentation de HBase.Hive : Logiciel d'analyse de données permettant d'utiliser Hadoop avec une syntaxe proche du SQL. Hive a été initialement développé par Facebook.Pig : Logiciel d'analyse de données comparable à Hive, mais qui utilise le langage Pig Latin. Il a été initialement développé par Yahoo!.Qui utilise Hadoop ?Facebook, Twitter, Yahoo…Depuis 2010, Facebook exploite le plus grand cluster Hadoop au monde.Distribution Une version d'Hadoop est distribuée par Cloudera, qui propose un service de formation et un support commercial
  • Pour illustrer l’algorithme MapReduce, considérons un jeu de données constitué des 3 phrases suivantes :savoir être etsavoir fairesans faire savoirLe but de l’illustration est d’appliquer le modèle MapReduce afin de sortir le nombre d’occurrences des mots constituant le texte. L’ensemble du processus est schématisé ci-dessous :
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • HDFS / MapReduce :HadoopDistributed File System pour le stockage et HadoopMapReduce pour calculer. Haute disponibilité et évolutivité. Logiciels libres (Open Source )Hive pour requête par lot ad'hoc au dessus de Hadoop basée sur HiveQL. Logiciels libres (Open Source )Pig est un langage de haut niveau de flux de données et un cadre d'exécution pour le calcul parallèle simple d’usage. La manipulation des données. pour améliorer extraire, transformer et charger des données dans HDFS ou de HDFS dans les systèmes cibles. Logiciels libres (Open Source ) Sqoopest un outil conçu pour transférer des données entre Hadoop et les bases de données relationnelles. Sqoop permet d'importer des données à partir d'un système de gestion de base de données relationnelle (SGBDR) comme MySQL ou Oracle dans le système HadoopDistributed File (HDFS), transformer les données dans HadoopMapReduce, puis exporter les données dans un SGBDR.Flume est un système distribué, efficace, fiable et disponible pour la collecte, le regroupement et le déplacement de grandes quantités des données des journaux ( fichiers Log )
  • Un cluster Hadoop est typiquement organisé en configuration maître/esclaves et fait cohabiter les agents (ou services) suivants :Un NameNode (exécuté sur la machine maître) et plusieurs DataNode (exécutés sur les machines esclaves) Un JobTracker (exécuté sur la machine maître) et plusieurs TaskManager (exécutés sur les machines esclaves)HDFS : le système de fichier distribué de Hadoop est conçu pour traiter des quantités gigantesques de données.Sous HDFS, les fichiers sont partitionnés par blocs de 64 MB par défaut.Un cluster HDFS repose sur deux types de composants majeurs, le NameNode et le DataNode :Le NameNode gère l’espace de nommage et l’arborescence du système de fichiers, les métadonnées (noms, permissions, etc.) des fichiers et répertoires. Il centralise la localisation des blocs de données répartis sur le système. Sans Namenode, tous les fichiers peuvent être considérés comme perdus car il n’y aurait alors aucun moyen de reconstituer les fichiers à partir des blocs.Il n’y a qu’une instance de NameNode par cluster HDFS. L’historique des modifications dans le système de fichier est géré par une instance secondaire cohabitant en backup. Les DataNodes stockent et restituent les blocs de données. Par ailleurs, ils communiquent périodiquement au NameNode la liste des blocs qu’ils hébergent. L’écriture d’un bloc sur un DataNode peut être propagée en cascade par copie sur d’autres DataNodes.Le processus de lecture d’un fichier sur HDFS commence par l’interrogation du NameNode afin de localiser les blocs sous-jacents. Pour chaque bloc, le NameNode renvoie l’adresse du DataNodele plus proche possédant une copie du bloc. L’unité de distance n’est autre que la bande passante disponible. Ainsi, plus la bande passante est importante entre un client et un DataNode, plus ce dernier est considéré comme proche. Deux autres types de composants permettent de contrôler le processus d’exécution d’un job : un JobTracker et plusieurs TaskTrackers.Le JobTracker coordonne l’exécution des jobs sur l’ensemble du cluster. Il communique avec les TaskTrackers en leur attribuant des tâches d’exécution (map ou reduce). Dans le cas d’utilisation (théorique) présenté dans le premier article de la série, le JobTracker distribuerait 3 tâches map et 5 tâches reduce.Par ailleurs, il permet d’avoir une vision globale sur la progression ou l’état du traitement distribué via une console d’administration web accessible par défaut sur le port 50030.Le JobTracker est un démon cohabitant avec le NameNode. Il n’y a donc qu’une instance par cluster. Les TaskTrackers exécutent les tâches (map ou reduce) au sein d’une nouvelle JVM instantiée par le TaskTracker. Un crash de la machine virtuelle n’impactera pas le TaskTracker.Par ailleurs, ils notifient périodiquement le JobTracker du niveau de progression d’une tâche ou bien le notifient en cas d’erreur afin que celui-ci puissent reprogrammer et assigner une nouvelle tâche.Un TaskTracker est un démon cohabitant avec un DataNode. Il y a donc autant d’instances que de nœuds esclaves.
  • Evolutivitéjusqu’à 1280 nodes en 1GbE ou 10GbEEt 2560 nodes avec uneagrégation 40GbEIntegration avec PDW : connection possible via switch Infiniband (56Gb)
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurssontéditables et peuventreprendre la couleur du type de session qui estdonnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Microsoft is focused on bringing Insights to all users for every data warehouse implementation. In previous / other Microsoft products, we released Power View with SQL Server 2008 R2. This allowed for users to interactively build data visualizations over the web. Microsoft also announced that in Office 2013 and SQL Server 2012 SP1, we’ll release Power View and PowerPivot directly in Microsoft Excel. This means users simply need to open up their Excel client to enable in-memory BI capabilities. In PDW V2 RTM, we’ll give users the ability to do direct query with Power View. This unlocks the ability for Power View to do analysis on PDW and interactively visualize all data in the warehouse within a web browser. Power View was designed from the ground-up to provide familiar end user experiences in a very visual and immersive way. Your business users will love the visuals and the intuitiveness of the UI.In the Appliance Update 2 timeframe, PDW will gain the ability to do deep in-database analytics. This will first manifest itself with integration with SAS and R. Both these predictive analytics will now be supported with PDW.Native deep integration via the SAS Embedded Process (EP). Capability to run the SAS Scoring Accelerator for in-database analytics maximizing investments in SAS tools for data mining, statistical analyses and data science.Native and deep integration with open source ‘R’ . Ability to run ‘R’ in-database for advanced analytics and processing using the power and performance of MPP data warehousing.
  • SQL Server 2012 is a pre-built appliance that ships to the customer’s door. As an appliance, all of the hardware has been pre-built: Servers, storage arrays, switches, power, racks, etc. Also, all the software has been installed, configured, and tuned.  Customers are delivered a fully packaged appliance solution that just works. All they have to do is plug the appliance in and start integrating their specific data into the solution.
  • SQL Server 2012 is a pre-built appliance that ships to the customer’s door. As an appliance, all of the hardware has been pre-built: Servers, storage arrays, switches, power, racks, etc. Also, all the software has been installed, configured, and tuned.  Customers are delivered a fully packaged appliance solution that just works. All they have to do is plug the appliance in and start integrating their specific data into the solution.
  • SQL Server 2012 is a pre-built appliance that ships to the customer’s door. As an appliance, all of the hardware has been pre-built: Servers, storage arrays, switches, power, racks, etc. Also, all the software has been installed, configured, and tuned.  Customers are delivered a fully packaged appliance solution that just works. All they have to do is plug the appliance in and start integrating their specific data into the solution.

Big Data : SQL, NoSQL ? Pourquoi faire un choix ? Big Data : SQL, NoSQL ? Pourquoi faire un choix ? Presentation Transcript

  • Donnez votre avis ! Depuis votre smartphone, sur : http://notes.mstechdays.fr De nombreux lots à gagner toutes les heures !!! Claviers, souris et jeux Microsoft… Merci de nous aider à améliorer les TechDayshttp://notes.mstechdays.fr
  • Big Data : SQL ? NoSQL ? Pourquoi faire un choix ? Gilbert Breton – Bruno Lucas – Olivier Tolon Architectes Avant-Ventes Dell / MicrosoftServeurs / Entreprise / Réseaux / IT
  • UN NOUVEAU MONDE DES DONNÉESServeurs / Entreprise / Réseaux / IT
  • LE MONDE DES DONNÉES À CHANGÉServeurs / Entreprise / Réseaux / IT
  • AUJOURD’HUI, LES QUESTIONS BUSINESS POSÉES ONT CHANGÉServeurs / Entreprise / Réseaux / IT
  • LES LIMITATIONS DES OPTIONS “BIG DATA” ACTUELLES … Utilisation de Achat appliance Achat solution Achat suite l’existant complexe et dédiée “Big Data” dédiée Business spécifique Intelligence Scalabilité Coûts Montée en Complexité Limitée élevés compétence de la longue solutionServeurs / Entreprise / Réseaux / IT
  • INTRODUCTION DE SQL SERVER 2012 PARALLEL DATA WAREHOU Générer de la valeur depuis TOUTES vos données, QUELLE que soit leur tailleServeurs / Entreprise / Réseaux / IT
  • CONCU POUR BIG DATAServeurs / Entreprise / Réseaux / IT
  • DES CARACTERISTIQUES DIFFERENTESServeurs / Entreprise / Réseaux / IT
  • LIMITATIONS DE L’ANALYSE BIG DATA Prise en main complexe : Lent & Peu éfficace AUJOURD’HUI ET/OU Avant analyse, extraction technique de Apprentissage HDFS vers l’entrepôt de données MapReduceServeurs / Entreprise / Réseaux / IT
  • QUEST-CE QUE HADOOP ? Hadoop est un projet Open Source géré par Apache Software Fundation basé sur le principe Map Reduce et de Google File System, deux produits Google Corp. Hadoop est un système de traitement de données évolutif pour le stockage et le traitement par lot de très grande quantité de données. Il est adapté aux stockages de grande taille et aux analyses de type "ad hoc" sur de très grandes quantité de données. Hadoop est une plateforme de stockage de données consolidée (HDFS) et le traitement (MapReduce) qui est hautement évolutive, à tolérance de pannes, et Open Source. Hadoop ne couvre pas tous les aspects de Big Data, mais adresse particulièrement les grandes volumétries et variés (processus par lots Hadoop et n’est pas adapté pour l’analyse en temps réel) Composants HADOOP Hadoop Distributed MapReduce File System (HDFS) Le partage de fichiers et la Traitement distribué sur protection des données sur plusieurs serveurs des serveurs physiques Ce qui rend Hadoop unique? Consolide Tout - Toutes vos données en un seul endroit stockées dans HDFS Excelle dans lanalyse complexe – Analyse massivement parallèle sur plusieurs nœuds Economique - Peut être installé sur des serveurs x86 standard 1 4/11/201Serveurs / Entreprise / Réseaux /3IT 1 Confidential
  • UN CAS D’UTILISATION 1 4/11/201Serveurs / Entreprise / Réseaux /3IT 2 Confidential
  • QUELQUES DOMAINES DUTILISATION POUR HADOOP… Valorisez vos données … Banque Vente de détail Analyse de risques • Inventaire prédictif Bâle III Tests de liquidités Détection de fraudes Sécurité • Traitement des Log Télécommunications • Traitement des menaces • Données des mobiles • ETL complexe Général • Plate-forme commune de Web données • Profil publicité • BdD évolutivité • Réseaux sociaux • Stockage traditionnel • Maîtrise des coûts 1 4/11/201Serveurs / Entreprise / Réseaux /3IT 3 Confidential
  • Hadoop Ecosystem. Distributed Processing (Map Reduce) Distributed Storage (HDFS) Matériels standards – Serveurs & Réseau 1 4/11/201Serveurs / Entreprise / Réseaux /3IT 4
  • Une architecture évolutive EXEMPLE D’UN CAS CLIENT efficace pour lanalyse dimage Besoins client satellite Définir une solution innovante pour stocker et analyser de grandes quantités dimages satellites Solution Dell – Logiciel Apache Hadoop – Cloudera partnership • 188 x Worker Node PE-C 6105 servers with 2 nodes including each • 2 x AMD processors 8c 2.5Ghz / 24GB RAM • 4 x HDD 2TB SAS NL 7.2K RPM • 2 x Dual Port GbE – 4 x Master Node PE-R715 servers including each • 2 x AMD processors 8c 2.6Ghz / 128GB RAM • 5 x HDD 1TB SAS NL 7.2K RPM • 2 x Dual Port 10GbE – 2 x Dell Force 10 switch 44-port GbE on top of rack PE-C6105 Server PE-R715 Server – 2 Dell Force10 Z9000 32-port 40GbE pour la couche d’aggrégation – Dell on-site Installation, + Dell ProSupport 1 4/11/201Serveurs / Entreprise / Réseaux /3IT 5
  • ARCHITECTURE DE RÉFÉRENCE 1 x AdminNode • 2 CPU 6 core • 48GB RAM • 6 x HDD 600GB 15K (Raid1) • 2 x 10GbE Ports Network Switches 2 x EdgeNode 2 x NameNode/BackupNode 3 to n DataNode • 2 CPU 6 core • 2 CPU 6 core • 2 CPU 6 core • 48GB RAM • 96GB RAM • 32GB RAM Mini • 6 x HDD 600GB 15K (Raid1) • 6 x HDD 600GB 15K (Raid1) • 12 x HDD 3TB 7.5K • 2 x 10GbE Ports • 2 x 10GbE Ports • 2 x 10GbE Ports Edge Nodes Control Nodes Worker Nodes 1 4/11/201Serveurs / Entreprise / Réseaux /3IT 6
  • INTRODUCTION À POLYBASE Avancée fondamentale dans le traitement des données SQL Requête unique; Structuré & non-structuré SQL Server • Requêter et joindre des tables Hadoop avec des tables 2012 PDW relationnelles Powered by PolyBase • Utilisation de language SQL Standard • Select, From Where Compétences Pas Gain de coûts Analyze de tous SQL Existantes d’intervention IT et de temps types de donnéesServeurs / Entreprise / Réseaux / IT
  • INTEGRATION AVEC HADOOP Regular T-SQL Results Enhanced External Tables and full SQL query access to data PDW Query Engine stored in HDFS HDFS bridge for direct & fully parallelized access of data in HDFS Joining ‘on-the-fly’ PDW data with data from HDFS PDW V2 Structured data Parallel import of data from HDFS in PDW tables for External Table persistent storage HDFS bridge Parallel export of PDW data into HDFS including ‘round-tripping’ of data HDFS Data Nodes Unstructured dataServeurs / Entreprise / Réseaux / IT
  • PROJECT POLYBASE • Accès aux données en parallèles entre les PDW Compute Nodes et Hadoop Data Nodes • Support de tous type de fichiers HDFS • “Structure” des données “non-structures” Query Results Query 1 3 1 Hadoop PDW Hadoop PDW 2 2 HDFS DB HDFS DB SQL in, results out SQL in, results stored in HDFSServeurs / Entreprise / Réseaux / IT
  • PROJECT POLYBASE Transfert des données en parallèles PDW Appliance Control Node Compute Node Compute Node Hadoop Cluster Name Node Data Data Data Data Data Data Data Data Node Node Node Node Node Node Node NodeServeurs / Entreprise / Réseaux / IT
  • TABLE EXTERNE • Representation interne des données résidant dans Hadoop/HDFS • Nouvelle syntaxe T-SQL CREATE EXTERNAL TABLE table_name ({<column_definition>} [,...n ]) {WITH (LOCATION =‘<URI>’,[FORMAT_OPTIONS = (<VALUES>)])} [;] 1. 2. 3. Indicates Required location of Optional Format Options associated ‘External’ Table Hadoop cluster and file with data import from HDFS (support of delimited text (e.g. arbitrary field delimiters & reject- file only in PDW V2) related thresholds)Serveurs / Entreprise / Réseaux / IT
  • PROJET POLYBASE – EVOLUTION • Cost-based decision on how much data needs to be pushed to PDW • SQL operations on HDFS data pushed into Hadoop as MapReduce jobs SQL Results 1 7 Map job Hadoop 2 PDW MapReduce 3 4 6 5 HDFS DBServeurs / Entreprise / Réseaux / IT
  • PERFORMANCE ET ÉVOLUTIVITÉ NOUVELLE GÉNÉRATIONServeurs / Entreprise / Réseaux / IT
  • LIMITATIONS: PERFORMANCE ET ÉVOLUTIVITÉ Tables actuelles (Partitions) Evolutivité limitée pour Performances non- architecture monolithique optimales de certaines (SMP) requêtes DWServeurs / Entreprise / Réseaux / IT
  • MOTEUR MPP - MASSIVELY PARALLEL PROCESSING MPP permet une évolutivité quasi linéaire • Architecture MPP - Massively Parallel Processing … • Scale Out: Ajout incrémental de matériel pour une évolutivité quasi linéaire • Shared Nothing Architecture Jusque 100X + Tâches complexes Evolutivité quasi Easy to Scale rapide que SMP linéaire (Pas d’upgrade DW coûteux)Serveurs / Entreprise / Réseaux / IT
  • XVELOCITY - PERFORMANCES NOUVELLE GÉNÉRATION Traitement de requêtes ultra rapide Customer Products Sales Supplier Country Columnstore fournit des performance hors- norme • xVelocity columnstore stocke les données compressées et modifiables • Stocke les données en format colonne • Performances nouvelle génération optimisées in-Memory • Updateable pour supporter l’import massif comme le chargement au fil de l’eau Jusqu’à 50X Compression Gain de coûts DW Temps + rapide jusqu’à 15x et de temps réelServeurs / Entreprise / Réseaux / IT
  • ColumnStore Index ExempleOrderDateKey ProductKey StoreKey RegionKey Quantity SalesAmount20101107 106 01 1 6 30.0020101107 103 04 2 1 17.0020101107 109 04 2 2 20.0020101107 103 03 2 1 17.0020101107 106 05 3 4 20.0020101108 106 02 1 5 25.0020101108 102 02 1 1 14.0020101108 106 03 2 5 25.0020101108 109 01 1 1 10.0020101109 106 04 2 4 20.0020101109 106 04 2 5 25.0020101109 103 01 1 1 17.00Serveurs / Entreprise / Réseaux / IT
  • 1. Horizontally Partition (create Row Groups)OrderDateKey ProductKey StoreKey RegionKey Quantity SalesAmount20101107 106 01 1 6 30.0020101107 103 04 2 1 17.0020101107 109 04 2 2 20.00 ~1M rows20101107 103 03 2 1 17.0020101107 106 05 3 4 20.0020101108 106 02 1 5 25.00 OrderDateKey ProductKey StoreKey RegionKey Quantity SalesAmount 20101108 102 02 1 1 14.00 20101108 106 03 2 5 25.00 20101108 109 01 1 1 10.00 20101109 106 04 2 4 20.00 20101109 106 04 2 5 25.00 20101109 103 01 1 1 17.00Serveurs / Entreprise / Réseaux / IT
  • 2. Vertically Partition (create Segments) OrderDateKey ProductKey StoreKey RegionKey Quantity SalesAmount 20101107 106 01 1 6 30.00 20101107 103 04 2 1 17.00 20101107 109 04 2 2 20.00 20101107 103 03 2 1 17.00 20101107 106 05 3 4 20.00 20101108 106 02 1 5 25.00 OrderDateKey ProductKey StoreKey RegionKey Quantity SalesAmount 20101108 102 02 1 1 14.00 20101108 106 03 2 5 25.00 20101108 109 01 1 1 10.00 20101109 106 04 2 4 20.00 20101109 106 04 2 5 25.00 20101109 103 01 1 1 17.00Serveurs / Entreprise / Réseaux / IT
  • 3. Compress Each Segment OrderDateKey ProductKey StoreKey RegionKey Quantity SalesAmount 20101107 106 01 1 6 30.00 20101107 103 2 1 04 17.00 20101107 2 109 2 20101107 04 20.00 2 103 1 20101107 03 3 17.00 20101108 106 4 05 1 20.00 106 5 OrderDateKey 02 25.00 RegionKey 20101108 ProductKey Quantity StoreKey 1 20101108 102 1 SalesAmount 02 2 20101108 106 5 14.00 03 1 20101109 109 1 2 25.00 01 20101109 106 4 2 10.00 20101109 04 5 106 1 20.00 103 04 1 01 25.00 17.00 Some segments will compress more than others *Encoding and reordering not shownServeurs / Entreprise / Réseaux / IT
  • 4. Read The Data SELECT ProductKey, SUM (SalesAmount) FROM SalesTable WHERE OrderDateKey < 20101108 OrderDateKey ProductKey StoreKey RegionKey Quantity SalesAmount 20101107 106 01 1 6 30.00 20101107 2 103 04 1 17.00 20101107 2 109 2 20101107 04 20.00 2 103 1 20101107 03 17.00 3 20101108 106 4 05 1 20.00 106 5 OrderDateKey 02 25.00 RegionKey 20101108 ProductKey Quantity StoreKey 1 Elimination 20101108 102 1 SalesAmount 02 2 5 Segment 20101108 106 14.00 03 1 20101109 109 1 2 25.00 01 20101109 106 4 2 10.00 20101109 04 5 106 1 20.00 103 04 1 01 25.00 17.00 Column EliminationServeurs / Entreprise / Réseaux / IT
  • CLUSTERED COLUMNSTORE INDEX Space Used in GB (101 million row • Pourquoi est-ce important? table) 20.0 – Reduction de l’espace de stockage – Administration simplifié – pas d’index 15.0 secondaires à positionner 10.0 91% – Tous les types de données supportés par PDW savings peuvent être utilisés 5.0 • Clustered Columnstore est le stockage 0.0 à priviliégié avec PDW 2012 ** Space Used = Table space + Index spaceServeurs / Entreprise / Réseaux / IT
  • AMELIORATION DES PERFORMANCES AVEC CCI 10000.00 345.0 302.4 295.0 1000.00 223.9 245.0 195.0 100.00 145.0 92.1 10.00 95.0 22.7 31.0 10.3 45.0 1.7 1.7 3.2 -1.0 1.3 7.5 1.5 1.6 3.9 1.00 -5.0 Query 8 Query 1 Query 2 Query 3 Query 4 Query 5 Query 9 Query 3.5 Query 4.5 Query 10 Query 12 Query 13 Query 14 Query 15 Query 16 Query 17 Row Store Column Store ImprovementServeurs / Entreprise / Réseaux / IT
  • CONÇU POUR UNE VALEUR OPTIMALEServeurs / Entreprise / Réseaux / IT
  • UTILISATION D’EXCEL POUR LE BIG DATA Outils familiers pour l’analyse Big Data • Intégration native Microsoft BI et PDW • Données structurées et non structurée dans une même feuillle Excel • Outils largement déployés et facilement utilisables Excel largement Pas Analyze de tous déployé d’intervention IT types de donnéesServeurs / Entreprise / Réseaux / IT
  • Ajout de Capacité de traitement Démarrer petit et croitre avec les besoins Add Capacity Du + petit (0TB) au + grand (5PB) • Démarrer petit avec un entrepôt de quelques Terabyte Ajout de capacité • Ajout de capacité jusque 5 Petabytes0TB 5 PB Démarrer petit VL DW Pas et croitre PB d’indisponibilitéServeurs / Entreprise / Réseaux / IT
  • POWER OF COMBINING THE WORLDS DATA ValueServeurs / Entreprise / Réseaux / IT
  • MICROSOFT BIG DATA SOLUTION Map Reduce Polybase SQLServeurs / Entreprise / Réseaux / IT
  • SQL SERVER PDW 2012 REPOUSSE LES LIMITES Parallel Data Warehouse Hautemen Coûts Simplicité de t Evolutif Reduits SQL la solution Conception Matérielle et Conçu pour le Big Data avec Integration native avec les Performance et scalabilité Logicielle pour une apport requêtage intégré basé sur outils BI familiés et nouvelle génération optimal au meilleur prix du SQL Standard largement adoptésServeurs / Entreprise / Réseaux / IT
  • Développeurs Pros de l’IT http://aka.ms/generation-app Formez-vous en ligne www.microsoftvirtualacademy.com http://aka.ms/evenements- developpeurs Retrouvez nos évènements http://aka.ms/itcamps-france Les accélérateurs Faites-vous accompagnerWindows Azure, Windows Phone, gratuitement Windows 8 Essayer gratuitement nos http://aka.ms/telechargements solutions IT La Dev’Team sur MSDN Retrouver nos experts L’IT Team sur TechNet http://aka.ms/devteam Microsoft http://aka.ms/itteam
  • Pourcandidater, rendez-vous sur le standServer & CloudUn lien pour tout savoir sur SQLServer 2012 : www.microsoft.fr/SQL