Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Prochain SlideShare
Chargement dans... 5
×

Vous aimez ? Partagez donc ce contenu avec votre réseau

Partager

Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel

  • 422 vues
Transféré le

NoSQL, in-memory ou l'analytique distribué offrent de nouvelles perspectives. Quelles sont-elles et comment les appréhender en entreprise ?

NoSQL, in-memory ou l'analytique distribué offrent de nouvelles perspectives. Quelles sont-elles et comment les appréhender en entreprise ?

Plus dans : Technologies
  • Full Name Full Name Comment goes here.
    Êtes-vous sûr de vouloir
    Votre message apparaîtra ici
    Soyez le premier à commenter
    Be the first to like this
Aucun téléchargement

Vues

Total des vues
422
Sur Slideshare
422
À partir des ajouts
0
Nombre d'ajouts
0

Actions

Partages
Téléchargements
13
Commentaires
0
J'aime
0

Ajouts 0

No embeds

Signaler un contenu

Signalé comme inapproprié Signaler comme inapproprié
Signaler comme inapproprié

Indiquez la raison pour laquelle vous avez signalé cette présentation comme n'étant pas appropriée.

Annuler
    No notes for slide

Transcript

  • 1. Révolution dans lanalytique et les entrepôts de données à découvrir avec Intel [PAR217] Stanislas Odinot Consultant technique Intel Corporation www.intel.comServeurs / Entreprise / Réseaux / IT
  • 2. Mentions légalesINFORMATION IN THIS DOCUMENT IS PROVIDED IN CONNECTION WITH INTEL PRODUCTS. NO LICENSE, EXPRESS OR IMPLIED, BY ESTOPPEL OROTHERWISE, TO ANY INTELLECTUAL PROPERTY RIGHTS IS GRANTED BY THIS DOCUMENT. EXCEPT AS PROVIDED IN INTELS TERMS ANDCONDITIONS OF SALE FOR SUCH PRODUCTS, INTEL ASSUMES NO LIABILITY WHATSOEVER AND INTEL DISCLAIMS ANY EXPRESS OR IMPLIEDWARRANTY, RELATING TO SALE AND/OR USE OF INTEL PRODUCTS INCLUDING LIABILITY OR WARRANTIES RELATING TO FITNESS FOR APARTICULAR PURPOSE, MERCHANTABILITY, OR INFRINGEMENT OF ANY PATENT, COPYRIGHT OR OTHER INTELLECTUAL PROPERTY RIGHT.UNLESS OTHERWISE AGREED IN WRITING BY INTEL, THE INTEL PRODUCTS ARE NOT DESIGNED NOR INTENDED FOR ANY APPLICATION INWHICH THE FAILURE OF THE INTEL PRODUCT COULD CREATE A SITUATION WHERE PERSONAL INJURY OR DEATH MAY OCCUR.Intel may make changes to specifications and product descriptions at any time, without notice. Designers must not rely on the absence orcharacteristics of any features or instructions marked "reserved" or "undefined." Intel reserves these for future definition and shall have noresponsibility whatsoever for conflicts or incompatibilities arising from future changes to them. The information here is subject to change withoutnotice. Do not finalize a design with this information.The products described in this document may contain design defects or errors known as errata which may cause the product to deviate frompublished specifications. Current characterized errata are available on request.All products, computer systems, dates, and figures specified are preliminary based on current expectations, and are subject to change withoutnotice.Contact your local Intel sales office or your distributor to obtain the latest specifications and before placing your product order.Copyright © 2013, Intel Corporation. All rights reserved.*Other names and brands may be claimed as the property of others.
  • 3. 2015+ Déluge de données 22 nm (2011) 45 nm (2007) >1000 ExaOctets Plus de terminaux De trafic sur internet (2009) 90 nm (2003) (2006)180 nm(1999) Plus d’utilisateurs >15 Milliards (2005) De terminaux connectés (2004) 2,5M ordinateurs +1 Milliard Connectés en IP De Netcitoyens En 1994 (1998)
  • 4. Evolution du traitement des données en entreprise
  • 5. Secteur des télécommunications : Exemple de China Mobile Guangdong*Objectif : Donner en temps réel aux clients l’historique de leurs communicationstéléphoniques.Solution: Hadoop pour limiter un goulet d’étranglement d’accès aux données(vs SGBDR), augmenter la capacité de stockage et rendre le tout évolutifGains : TCO bien moins élevé, performances 30x supérieures,transition souple, capacité analytique supplémentaires dédiéaux usages de abonnés pour de la publicité ciblée.Quelques données• 30 To de données de facturation traités par mois• Récupération en temps réel de 6 mois d’historique de communication• 300k enregistrements/sec., 800k insertion/sec.• 15 requêtes analytiques (liées à qualité de service, facturation, marketing, estimation des revenus, et satisfaction client)• 133 serveurs (nœuds)
  • 6. Secteur publique : transport Collecte régionale de données Exemple avec ChongqingObjectif : Analyse du trafic afin de tirer des statistiques dérivéesdes infractions, mise à disposition des informations, et analyse Serveurprédictive du trafic routier d’applicationSolution : Client HBase embarqué dans une caméra pour desinsertions de données structurées et non-structurées en temps Traitement réparti sur plusieurs nœuds du quartierréelGains :• Requêtes automatisées pour les infractions de circulation• Data mining pour les faux permis : moins d’1 minute pour toutes les données sur une semaine.• Amélioration du trafic routier de 25%Quelques données : Dérivé Analytique Services• + de 30.000 points de collecte de données issues des cameras• Po de donnés liées au trafic routier et plusieurs To d’images• 2 milliards d’entrées dans HBase Prévention d’infractions Service d’info trafic
  • 7. Secteur de l’énergie: Exemple avec EDF R&D*Objectif du POC : Construire un « entrepôt de donnéesopérationnel » capable d’ingérer des données etautorisant la réalisations de requêtes multiples etsimultanées sur de multiples courbes de consommationSolution: Hadoop avec Hive pour les requêtes, HBase labase de donnée, Sqoop (requêter le SGBD), HDFS pour lestockage et utilisation d’un générateur de courbesCurboGen© (NodeJS, Redis)Quelques données• 1 mesure toutes les 10 minutes pour 35 millions de clients par an -> 1 800 milliards d’enregistrements = 120 To de données non compressées• POC : 25 Go / jours• 20 nœuds, 132 To fonctionnant avec Hadoop/Cloudera• Les outils : Cloudera, Hive, HBase, HDFS, Sqoop, NodeJS, Redis, Tableau Software • Sources : http://www.slideshare.net/Hadoop_Summit/proof-of-concent-with-hadoop • http://www.youtube.com/watch?v=mjzblMBvt3Q
  • 8. Secteur industriel : Exemple d’Intel Corporation [IT@Intel]Objectif : Améliorer les tests et validation des microprocesseurs tout en réduisantle temps requis. C= A&BSolution: Utilisation des informations historiques des tests, débugge et validationafin de diminuer leur nombre et gagner sur temps.Gains : Un premier POC a permit d’économiser 3 millions de $ en 2012, et l’on estimepossible d’économiser jusqu’à 30 millions de $ entre 2013 et 2014.Autres POC :• Détection rapide de failles de sécurité : 200 millions d’évènements serveur (logs, DNS, DHCP, proxy, VPN…) traités en 30 minutes.• Optimisation des réseaux de ventes/distribution (anticipation des changements des consommateurs, amélioration de la chaîne d’approvisionnement, etc.)
  • 9. Le rôle d’Intel dans le Big Data Participe au développement et propose des applications et services optimisés Accélère le traitement et l’analyse de gros volumes de données enprocurant des CPU, du stockage, des I/O et du réseau rapides et efficaces Collabore activement avec un large écosystème pour faire croitre letraitement de gros volumes de données en se concentrant sur les usages et des architectures de référence
  • 10. Espace Intel sur githubPlusieurs projets en cours HiBench HiTune Projet Panthera HiBench est une suite de HiTune permet d’analyser Extensions Hive pour un support benchmarks pour Hadoop les performance d’un amélioré des requêtes SQL cluster Hadoop (SQL-92) 9 workload typiques pour 3 composants majeurs hadoop Micro benchmarks • Tracker HDFS benchmarks • Aggregation Engine Web search benchmarks • Analysis EngineMachine learning benchmarks Data analytics benchmarks• https://github.com/intel-hadoop
  • 11. HiBench : Caractérisations des charges applicatives données “-” de données Encore “-” de données compressé
  • 12. Intel HiTune Utilitaire d’analyse de performance pour Hadoop• Les utilisateurs développent leurs applications basées sur le modèle MapReduce• Le framework Hadoop l’applique sur le cluster• HiTune instrumente automatiquement les tâches Hadoop (au niveau binaire) et collecte les informations liées à l’exécution − Impact faible (inf. à 2%) − Pas de modification de code source − Nombreuses informations collectées − Informations lié à la JVM − Informations systèmes − Récupération des log Hadoop
  • 13. HiTune : Analyse et génération de rapports• Rapport d’analyse HiTune (.csv) • Rapport d’analyse visuel (.xlsm) − Métriques systèmes − Résumé d’exécution d’un job − CPU − Comparaison entre multiples jobs − IO disque − Métriques systèmes − IO réseau − Métriques Hadoop − mémoire − Stat sur les flux de données − Métriques Hadoop − Métriques du NameNode − Métriques du DataNode − Métriques du JobTracker − Métriques du TaskTracker − Métriques de la JVM − Stat sur les flux de données − Job, MapTasks, Reduce Tasks − Thread dump pour Map/Reduce
  • 14. Contenu autour d’Hadoop et du Big Data Architecture de référence, optimisation, etc. Getting Started withHadoop*: Planning Guide Intel Blog « Data Stack » Mining Big Data in Enterprise for Better Business Intelligence Intel® Cloud Builders Hadoop* Clusters BuiltGuide to Apache Hadoop* on 10 Gigabit Ethernet
  • 15. Transactionnel, BI, Analytique et bases de données La contribution d’Intel Traitement transactionnel Business Intelligence et Analytique Base de donnéesFocus sur lesCharges appl.Platformes & Scale-up & Scale-outArchitectures 2 Socket 4 Socket 8 Socket Scalable (8+) Système Stack applicatives Innovation HW OS dédiésEcosystème Software avec les OEM aux applications critiques à haut niveau de disponnibilité Silicium CPUs LAN Logiciels Chipsets SSDsBriquesValeur ajoutée Performance Evolutivité RAS ROI Choix
  • 16. Xeon® E7 Gamme Intel Xeon® SMI SMI SMI SMI SMI SMI SMI SMI Westmere Westmere EX EX x4 x8 x4 x8E5-4600 DDR3 DDR3 QPI Sandy Sandy Core Core DDR3 QPI DDR3 Bridge Bridge  Up to 4 CPUs DDR3 DDR3 Core Core QPI QPI  Up to 48 DIMMs DDR3 DDR3 SMI SMI SMI SMI SMI SMI SMI SMI  Up to 160 PCIe3 lanes QPI QPI Westmere Westmere  Two QPI links per CPU DDR3 Sandy Sandy DDR3 EX QPI EX DDR3 QPI Bridge DDR3 (ring topology) DDR3 Bridge DDR3 Core Core Core Core DDR3 DDR3 x4 x8 x4 x8 … QPI QPIE5-2600 SMI SMI SMI SMI SMI SMI SMI SMI DDR3 DDR3 Westmere Sandy Sandy Westmere  Up to 2 CPUs DDR3 Bridge QPI Bridge DDR3 EX EX QPI DDR3 QPI DDR3  Up to 24 DIMMs DDR3 Core Core DDR3 Core Core  Up to 80 PCIe lanes x4 x8 x4 x8  Two QPI links E3-1200v2 AtomE5-2400 DDR3 Sandy Sandy DDR3 Sandy Saltwell DDR3 QPI DDR3 DDR3  Up to 2 CPUs Bridge Bridge Bridge DDR3 DDR3 Core DDR3 DDR3 Core Core  Up to 12 DIMMs Core  Up to 48 PCIe lanes x4 x8 x4 x8 x8 x4 x8  One QPI link
  • 17. Hadoop et les bases de données tirent avantage des SSD Performances Performances & & Endurance Endurance Capacité Capacité Intel 910 Intel 520 Intel 710Intel 320 SSD 800 Go SSD 480 Go 10 Petaoctet Sur SSD 800 Go (4k) 550 Mo/s SSD 300 GoJusqu’à 600 Go (en lecture) 1.1 Petaoctet 2000 Mo/s (en lecture) 270/220 Mo/s R/W 520 Mo/s Sur SSD 300 Go (4k) 1000 Mo/s (en écriture) 270/210 Mo/s R/W (en écriture)
  • 18. Le 10 GbE proposé en standard Intel® Ethernet Controller X540 Flex LOM CNA/NIC LOM Le premier contrôleur 10GBASE-T élaboré à la fois pour les cartes réseaux et l’intégration aux cartes mères (LOM
  • 19. Collaboration active avec un large écosystèmeBase de données et infra de calculs Moteurs d’analysesRelationnel VOLTDBNon relationnel EXALYTICS Faites votre choix, tous sont optimisés, dont certains, exclusivement sur Xeon
  • 20. Conclusion1  Les données sont là et les technologies qui les entourent évoluent rapidement2  Intel s’est déjà positionné sur la partie applicative et propose des plateformes optimisées3  Intel s’est engagé à investiguer dans de nouvelles technologies capables d’adresser les futurs besoins en terme de traitement de données