Usi 2013-next big data architecture

936 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
936
Sur SlideShare
0
Issues des intégrations
0
Intégrations
4
Actions
Partages
0
Téléchargements
31
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Gérer de la donnée n’a rien de nouveauMême à très grande échelledistributed file systemAnalyser « tout ou partie » de cette donnée non plus… RDBMS, MPP ou les fameux appliance BI
  • Source ;: http://onlyhdwallpapers.com/wallpaper/darwin_bump_desktop_1920x1080_hd-wallpaper-766061.jpg
  • Usi 2013-next big data architecture

    1. 1. www.usievents.com 24 & 25 Juin 2013 LE RENDEZ-VOUS DES GEEKS & DES BOSS POUR UNE INFORMATIQUE QUI TRANSFORME NOS SOCIÉTÉS Prochaine Génération d’architectures Big Data Olivier Mallassi 1 www.gopivotal.com
    2. 2. www.usievents.com 2 « Big Data »… Tout attribut qui défie les contraintes d’une capacité d’un système ou besoin métier. Challenge nos savoir-faire.
    3. 3. www.usievents.com 3 Plus… …de volume …vite …complexe : « predictive enterprise » …variée et variable …nous amène vers « plus… »
    4. 4. www.usievents.com 4 UNE IMPLEMENTATION DE REFERENCE : Hadoo
    5. 5. www.usievents.com UNE IMPLEMENTATION DE REFERENCE : Hadoo 5 NameNode DataNode DataNode DataNode DataNode File#2 Block#1 File#2 Block#2 File#2 Block#3 Un système de fichier distribué : HDFS Découpage des fichiers en « bloc ». Répartition des données sur plusieurs machines. Réplication des données pour assurer la tolérance à la panne. File#2 File#2 Block#1 File#2 Block#2 File#2 Block#3
    6. 6. www.usievents.com UNE IMPLEMENTATION DE REFERENCE : Hadoo 6 TaskTracker TaskTracker TaskTracker TaskTracker File#2 Block#1 File#2 Block#2 File#2 Block#3 Map Map MapReduce Une couche de traitement: MapReduce Distribution des traitements. Co-localisation traitements & données. JobTracker
    7. 7. www.usievents.com 7 QUI POSE QUELQUE DEFIS
    8. 8. www.usievents.com QUI POSE QUELQUE DEFIS 8 Manque de généricité : « MapReduce Only » Structurant en termes de développement. Structurant en termes d’architecture (« scheduling »…). Ne convient pas à tous les types de traitements. TaskTracker TaskTracker TaskTracker TaskTracker File#2 Block#1 File#2 Block#2 File#2 Block#3 Map Map MapReduce JobTracker
    9. 9. www.usievents.com 9 Une architecture qui ne répond pas aux nouveaux enjeux Complexité d’intégration. Mode de traitement batch incompatible avec le « plus vite ». Architecture Master / Slave incompatible avec les problématiques d’ingestion (Machine-2-Machine). QUI POSE QUELQUE DEFIS SI Opérationnel SI Décisionnel Hadoop DWH (MPP...) Déchargement Extraction / Enrichissement App / RDBMS App / RDBMS App / RDBMS App / RDBMS
    10. 10. www.usievents.com 10 THEORIE DE L’EVOLUTI ON
    11. 11. www.usievents.com THEORIE DE L’EVOLUTI ON 11 #1. YARN ou l’ouverture vers d’autres types de traitements distribués YARNRessourceManager NodeMgr NodeMgr NodeMgr NodeMgr Map Map MapReduce NodeMgr MR Application Worker Master Worker SQL SQL MapReduce Master/Worker SQL
    12. 12. www.usievents.com THEORIE DE L’EVOLUTI ON 12 #2. Faciliter et diversifier l’accès à la donnée…
    13. 13. www.usievents.com THEORIE DE L’EVOLUTI ON 13 #2. …avec SQL Facilite l’accès via « SQL Like » Génération traitement MR
    14. 14. www.usievents.com THEORIE DE L’EVOLUTI ON 14 #2. …avec SQL Améliore les performances de Hive Enrichit la compatibilité SQL Privilégie la mémoire
    15. 15. www.usievents.com THEORIE DE L’EVOLUTI ON 15 #2. …avec SQL Architecture différente de MR Compatibilité avec SQL Nouveau format de stockage, compression Privilégie la mémoire
    16. 16. www.usievents.com THEORIE DE L’EVOLUTI ON 16 #2. …avec SQL Le portage du « moteur SQL » de Greenplum MPP Compatibilité avec SQL « Moteur SQL » éprouvé : redistribution des données en cas de jointure Stockage polymorphe : compression, « row / column oriented »
    17. 17. www.usievents.com THEORIE DE L’EVOLUTI ON 17 Analytic Workloads SQL Services Operational Intelligence In-Memory Services Stream Ingestion HDFS In memory / Streaming Services Processing / transformation calculation MR / SQL services GemFire #3. HDFS : le substrat sur lequel s’intègre différentes couches de traitement Collecte, traitements temps réel : « In Memory Data Grid ».
    18. 18. www.usievents.com THEORIE DE L’EVOLUTI ON 18 Analytic Workloads SQL Services Operational Intelligence In-Memory Services Stream Ingestion In memory / Streaming Services Processing / transformation calculation MR / SQL services MR / Hive / HAWQ insert into…. select from… #3. HDFS : le substrat sur lequel s’intègre différentes couches de traitement Analyse, Extraction, Machine Learning : MapReduce, SQL… HDFS
    19. 19. www.usievents.com THEORIE DE L’EVOLUTI ON 19 Analytic Workloads SQL Services Operational Intelligence In-Memory Services Stream Ingestion In memory / Streaming Services Processing / transformation calculation MR / SQL services HAWQ SQLFire select lag() over(partition by…) from … where … #3. HDFS : le substrat sur lequel s’intègre différentes couches de traitement Restitution : SQL. HDFS
    20. 20. www.usievents.com 20 Ouvrir vers d’autres types de traitements distribués avec YARN Faciliter et diversifier l’accès à la donnée avec SQL Intégrer différentes couches de traitements sur HDFS Simplifie(ra) la « gestion technique » de la donnée. Simplifie(ra) l’analyse et l’accès à cette donnée. Facilite(ra) l’intégration à l’écosystème et l’existant. Sera le socle technique aux nouveaux cas d’usage.

    ×