Big data Keep IT Simple

496 vues

Publié le

Conférence Relax & Learn - 17/11 - Axis Parc de Mont Saint Guibert avec Technofutur TIC, Cefora et Cepegra.
Dr. Corentin Burnay
DKCA – Data Knowledge Capital Advice

Publié dans : Données & analyses
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
496
Sur SlideShare
0
Issues des intégrations
0
Intégrations
263
Actions
Partages
0
Téléchargements
18
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Big data Keep IT Simple

  1. 1. BIG DATA ARCHITECTURE ET TECHNOLOGIES Dr. Corentin Burnay DKCA – Data Knowledge Capital Advice
  2. 2. CONTEXTE Les données produites aujourd’hui par les entreprises sont : •  Volumineuses •  Variées •  Véloces L’approche classique au traitement des données ne permet pas de gérer simultanément ces différentes caractéristiques: •  Goulot d’étranglement dans la production de rapports •  Délais de calcul trop longs •  Mode de stockage des données inadapté (SQL) Nécessité d’une architecture plus adaptée: le Big Data 20/11/16 2
  3. 3. DIVISER POUR MIEUX REGNER Le besoin de base pour gérer les problèmes de volume, de vélocité et de variété est de “diviser pour mieux régner” •  1 machine effectuant un gros calcul: inéfficace •  1000 machines effectuant chacune une partie du calcul: … La solution au problème de division du travail est Map Reduce •  Un modèle de programmation massivement parallèle adapté au traitement de très grandes quantités de données •  Un produit Google Corp •  Les programmes adoptant ce modèle sont automatiquement parallélisés et exécutés sur des clusters d'ordinateurs •  Exemple: l'index de Google est généré avec MapReduce 20/11/16 3
  4. 4. MAP REDUCE Mécanismes de base •  Découper une requête en multiples sous-requêtes (Map) •  Chacune des sous-requêtes peut être traitée par différents serveur d'un même cluster •  Possibilité de duplication du traitement et des données •  Récupérer les multiples résultats des sous-requêtes et les réduire en un résultat global (Reduce). 20/11/16 4
  5. 5. MAP REDUCE 20/11/16 5
  6. 6. HADOOP Hadoop est un projet géré par Apache Software Fundation basé sur le principe de Map Reduce et du Google Files System •  Hadoop met en pratique l’approche Map Reduce •  Hadoop utilise Hadoop Distributed File System (HDFS) Hadoop fractionne des fichiers en gros blocs et les distribue à travers les différents nœuds du cluster Pour traiter les données: •  Hadoop transfère le code à chaque nœud •  Chaque nœud traite les données dont il dispose 20/11/16 6
  7. 7. HADOOP 20/11/16 7
  8. 8. NO SQL Les bases de données relationnelles ont une philosophie d'organisation des données bien spécifiques •  Langage d'interrogation SQL •  Principe d'intégrité des transactions (ACID) •  Lois de normalisation Pas du tout adaptées au stockage de très grandes dimension et au traitement ultra rapide à des fins de reporting Les bases NoSQL (not only SQL) autorisent la redondance pour mieux servir les besoins en matière de: •  Performance •  Flexibilité •  Tolérance aux pannes •  Évolutivité 20/11/16 8
  9. 9. MANGO DB MongoDB est un système de gestion de base de données orientée documents qui: •  Est répartissable sur un nombre quelconque d'ordinateurs •  Ne nécessite pas de schéma prédéfini Les données dans MongoDB prennent la forme: •  De champs (colonne) représentant des données •  De documents (enregistrements) regroupant un ensemble de champs. •  De collections (tables) regroupant un nombre quelconque de documents Les champs d'un enregistrement sont libres et peuvent être différents d'un enregistrement à un autre au sein d'une même collection 20/11/16 9
  10. 10. MANGO DB Table dans un SGBD relational Collection dans MongoDB Table dans un fichier plat 20/11/16 10
  11. 11. NEO4J Neo4j permet de stocker et représenter les données en tant qu’objets inter reliés. Les données dans Neo4J prennent la forme de graphes, se composant: •  D’attributs (colonne) représentant des données •  De noeuds (enregistrements) regroupant un ensemble d’attribut et représentant un concept clé du business •  De liens (?) regroupant différents noeuds (sans règles prédéfinies) L'absence de modélisation rigide rend Neo4j bien adapté à la gestion de données changeantes et de schémas évoluant fréquemment Les bases de données de graphes sont un outil puissant pour répondre à des requêtes faisant intervenir des relations entre objets Une base Neo4j est censée être jusqu’à plusieurs milliers de fois plus rapide pour traiter des données associatives, car elle évite de coûteuses opérations de type jointures SQL pour les bases de données relationnelles. 20/11/16 11
  12. 12. NEO4J 20/11/16 12
  13. 13. ARCHITECTURE BIG DATA 20/11/16 13
  14. 14. QUELQUES AUTRES OUTILS DU BIG DATA 20/11/16 14

×