Introduction aux concepts Big Data avec Hadoop
Mathieu Dumoulin – Programme Big Data du Centre d’Innovation Fujitsu
 Le Big Data - Problématique
 Une solution: Hadoop et MapReduce
 Vocabulaire et ecosystème
1
 Les enjeux
 Les princip...
2
 Introduction au Big Data
 Introduction à Hadoop
 Détails techniques
 Écosystème et principaux joueurs
 Conclusion
3

◦ Définition
◦ Use Cases
◦ Problèmes et Solution
 Introduction à Hadoop
 Détails techniques
 Écosystème et principa...
 Big Data: Quand les données dépassent les
capacités de la BD conventionnelle. Une
approche alternative devient nécessair...
 Google: Indexer le web
◦ 850 TB en 2009, 100 PB en 2012
 Ventes en ligne: Analyse des ventes
◦ Orbitz a trouvé que les ...
 Banques: Détection de fraudes
◦ Morgan Stanley, Zion
 Énergie: Recherche de nouveaux gisements,
optimisation
◦ Chevron,...
 Besoin: conserver et traiter des données à l’échelle du
PB
◦ Architecture distribuée
◦ Une grappe de 1000+ nœuds, MTBF <...
 La performance d’un CPU n’est pas importante
◦ Le débit total de la grappe est le facteur critique
 Le matériel brise
◦...
 Choix actuels – Ou il y a 2 ans
◦ Investissement supers ordinateurs
 nouvel achat / peut coûter plus que ça rapporte
◦ ...
10
 Introduction au Big Data

◦ Google et MapReduce
◦ Entrée en scène de Hadoop
◦ Avantages clefs
 Détails techniques
...
 Confronté au problème en 2002-2003
◦ Une petite compagnie de 5 ans, peu de moyens
 Dean et Ghemawat conçoivent MapReduc...
12
 2003 - 2004: Présentation de MapReduce et GFS
à la communauté scientifique
◦ 19th ACM Symposium on Operating Systems Pri...
 Traitement à grande échelle et haute
performance
◦ Peut évoluer de 10 nœuds à 10,000 nœuds
◦ Plus facile, gratuit, ouver...
 Une solution logicielle
 Ratio coût-puissance intéressant
 Évolutif
◦ On peut toujours ajouter des nœuds pour
plus de ...
16
 Introduction au Big Data
 Introduction à Hadoop

◦ Traitement Distribué
◦ HDFS
◦ MapReduce
 Écosystème et principa...
17
 Excellente Capacité de montée en charge
◦ Fichiers fragmentés sur du matériel PC commun, efficace et peu
dispendieux
 F...
 Un modèle de programmation simple
◦ Généralisation de gabarits communs (patterns)
 Idéal pour les problèmes « Embarrasi...
20
21
 Introduction au Big Data
 Introduction à Hadoop
 Détails techniques
 Écosystème et principaux joueurs
◦ Principaux...
22
23
• Yahoo! – Supporter AdSystems et leur
moteur de recherche Web
• Linkedin – Prédictions pour “People You
May Know”
• New Y...
 Une communauté active en pleine croissance
◦ Plusieurs livres récents
◦ Support commercial disponible (Cloudera, Hortonw...
 Apache Hive: Infrastructure de
Data Warehouse pour Hadoop
◦ Permet de faire des requêtes SQL
 Traduire SQL → MapReduce
...
 Développé à Yahoo Research en
2006
 Pig Latin: le langage Pig
 Créer et exécuter des tâches
MapReduce de façon ad-hoc
...
 Une librairie Java pour
l’apprentissage automatique
(Machine Learning)
 Implanté avec Apache Hadoop
 Utilise la puissa...
 Sqoop
◦ Importe/exporte des données d’une BD
automatiquement
 RDBS ↔ HDFS
◦ Exemple: une application web/mySQL
 Flume
...
 Oozie
◦ Orchestrer des séquences de tâches MapReduce
◦ Tâches oozie: un graphe orienté acyclique d’actions
◦ Peut être l...
31
 Introduction au Big Data
 Introduction à Hadoop
 Détails techniques
 Écosystème et principaux joueurs

◦ Hadoop e...
 Pas un remplacement
◦ Rends possible l’impossible
◦ De nouvelles façon de tirer de la valeur
 Économies
◦ Commencer pet...
 Hadoop ne remplace pas les BD traditionnelles
◦ Pas de garantie ACID
 Pas tout à fait fiable à 100%
◦ Namenode: « Singl...
 Utilisé de pair avec des BD
◦ Sqoop
 Utilisé comme BD
◦ Hive très proche de SQL
◦ connecteurs JDBC disponibles
◦ Altern...
35
Prochain SlideShare
Chargement dans…5
×

Presentation Hadoop Québec

1 669 vues

Publié le

Introduction à Hadoop et à l'écosystème Hadoop. Remise en contexte et survol des concepts fondamentaux.

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 669
Sur SlideShare
0
Issues des intégrations
0
Intégrations
55
Actions
Partages
0
Téléchargements
132
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Presentation Hadoop Québec

  1. 1. Introduction aux concepts Big Data avec Hadoop Mathieu Dumoulin – Programme Big Data du Centre d’Innovation Fujitsu
  2. 2.  Le Big Data - Problématique  Une solution: Hadoop et MapReduce  Vocabulaire et ecosystème 1  Les enjeux  Les principaux joueurs de l’industrie
  3. 3. 2  Introduction au Big Data  Introduction à Hadoop  Détails techniques  Écosystème et principaux joueurs  Conclusion
  4. 4. 3  ◦ Définition ◦ Use Cases ◦ Problèmes et Solution  Introduction à Hadoop  Détails techniques  Écosystème et principaux joueurs  Conclusion
  5. 5.  Big Data: Quand les données dépassent les capacités de la BD conventionnelle. Une approche alternative devient nécessaire pour en retirer de la valeur (Edd Dumbill – O’Reilly).  « dépassent »? Les 3 V de Gartner ◦ Volume ◦ Vélocité ◦ Variété ◦ Valeur ◦ Véracité 4
  6. 6.  Google: Indexer le web ◦ 850 TB en 2009, 100 PB en 2012  Ventes en ligne: Analyse des ventes ◦ Orbitz a trouvé que les utilisateurs de Mac dépensent 20$ de plus par nuit d’hôtel que les utilisateurs Windows. ◦ 80% des voyagistes sur Internet utilisent Hadoop ◦ Ebay est un utilisateur massif  Ventes en ligne: Recommandations à l’usager ◦ Amazon, Facebook, LinkedIn  Entreposage Cloud ◦ Amazon a plus de 1000 PB de données (1 Exabyte) 5
  7. 7.  Banques: Détection de fraudes ◦ Morgan Stanley, Zion  Énergie: Recherche de nouveaux gisements, optimisation ◦ Chevron, Exxon, etc. ◦ Positionnement d’éoliennes ◦ Jeux de données multi PB  Vidéo: Analyse d’images ◦ Google Earth (70.5 TB – 2009) ◦ Skybox: analyse d’images satellite 6
  8. 8.  Besoin: conserver et traiter des données à l’échelle du PB ◦ Architecture distribuée ◦ Une grappe de 1000+ nœuds, MTBF < 1 jour ◦ Toujours de quoi de brisé!  Besoin: Entreposer des données résistant aux défaillances ◦ Haute disponibilité (availability) ◦ Matériel efficace qui gère les défaillances automatiquement  Besoin: Un framework logiciel résistant aux défaillances ◦ Certaines tâches peuvent prendre plusieurs jours 7
  9. 9.  La performance d’un CPU n’est pas importante ◦ Le débit total de la grappe est le facteur critique  Le matériel brise ◦ Impossible d’opérer une grappe de milliers de machines sans avoir des défaillances diverses (réseau, HDD, etc.)  Le matériel robuste est cher sans être parfait ◦ À très grande échelle, les bris sont inévitables. ◦ Pour un même prix, plus de travailleurs qui brisent plus souvent seront plus performant 8
  10. 10.  Choix actuels – Ou il y a 2 ans ◦ Investissement supers ordinateurs  nouvel achat / peut coûter plus que ça rapporte ◦ Perte de valeur  Couper dans les données  Couper sur le service  Couper sur la qualité de service Deux choix insatisfaisants 9
  11. 11. 10  Introduction au Big Data  ◦ Google et MapReduce ◦ Entrée en scène de Hadoop ◦ Avantages clefs  Détails techniques  Écosystème et principaux joueurs  Conclusion
  12. 12.  Confronté au problème en 2002-2003 ◦ Une petite compagnie de 5 ans, peu de moyens  Dean et Ghemawat conçoivent MapReduce: ◦ Librairie C++ ◦ Transforme des milliers de PC ordinaires en une grappe super robuste et performance ◦ Modèle de programmation simple et général ◦ Standardisation, évolutivité  Utilisé par: 11
  13. 13. 12
  14. 14.  2003 - 2004: Présentation de MapReduce et GFS à la communauté scientifique ◦ 19th ACM Symposium on Operating Systems Principles, NY, 2003 ◦ Sixth Symposium on Operating System Design and Implementation, San Francisco, 2004.  2004: Nutch et Doug Cutting ◦ Implémente MapReduce et GFS pour son projet Nutch  2006: Yahoo offre des ressources à Doug pour développer MapReduce 13 MapReduc e GFS
  15. 15.  Traitement à grande échelle et haute performance ◦ Peut évoluer de 10 nœuds à 10,000 nœuds ◦ Plus facile, gratuit, ouvert  Efficace ◦ Puissance de computation CPU, mémoire ◦ Stockage sur disques local  Nouveau ◦ De nouvelles fondations  Actuel ◦ Presque tous les leaders du web 2.0 ◦ La grande entreprise Fortune 500 14
  16. 16.  Une solution logicielle  Ratio coût-puissance intéressant  Évolutif ◦ On peut toujours ajouter des nœuds pour plus de capacités  Computation  Stockage  Général ◦ S’applique à une variété de problèmes utiles ◦ Programmation parallèle simplifiée  Pas de barrières pour commencer ◦ Pas de schéma ou de design requis. ◦ Charger des fichiers « raw » et lancer une applications 15
  17. 17. 16  Introduction au Big Data  Introduction à Hadoop  ◦ Traitement Distribué ◦ HDFS ◦ MapReduce  Écosystème et principaux joueurs  Conclusion
  18. 18. 17
  19. 19.  Excellente Capacité de montée en charge ◦ Fichiers fragmentés sur du matériel PC commun, efficace et peu dispendieux  Fiabilité automatisée ◦ Chaque bloc répliqué 3 fois, automatisé, balancement de charge ◦ Le maître (namenode) a une double (hot spare) 18
  20. 20.  Un modèle de programmation simple ◦ Généralisation de gabarits communs (patterns)  Idéal pour les problèmes « Embarrasingly Parallel » 19
  21. 21. 20
  22. 22. 21  Introduction au Big Data  Introduction à Hadoop  Détails techniques  Écosystème et principaux joueurs ◦ Principaux joueurs de l’industrie ◦ Qui utilise Hadoop aujourd’hui? ◦ L’écosystème Hadoop  Pig, Hive, Mahout, Oozie, sqoop, etc.  Conclusion
  23. 23. 22
  24. 24. 23
  25. 25. • Yahoo! – Supporter AdSystems et leur moteur de recherche Web • Linkedin – Prédictions pour “People You May Know” • New York Times – Archives des articles et images, conversion au format PDF • UNC Chapel Hill – Applications bioinformatique (séquençage génomique, etc.) • Visa – Détection de fraude • Autres: Amazon/A9, AOL, Baidu, Facebook, etc. 24
  26. 26.  Une communauté active en pleine croissance ◦ Plusieurs livres récents ◦ Support commercial disponible (Cloudera, Hortonworks, etc.) ◦ Un nombre croissant d’outils complémentaires 25
  27. 27.  Apache Hive: Infrastructure de Data Warehouse pour Hadoop ◦ Permet de faire des requêtes SQL  Traduire SQL → MapReduce ◦ Formats: texte, Hbase, etc. ◦ Permet d’utiliser des UDF ◦ Inventé par Facebook  HCatalog ◦ Répertoire de schéma et types partagé ◦ Permet l’interopérabilité entre Hive, Pig, MapReduce, etc. 26
  28. 28.  Développé à Yahoo Research en 2006  Pig Latin: le langage Pig  Créer et exécuter des tâches MapReduce de façon ad-hoc  Orienté « flot de données »  Haut niveau  Une approche plus « programmeur » que Hive ◦ Procédural mais déclaratif ◦ Extensible par UDF en Java ou python 27
  29. 29.  Une librairie Java pour l’apprentissage automatique (Machine Learning)  Implanté avec Apache Hadoop  Utilise la puissance d’une grappe Hadoop automatiquement!  Variété d’algorithmes de ML ◦ Recommendation ◦ Clustering ◦ Classification  Développement très actif ◦ État de l’art du domaine 28
  30. 30.  Sqoop ◦ Importe/exporte des données d’une BD automatiquement  RDBS ↔ HDFS ◦ Exemple: une application web/mySQL  Flume ◦ Collecter des données de sources et importer dans HDFS ◦ Logs, feed twitter, etc.  HBase ◦ Une base de donnée NoSQL (clef/valeur) ◦ Distribuée ◦ Sans limite pratique pour la taille des tables ◦ Intégration avec Hadoop 29
  31. 31.  Oozie ◦ Orchestrer des séquences de tâches MapReduce ◦ Tâches oozie: un graphe orienté acyclique d’actions ◦ Peut être lancée par des évènements ou à un certain temps  À l’ajout d’un fichier faire…  À tous les jours à 3h00AM faire…  Chukwa ◦ Système de collection de données distribué ◦ Opimiser Hadoop pour traiter des log ◦ Afficher, monitorer et analyser les fichiers log  Et bien d’autres… 30
  32. 32. 31  Introduction au Big Data  Introduction à Hadoop  Détails techniques  Écosystème et principaux joueurs  ◦ Hadoop est prêt pour la production ◦ Faiblesses de Hadoop ◦ En réponse aux faiblesses ◦ Hadoop: En pleine évolution ◦ Vos questions
  33. 33.  Pas un remplacement ◦ Rends possible l’impossible ◦ De nouvelles façon de tirer de la valeur  Économies ◦ Commencer petit, grandir avec les besoins ◦ Amazon Elastic MapReduce, Azure Hadoop  Flexible et général ◦ Pas de format, pas de schéma  Une technologie mature ◦ Utilisé par Google depuis 2003 ◦ Hadoop en développement depuis 5 ans ◦ Beaucoup d’outils et de librairies ◦ Intégré par les outils BI (Datameer, Pentaho, IBM, etc.) 32
  34. 34.  Hadoop ne remplace pas les BD traditionnelles ◦ Pas de garantie ACID  Pas tout à fait fiable à 100% ◦ Namenode: « Single point of failure »  Hadoop est lent ◦ Données non-indexées ◦ Coût élevé pour E/S des données et lancement de tâche ◦ Optimisation de performance difficile ◦ Optimisé pour traitement batch  Hadoop est difficile ◦ Un nouvel API à apprendre ◦ Peu d’outils de haut niveau, pas de GUI ◦ Pas pour les débutants, très difficile pour les analystes 33
  35. 35.  Utilisé de pair avec des BD ◦ Sqoop  Utilisé comme BD ◦ Hive très proche de SQL ◦ connecteurs JDBC disponibles ◦ Alternative NoSQL (Hbase) ◦ Hawq, une vrai BD qui roule sur Hadoop  Les distributions commerciales sont fiabilisées ◦ MapR, IBM, EMC, Cloudera, … Fujitsu BDPP  Nouvelles technologies de « Streaming » pour répondre aux requêtes ad-hoc  Utiliser Pig et Hive pour simplifier le développement ◦ C’est ce que Yahoo, Twitter et Facebook font! 34
  36. 36. 35

×