SlideShare une entreprise Scribd logo
1  sur  39
© Fujitsu Canada
Introduction aux concepts Big Data avec Hadoop
Mathieu Dumoulin – Programme Big Data du Centre d’Innovation Fujitsu
Hadoop et Big Data:
Un gros problème, une solution
éléphantesque!
© Fujitsu Canada
Objectifs
 Le Big Data - Problématique
 Une solution: Hadoop et MapReduce
 Vocabulaire et ecosystème
1
 Les enjeux
 Les principaux joueurs de l’industrie
© Fujitsu Canada
Plan de match
Introduction au Big Data
Introduction à Hadoop
Détails techniques
Écosystème et principaux joueurs
Conclusion
2
© Fujitsu Canada
Plan de match

Définition
Use Cases
Problèmes et Solution
Introduction à Hadoop
Détails techniques
Écosystème et principaux joueurs
Conclusion
3
© Fujitsu Canada
Définition du Big Data
 Big Data: Quand les données dépassent les capacités de la
BD conventionnelle. Une approche alternative devient
nécessaire pour en retirer de la valeur (Edd Dumbill – O’Reilly).
 « dépassent »? Les 3 V de Gartner
 Volume
 Vélocité
 Variété
 Valeur
 Véracité
4
© Fujitsu Canada
Big Data – Use Cases
 Google: Indexer le web
 850 TB en 2009, 100 PB en 2012
 Ventes en ligne: Analyse des ventes
 Orbitz a trouvé que les utilisateurs de Mac dépensent 20$ de plus par
nuit d’hôtel que les utilisateurs Windows.
 80% des voyagistes sur Internet utilisent Hadoop
 Ebay est un utilisateur massif
 Ventes en ligne: Recommandations à l’usager
 Amazon, Facebook, LinkedIn
 Entreposage Cloud
 Amazon a plus de 1000 PB de données (1 Exabyte)
5
© Fujitsu Canada
Big Data – Use Cases
 Banques: Détection de fraudes
 Morgan Stanley, Zion
 Énergie: Recherche de nouveaux gisements, optimisation
 Chevron, Exxon, etc.
 Positionnement d’éoliennes
 Jeux de données multi PB
 Vidéo: Analyse d’images
 Google Earth (70.5 TB – 2009)
 Skybox: analyse d’images satellite
6
© Fujitsu Canada
Big Data – Difficultés à grande échelle
 Besoin: conserver et traiter des données à l’échelle du PB
 Architecture distribuée
 Une grappe de 1000+ nœuds, MTBF < 1 jour
 Toujours de quoi de brisé!
 Besoin: Entreposer des données résistant aux défaillances
 Haute disponibilité (availability)
 Matériel efficace qui gère les défaillances automatiquement
 Besoin: Un framework logiciel résistant aux défaillances
 Certaines tâches peuvent prendre plusieurs jours
7
© Fujitsu Canada
Traiter des données à l’échelle du TB
 La performance d’un CPU n’est pas importante
 Le débit total de la grappe est le facteur critique
 Le matériel brise
 Impossible d’opérer une grappe de milliers de machines sans avoir des
défaillances diverses (réseau, HDD, etc.)
 Le matériel robuste est cher sans être parfait
 À très grande échelle, les bris sont inévitables.
 Pour un même prix, plus de travailleurs qui brisent plus souvent seront
plus performant
8
© Fujitsu Canada
Solutions Big Data
 Choix actuels – Ou il y a 2 ans
 Investissement supers ordinateurs
• nouvel achat / peut coûter plus que ça rapporte
 Perte de valeur
• Couper dans les données
• Couper sur le service
• Couper sur la qualité de service
 Deux choix insatisfaisants
9
© Fujitsu Canada
Plan de match
Introduction au Big Data

Google et MapReduce
Entrée en scène de Hadoop
Avantages clefs
Détails techniques
Écosystème et principaux joueurs
Conclusion
10
© Fujitsu Canada
La solution de Google: MapReduce
 Confronté au problème en 2002-2003
 Une petite compagnie de 5 ans, peu de moyens
 Dean et Ghemawat conçoivent MapReduce:
 Librairie C++
 Transforme des milliers de PC ordinaires en une grappe super robuste
et performance
 Modèle de programmation simple et général
 Standardisation, évolutivité
 Utilisé par:
11
© Fujitsu Canada
Problème…
12
© Fujitsu Canada
Heureusement
 2003 - 2004: Présentation de MapReduce et GFS à la
communauté scientifique
 19th ACM Symposium on Operating Systems Principles, NY, 2003
 Sixth Symposium on Operating System Design and Implementation, San Francisco, 2004.
 2004: Nutch et Doug Cutting
 Implémente MapReduce et GFS pour son projet Nutch
 2006: Yahoo offre des ressources à Doug pour développer
MapReduce
13
MapReduce
GFS
© Fujitsu Canada
Hadoop – Un nouveau paradigme
 Traitement à grande échelle et haute
performance
 Peut évoluer de 10 nœuds à 10,000 nœuds
 Plus facile, gratuit, ouvert
 Efficace
 Puissance de computation CPU, mémoire
 Stockage sur disques local
 Nouveau
 De nouvelles fondations
 Actuel
 Presque tous les leaders du web 2.0
 La grande entreprise Fortune 500
14
© Fujitsu Canada
Maintenant? Hadoop et Fujitsu à Québec
 Valcartier
 Plateforme Fujitsu BDPP
 Développement de capacité
15
© Fujitsu Canada
Les forces
 Une solution logicielle
 Ratio coût-puissance intéressant
 Évolutif
 On peut toujours ajouter des nœuds pour plus de
capacités
• Computation
• Stockage
 Général
 S’applique à une variété de problèmes utiles
 Programmation parallèle simplifiée
 Pas de barrières pour commencer
 Pas de schéma ou de design requis.
 Charger des fichiers « raw » et lancer une
applications
16
© Fujitsu Canada
Plan de match
Introduction au Big Data
Introduction à Hadoop

Traitement Distribué
HDFS
MapReduce
Écosystème et principaux joueurs
Conclusion
17
© Fujitsu Canada
Le matériel… de Future Shop?!
18
© Fujitsu Canada
 Excellente Capacité de montée en charge
 Fichiers fragmentés sur du matériel PC commun, efficace et peu dispendieux
 Fiabilité automatisée
 Chaque bloc répliqué 3 fois, automatisé, balancement de charge
 Le maître (namenode) a une double (hot spare)
19
© Fujitsu Canada
 Un modèle de programmation simple
 Généralisation de gabarits communs (patterns)
 Idéal pour les problèmes « Embarrasingly Parallel »
20
© Fujitsu Canada
MapReduce: Exemple
21
© Fujitsu Canada
Plan de match
Introduction au Big Data
Introduction à Hadoop
Détails techniques
Écosystème et principaux joueurs
Principaux joueurs de l’industrie
Qui utilise Hadoop aujourd’hui?
L’écosystème Hadoop
• Pig, Hive, Mahout, Oozie, sqoop, etc.
Conclusion
22
© Fujitsu Canada
Hadoop: les principaux joueurs
23
© Fujitsu Canada
Le monde Hadoop en 2012
24
© Fujitsu Canada
Hadoop est utilisé en production
25
• Yahoo! – Supporter AdSystems et leur moteur
de recherche Web
• Linkedin – Prédictions pour “People You May
Know”
• New York Times – Archives des articles et
images, conversion au format PDF
• UNC Chapel Hill – Applications bioinformatique
(séquençage génomique, etc.)
• Visa – Détection de fraude
• Autres: Amazon/A9, AOL, Baidu, Facebook, etc.
© Fujitsu Canada
L’écosystème Hadoop
 Une communauté active en pleine croissance
 Plusieurs livres récents
 Support commercial disponible (Cloudera, Hortonworks, etc.)
 Un nombre croissant d’outils complémentaires
26
© Fujitsu Canada
Hive et HCatalog
 Apache Hive: Infrastructure de Data
Warehouse pour Hadoop
 Permet de faire des requêtes SQL
• Traduire SQL → MapReduce
 Formats: texte, Hbase, etc.
 Permet d’utiliser des UDF
 Inventé par Facebook
 HCatalog
 Répertoire de schéma et types partagé
 Permet l’interopérabilité entre
Hive, Pig, MapReduce, etc.
27
© Fujitsu Canada
Apache Pig
 Développé à Yahoo Research en 2006
 Pig Latin: le langage Pig
 Créer et exécuter des tâches
MapReduce de façon ad-hoc
 Orienté « flot de données »
 Haut niveau
 Une approche plus « programmeur » que
Hive
 Procédural mais déclaratif
 Extensible par UDF en Java ou python
28
© Fujitsu Canada
Apache Mahout
 Une librairie Java pour l’apprentissage
automatique (Machine Learning)
 Implanté avec Apache Hadoop
 Utilise la puissance d’une grappe
Hadoop automatiquement!
 Variété d’algorithmes de ML
 Recommendation
 Clustering
 Classification
 Développement très actif
 État de l’art du domaine
• Latent Dirichlet
• Random Forest
29
© Fujitsu Canada
Autres outils 1/2
 Sqoop
 Importe/exporte des données d’une BD
automatiquement
• RDBS ↔ HDFS
 Exemple: une application web/mySQL
 Flume
 Collecter des données de sources et
importer dans HDFS
 Logs, feed twitter, etc.
 HBase
 Une base de donnée NoSQL (clef/valeur)
 Distribuée
 Sans limite pratique pour la taille des tables
 Intégration avec Hadoop
30
© Fujitsu Canada
Autres outils 2/2
 Oozie
 Orchestrer des séquences de tâches MapReduce
 Tâches oozie: un graphe orienté acyclique d’actions
 Peut être lancée par des évènements ou à un certain temps
• À l’ajout d’un fichier faire…
• À tous les jours à 3h00AM faire…
 Chukwa
 Système de collection de données distribué
 Opimiser Hadoop pour traiter des log
 Afficher, monitorer et analyser les fichiers log
 Et bien d’autres…
31
© Fujitsu Canada
Plan de match
Introduction au Big Data
Introduction à Hadoop
Détails techniques
Écosystème et principaux joueurs

Hadoop est prêt pour la production
Faiblesses de Hadoop
En réponse aux faiblesses
Hadoop: En pleine évolution
Vos questions
32
© Fujitsu Canada
Hadoop est prêt pour la production
 Pas un remplacement
 Rends possible l’impossible
 De nouvelles façon de tirer de la valeur
 Économies
 Commencer petit, grandir avec les besoins
 Amazon Elastic MapReduce, Azure Hadoop
 Flexible et général
 Pas de format, pas de schéma
 Une technologie mature
 Utilisé par Google depuis 2003
 Hadoop en développement depuis 5 ans
 Beaucoup d’outils et de librairies
 Intégré par les outils BI (Datameer, Pentaho, IBM, etc.)
33
© Fujitsu Canada
Faiblesse de Hadoop
 Hadoop ne remplace pas les BD traditionnelles
 Pas de garantie ACID
 Pas tout à fait fiable à 100%
 Namenode: « Single point of failure »
 Hadoop est lent
 Données non-indexées
 Coût élevé pour E/S des données et lancement de tâche
 Optimisation de performance difficile
 Optimisé pour traitement batch
 Hadoop est difficile
 Un nouvel API à apprendre
 Peu d’outils de haut niveau, pas de GUI
 Pas pour les débutants, très difficile pour les analystes
34
© Fujitsu Canada
En réponse aux faiblesses
 Utilisé de pair avec des BD
 Sqoop
 Utilisé comme BD
 Hive très proche de SQL
 connecteurs JDBC disponibles
 Alternative NoSQL (Hbase)
 Hawq, une vrai BD qui roule sur Hadoop
 Les distributions commerciales sont fiabilisées
 MapR, IBM, EMC, Cloudera, … Fujitsu BDPP
 Nouvelles technologies de « Streaming » pour répondre aux
requêtes ad-hoc
 Utiliser Pig et Hive pour simplifier le développement
 C’est ce que Yahoo, Twitter et Facebook font!
35
© Fujitsu Canada
Big Data = BI?
36
© Fujitsu Canada
Vos questions
37
Introduction à Hadoop

Contenu connexe

Tendances

Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
 
Hadoop and friends : introduction
Hadoop and friends : introductionHadoop and friends : introduction
Hadoop and friends : introductionfredcons
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Yongho Ha
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3Amal Abid
 
TP2 Big Data HBase
TP2 Big Data HBaseTP2 Big Data HBase
TP2 Big Data HBaseAmal Abid
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : SparkLilia Sfaxi
 
Presentation Hadoop Québec
Presentation Hadoop QuébecPresentation Hadoop Québec
Presentation Hadoop QuébecMathieu Dumoulin
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
Big Data: The 6 Key Skills Every Business Needs
Big Data: The 6 Key Skills Every Business NeedsBig Data: The 6 Key Skills Every Business Needs
Big Data: The 6 Key Skills Every Business NeedsBernard Marr
 
Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...
Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...
Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...Simplilearn
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 

Tendances (20)

Une Introduction à Hadoop
Une Introduction à HadoopUne Introduction à Hadoop
Une Introduction à Hadoop
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Hadoop and friends : introduction
Hadoop and friends : introductionHadoop and friends : introduction
Hadoop and friends : introduction
 
Une introduction à HBase
Une introduction à HBaseUne introduction à HBase
Une introduction à HBase
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
 
TP2 Big Data HBase
TP2 Big Data HBaseTP2 Big Data HBase
TP2 Big Data HBase
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
Presentation Hadoop Québec
Presentation Hadoop QuébecPresentation Hadoop Québec
Presentation Hadoop Québec
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
Introduction à HDFS
Introduction à HDFSIntroduction à HDFS
Introduction à HDFS
 
Hive ppt (1)
Hive ppt (1)Hive ppt (1)
Hive ppt (1)
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Big Data: The 6 Key Skills Every Business Needs
Big Data: The 6 Key Skills Every Business NeedsBig Data: The 6 Key Skills Every Business Needs
Big Data: The 6 Key Skills Every Business Needs
 
Hadoop
HadoopHadoop
Hadoop
 
Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...
Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...
Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Un introduction à Pig
Un introduction à PigUn introduction à Pig
Un introduction à Pig
 

En vedette

La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce Nour El Houda Megherbi
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
 
Les modèles NoSQL
Les modèles NoSQLLes modèles NoSQL
Les modèles NoSQLebiznext
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQLAntoine Augusti
 
Introduction to Cassandra (June 2010)
Introduction to Cassandra (June 2010)Introduction to Cassandra (June 2010)
Introduction to Cassandra (June 2010)gdusbabek
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataArrow Group
 
Enquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Enquête RegionsJob : emploi et réseaux sociaux, deuxième éditionEnquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Enquête RegionsJob : emploi et réseaux sociaux, deuxième éditionHelloWork
 
NoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationNoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationMicrosoft Technet France
 

En vedette (20)

Hadopp Vue d'ensemble
Hadopp Vue d'ensembleHadopp Vue d'ensemble
Hadopp Vue d'ensemble
 
Une introduction à Hive
Une introduction à HiveUne introduction à Hive
Une introduction à Hive
 
Opinion Mining
Opinion MiningOpinion Mining
Opinion Mining
 
Réseaux de neurones
Réseaux de neurones Réseaux de neurones
Réseaux de neurones
 
Data Mining
Data MiningData Mining
Data Mining
 
Opinion Mining
Opinion Mining Opinion Mining
Opinion Mining
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce
 
Les systèmes intelligents
Les systèmes intelligentsLes systèmes intelligents
Les systèmes intelligents
 
La détection des spam
La détection des spamLa détection des spam
La détection des spam
 
Web sémantique
Web sémantique Web sémantique
Web sémantique
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
 
NoSQL et Big Data
NoSQL et Big DataNoSQL et Big Data
NoSQL et Big Data
 
Les modèles NoSQL
Les modèles NoSQLLes modèles NoSQL
Les modèles NoSQL
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
 
Introduction to Cassandra (June 2010)
Introduction to Cassandra (June 2010)Introduction to Cassandra (June 2010)
Introduction to Cassandra (June 2010)
 
NoSQL: Introducción a las Bases de Datos no estructuradas
NoSQL: Introducción a las Bases de Datos no estructuradasNoSQL: Introducción a las Bases de Datos no estructuradas
NoSQL: Introducción a las Bases de Datos no estructuradas
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
 
NoSQL databases
NoSQL databasesNoSQL databases
NoSQL databases
 
Enquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Enquête RegionsJob : emploi et réseaux sociaux, deuxième éditionEnquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Enquête RegionsJob : emploi et réseaux sociaux, deuxième édition
 
NoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationNoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisation
 

Similaire à Introduction à Hadoop

Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopJoseph Glorieux
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016Julien BLAIZE
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfMissaouiWissal
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfAhmedToujani1
 
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...OCTO Technology
 
Morning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMorning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMongoDB
 
MapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMathieu Dumoulin
 
HDInsight : Hadoop en environnement Microsoft
HDInsight : Hadoop en environnement MicrosoftHDInsight : Hadoop en environnement Microsoft
HDInsight : Hadoop en environnement MicrosoftMicrosoft Technet France
 
Alphorm.com Formation Big Data & Hadoop : Le Guide Complet
Alphorm.com Formation Big Data & Hadoop : Le Guide CompletAlphorm.com Formation Big Data & Hadoop : Le Guide Complet
Alphorm.com Formation Big Data & Hadoop : Le Guide CompletAlphorm
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solutionJEMLI Fathi
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Microsoft Décideurs IT
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic
 
Morning With MongoDB
Morning With MongoDBMorning With MongoDB
Morning With MongoDBFastConnect
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologyImad ALILAT
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinPALO IT
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !OCTO Technology
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 

Similaire à Introduction à Hadoop (20)

Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdf
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdf
 
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
 
Morning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMorning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast Connect
 
MapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifié
 
BigData on change d'ère !
BigData on change d'ère ! BigData on change d'ère !
BigData on change d'ère !
 
HDInsight : Hadoop en environnement Microsoft
HDInsight : Hadoop en environnement MicrosoftHDInsight : Hadoop en environnement Microsoft
HDInsight : Hadoop en environnement Microsoft
 
Alphorm.com Formation Big Data & Hadoop : Le Guide Complet
Alphorm.com Formation Big Data & Hadoop : Le Guide CompletAlphorm.com Formation Big Data & Hadoop : Le Guide Complet
Alphorm.com Formation Big Data & Hadoop : Le Guide Complet
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solution
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
Morning With MongoDB
Morning With MongoDBMorning With MongoDB
Morning With MongoDB
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foin
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Afterwork hadoop
Afterwork hadoopAfterwork hadoop
Afterwork hadoop
 

Plus de Mathieu Dumoulin

Converged and Containerized Distributed Deep Learning With TensorFlow and Kub...
Converged and Containerized Distributed Deep Learning With TensorFlow and Kub...Converged and Containerized Distributed Deep Learning With TensorFlow and Kub...
Converged and Containerized Distributed Deep Learning With TensorFlow and Kub...Mathieu Dumoulin
 
State of the Art Robot Predictive Maintenance with Real-time Sensor Data
State of the Art Robot Predictive Maintenance with Real-time Sensor DataState of the Art Robot Predictive Maintenance with Real-time Sensor Data
State of the Art Robot Predictive Maintenance with Real-time Sensor DataMathieu Dumoulin
 
MapR and Machine Learning Primer
MapR and Machine Learning PrimerMapR and Machine Learning Primer
MapR and Machine Learning PrimerMathieu Dumoulin
 
CEP - simplified streaming architecture - Strata Singapore 2016
CEP - simplified streaming architecture - Strata Singapore 2016CEP - simplified streaming architecture - Strata Singapore 2016
CEP - simplified streaming architecture - Strata Singapore 2016Mathieu Dumoulin
 
Streaming Architecture to Connect Everything (Including Hybrid Cloud) - Strat...
Streaming Architecture to Connect Everything (Including Hybrid Cloud) - Strat...Streaming Architecture to Connect Everything (Including Hybrid Cloud) - Strat...
Streaming Architecture to Connect Everything (Including Hybrid Cloud) - Strat...Mathieu Dumoulin
 
Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...
Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...
Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...Mathieu Dumoulin
 
Distributed Deep Learning on Spark
Distributed Deep Learning on SparkDistributed Deep Learning on Spark
Distributed Deep Learning on SparkMathieu Dumoulin
 
Real world machine learning with Java for Fumankaitori.com
Real world machine learning with Java for Fumankaitori.comReal world machine learning with Java for Fumankaitori.com
Real world machine learning with Java for Fumankaitori.comMathieu Dumoulin
 
Introduction aux algorithmes map reduce
Introduction aux algorithmes map reduceIntroduction aux algorithmes map reduce
Introduction aux algorithmes map reduceMathieu Dumoulin
 

Plus de Mathieu Dumoulin (9)

Converged and Containerized Distributed Deep Learning With TensorFlow and Kub...
Converged and Containerized Distributed Deep Learning With TensorFlow and Kub...Converged and Containerized Distributed Deep Learning With TensorFlow and Kub...
Converged and Containerized Distributed Deep Learning With TensorFlow and Kub...
 
State of the Art Robot Predictive Maintenance with Real-time Sensor Data
State of the Art Robot Predictive Maintenance with Real-time Sensor DataState of the Art Robot Predictive Maintenance with Real-time Sensor Data
State of the Art Robot Predictive Maintenance with Real-time Sensor Data
 
MapR and Machine Learning Primer
MapR and Machine Learning PrimerMapR and Machine Learning Primer
MapR and Machine Learning Primer
 
CEP - simplified streaming architecture - Strata Singapore 2016
CEP - simplified streaming architecture - Strata Singapore 2016CEP - simplified streaming architecture - Strata Singapore 2016
CEP - simplified streaming architecture - Strata Singapore 2016
 
Streaming Architecture to Connect Everything (Including Hybrid Cloud) - Strat...
Streaming Architecture to Connect Everything (Including Hybrid Cloud) - Strat...Streaming Architecture to Connect Everything (Including Hybrid Cloud) - Strat...
Streaming Architecture to Connect Everything (Including Hybrid Cloud) - Strat...
 
Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...
Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...
Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...
 
Distributed Deep Learning on Spark
Distributed Deep Learning on SparkDistributed Deep Learning on Spark
Distributed Deep Learning on Spark
 
Real world machine learning with Java for Fumankaitori.com
Real world machine learning with Java for Fumankaitori.comReal world machine learning with Java for Fumankaitori.com
Real world machine learning with Java for Fumankaitori.com
 
Introduction aux algorithmes map reduce
Introduction aux algorithmes map reduceIntroduction aux algorithmes map reduce
Introduction aux algorithmes map reduce
 

Introduction à Hadoop

  • 1. © Fujitsu Canada Introduction aux concepts Big Data avec Hadoop Mathieu Dumoulin – Programme Big Data du Centre d’Innovation Fujitsu Hadoop et Big Data: Un gros problème, une solution éléphantesque!
  • 2. © Fujitsu Canada Objectifs  Le Big Data - Problématique  Une solution: Hadoop et MapReduce  Vocabulaire et ecosystème 1  Les enjeux  Les principaux joueurs de l’industrie
  • 3. © Fujitsu Canada Plan de match Introduction au Big Data Introduction à Hadoop Détails techniques Écosystème et principaux joueurs Conclusion 2
  • 4. © Fujitsu Canada Plan de match  Définition Use Cases Problèmes et Solution Introduction à Hadoop Détails techniques Écosystème et principaux joueurs Conclusion 3
  • 5. © Fujitsu Canada Définition du Big Data  Big Data: Quand les données dépassent les capacités de la BD conventionnelle. Une approche alternative devient nécessaire pour en retirer de la valeur (Edd Dumbill – O’Reilly).  « dépassent »? Les 3 V de Gartner  Volume  Vélocité  Variété  Valeur  Véracité 4
  • 6. © Fujitsu Canada Big Data – Use Cases  Google: Indexer le web  850 TB en 2009, 100 PB en 2012  Ventes en ligne: Analyse des ventes  Orbitz a trouvé que les utilisateurs de Mac dépensent 20$ de plus par nuit d’hôtel que les utilisateurs Windows.  80% des voyagistes sur Internet utilisent Hadoop  Ebay est un utilisateur massif  Ventes en ligne: Recommandations à l’usager  Amazon, Facebook, LinkedIn  Entreposage Cloud  Amazon a plus de 1000 PB de données (1 Exabyte) 5
  • 7. © Fujitsu Canada Big Data – Use Cases  Banques: Détection de fraudes  Morgan Stanley, Zion  Énergie: Recherche de nouveaux gisements, optimisation  Chevron, Exxon, etc.  Positionnement d’éoliennes  Jeux de données multi PB  Vidéo: Analyse d’images  Google Earth (70.5 TB – 2009)  Skybox: analyse d’images satellite 6
  • 8. © Fujitsu Canada Big Data – Difficultés à grande échelle  Besoin: conserver et traiter des données à l’échelle du PB  Architecture distribuée  Une grappe de 1000+ nœuds, MTBF < 1 jour  Toujours de quoi de brisé!  Besoin: Entreposer des données résistant aux défaillances  Haute disponibilité (availability)  Matériel efficace qui gère les défaillances automatiquement  Besoin: Un framework logiciel résistant aux défaillances  Certaines tâches peuvent prendre plusieurs jours 7
  • 9. © Fujitsu Canada Traiter des données à l’échelle du TB  La performance d’un CPU n’est pas importante  Le débit total de la grappe est le facteur critique  Le matériel brise  Impossible d’opérer une grappe de milliers de machines sans avoir des défaillances diverses (réseau, HDD, etc.)  Le matériel robuste est cher sans être parfait  À très grande échelle, les bris sont inévitables.  Pour un même prix, plus de travailleurs qui brisent plus souvent seront plus performant 8
  • 10. © Fujitsu Canada Solutions Big Data  Choix actuels – Ou il y a 2 ans  Investissement supers ordinateurs • nouvel achat / peut coûter plus que ça rapporte  Perte de valeur • Couper dans les données • Couper sur le service • Couper sur la qualité de service  Deux choix insatisfaisants 9
  • 11. © Fujitsu Canada Plan de match Introduction au Big Data  Google et MapReduce Entrée en scène de Hadoop Avantages clefs Détails techniques Écosystème et principaux joueurs Conclusion 10
  • 12. © Fujitsu Canada La solution de Google: MapReduce  Confronté au problème en 2002-2003  Une petite compagnie de 5 ans, peu de moyens  Dean et Ghemawat conçoivent MapReduce:  Librairie C++  Transforme des milliers de PC ordinaires en une grappe super robuste et performance  Modèle de programmation simple et général  Standardisation, évolutivité  Utilisé par: 11
  • 14. © Fujitsu Canada Heureusement  2003 - 2004: Présentation de MapReduce et GFS à la communauté scientifique  19th ACM Symposium on Operating Systems Principles, NY, 2003  Sixth Symposium on Operating System Design and Implementation, San Francisco, 2004.  2004: Nutch et Doug Cutting  Implémente MapReduce et GFS pour son projet Nutch  2006: Yahoo offre des ressources à Doug pour développer MapReduce 13 MapReduce GFS
  • 15. © Fujitsu Canada Hadoop – Un nouveau paradigme  Traitement à grande échelle et haute performance  Peut évoluer de 10 nœuds à 10,000 nœuds  Plus facile, gratuit, ouvert  Efficace  Puissance de computation CPU, mémoire  Stockage sur disques local  Nouveau  De nouvelles fondations  Actuel  Presque tous les leaders du web 2.0  La grande entreprise Fortune 500 14
  • 16. © Fujitsu Canada Maintenant? Hadoop et Fujitsu à Québec  Valcartier  Plateforme Fujitsu BDPP  Développement de capacité 15
  • 17. © Fujitsu Canada Les forces  Une solution logicielle  Ratio coût-puissance intéressant  Évolutif  On peut toujours ajouter des nœuds pour plus de capacités • Computation • Stockage  Général  S’applique à une variété de problèmes utiles  Programmation parallèle simplifiée  Pas de barrières pour commencer  Pas de schéma ou de design requis.  Charger des fichiers « raw » et lancer une applications 16
  • 18. © Fujitsu Canada Plan de match Introduction au Big Data Introduction à Hadoop  Traitement Distribué HDFS MapReduce Écosystème et principaux joueurs Conclusion 17
  • 19. © Fujitsu Canada Le matériel… de Future Shop?! 18
  • 20. © Fujitsu Canada  Excellente Capacité de montée en charge  Fichiers fragmentés sur du matériel PC commun, efficace et peu dispendieux  Fiabilité automatisée  Chaque bloc répliqué 3 fois, automatisé, balancement de charge  Le maître (namenode) a une double (hot spare) 19
  • 21. © Fujitsu Canada  Un modèle de programmation simple  Généralisation de gabarits communs (patterns)  Idéal pour les problèmes « Embarrasingly Parallel » 20
  • 23. © Fujitsu Canada Plan de match Introduction au Big Data Introduction à Hadoop Détails techniques Écosystème et principaux joueurs Principaux joueurs de l’industrie Qui utilise Hadoop aujourd’hui? L’écosystème Hadoop • Pig, Hive, Mahout, Oozie, sqoop, etc. Conclusion 22
  • 24. © Fujitsu Canada Hadoop: les principaux joueurs 23
  • 25. © Fujitsu Canada Le monde Hadoop en 2012 24
  • 26. © Fujitsu Canada Hadoop est utilisé en production 25 • Yahoo! – Supporter AdSystems et leur moteur de recherche Web • Linkedin – Prédictions pour “People You May Know” • New York Times – Archives des articles et images, conversion au format PDF • UNC Chapel Hill – Applications bioinformatique (séquençage génomique, etc.) • Visa – Détection de fraude • Autres: Amazon/A9, AOL, Baidu, Facebook, etc.
  • 27. © Fujitsu Canada L’écosystème Hadoop  Une communauté active en pleine croissance  Plusieurs livres récents  Support commercial disponible (Cloudera, Hortonworks, etc.)  Un nombre croissant d’outils complémentaires 26
  • 28. © Fujitsu Canada Hive et HCatalog  Apache Hive: Infrastructure de Data Warehouse pour Hadoop  Permet de faire des requêtes SQL • Traduire SQL → MapReduce  Formats: texte, Hbase, etc.  Permet d’utiliser des UDF  Inventé par Facebook  HCatalog  Répertoire de schéma et types partagé  Permet l’interopérabilité entre Hive, Pig, MapReduce, etc. 27
  • 29. © Fujitsu Canada Apache Pig  Développé à Yahoo Research en 2006  Pig Latin: le langage Pig  Créer et exécuter des tâches MapReduce de façon ad-hoc  Orienté « flot de données »  Haut niveau  Une approche plus « programmeur » que Hive  Procédural mais déclaratif  Extensible par UDF en Java ou python 28
  • 30. © Fujitsu Canada Apache Mahout  Une librairie Java pour l’apprentissage automatique (Machine Learning)  Implanté avec Apache Hadoop  Utilise la puissance d’une grappe Hadoop automatiquement!  Variété d’algorithmes de ML  Recommendation  Clustering  Classification  Développement très actif  État de l’art du domaine • Latent Dirichlet • Random Forest 29
  • 31. © Fujitsu Canada Autres outils 1/2  Sqoop  Importe/exporte des données d’une BD automatiquement • RDBS ↔ HDFS  Exemple: une application web/mySQL  Flume  Collecter des données de sources et importer dans HDFS  Logs, feed twitter, etc.  HBase  Une base de donnée NoSQL (clef/valeur)  Distribuée  Sans limite pratique pour la taille des tables  Intégration avec Hadoop 30
  • 32. © Fujitsu Canada Autres outils 2/2  Oozie  Orchestrer des séquences de tâches MapReduce  Tâches oozie: un graphe orienté acyclique d’actions  Peut être lancée par des évènements ou à un certain temps • À l’ajout d’un fichier faire… • À tous les jours à 3h00AM faire…  Chukwa  Système de collection de données distribué  Opimiser Hadoop pour traiter des log  Afficher, monitorer et analyser les fichiers log  Et bien d’autres… 31
  • 33. © Fujitsu Canada Plan de match Introduction au Big Data Introduction à Hadoop Détails techniques Écosystème et principaux joueurs  Hadoop est prêt pour la production Faiblesses de Hadoop En réponse aux faiblesses Hadoop: En pleine évolution Vos questions 32
  • 34. © Fujitsu Canada Hadoop est prêt pour la production  Pas un remplacement  Rends possible l’impossible  De nouvelles façon de tirer de la valeur  Économies  Commencer petit, grandir avec les besoins  Amazon Elastic MapReduce, Azure Hadoop  Flexible et général  Pas de format, pas de schéma  Une technologie mature  Utilisé par Google depuis 2003  Hadoop en développement depuis 5 ans  Beaucoup d’outils et de librairies  Intégré par les outils BI (Datameer, Pentaho, IBM, etc.) 33
  • 35. © Fujitsu Canada Faiblesse de Hadoop  Hadoop ne remplace pas les BD traditionnelles  Pas de garantie ACID  Pas tout à fait fiable à 100%  Namenode: « Single point of failure »  Hadoop est lent  Données non-indexées  Coût élevé pour E/S des données et lancement de tâche  Optimisation de performance difficile  Optimisé pour traitement batch  Hadoop est difficile  Un nouvel API à apprendre  Peu d’outils de haut niveau, pas de GUI  Pas pour les débutants, très difficile pour les analystes 34
  • 36. © Fujitsu Canada En réponse aux faiblesses  Utilisé de pair avec des BD  Sqoop  Utilisé comme BD  Hive très proche de SQL  connecteurs JDBC disponibles  Alternative NoSQL (Hbase)  Hawq, une vrai BD qui roule sur Hadoop  Les distributions commerciales sont fiabilisées  MapR, IBM, EMC, Cloudera, … Fujitsu BDPP  Nouvelles technologies de « Streaming » pour répondre aux requêtes ad-hoc  Utiliser Pig et Hive pour simplifier le développement  C’est ce que Yahoo, Twitter et Facebook font! 35
  • 37. © Fujitsu Canada Big Data = BI? 36
  • 38. © Fujitsu Canada Vos questions 37