SlideShare une entreprise Scribd logo
CCT SIL 30 Juin 2017
Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Big Data, Hadoop & Spark
Alexia Audevart
Data & Enthusiasm
@aaudevart
Big Data & son écosystème
• Introduction
• Ecosystème
• Data Lake
• Cas d’utilisation
Hadoop
Spark
Conclusion & Questions
1
2
3
4
SOMMAIRE
5	exaoctets
(1	exaoctet =	1	million	teraoctet)
L’ÉVOLUTION DES DONNÉES
Internet
1sec
<
Réseaux
sociaux
Internet
des	objets
* Digital Universe Study by IDC, 2012.
Big Data, Hadoop & Spark
Traiter différentes VARIETES de données :
• Structurées
• Semi-structurées
• Non structurées
Traiter de gros VOLUMES de données :
• Plus de capacité de stockage
• Plus de puissance de calcul
Traiter les données plus rapidement (VELOCITE) :
• Fréquence plus importante de création, collecte et partage des données
• Quasi temps réel / Temps réel
Les challenges du Big Data
… des nouvelles technologies
et des outils pour exploiter et
analyser ces données
Une variété de sources de
données…
… et des outils & technologies
pour les visualiser et les
utiliser
Calculators, Storage... Big Analytics
Visualisation InterfacesPlatforms & Apps
Internal & External
QUE SE CACHE DERRIÈRE
LE BUZZWORD BIG DATA ?
Le BIG DATA n’est pas une technologie
Mais la capacité de collecter, stocker, traiter, valoriser,
rapidement à moindre coût de gros volumes de données
où la taille unitaire d’une donnée est insignifiante.
DÉFINITION DU BIG DATA
Big Data & son écosystème
• Introduction
• Ecosystème
• Data Lake
• Cas d’utilisation
Hadoop
Spark
Conclusion & Questions
1
2
3
4
SOMMAIRE
L’ÉCOSYSTÈME BIG DATA
Hadoop
L’ÉCOSYSTÈME BIG DATA
Bases	NoSQL
L’ÉCOSYSTÈME BIG DATA
Moteurs	de	recherche	&	
Analyse	de	logs
L’ÉCOSYSTÈME BIG DATA
Data	Visualisation	+	BI
L’ÉCOSYSTÈME BIG DATA
Data	Science	
Machine	Learning
L’ÉCOSYSTÈME BIG DATA
Big Data & son écosystème
• Introduction
• Ecosystème
• Data Lake
• Cas d’utilisation
Hadoop
Spark
Conclusion & Questions
1
2
3
4
SOMMAIRE
Process-centric
• Données structurées
• Données venant de sources Internes
• Données “importantes” uniquement
• Multiple copies des Données
Data-centric
• Données de tous types (structurées, semi-
structurées, non-structurées)
• Données venant de multiple sources de données
(interne & externe)
Data
App
App
App
App
App
App
Data
Data
Data
Data
VERS UNE NOUVELLE GESTION DES DONNÉES
DATA LAKE
Analyzed Data
Structured Data
Unstructured Data
Reservoir data
Run Analytics
Business Insights
DATA LAKE
Data Sources
Internal DataSources External DataSources
Data Usage
Access Layer
Usage
AnalyticsAPI / Drivers
Data
Exploration
Search
DataSecurity&Governance
Orchestration
Administatration
Staging Data
Unstructured DataSemi-structured DataStructured Data
Foundation Data
Processed Data
Storage
Processing
Searching Data
Crossing /
Cleaning Data
Machine
Learning
Data Acquisition
Ingestion Streaming
Event ProcessingData Loader Data Capture
Big Data & son écosystème
• Introduction
• Ecosystème
• Data Lake
• Cas d’utilisation
Hadoop
Spark
Conclusion & Questions
1
2
3
4
SOMMAIRE
Réduction des couts :
• Archivage
• Déchargement d’entrepôt de données
• ETL (Extract-Transform-Load)
• Fail-Over
Elargir le champs des possibles :
• Analyser et tirer de la valeur des données de l’entreprise
• Analyser des données exogènes de l’entreprise et les corréler avec des données
internes
QUELQUES CAS D’UTILISATION
2
1
QUELQUES CAS D’UTILISATION
Big Data & son écosystème
Hadoop
• Introduction
• Composants Primaires
• Écosystème
• Distributions
Spark
Conclusion & Questions
1
2
3
4
SOMMAIRE
INTRODUCTION A HADOOP
Framework OpenSource Apache Hadoop
• stocker et traiter de grands ensembles de données
• de façon distribuée (Cluster)
• sur du matériel standard
Composé de nombreux projets Apache Software Foundation
• Répondant à une fonctionnalité bien précise
• Associés à leur propre communauté de développeurs
• Possèdent leur propre cycle de développement
INTRODUCTION A HADOOP
Le projet Hadoop consiste en deux grandes parties :
• Stockage des données: HDFS (Hadoop Distributed File System)
• Traitement des données: Map Reduce
Principe
• Diviser et sauvegarder les données sur un cluster
• Traiter les données directement là où elles sont stockées
• Scalabilité : possibilité d’ajouter/retirer des machines au cluster
CLUSTER HADOOP
Cluster Hadoop
• Ensemble de machines : serveurs d’entrée de gamme (commodités)
• Système « Shared Nothing » : Le seul élément partagé est le réseau qui
connecte les machines
• Une machine est appelé un « Node »
Un cluster est composé de :
• Master Nodes
• Gèrent l’infrastructure
• Worker/Slave Nodes
• Contiennent les données distribuées
• Exécutent les traitements sur les données.
L’HISTOIRE D’HADOOP
Hadoop	
1.0
Hadoop	
2.0
Hadoop	
3.0
2002 2003 2004 2005 2006 2007 2008 2009 2011 2013 2014 2015 20162010 2012 2017 2018
QUIZZ!!!
Pourquoi le nom Hadoop ?
Pourquoi le nom Lucène ?
Nom de la peluche du fils de Doug Cutting
Deuxième nom de sa femme & Prénom de sa grand-mère
Big Data & son écosystème
Hadoop
• Introduction
• Composants Primaires
• Écosystème
• Distributions
Spark
Conclusion & Questions
SOMMAIRE
1
2
3
4
HDFS
HDFS est un système de fichiers distribué, extensible et portable.
• Ecrit en Java
• Permet de stocker de très gros volumes de données (données structurés ou
non) au sein d’un Cluster
Les données sont découpées et distribuées dans un cluster Hadoop :
• Block Size : par défaut 128 Mo
• Réplication Factor : nombre de copies d’une donnée (par défaut 3 : 1
primaire et 2 secondaires)
Dans HDFS, les données sont de type « write-once »
HDFS
bloc_1	->	128Mo
bloc_2	->	128	Mo
bloc_3	->	64	Mo
Fichier	(320	Mo)
HDFS
NameNode : Responsable de la localisation des données
• Démon s’exécutant sur une machine séparée
• Contient des méta-données
• Permet de retrouver les nœuds qui exécutent les blocs d’un fichier
• NameNode est dupliqué, non seulement sur son propre disque, mais également
quelque part sur le système de fichiers du réseau (Secondary NameNode).
DataNode : Stocke et restitue les blocs de données
• Démon sur chaque nœud du cluster
MAP REDUCE
Map Reduce :
• Concept issu des langages fonctionnels
• Utilisé par Google pour son outil de recherche Web
• Co-localiser les données & les traitements
• Parallélisation automatique des programmes Hadoop
-> Gestion transparente du mode distribué
• Traitement rapide des données volumineuses
• Fault Tolerant : Tolérance aux pannes basée sur la réplication
MAP REDUCE : WORD COUNT
MAP REDUCE : WORD COUNT
MAP REDUCE
• Composé de Mappers
• Fonctionnant en parallèle
• Stockage sur disque des données en entrée et sortie
• Sorties des Mappers = enregistrements intermédiaires sous forme d’un
couple (clef, valeur)
Map: Décomposition d’une tache en un ensemble de tache plus petite produisant
un sous ensemble du résultat final
MAP REDUCE : WORD COUNT
MAP REDUCE
Shuffle & Sort : Mélange et Tri
• Tri par clef des données intermédiaires.
• Envoi des données ayant la même clef vers un seul et même reducer.
MAP REDUCE : WORD COUNT
MAP REDUCE
Reduce:
• Consolide (agrégation, filtre) les résultats issus du Mapper.
• Génère les résultats finaux et les écrit sur disque.
MAP REDUCE : WORD COUNT
MAP REDUCE : WORD COUNT
YARN
Yet-Another-Resource-Negotiator
Intégré à Hadoop depuis la v2
YARN apporte une séparation entre :
• Gestion de l’état du cluster et des ressources.
• Gestion de l’exécution des jobs.
Big Data & son écosystème
Hadoop
• Introduction
• Composants Primaires
• Écosystème
• Distributions
Spark
Conclusion & Questions
SOMMAIRE
1
2
3
4
LANGAGE DE REQUÊTAGE
• Au dessus du MapReduce
- Pig
‣ Langage de script
‣ Développé par Yahoo
- Hive : requêtes SQL
‣ HiveQL : langage SQL – Select only
‣ Créé à l’origine par Facebook
• SQL-on-Hadoop : Impala & Drill
- Extraction des données directement à partir de HDFS avec SQL
- Optimisé pour les requêtes à faible latence
- Requêtes très performantes
BASE NOSQL
HBase
• Base de données NoSQL orientée colonnes
• Distribuée : basée sur Hadoop et HDFS
(Inspirée des publications de Google sur BigTable)
ECOSYSTEME HADOOP : CONNEXION A HDFS
Sqoop
• Import des données d’une base de données traditionnelle dans HDFS.
• Développé par Cloudera
Flume
• Collecte d’un ensemble de données (des logs) à partir de plusieurs
sources vers HDFS
• Développé par Cloudera
ECOSYSTEME HADOOP
Hue
• Front-end graphique pour le cluster
• Fournit
- Un navigateur pour HDFS et HBase
- Des éditeurs pour Hive, Pig, Impala et Sqoop
Oozie
• Outil de gestion de workflow
• Gère et coordonne les jobs Hadoop
Mahout
• Bibliothèque d’implémentation d’algorithmes d’apprentissage
automatique et de datamining
ECOSYSTEME HADOOP
Big Data & son écosystème
Hadoop
• Introduction
• Composants Primaires
• Écosystème
• Distributions
Spark
Conclusion & Questions
SOMMAIRE
1
2
3
4
LES DISTRIBUTIONS D’HADOOP
• Apache HadoopOpen Source
• Cloudera
• Hortonworks
• MapR
Pure Players
• Pivotal Greenplum (HDP)
• IBM InfoSphere BigInsights (CDH)
• Oracle Big data appliance (CDH)
Software Publishers
• Amazon Elastic MapReduce (Amazon & MapR)
• Microsoft Azure HDInsight (HW)
• Google Cloud Dataproc
Public Cloud
LES DISTRIBUTIONS D’HADOOP: HORTONWORKS
LES DISTRIBUTIONS D’HADOOP: CLOUDERA
LES DISTRIBUTIONS D’HADOOP: MAPR
Big Data & son écosystème
Hadoop
Spark
Conclusion & Questions
1
2
3
4
SOMMAIRE
HISTORIQUE DE SPARK
• Développé par AMPLab, de l’Université UC Berkeley, en 2009
• Passé OpenSource en 2010 sous forme de projet Apache
• Release 1.0 – Mai 2014
• Release 2.0 – mi 2016
• Juin 2013 : Top Apache Project (Apache Spark)
• Extension du modèle MapReduce (plus performant, in-memory)
SPARK VS MAP-REDUCE
Alternative in-memory plus rapide que MapReduce de Hadoop
(100 x plus rapide en mémoire & 10 x plus vite sur disque)
INTRODUCTION À SPARK
Framework généraliste / API en Scala, Java, Python et R
Ecosystème riche (SparkSQL, Spark Streaming, MLlib, GraphX)
RDD
Resilient Distributed DataSet
• Collection d’objets distribués
• Structure de donnée Immutable
• In memory par défaut
• Manipulés par des opérateurs :
transformations / actions
• Tolérants aux pannes : un RDD sait comment recréer et recalculer son ensemble de
données
PLAN D’EXÉCUTION DE SPARK
• Les taches sont les unités fondamentales d’exécution
• Les stages
• ensemble de taches qui peuvent être exécutés en parallèles
• ensemble de séquences de RDD sans Shuffle (tri par clé)
• Le shuffle est appliqué entre les stages
ÉXECUTION DE SPARK
Big Data & son écosystème
Hadoop
Spark
Conclusion & Questions
1
2
3
4
SOMMAIRE
CONCLUSION
Constat
• Hadoop a grandi avec les géants du web
• Écosystème très riche avec éclosion de nouvelles technologies
• Marché dynamisé par l’open source & les startups
Nouveaux challenges
• Les distributions vs Hadoop-as-a-Service
• La gouvernance des données et la sécurité
• Démocratisation des outils Machine Learning

Contenu connexe

Tendances

BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
Lilia Sfaxi
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4J
Lilia Sfaxi
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
Lilia Sfaxi
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
Amal Abid
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
Amal Abid
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduce
Amal Abid
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
Lilia Sfaxi
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)
Alexis Seigneurin
 
Apache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantApache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performant
ALTIC Altic
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
Lilia Sfaxi
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
Amal Abid
 
Spark RDD : Transformations & Actions
Spark RDD : Transformations & ActionsSpark RDD : Transformations & Actions
Spark RDD : Transformations & Actions
MICHRAFY MUSTAFA
 
Présentation Docker
Présentation DockerPrésentation Docker
Présentation Docker
Colin LEVERGER
 
Modélisation de données pour MongoDB
Modélisation de données pour MongoDBModélisation de données pour MongoDB
Modélisation de données pour MongoDB
MongoDB
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
Minyar Sassi Hidri
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
Mouna Torjmen
 
Spark, ou comment traiter des données à la vitesse de l'éclair
Spark, ou comment traiter des données à la vitesse de l'éclairSpark, ou comment traiter des données à la vitesse de l'éclair
Spark, ou comment traiter des données à la vitesse de l'éclair
Alexis Seigneurin
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big data
Abdelghani Azri
 
PFE BI - INPT
PFE BI - INPTPFE BI - INPT
PFE BI - INPT
riyadadva
 
BI : Analyse des Données avec Mondrian
BI : Analyse des Données avec Mondrian BI : Analyse des Données avec Mondrian
BI : Analyse des Données avec Mondrian
Lilia Sfaxi
 

Tendances (20)

BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4J
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduce
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)
 
Apache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantApache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performant
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Spark RDD : Transformations & Actions
Spark RDD : Transformations & ActionsSpark RDD : Transformations & Actions
Spark RDD : Transformations & Actions
 
Présentation Docker
Présentation DockerPrésentation Docker
Présentation Docker
 
Modélisation de données pour MongoDB
Modélisation de données pour MongoDBModélisation de données pour MongoDB
Modélisation de données pour MongoDB
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
Spark, ou comment traiter des données à la vitesse de l'éclair
Spark, ou comment traiter des données à la vitesse de l'éclairSpark, ou comment traiter des données à la vitesse de l'éclair
Spark, ou comment traiter des données à la vitesse de l'éclair
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big data
 
PFE BI - INPT
PFE BI - INPTPFE BI - INPT
PFE BI - INPT
 
BI : Analyse des Données avec Mondrian
BI : Analyse des Données avec Mondrian BI : Analyse des Données avec Mondrian
BI : Analyse des Données avec Mondrian
 

Similaire à Big Data, Hadoop & Spark

Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
Khanh Maudoux
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
rajiasellami
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
Imad ALILAT
 
Distributed programing (hadoop &amp;&amp; java) version finale.pptx
Distributed programing  (hadoop &amp;&amp; java) version finale.pptxDistributed programing  (hadoop &amp;&amp; java) version finale.pptx
Distributed programing (hadoop &amp;&amp; java) version finale.pptx
Ahmed rebai
 
Hadoop
HadoopHadoop
Hadoop
AS Stitou
 
Distributed computing with Spark 2.x
Distributed computing with Spark 2.xDistributed computing with Spark 2.x
Distributed computing with Spark 2.x
Dr Hajji Hicham
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Benoît de CHATEAUVIEUX
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Modern Data Stack France
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Microsoft
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Microsoft Décideurs IT
 
Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009
Olivier Grisel
 
Solr + Hadoop - Fouillez facilement dans votre système Big Data
Solr + Hadoop - Fouillez facilement dans votre système Big DataSolr + Hadoop - Fouillez facilement dans votre système Big Data
Solr + Hadoop - Fouillez facilement dans votre système Big Data
francelabs
 
Afterwork hadoop
Afterwork hadoopAfterwork hadoop
Afterwork hadoop
OCTO Technology Suisse
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStack
ALTIC Altic
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing Théâtre
Soft Computing
 
Hadoop Introduction in Paris
Hadoop Introduction in ParisHadoop Introduction in Paris
Hadoop Introduction in Paris
Ted Drake
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
Arrow Group
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
Arrow-Institute
 

Similaire à Big Data, Hadoop & Spark (20)

Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
 
Distributed programing (hadoop &amp;&amp; java) version finale.pptx
Distributed programing  (hadoop &amp;&amp; java) version finale.pptxDistributed programing  (hadoop &amp;&amp; java) version finale.pptx
Distributed programing (hadoop &amp;&amp; java) version finale.pptx
 
Hadoop
HadoopHadoop
Hadoop
 
Distributed computing with Spark 2.x
Distributed computing with Spark 2.xDistributed computing with Spark 2.x
Distributed computing with Spark 2.x
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
 
OWF12/BIG DATA OWF OpenSearchServer light
OWF12/BIG DATA OWF OpenSearchServer lightOWF12/BIG DATA OWF OpenSearchServer light
OWF12/BIG DATA OWF OpenSearchServer light
 
Soutenance ysance
Soutenance ysanceSoutenance ysance
Soutenance ysance
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
 
Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009
 
Solr + Hadoop - Fouillez facilement dans votre système Big Data
Solr + Hadoop - Fouillez facilement dans votre système Big DataSolr + Hadoop - Fouillez facilement dans votre système Big Data
Solr + Hadoop - Fouillez facilement dans votre système Big Data
 
Afterwork hadoop
Afterwork hadoopAfterwork hadoop
Afterwork hadoop
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStack
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing Théâtre
 
Hadoop Introduction in Paris
Hadoop Introduction in ParisHadoop Introduction in Paris
Hadoop Introduction in Paris
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
 

Big Data, Hadoop & Spark

  • 1. CCT SIL 30 Juin 2017 Traitement et Manipulation de la donnée à l‘aide des technologies Big Data Big Data, Hadoop & Spark
  • 2. Alexia Audevart Data & Enthusiasm @aaudevart
  • 3. Big Data & son écosystème • Introduction • Ecosystème • Data Lake • Cas d’utilisation Hadoop Spark Conclusion & Questions 1 2 3 4 SOMMAIRE
  • 4. 5 exaoctets (1 exaoctet = 1 million teraoctet) L’ÉVOLUTION DES DONNÉES Internet 1sec < Réseaux sociaux Internet des objets * Digital Universe Study by IDC, 2012.
  • 6. Traiter différentes VARIETES de données : • Structurées • Semi-structurées • Non structurées Traiter de gros VOLUMES de données : • Plus de capacité de stockage • Plus de puissance de calcul Traiter les données plus rapidement (VELOCITE) : • Fréquence plus importante de création, collecte et partage des données • Quasi temps réel / Temps réel Les challenges du Big Data
  • 7. … des nouvelles technologies et des outils pour exploiter et analyser ces données Une variété de sources de données… … et des outils & technologies pour les visualiser et les utiliser Calculators, Storage... Big Analytics Visualisation InterfacesPlatforms & Apps Internal & External QUE SE CACHE DERRIÈRE LE BUZZWORD BIG DATA ?
  • 8. Le BIG DATA n’est pas une technologie Mais la capacité de collecter, stocker, traiter, valoriser, rapidement à moindre coût de gros volumes de données où la taille unitaire d’une donnée est insignifiante. DÉFINITION DU BIG DATA
  • 9. Big Data & son écosystème • Introduction • Ecosystème • Data Lake • Cas d’utilisation Hadoop Spark Conclusion & Questions 1 2 3 4 SOMMAIRE
  • 16. Big Data & son écosystème • Introduction • Ecosystème • Data Lake • Cas d’utilisation Hadoop Spark Conclusion & Questions 1 2 3 4 SOMMAIRE
  • 17. Process-centric • Données structurées • Données venant de sources Internes • Données “importantes” uniquement • Multiple copies des Données Data-centric • Données de tous types (structurées, semi- structurées, non-structurées) • Données venant de multiple sources de données (interne & externe) Data App App App App App App Data Data Data Data VERS UNE NOUVELLE GESTION DES DONNÉES
  • 18. DATA LAKE Analyzed Data Structured Data Unstructured Data Reservoir data Run Analytics Business Insights
  • 19. DATA LAKE Data Sources Internal DataSources External DataSources Data Usage Access Layer Usage AnalyticsAPI / Drivers Data Exploration Search DataSecurity&Governance Orchestration Administatration Staging Data Unstructured DataSemi-structured DataStructured Data Foundation Data Processed Data Storage Processing Searching Data Crossing / Cleaning Data Machine Learning Data Acquisition Ingestion Streaming Event ProcessingData Loader Data Capture
  • 20. Big Data & son écosystème • Introduction • Ecosystème • Data Lake • Cas d’utilisation Hadoop Spark Conclusion & Questions 1 2 3 4 SOMMAIRE
  • 21. Réduction des couts : • Archivage • Déchargement d’entrepôt de données • ETL (Extract-Transform-Load) • Fail-Over Elargir le champs des possibles : • Analyser et tirer de la valeur des données de l’entreprise • Analyser des données exogènes de l’entreprise et les corréler avec des données internes QUELQUES CAS D’UTILISATION 2 1
  • 23. Big Data & son écosystème Hadoop • Introduction • Composants Primaires • Écosystème • Distributions Spark Conclusion & Questions 1 2 3 4 SOMMAIRE
  • 24. INTRODUCTION A HADOOP Framework OpenSource Apache Hadoop • stocker et traiter de grands ensembles de données • de façon distribuée (Cluster) • sur du matériel standard Composé de nombreux projets Apache Software Foundation • Répondant à une fonctionnalité bien précise • Associés à leur propre communauté de développeurs • Possèdent leur propre cycle de développement
  • 25. INTRODUCTION A HADOOP Le projet Hadoop consiste en deux grandes parties : • Stockage des données: HDFS (Hadoop Distributed File System) • Traitement des données: Map Reduce Principe • Diviser et sauvegarder les données sur un cluster • Traiter les données directement là où elles sont stockées • Scalabilité : possibilité d’ajouter/retirer des machines au cluster
  • 26. CLUSTER HADOOP Cluster Hadoop • Ensemble de machines : serveurs d’entrée de gamme (commodités) • Système « Shared Nothing » : Le seul élément partagé est le réseau qui connecte les machines • Une machine est appelé un « Node » Un cluster est composé de : • Master Nodes • Gèrent l’infrastructure • Worker/Slave Nodes • Contiennent les données distribuées • Exécutent les traitements sur les données.
  • 27. L’HISTOIRE D’HADOOP Hadoop 1.0 Hadoop 2.0 Hadoop 3.0 2002 2003 2004 2005 2006 2007 2008 2009 2011 2013 2014 2015 20162010 2012 2017 2018
  • 28. QUIZZ!!! Pourquoi le nom Hadoop ? Pourquoi le nom Lucène ? Nom de la peluche du fils de Doug Cutting Deuxième nom de sa femme & Prénom de sa grand-mère
  • 29. Big Data & son écosystème Hadoop • Introduction • Composants Primaires • Écosystème • Distributions Spark Conclusion & Questions SOMMAIRE 1 2 3 4
  • 30. HDFS HDFS est un système de fichiers distribué, extensible et portable. • Ecrit en Java • Permet de stocker de très gros volumes de données (données structurés ou non) au sein d’un Cluster Les données sont découpées et distribuées dans un cluster Hadoop : • Block Size : par défaut 128 Mo • Réplication Factor : nombre de copies d’une donnée (par défaut 3 : 1 primaire et 2 secondaires) Dans HDFS, les données sont de type « write-once »
  • 32. HDFS NameNode : Responsable de la localisation des données • Démon s’exécutant sur une machine séparée • Contient des méta-données • Permet de retrouver les nœuds qui exécutent les blocs d’un fichier • NameNode est dupliqué, non seulement sur son propre disque, mais également quelque part sur le système de fichiers du réseau (Secondary NameNode). DataNode : Stocke et restitue les blocs de données • Démon sur chaque nœud du cluster
  • 33. MAP REDUCE Map Reduce : • Concept issu des langages fonctionnels • Utilisé par Google pour son outil de recherche Web • Co-localiser les données & les traitements • Parallélisation automatique des programmes Hadoop -> Gestion transparente du mode distribué • Traitement rapide des données volumineuses • Fault Tolerant : Tolérance aux pannes basée sur la réplication
  • 34. MAP REDUCE : WORD COUNT
  • 35. MAP REDUCE : WORD COUNT
  • 36. MAP REDUCE • Composé de Mappers • Fonctionnant en parallèle • Stockage sur disque des données en entrée et sortie • Sorties des Mappers = enregistrements intermédiaires sous forme d’un couple (clef, valeur) Map: Décomposition d’une tache en un ensemble de tache plus petite produisant un sous ensemble du résultat final
  • 37. MAP REDUCE : WORD COUNT
  • 38. MAP REDUCE Shuffle & Sort : Mélange et Tri • Tri par clef des données intermédiaires. • Envoi des données ayant la même clef vers un seul et même reducer.
  • 39. MAP REDUCE : WORD COUNT
  • 40. MAP REDUCE Reduce: • Consolide (agrégation, filtre) les résultats issus du Mapper. • Génère les résultats finaux et les écrit sur disque.
  • 41. MAP REDUCE : WORD COUNT
  • 42. MAP REDUCE : WORD COUNT
  • 43. YARN Yet-Another-Resource-Negotiator Intégré à Hadoop depuis la v2 YARN apporte une séparation entre : • Gestion de l’état du cluster et des ressources. • Gestion de l’exécution des jobs.
  • 44. Big Data & son écosystème Hadoop • Introduction • Composants Primaires • Écosystème • Distributions Spark Conclusion & Questions SOMMAIRE 1 2 3 4
  • 45. LANGAGE DE REQUÊTAGE • Au dessus du MapReduce - Pig ‣ Langage de script ‣ Développé par Yahoo - Hive : requêtes SQL ‣ HiveQL : langage SQL – Select only ‣ Créé à l’origine par Facebook • SQL-on-Hadoop : Impala & Drill - Extraction des données directement à partir de HDFS avec SQL - Optimisé pour les requêtes à faible latence - Requêtes très performantes
  • 46. BASE NOSQL HBase • Base de données NoSQL orientée colonnes • Distribuée : basée sur Hadoop et HDFS (Inspirée des publications de Google sur BigTable)
  • 47. ECOSYSTEME HADOOP : CONNEXION A HDFS Sqoop • Import des données d’une base de données traditionnelle dans HDFS. • Développé par Cloudera Flume • Collecte d’un ensemble de données (des logs) à partir de plusieurs sources vers HDFS • Développé par Cloudera
  • 48. ECOSYSTEME HADOOP Hue • Front-end graphique pour le cluster • Fournit - Un navigateur pour HDFS et HBase - Des éditeurs pour Hive, Pig, Impala et Sqoop Oozie • Outil de gestion de workflow • Gère et coordonne les jobs Hadoop Mahout • Bibliothèque d’implémentation d’algorithmes d’apprentissage automatique et de datamining
  • 50. Big Data & son écosystème Hadoop • Introduction • Composants Primaires • Écosystème • Distributions Spark Conclusion & Questions SOMMAIRE 1 2 3 4
  • 51. LES DISTRIBUTIONS D’HADOOP • Apache HadoopOpen Source • Cloudera • Hortonworks • MapR Pure Players • Pivotal Greenplum (HDP) • IBM InfoSphere BigInsights (CDH) • Oracle Big data appliance (CDH) Software Publishers • Amazon Elastic MapReduce (Amazon & MapR) • Microsoft Azure HDInsight (HW) • Google Cloud Dataproc Public Cloud
  • 55. Big Data & son écosystème Hadoop Spark Conclusion & Questions 1 2 3 4 SOMMAIRE
  • 56. HISTORIQUE DE SPARK • Développé par AMPLab, de l’Université UC Berkeley, en 2009 • Passé OpenSource en 2010 sous forme de projet Apache • Release 1.0 – Mai 2014 • Release 2.0 – mi 2016 • Juin 2013 : Top Apache Project (Apache Spark) • Extension du modèle MapReduce (plus performant, in-memory)
  • 57. SPARK VS MAP-REDUCE Alternative in-memory plus rapide que MapReduce de Hadoop (100 x plus rapide en mémoire & 10 x plus vite sur disque)
  • 58. INTRODUCTION À SPARK Framework généraliste / API en Scala, Java, Python et R Ecosystème riche (SparkSQL, Spark Streaming, MLlib, GraphX)
  • 59. RDD Resilient Distributed DataSet • Collection d’objets distribués • Structure de donnée Immutable • In memory par défaut • Manipulés par des opérateurs : transformations / actions • Tolérants aux pannes : un RDD sait comment recréer et recalculer son ensemble de données
  • 60. PLAN D’EXÉCUTION DE SPARK • Les taches sont les unités fondamentales d’exécution • Les stages • ensemble de taches qui peuvent être exécutés en parallèles • ensemble de séquences de RDD sans Shuffle (tri par clé) • Le shuffle est appliqué entre les stages
  • 62. Big Data & son écosystème Hadoop Spark Conclusion & Questions 1 2 3 4 SOMMAIRE
  • 63. CONCLUSION Constat • Hadoop a grandi avec les géants du web • Écosystème très riche avec éclosion de nouvelles technologies • Marché dynamisé par l’open source & les startups Nouveaux challenges • Les distributions vs Hadoop-as-a-Service • La gouvernance des données et la sécurité • Démocratisation des outils Machine Learning