SlideShare une entreprise Scribd logo
Le BigData
Une introduction
Nicolas OG´E
nicolas.oge@ensimag.fr
f´evrier-mars 2016
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
1 Une d´efinition
2 MapReduce
3 Hadoop
4 Bases NoSQL
5 Travaux dirig´es
6 Travaux pratiques
Le BigData : Une introduction f´evrier-mars 2016 2 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Une d´efinition
Le BigData : Une introduction f´evrier-mars 2016 3 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Sources de donn´ees
Web
R´eseaux sociaux
Logs
Flux financiers
Donn´ees de ventes
Le BigData : Une introduction f´evrier-mars 2016 3 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
La valeur de la donn´ee
Web
Recherche de contenus
R´eseaux sociaux
Analyse de relations
Logs
D´etection de pannes
Flux financiers
Am´elioration des algorithmes
Donn´ees de ventes
Optimisation marketing
Le BigData : Une introduction f´evrier-mars 2016 4 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
D´eroulement d’un projet BigData
Analyse des besoins de stockage
Est-un probl`eme BigData ?
Export, Transform & Load
Nettoyage de la donn´ee
Analyse
Visualisation
Le BigData : Une introduction f´evrier-mars 2016 5 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Quelques points importants
Explosion des volum´etries
Coˆuts de stockage en baisse
Donn´ees non structur´ees
Images, Musiques, Textes
Donn´ees semi-structur´ees
Logs, JSON, XML
flux continus
Les g´eants du Web sont les pionniers du BigData
Google
Facebook
Yahoo!
LinkedIN
Le BigData : Une introduction f´evrier-mars 2016 6 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Quelques ordres de grandeur 1/3
octet = 8 bits
256 valeurs distinctes
un caract`ere non exotique
Kilooctet = 1000 octets, Kibioctet = 1024 octets
Un po`eme
M´egaoctet = 1000 Kilooctets
Une photographie de qualit´e moyenne
Une nouvelle
Capacit´e de stockage d’une disquette
Le BigData : Une introduction f´evrier-mars 2016 7 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Quelques ordres de grandeur 2/3
Gigaoctet
Un film compress´e
Une remorque de livres
Capacit´e de stockage d’un CD/DVD
T´eraoctet
Une biblioth`eque universitaire
50000 arbres transform´es en journaux
Capacit´e de stockage d’un disque dur
Le BigData : Une introduction f´evrier-mars 2016 8 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Quelques ordres de grandeur 3/3
P´etaoctet
Tout le contenu de toutes les biblioth`eques am´ericaines de
recherche acad´emique
5 ans de donn´ees d’observation de la Terre par les satellites de la
NASA
Exaoctet
Tous les mots prononc´es par tous les humains depuis toujours
ZettaOctet
Toutes les donn´ees stock´ees sur la plan`ete aujourd’hui
YottaOctet
?
Le BigData : Une introduction f´evrier-mars 2016 9 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Le BigData en volume
o Ko Mo Go To Po Eo Zo Yo
BigData
Les SGBD ”classiques” peuvent ne pas ˆetre adapt´es `a ces
volum´etries
Ces projets n´ecessitent :
Un syst`eme de fichiers distribu´es
Une m´ethode de traitement de donn´ees distribu´ees
Le BigData : Une introduction f´evrier-mars 2016 10 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Quelques cas d’usage BigData
Le moteur de recherche Google
Connaissance des clients Amazon
Classification et Recommandation
D´etection de fraude
Recrutement RH
´Ecoute t´el´ephonique
Objets connect´es
Jeux vid´eos
Le BigData : Une introduction f´evrier-mars 2016 11 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
MapReduce
Le BigData : Une introduction f´evrier-mars 2016 12 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
MapReduce
Paradigme de programmation adapt´e au traitement de donn´ees
distribu´ees
Deux fonctions `a impl´ementer
Map
Reduce
N’est PAS temps r´eel
Traitement de donn´ees en local
Cl´e/valeur
Le BigData : Une introduction f´evrier-mars 2016 12 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
MapReduce : Comptage de caract`eres
Phase 0 : Les donn´ees sont initialement distribu´ees
Le BigData : Une introduction f´evrier-mars 2016 13 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
MapReduce : Comptage de caract`eres
Phase 1 : les Mappers traitent les input splits
Le BigData : Une introduction f´evrier-mars 2016 14 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
MapReduce : Comptage de caract`eres
Phase 2 : Les sorties de Mappers sont regroup´ees et tri´ees
Le BigData : Une introduction f´evrier-mars 2016 15 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
MapReduce : Comptage de caract`eres
Phase 3 : Les Reducers traitent les fichiers interm´ediaires
Le BigData : Une introduction f´evrier-mars 2016 16 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
MapReduce : Comptage de caract`eres
Phase 4 : Le r´esultat final est enregistr´e
Le BigData : Une introduction f´evrier-mars 2016 17 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Hadoop
Le BigData : Une introduction f´evrier-mars 2016 18 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Hadoop
Hadoop est
Un stockage distribu´e : HDFS
Un framework de traitement : MapReduce
Existe depuis 2005
Sous License Apache
´Ecrit en java
Inspir´e des travaux de Google
Le BigData : Une introduction f´evrier-mars 2016 18 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Architecture Hadoop : Le Master
1 Master
Single Point of Failure
NameNode : Responsable des donn´ees sur HDFS
SecondaryNameNode : Backup du NameNode
JobTracker : Responsable des Jobs MapReduce
Le BigData : Une introduction f´evrier-mars 2016 19 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Architecture Hadoop : Les Slaves
1-10000 Slaves
Hardware ”low cost”
DataNode : Stocke les donn´ees
TaskTracker : ´Execute les tˆaches
Le BigData : Une introduction f´evrier-mars 2016 20 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
HDFS
Syst`eme de gros fichiers distribu´es
Scalable horizontalement
R´esilient (r´eplication)
Blocs de 64 Mo par d´efaut
Le BigData : Une introduction f´evrier-mars 2016 21 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
WordCount : TokenizerMapper
p r i v a t e Text word = new Text ();
p r i v a t e f i n a l s t a t i c IntWritable one =
new IntWritable (1);
p u b l i c void map(Object key ,
Text value ,
Context context) {
StringTokenizer itr =
new StringTokenizer (value.toString ());
while (itr. hasMoreTokens ()) {
word.set(itr.nextToken ());
context.write(word , one);
}
}
Le BigData : Une introduction f´evrier-mars 2016 22 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
WordCount : IntSumReducer
p r i v a t e IntWritable result = new IntWritable ();
p u b l i c void reduce(Text key ,
Iterable <IntWritable > values ,
Context context) {
i n t sum = 0;
f o r (IntWritable val : values) {
sum += val.get ();
}
result.set(sum );
context.write(key , result );
}
Le BigData : Une introduction f´evrier-mars 2016 23 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
WordCount : le Launcher
p u b l i c s t a t i c void main(String [] args) throws Exception {
Configuration conf = new Configuration ();
Job job = Job. getInstance (conf , "word count");
job. setJarByClass (WordCount. c l a s s );
job. setMapperClass ( TokenizerMapper . c l a s s );
job. setCombinerClass ( IntSumReducer . c l a s s );
job. setReducerClass ( IntSumReducer . c l a s s );
job. setOutputKeyClass (Text. c l a s s );
job. setOutputValueClass ( IntWritable . c l a s s );
FileInputFormat . addInputPath (job , new Path(args [0]));
FileOutputFormat . setOutputPath (job , new Path(args [1]));
System.exit(job. waitForCompletion ( true ) ? 0 : 1);
}
Le BigData : Une introduction f´evrier-mars 2016 24 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Bases NoSQL
Le BigData : Une introduction f´evrier-mars 2016 25 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Le th´eor`eme CAP
Th´eor`eme CAP
Tout syst`eme distribu´e ne peut
v´erifier plus de deux des trois
propri´et´es suivantes :
Consistency : tous les nœuds
du syst`eme voient exactement
les mˆemes donn´ees au mˆeme
moment
Availability : garantie que
toutes les requˆetes re¸coivent
une r´eponse
Partition tolerance : en cas
de morcellement en
sous-r´eseaux, chacun doit
pouvoir fonctionner de
mani`ere autonome
Le BigData : Une introduction f´evrier-mars 2016 25 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
HBase
Base de donn´ees orient´ee colonnes
Inspir´ee de Google Big Table
Coh´erente et tol´erante au partitionnement
Utilis´ee par :
Facebook
Linkedin
Netflix
Le BigData : Une introduction f´evrier-mars 2016 26 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
HBase : le mod`ele de stockage
Les rowKeys sont tri´ees et shard´ees automatiquement
Les columnFamilies :
sont stock´ees dans des fichiers diff´erents
contiennent un nombre quelqconque de paires cl´e/valeur versionn´ees
Le BigData : Une introduction f´evrier-mars 2016 27 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
MongoDB
Base de donn´ees orient´ee documents
Stocke des Collections de documents BSON
{
"_id": ObjectId("4efa8d2b7d284dad101e4bc7"),
"Nom": "DUMONT",
"Pr´enom": "Jean",
"^Age": 43
}
Le BigData : Une introduction f´evrier-mars 2016 28 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Neo4J
Base de donn´ees orient´ee graphes
Existe depuis 2000
Le BigData : Une introduction f´evrier-mars 2016 29 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux
dirig´es
Travaux
pratiques Travaux dirig´es
Le BigData : Une introduction f´evrier-mars 2016 30 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux
dirig´es
Travaux
pratiques
Architecture hardware BigData
Une entreprise souhaite analyser les 2 To de logs quotidiens g´en´er´es
par ses serveurs.
Exercice
Proposer une architecture BigData permettant de g´erer ce besoin.
Vous devrez choisir :
Le nombre de machines
Leurs CPUs
Leur RAM
Leurs disques durs
Leur syst`eme d’exploitation
...
Le BigData : Une introduction f´evrier-mars 2016 30 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux
dirig´es
Travaux
pratiques
Hive
Hive est une infrastructure d’entrepˆot de donn´ees permettant de requˆeter des
donn´ees stock´ees dans Hadoop avec un langage SQL-like.
Exercice
Proposer une impl´ementation MapReduce des requˆetes suivantes :
SELECT name FROM Employee WHERE depid = 42
SELECT depid, COUNT(*) FROM Employee GROUP BY depid
SELECT E.name, D.desc FROM Employee AS E INNER JOIN Department
AS D ON (E.depid = D.depid) (cas Departement 1 Go)
SELECT E.name, D.desc FROM Employee AS E INNER JOIN Department
AS D ON (E.depid = D.depid) (cas g´en´eral)
Le BigData : Une introduction f´evrier-mars 2016 31 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux
dirig´es
Travaux
pratiques
Stockage de donn´ees m´et´eo historis´ees
Exercice
On dispose pour chaque ville de France, des relev´es des temp´erature, de
pluviom´etrie et de pression atmosph´erique de chaque seconde depuis 1900.
Quel volume de donn´ees (en octets) cela repr´esente-il approximativement ?
Comment s’assurer que les relev´es sont exhaustifs et corrects ?
Comment stocker efficacement ces donn´ees (type de support physique,
syst`eme de gestion des donn´ees, mod`ele de donn´ees, . . . ) pour r´epondre le
plus efficacement possible aux questions suivantes ?
Quelle temp´erature faisait-il `a Champs-sur-Marne, le 26 juin 1942 `a
17:31:07 ?
Dans quelle ville a-t-il le plus plu le 29 juillet 2002 ?
En quelle ann´ee la pression atmosph´erique a-t-elle ´et´e maximale `a
Grenoble ?
Pleut-il vraiment plus en Bretagne ?
Dans quelle ville et quand, le record de temp´erature a-t-il ´et´e atteint ?
Quelles sont les cinq villes ayant eu le plus grand ´ecart de temp´erature
journalier en 1942 ?
On veut tracer sur une graphe, l’´evolution depuis 1900 des temp´eraturesde
Paris, comment proc´eder ?
Le BigData : Une introduction f´evrier-mars 2016 32 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Travaux pratiques
Le BigData : Une introduction f´evrier-mars 2016 33 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Analysons Wikipedia
Wikipedia propose de t´el´echarger un dump de tout son contenu.
En date du 13 janvier 2016, en ne s´electionnant que les derni`eres
r´evisions des articles anglais, sans fichiers ni images, sans discussions,
on obtient un XML compress´e de 11.7 Go.
Le BigData : Une introduction f´evrier-mars 2016 33 / 35
Une d´efinition
MapReduce
Hadoop
Bases NoSQL
Travaux dirig´es
Travaux
pratiques
Analysons Wikipedia
´Enonc´e
Expliquer l’int´erˆet du format BZip2 dans le cadre d’un traitement de
donn´ees distribu´ees.
En utilisant le framework Hadoop, r´epondez aux questions suivantes `a
propos des articles de Wikipedia :
Quel est l’article le plus long ?
Combien d’articles traitent de Hadoop ?
Qui est le plus gros contributeur ?
Quels sont les 100 mots les plus fr´equents ?
Quel article est le plus r´ef´erenc´e par les autres articles ?
Quels articles ont le plus de mots distincts en commum ?
Le BigData : Une introduction f´evrier-mars 2016 34 / 35
Merci pour votre attention
Question(s) ?

Contenu connexe

Tendances

Big Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache HadoopBig Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache Hadoop
hajlaoui jaleleddine
 
Hadoop Introduction in Paris
Hadoop Introduction in ParisHadoop Introduction in Paris
Hadoop Introduction in Paris
Ted Drake
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
Lilia Sfaxi
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
Joseph Glorieux
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
Alexia Audevart
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
Lilia Sfaxi
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
Arrow-Institute
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Microsoft
 
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
OCTO Technology
 
Introduction aux algorithmes map reduce
Introduction aux algorithmes map reduceIntroduction aux algorithmes map reduce
Introduction aux algorithmes map reduce
Mathieu Dumoulin
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
Lilia Sfaxi
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
Rima Jamli Faidi
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
Lilia Sfaxi
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big data
Romain Jouin
 
Hadoop and friends : introduction
Hadoop and friends : introductionHadoop and friends : introduction
Hadoop and friends : introduction
fredcons
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
acogoluegnes
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
Blandine Larbret
 
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsUSI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
Joseph Glorieux
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
Antoine Augusti
 
Base de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvreBase de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvre
MICHRAFY MUSTAFA
 

Tendances (20)

Big Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache HadoopBig Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache Hadoop
 
Hadoop Introduction in Paris
Hadoop Introduction in ParisHadoop Introduction in Paris
Hadoop Introduction in Paris
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
 
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
 
Introduction aux algorithmes map reduce
Introduction aux algorithmes map reduceIntroduction aux algorithmes map reduce
Introduction aux algorithmes map reduce
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big data
 
Hadoop and friends : introduction
Hadoop and friends : introductionHadoop and friends : introduction
Hadoop and friends : introduction
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsUSI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
 
Base de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvreBase de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvre
 

En vedette

BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un d...
BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un d...BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un d...
BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un d...
Publicis Sapient Engineering
 
7 Règles simples pour réussir Big Data
7 Règles simples pour réussir Big Data7 Règles simples pour réussir Big Data
7 Règles simples pour réussir Big Data
Henri Kaufman
 
Introduction aux SGBD
Introduction aux SGBDIntroduction aux SGBD
Introduction aux SGBD
Christophe Vaudry
 
2016 - Data & Big Data - weave - PrésentationExtract2
2016 - Data & Big Data - weave - PrésentationExtract22016 - Data & Big Data - weave - PrésentationExtract2
2016 - Data & Big Data - weave - PrésentationExtract2
Jonathan Vercruysse
 
DigiData Janvier 2017
DigiData Janvier 2017DigiData Janvier 2017
DigiData Janvier 2017
Digitools.io
 
AWS Paris Summit 2014 - T4 - Etre partenaire AWS : Construisez votre business...
AWS Paris Summit 2014 - T4 - Etre partenaire AWS : Construisez votre business...AWS Paris Summit 2014 - T4 - Etre partenaire AWS : Construisez votre business...
AWS Paris Summit 2014 - T4 - Etre partenaire AWS : Construisez votre business...
Amazon Web Services
 
AWS Paris Summit 2014 - T3 - Architecturer avec AWS pour des millions d'util...
AWS Paris Summit 2014 - T3 -  Architecturer avec AWS pour des millions d'util...AWS Paris Summit 2014 - T3 -  Architecturer avec AWS pour des millions d'util...
AWS Paris Summit 2014 - T3 - Architecturer avec AWS pour des millions d'util...
Amazon Web Services
 
Construire des Applications Web Performantes - Rule Book Webinar
Construire des Applications Web Performantes - Rule Book WebinarConstruire des Applications Web Performantes - Rule Book Webinar
Construire des Applications Web Performantes - Rule Book Webinar
Amazon Web Services
 
BigData en France par Excelerate Systems
BigData en France par Excelerate Systems BigData en France par Excelerate Systems
BigData en France par Excelerate Systems
Excelerate Systems
 
Une migration sur AWS, une migration orientée produit
Une migration sur AWS, une migration orientée produitUne migration sur AWS, une migration orientée produit
Une migration sur AWS, une migration orientée produit
RomainKuzniak
 
AWS Paris Summit 2014 - T2 - Déployer des environnements entreprises hybrides
AWS Paris Summit 2014 - T2 - Déployer des environnements entreprises hybridesAWS Paris Summit 2014 - T2 - Déployer des environnements entreprises hybrides
AWS Paris Summit 2014 - T2 - Déployer des environnements entreprises hybrides
Amazon Web Services
 
Un Voyage dans le Cloud: Les Meilleures Pratiques Pour Démarrer Dans Le Cloud...
Un Voyage dans le Cloud: Les Meilleures Pratiques Pour Démarrer Dans Le Cloud...Un Voyage dans le Cloud: Les Meilleures Pratiques Pour Démarrer Dans Le Cloud...
Un Voyage dans le Cloud: Les Meilleures Pratiques Pour Démarrer Dans Le Cloud...
Amazon Web Services
 
Digidata millésime 2016 : les 182 DATA sur la transformation digitale qui ont...
Digidata millésime 2016 : les 182 DATA sur la transformation digitale qui ont...Digidata millésime 2016 : les 182 DATA sur la transformation digitale qui ont...
Digidata millésime 2016 : les 182 DATA sur la transformation digitale qui ont...
Digitools.io
 
Conférence Big data en Nouvelle-Calédonie
Conférence Big data en Nouvelle-CalédonieConférence Big data en Nouvelle-Calédonie
Conférence Big data en Nouvelle-Calédonie
Francois Cazals
 
Entreprendre : nouvelle religion. Conférence HEC
Entreprendre : nouvelle religion. Conférence HECEntreprendre : nouvelle religion. Conférence HEC
Entreprendre : nouvelle religion. Conférence HEC
Gilles BABINET
 
2016 XUG Conference Big Data: Big Deal for Personalized Communications or Meh?
2016 XUG Conference   Big Data: Big Deal for Personalized Communications or Meh?2016 XUG Conference   Big Data: Big Deal for Personalized Communications or Meh?
2016 XUG Conference Big Data: Big Deal for Personalized Communications or Meh?
Jeffrey Stewart
 
AWS Summit Paris - Track 4 - Session 2 - Migration Cloud, modernisation des a...
AWS Summit Paris - Track 4 - Session 2 - Migration Cloud, modernisation des a...AWS Summit Paris - Track 4 - Session 2 - Migration Cloud, modernisation des a...
AWS Summit Paris - Track 4 - Session 2 - Migration Cloud, modernisation des a...
Amazon Web Services
 
AWS Paris Summit 2014 - T1 - Services de bases de données
AWS Paris Summit 2014 - T1 - Services de bases de donnéesAWS Paris Summit 2014 - T1 - Services de bases de données
AWS Paris Summit 2014 - T1 - Services de bases de données
Amazon Web Services
 
Tp snmp-packet-tracer
Tp snmp-packet-tracerTp snmp-packet-tracer
Tp snmp-packet-tracer
Chris Dogny
 
Conférence Big Data sémantique La Réunion le 27 avril 2016
Conférence Big Data sémantique La Réunion le 27 avril 2016Conférence Big Data sémantique La Réunion le 27 avril 2016
Conférence Big Data sémantique La Réunion le 27 avril 2016
Remy EXELMANS
 

En vedette (20)

BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un d...
BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un d...BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un d...
BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un d...
 
7 Règles simples pour réussir Big Data
7 Règles simples pour réussir Big Data7 Règles simples pour réussir Big Data
7 Règles simples pour réussir Big Data
 
Introduction aux SGBD
Introduction aux SGBDIntroduction aux SGBD
Introduction aux SGBD
 
2016 - Data & Big Data - weave - PrésentationExtract2
2016 - Data & Big Data - weave - PrésentationExtract22016 - Data & Big Data - weave - PrésentationExtract2
2016 - Data & Big Data - weave - PrésentationExtract2
 
DigiData Janvier 2017
DigiData Janvier 2017DigiData Janvier 2017
DigiData Janvier 2017
 
AWS Paris Summit 2014 - T4 - Etre partenaire AWS : Construisez votre business...
AWS Paris Summit 2014 - T4 - Etre partenaire AWS : Construisez votre business...AWS Paris Summit 2014 - T4 - Etre partenaire AWS : Construisez votre business...
AWS Paris Summit 2014 - T4 - Etre partenaire AWS : Construisez votre business...
 
AWS Paris Summit 2014 - T3 - Architecturer avec AWS pour des millions d'util...
AWS Paris Summit 2014 - T3 -  Architecturer avec AWS pour des millions d'util...AWS Paris Summit 2014 - T3 -  Architecturer avec AWS pour des millions d'util...
AWS Paris Summit 2014 - T3 - Architecturer avec AWS pour des millions d'util...
 
Construire des Applications Web Performantes - Rule Book Webinar
Construire des Applications Web Performantes - Rule Book WebinarConstruire des Applications Web Performantes - Rule Book Webinar
Construire des Applications Web Performantes - Rule Book Webinar
 
BigData en France par Excelerate Systems
BigData en France par Excelerate Systems BigData en France par Excelerate Systems
BigData en France par Excelerate Systems
 
Une migration sur AWS, une migration orientée produit
Une migration sur AWS, une migration orientée produitUne migration sur AWS, une migration orientée produit
Une migration sur AWS, une migration orientée produit
 
AWS Paris Summit 2014 - T2 - Déployer des environnements entreprises hybrides
AWS Paris Summit 2014 - T2 - Déployer des environnements entreprises hybridesAWS Paris Summit 2014 - T2 - Déployer des environnements entreprises hybrides
AWS Paris Summit 2014 - T2 - Déployer des environnements entreprises hybrides
 
Un Voyage dans le Cloud: Les Meilleures Pratiques Pour Démarrer Dans Le Cloud...
Un Voyage dans le Cloud: Les Meilleures Pratiques Pour Démarrer Dans Le Cloud...Un Voyage dans le Cloud: Les Meilleures Pratiques Pour Démarrer Dans Le Cloud...
Un Voyage dans le Cloud: Les Meilleures Pratiques Pour Démarrer Dans Le Cloud...
 
Digidata millésime 2016 : les 182 DATA sur la transformation digitale qui ont...
Digidata millésime 2016 : les 182 DATA sur la transformation digitale qui ont...Digidata millésime 2016 : les 182 DATA sur la transformation digitale qui ont...
Digidata millésime 2016 : les 182 DATA sur la transformation digitale qui ont...
 
Conférence Big data en Nouvelle-Calédonie
Conférence Big data en Nouvelle-CalédonieConférence Big data en Nouvelle-Calédonie
Conférence Big data en Nouvelle-Calédonie
 
Entreprendre : nouvelle religion. Conférence HEC
Entreprendre : nouvelle religion. Conférence HECEntreprendre : nouvelle religion. Conférence HEC
Entreprendre : nouvelle religion. Conférence HEC
 
2016 XUG Conference Big Data: Big Deal for Personalized Communications or Meh?
2016 XUG Conference   Big Data: Big Deal for Personalized Communications or Meh?2016 XUG Conference   Big Data: Big Deal for Personalized Communications or Meh?
2016 XUG Conference Big Data: Big Deal for Personalized Communications or Meh?
 
AWS Summit Paris - Track 4 - Session 2 - Migration Cloud, modernisation des a...
AWS Summit Paris - Track 4 - Session 2 - Migration Cloud, modernisation des a...AWS Summit Paris - Track 4 - Session 2 - Migration Cloud, modernisation des a...
AWS Summit Paris - Track 4 - Session 2 - Migration Cloud, modernisation des a...
 
AWS Paris Summit 2014 - T1 - Services de bases de données
AWS Paris Summit 2014 - T1 - Services de bases de donnéesAWS Paris Summit 2014 - T1 - Services de bases de données
AWS Paris Summit 2014 - T1 - Services de bases de données
 
Tp snmp-packet-tracer
Tp snmp-packet-tracerTp snmp-packet-tracer
Tp snmp-packet-tracer
 
Conférence Big Data sémantique La Réunion le 27 avril 2016
Conférence Big Data sémantique La Réunion le 27 avril 2016Conférence Big Data sémantique La Réunion le 27 avril 2016
Conférence Big Data sémantique La Réunion le 27 avril 2016
 

Similaire à Big Data : Une Introduction

Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
Julien BLAIZE
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
Arrow Group
 
Presentation Map Reduce
Presentation Map ReducePresentation Map Reduce
Presentation Map Reduce
Adelphe Patrick Mveng
 
Hadoop et son écosystème - v2
Hadoop et son écosystème - v2Hadoop et son écosystème - v2
Hadoop et son écosystème - v2
Khanh Maudoux
 
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big DataJournées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
David Joubert
 
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big DataJSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
GUSS
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solution
JEMLI Fathi
 
Hr analytics & big data : Spark en action dans un contexte RH
Hr analytics & big data : Spark en action dans un contexte RHHr analytics & big data : Spark en action dans un contexte RH
Hr analytics & big data : Spark en action dans un contexte RH
Wassim TRIFI
 
Programmation Android - 10 - Spatialite
Programmation Android - 10 - SpatialiteProgrammation Android - 10 - Spatialite
Programmation Android - 10 - Spatialite
Yann Caron
 
Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordi...
Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordi...Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordi...
Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordi...
Hadjer BENHADJ DJILALI
 
Data liftjan2012
Data liftjan2012Data liftjan2012
Data liftjan2012
oliviercure
 
Syllabus advanced big data with spark
Syllabus advanced big data with sparkSyllabus advanced big data with spark
Syllabus advanced big data with spark
Dr Hajji Hicham
 
Zenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_ml
Zenika
 
Bases de données no sql.pdf
Bases de données no sql.pdfBases de données no sql.pdf
Bases de données no sql.pdf
ZkSadrati
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
rajiasellami
 
Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017)
Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017) Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017)
Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017)
univalence
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
OCTO Technology
 
Morning With MongoDB
Morning With MongoDBMorning With MongoDB
Morning With MongoDB
FastConnect
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)
Alexis Seigneurin
 
Morning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMorning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast Connect
MongoDB
 

Similaire à Big Data : Une Introduction (20)

Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
 
Presentation Map Reduce
Presentation Map ReducePresentation Map Reduce
Presentation Map Reduce
 
Hadoop et son écosystème - v2
Hadoop et son écosystème - v2Hadoop et son écosystème - v2
Hadoop et son écosystème - v2
 
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big DataJournées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
 
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big DataJSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solution
 
Hr analytics & big data : Spark en action dans un contexte RH
Hr analytics & big data : Spark en action dans un contexte RHHr analytics & big data : Spark en action dans un contexte RH
Hr analytics & big data : Spark en action dans un contexte RH
 
Programmation Android - 10 - Spatialite
Programmation Android - 10 - SpatialiteProgrammation Android - 10 - Spatialite
Programmation Android - 10 - Spatialite
 
Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordi...
Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordi...Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordi...
Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordi...
 
Data liftjan2012
Data liftjan2012Data liftjan2012
Data liftjan2012
 
Syllabus advanced big data with spark
Syllabus advanced big data with sparkSyllabus advanced big data with spark
Syllabus advanced big data with spark
 
Zenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_ml
 
Bases de données no sql.pdf
Bases de données no sql.pdfBases de données no sql.pdf
Bases de données no sql.pdf
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
 
Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017)
Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017) Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017)
Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017)
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
 
Morning With MongoDB
Morning With MongoDBMorning With MongoDB
Morning With MongoDB
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)
 
Morning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMorning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast Connect
 

Big Data : Une Introduction

  • 1. Le BigData Une introduction Nicolas OG´E nicolas.oge@ensimag.fr f´evrier-mars 2016
  • 2. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques 1 Une d´efinition 2 MapReduce 3 Hadoop 4 Bases NoSQL 5 Travaux dirig´es 6 Travaux pratiques Le BigData : Une introduction f´evrier-mars 2016 2 / 35
  • 3. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Une d´efinition Le BigData : Une introduction f´evrier-mars 2016 3 / 35
  • 4. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Sources de donn´ees Web R´eseaux sociaux Logs Flux financiers Donn´ees de ventes Le BigData : Une introduction f´evrier-mars 2016 3 / 35
  • 5. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques La valeur de la donn´ee Web Recherche de contenus R´eseaux sociaux Analyse de relations Logs D´etection de pannes Flux financiers Am´elioration des algorithmes Donn´ees de ventes Optimisation marketing Le BigData : Une introduction f´evrier-mars 2016 4 / 35
  • 6. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques D´eroulement d’un projet BigData Analyse des besoins de stockage Est-un probl`eme BigData ? Export, Transform & Load Nettoyage de la donn´ee Analyse Visualisation Le BigData : Une introduction f´evrier-mars 2016 5 / 35
  • 7. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Quelques points importants Explosion des volum´etries Coˆuts de stockage en baisse Donn´ees non structur´ees Images, Musiques, Textes Donn´ees semi-structur´ees Logs, JSON, XML flux continus Les g´eants du Web sont les pionniers du BigData Google Facebook Yahoo! LinkedIN Le BigData : Une introduction f´evrier-mars 2016 6 / 35
  • 8. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Quelques ordres de grandeur 1/3 octet = 8 bits 256 valeurs distinctes un caract`ere non exotique Kilooctet = 1000 octets, Kibioctet = 1024 octets Un po`eme M´egaoctet = 1000 Kilooctets Une photographie de qualit´e moyenne Une nouvelle Capacit´e de stockage d’une disquette Le BigData : Une introduction f´evrier-mars 2016 7 / 35
  • 9. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Quelques ordres de grandeur 2/3 Gigaoctet Un film compress´e Une remorque de livres Capacit´e de stockage d’un CD/DVD T´eraoctet Une biblioth`eque universitaire 50000 arbres transform´es en journaux Capacit´e de stockage d’un disque dur Le BigData : Une introduction f´evrier-mars 2016 8 / 35
  • 10. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Quelques ordres de grandeur 3/3 P´etaoctet Tout le contenu de toutes les biblioth`eques am´ericaines de recherche acad´emique 5 ans de donn´ees d’observation de la Terre par les satellites de la NASA Exaoctet Tous les mots prononc´es par tous les humains depuis toujours ZettaOctet Toutes les donn´ees stock´ees sur la plan`ete aujourd’hui YottaOctet ? Le BigData : Une introduction f´evrier-mars 2016 9 / 35
  • 11. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Le BigData en volume o Ko Mo Go To Po Eo Zo Yo BigData Les SGBD ”classiques” peuvent ne pas ˆetre adapt´es `a ces volum´etries Ces projets n´ecessitent : Un syst`eme de fichiers distribu´es Une m´ethode de traitement de donn´ees distribu´ees Le BigData : Une introduction f´evrier-mars 2016 10 / 35
  • 12. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Quelques cas d’usage BigData Le moteur de recherche Google Connaissance des clients Amazon Classification et Recommandation D´etection de fraude Recrutement RH ´Ecoute t´el´ephonique Objets connect´es Jeux vid´eos Le BigData : Une introduction f´evrier-mars 2016 11 / 35
  • 13. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques MapReduce Le BigData : Une introduction f´evrier-mars 2016 12 / 35
  • 14. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques MapReduce Paradigme de programmation adapt´e au traitement de donn´ees distribu´ees Deux fonctions `a impl´ementer Map Reduce N’est PAS temps r´eel Traitement de donn´ees en local Cl´e/valeur Le BigData : Une introduction f´evrier-mars 2016 12 / 35
  • 15. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques MapReduce : Comptage de caract`eres Phase 0 : Les donn´ees sont initialement distribu´ees Le BigData : Une introduction f´evrier-mars 2016 13 / 35
  • 16. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques MapReduce : Comptage de caract`eres Phase 1 : les Mappers traitent les input splits Le BigData : Une introduction f´evrier-mars 2016 14 / 35
  • 17. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques MapReduce : Comptage de caract`eres Phase 2 : Les sorties de Mappers sont regroup´ees et tri´ees Le BigData : Une introduction f´evrier-mars 2016 15 / 35
  • 18. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques MapReduce : Comptage de caract`eres Phase 3 : Les Reducers traitent les fichiers interm´ediaires Le BigData : Une introduction f´evrier-mars 2016 16 / 35
  • 19. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques MapReduce : Comptage de caract`eres Phase 4 : Le r´esultat final est enregistr´e Le BigData : Une introduction f´evrier-mars 2016 17 / 35
  • 20. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Hadoop Le BigData : Une introduction f´evrier-mars 2016 18 / 35
  • 21. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Hadoop Hadoop est Un stockage distribu´e : HDFS Un framework de traitement : MapReduce Existe depuis 2005 Sous License Apache ´Ecrit en java Inspir´e des travaux de Google Le BigData : Une introduction f´evrier-mars 2016 18 / 35
  • 22. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Architecture Hadoop : Le Master 1 Master Single Point of Failure NameNode : Responsable des donn´ees sur HDFS SecondaryNameNode : Backup du NameNode JobTracker : Responsable des Jobs MapReduce Le BigData : Une introduction f´evrier-mars 2016 19 / 35
  • 23. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Architecture Hadoop : Les Slaves 1-10000 Slaves Hardware ”low cost” DataNode : Stocke les donn´ees TaskTracker : ´Execute les tˆaches Le BigData : Une introduction f´evrier-mars 2016 20 / 35
  • 24. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques HDFS Syst`eme de gros fichiers distribu´es Scalable horizontalement R´esilient (r´eplication) Blocs de 64 Mo par d´efaut Le BigData : Une introduction f´evrier-mars 2016 21 / 35
  • 25. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques WordCount : TokenizerMapper p r i v a t e Text word = new Text (); p r i v a t e f i n a l s t a t i c IntWritable one = new IntWritable (1); p u b l i c void map(Object key , Text value , Context context) { StringTokenizer itr = new StringTokenizer (value.toString ()); while (itr. hasMoreTokens ()) { word.set(itr.nextToken ()); context.write(word , one); } } Le BigData : Une introduction f´evrier-mars 2016 22 / 35
  • 26. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques WordCount : IntSumReducer p r i v a t e IntWritable result = new IntWritable (); p u b l i c void reduce(Text key , Iterable <IntWritable > values , Context context) { i n t sum = 0; f o r (IntWritable val : values) { sum += val.get (); } result.set(sum ); context.write(key , result ); } Le BigData : Une introduction f´evrier-mars 2016 23 / 35
  • 27. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques WordCount : le Launcher p u b l i c s t a t i c void main(String [] args) throws Exception { Configuration conf = new Configuration (); Job job = Job. getInstance (conf , "word count"); job. setJarByClass (WordCount. c l a s s ); job. setMapperClass ( TokenizerMapper . c l a s s ); job. setCombinerClass ( IntSumReducer . c l a s s ); job. setReducerClass ( IntSumReducer . c l a s s ); job. setOutputKeyClass (Text. c l a s s ); job. setOutputValueClass ( IntWritable . c l a s s ); FileInputFormat . addInputPath (job , new Path(args [0])); FileOutputFormat . setOutputPath (job , new Path(args [1])); System.exit(job. waitForCompletion ( true ) ? 0 : 1); } Le BigData : Une introduction f´evrier-mars 2016 24 / 35
  • 28. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Bases NoSQL Le BigData : Une introduction f´evrier-mars 2016 25 / 35
  • 29. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Le th´eor`eme CAP Th´eor`eme CAP Tout syst`eme distribu´e ne peut v´erifier plus de deux des trois propri´et´es suivantes : Consistency : tous les nœuds du syst`eme voient exactement les mˆemes donn´ees au mˆeme moment Availability : garantie que toutes les requˆetes re¸coivent une r´eponse Partition tolerance : en cas de morcellement en sous-r´eseaux, chacun doit pouvoir fonctionner de mani`ere autonome Le BigData : Une introduction f´evrier-mars 2016 25 / 35
  • 30. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques HBase Base de donn´ees orient´ee colonnes Inspir´ee de Google Big Table Coh´erente et tol´erante au partitionnement Utilis´ee par : Facebook Linkedin Netflix Le BigData : Une introduction f´evrier-mars 2016 26 / 35
  • 31. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques HBase : le mod`ele de stockage Les rowKeys sont tri´ees et shard´ees automatiquement Les columnFamilies : sont stock´ees dans des fichiers diff´erents contiennent un nombre quelqconque de paires cl´e/valeur versionn´ees Le BigData : Une introduction f´evrier-mars 2016 27 / 35
  • 32. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques MongoDB Base de donn´ees orient´ee documents Stocke des Collections de documents BSON { "_id": ObjectId("4efa8d2b7d284dad101e4bc7"), "Nom": "DUMONT", "Pr´enom": "Jean", "^Age": 43 } Le BigData : Une introduction f´evrier-mars 2016 28 / 35
  • 33. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Neo4J Base de donn´ees orient´ee graphes Existe depuis 2000 Le BigData : Une introduction f´evrier-mars 2016 29 / 35
  • 34. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Travaux dirig´es Le BigData : Une introduction f´evrier-mars 2016 30 / 35
  • 35. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Architecture hardware BigData Une entreprise souhaite analyser les 2 To de logs quotidiens g´en´er´es par ses serveurs. Exercice Proposer une architecture BigData permettant de g´erer ce besoin. Vous devrez choisir : Le nombre de machines Leurs CPUs Leur RAM Leurs disques durs Leur syst`eme d’exploitation ... Le BigData : Une introduction f´evrier-mars 2016 30 / 35
  • 36. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Hive Hive est une infrastructure d’entrepˆot de donn´ees permettant de requˆeter des donn´ees stock´ees dans Hadoop avec un langage SQL-like. Exercice Proposer une impl´ementation MapReduce des requˆetes suivantes : SELECT name FROM Employee WHERE depid = 42 SELECT depid, COUNT(*) FROM Employee GROUP BY depid SELECT E.name, D.desc FROM Employee AS E INNER JOIN Department AS D ON (E.depid = D.depid) (cas Departement 1 Go) SELECT E.name, D.desc FROM Employee AS E INNER JOIN Department AS D ON (E.depid = D.depid) (cas g´en´eral) Le BigData : Une introduction f´evrier-mars 2016 31 / 35
  • 37. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Stockage de donn´ees m´et´eo historis´ees Exercice On dispose pour chaque ville de France, des relev´es des temp´erature, de pluviom´etrie et de pression atmosph´erique de chaque seconde depuis 1900. Quel volume de donn´ees (en octets) cela repr´esente-il approximativement ? Comment s’assurer que les relev´es sont exhaustifs et corrects ? Comment stocker efficacement ces donn´ees (type de support physique, syst`eme de gestion des donn´ees, mod`ele de donn´ees, . . . ) pour r´epondre le plus efficacement possible aux questions suivantes ? Quelle temp´erature faisait-il `a Champs-sur-Marne, le 26 juin 1942 `a 17:31:07 ? Dans quelle ville a-t-il le plus plu le 29 juillet 2002 ? En quelle ann´ee la pression atmosph´erique a-t-elle ´et´e maximale `a Grenoble ? Pleut-il vraiment plus en Bretagne ? Dans quelle ville et quand, le record de temp´erature a-t-il ´et´e atteint ? Quelles sont les cinq villes ayant eu le plus grand ´ecart de temp´erature journalier en 1942 ? On veut tracer sur une graphe, l’´evolution depuis 1900 des temp´eraturesde Paris, comment proc´eder ? Le BigData : Une introduction f´evrier-mars 2016 32 / 35
  • 38. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Travaux pratiques Le BigData : Une introduction f´evrier-mars 2016 33 / 35
  • 39. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Analysons Wikipedia Wikipedia propose de t´el´echarger un dump de tout son contenu. En date du 13 janvier 2016, en ne s´electionnant que les derni`eres r´evisions des articles anglais, sans fichiers ni images, sans discussions, on obtient un XML compress´e de 11.7 Go. Le BigData : Une introduction f´evrier-mars 2016 33 / 35
  • 40. Une d´efinition MapReduce Hadoop Bases NoSQL Travaux dirig´es Travaux pratiques Analysons Wikipedia ´Enonc´e Expliquer l’int´erˆet du format BZip2 dans le cadre d’un traitement de donn´ees distribu´ees. En utilisant le framework Hadoop, r´epondez aux questions suivantes `a propos des articles de Wikipedia : Quel est l’article le plus long ? Combien d’articles traitent de Hadoop ? Qui est le plus gros contributeur ? Quels sont les 100 mots les plus fr´equents ? Quel article est le plus r´ef´erenc´e par les autres articles ? Quels articles ont le plus de mots distincts en commum ? Le BigData : Une introduction f´evrier-mars 2016 34 / 35
  • 41. Merci pour votre attention Question(s) ?