Hadoop MapReduce - OSDC FR 2009

•

7 j'aime•3,473 vues

Olivier Grisel

Introduction au traitement de gros volumes de données avec Hadoop MapReduce.

Technologie

Hadoop et MapReduce

Introduction au traitement de gros volumes de
données

Olivier Grisel AFPy OSDC FR – Nuxeo
http://twitter.com/ogrisel

OSDC FR 2009 – Paris Cité des Sciences

Quelques ordres de grandeur
•
% ls sh enwiki20090902pagesarticles.xml
– 23G enwiki20090902pagesarticles.xml
•
% time cat enwiki20090902pagesarticles.xml
> /dev/null
– 2.53s user 41.39s system 23% cpu 3:03.92 total
– 128MB/s (sur un disque SSD)
•
100 GB => ~ 10 minutes
•
1 TB => ~ 2 heures

•
1 PB => ~ 3 mois

MapReduce
•
Architecture mise au point par Google
•
But: faire des traitements (indexation,
aggrégation, datamining, ...)
•
Webscale (100 GB+, TB, PB, …)
•
Déplacer les traitements sur l'infra de stockage
•
Exploitation de l'information localisation des
données
•
Tolérance aux erreurs disque / hardware

Un exemple: Indexer en MapReduce
•
map(pageName, pageText):
– foreach word in pageText:
– emitIntermediate(word, pageName);
[copie et trie par clefs entre les noeuds]
•
reduce(word, pageNames):
– bucket = createBucketFor(word)
– foreach pageName in pageNames:
●
bucket.add(pageName)

– bucket.finalize()

Le projet Hadoop
•
Open Source / Apache Software Foundation
•
Yahoo / Facebook / Cloudera
•
Java
•
Sous projets :
– Hadoop MapReduce
– Hadoop DFS & Hbase
– Pig & Hive
– Mahout

Architecture générale
Name
Node

Data Data Data
Node Node Node

Client

Task Task Task
Tracker Tracker Tracker

Job
Tracker

Demo
•
Construire un jeu de données basé sur un dump
XML de wikipedia
•
Entrainer un “classifieur” bayesien de
documents
•
Pour chaque pays, rassembler dans un fichier la
liste des texte brut des articles de cette catégorie
•
Un article par ligne dans, 1 fichier par pays

Chargement des données dans
HDFS

java jar org.apache.mahout.classifier.
bayes.WikipediaXmlSplitter
d /path/to/enwikilatestpagesarticles.xml
o wikipediachunks/ c 64

hadoop dfs put wikipediachunks/ wikipediadump

Lancement du Job

hadoop jar /path/to/mahoutexamples*.job
org.apache.mahout.classifier.bayes
.WikipediaDatasetCreatorDriver
  i wikipediadump
  o wikipediadataset
  c src/test/resources/country.txt

C'est bien tout ça mais j'aime pas le
Java ...

… et bien fais le en Scala !
●

Hadoop Streaming
•
Utiliser des programmes hors JVM:
– Lire sur stdin
– Ecrire sur stdout
– Respecter la forme “<key>t<value>n”
– Emettre un heartbeat sur stderr
•
C, Perl, Python, Ruby, bash, sed, awk, ...

Running Streaming Jobs

hadoop jar /path/to/hadoop0.20.1streaming.jar
   mapper /home/hadoop/mapper.py
   reducer /home/hadoop/reducer.py
   input gutenberg/*
   output gutenbergoutput

Je suis DBA et je ne programme pas
•
Hive : SQLlike pour faire du Datawarehousing
avec Hadoop
•
Pig Latin : scripting haut niveau pour faire des
transformations sur des logs, dump de DB, ...

Comment installer Hadoop
•
Ajouter le repo Cloudera Distribution for
Hadoop 2 (CDH2) dans /etc/apt/sources.list
•
sudo aptget install hadoop hadoopconfpseudo
•
for service in /etc/init.d/hadoop* ;
do
sudo $service start;
done

Comment ne pas installer Hadoop
•
Image Amazon EC2 AMI par cloudera avec
CDH2
– scripts de lancement et de monitoring
– Pig, Hive, ...
– Possibilité d'installer des packages en plus
•
Service Amazon Elastic MapReduce
– Lance un cluster AWS EC2 avec Hadoop
préinstallé
– 1$ / h / node (octocore avec 1TB de disque)

Apprendre a Programmer en
MapReduce
•
Tutoriel officiel : http://hadoop.apache.org
•
Autres tutos : http://www.michaelnoll.com
•
Blog avec exemples d'applications :
http://www.datawrangling.com/
•
Support de formation Cloudera
– Videos
– Slides + fichiers exercices
– Images de machine virtuelle

Merci pour votre attention !

Des questions ?

http://twitter.com/ogrisel

Contenu connexe

Tendances

Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft

Hadoop and friends : introductionfredcons

HADOOP + RCdiscount

Stats web avec Hive chez Scoop.ithibnico

Tech day hadoop, SparkArrow-Institute

Hadoop Hbase - IntroductionBlandine Larbret

Big Data : Une IntroductionNicolas OGÉ

Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic

BigData_Chp5: Putting it all togetherLilia Sfaxi

Présentation Big Data et REX HadoopJoseph Glorieux

HadoopInstitut supérieur des études technologiques de Radès

Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...OCTO Technology

Big Data, Hadoop & SparkAlexia Audevart

Une introduction à HiveModern Data Stack France

Introduction aux algorithmes map reduceMathieu Dumoulin

Cours Big Data Chap2Amal Abid

BigData_TP3 : SparkLilia Sfaxi

BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi

Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introOlivier Mallassi

Spark une alternative à Hadoop MapReduce pour le DataminingModern Data Stack France

Tendances (20)

Big Data: Hadoop Map / Reduce sur Windows et Windows Azure

Hadoop and friends : introduction

HADOOP + R

Stats web avec Hive chez Scoop.it

Tech day hadoop, Spark

Hadoop Hbase - Introduction

Big Data : Une Introduction

Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark

BigData_Chp5: Putting it all together

Présentation Big Data et REX Hadoop

Hadoop

Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...

Big Data, Hadoop & Spark

Une introduction à Hive

Introduction aux algorithmes map reduce

Cours Big Data Chap2

BigData_TP3 : Spark

BigData_TP1: Initiation à Hadoop et Map-Reduce

Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro

Spark une alternative à Hadoop MapReduce pour le Datamining

En vedette

Un introduction à PigModern Data Stack France

Tour de Contrôle (Kaliop E-Commerce Dataflow System)Kaliop-slide

Utilisation du modele mapreduce dans les differents systemes nosql etude com...acef_mohamed

Spark, ou comment traiter des données à la vitesse de l'éclairAlexis Seigneurin

Introduction to Apache PigJason Shao

Techday Arrow Group: Hadoop & le Big DataArrow Group

Présentation Google DataflowGeoffrey Garnotel

Introduction to PigPrashanth Babu

Hadoop Graph Analysis par Thomas VialModern Data Stack France

En vedette (9)

Un introduction à Pig

Tour de Contrôle (Kaliop E-Commerce Dataflow System)

Utilisation du modele mapreduce dans les differents systemes nosql etude com...

Spark, ou comment traiter des données à la vitesse de l'éclair

Introduction to Apache Pig

Techday Arrow Group: Hadoop & le Big Data

Présentation Google Dataflow

Introduction to Pig

Hadoop Graph Analysis par Thomas Vial

Similaire à Hadoop MapReduce - OSDC FR 2009

Sahara : Hadoop as Service avec OpenStackALTIC Altic

Paris RailsCamp 2009Olivier Gutknecht

Infrastructure as code drupalChristophe Villeneuve

Docker en Production (Docker Paris)Jérôme Petazzoni

Pachyderm big data de l'ère dockerEnguerran Delahaie

Soutenance ysancenelsonverdier

HadoopAS Stitou

Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France

Rex docker en production meeutp-docker-nantesChristophe Furmaniak

Javascript as a first programming language : votre IC prête pour la révolution !VISEO

Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaModern Data Stack France

Presentation des outils traitements distribuesLê Anh

Optimiser wordpressJean-François Vial

Optimiser WordPressChi Nacim

PHP dans le cloudMicrosoft

Php dans le cloudChristophe Villeneuve

TP1 Big Data - MapReduceAmal Abid

OWF12/BIG DATA OWF OpenSearchServer lightParis Open Source Summit

[GAB2016] Azure DocumentDB - Jean-Luc BouchoCellenza

Jean-Luc Boucho - Azure DocumentDB - Global Azure Bootcamp 2016 Paris AZUG FR

Similaire à Hadoop MapReduce - OSDC FR 2009 (20)

Sahara : Hadoop as Service avec OpenStack

Paris RailsCamp 2009

Infrastructure as code drupal

Docker en Production (Docker Paris)

Pachyderm big data de l'ère docker

Soutenance ysance

Hadoop

Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...

Rex docker en production meeutp-docker-nantes

Javascript as a first programming language : votre IC prête pour la révolution !

Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Presentation des outils traitements distribues

Optimiser wordpress

Optimiser WordPress

PHP dans le cloud

Php dans le cloud

TP1 Big Data - MapReduce

OWF12/BIG DATA OWF OpenSearchServer light

[GAB2016] Azure DocumentDB - Jean-Luc Boucho

Jean-Luc Boucho - Azure DocumentDB - Global Azure Bootcamp 2016 Paris

Plus de Olivier Grisel

Strategies and Tools for Parallel Machine Learning in PythonOlivier Grisel

Universal Topic Classification - Named Entity Disambiguation (IKS Workshop Pa...Olivier Grisel

Statistical Machine Learning for Text Classification with scikit-learn and NLTKOlivier Grisel

Statistical Learning and Text Classification with NLTK and scikit-learnOlivier Grisel

Nuxeo Iks 2009 11 13Olivier Grisel

Nuxeo 5.3 and Semantic R&DOlivier Grisel

Programming the PS3Olivier Grisel

Plus de Olivier Grisel (7)

Strategies and Tools for Parallel Machine Learning in Python

Universal Topic Classification - Named Entity Disambiguation (IKS Workshop Pa...

Statistical Machine Learning for Text Classification with scikit-learn and NLTK

Statistical Learning and Text Classification with NLTK and scikit-learn

Nuxeo Iks 2009 11 13

Nuxeo 5.3 and Semantic R&D

Programming the PS3

Hadoop MapReduce - OSDC FR 2009

1. Hadoop et MapReduce Introduction au traitement de gros volumes de données Olivier Grisel AFPy OSDC FR – Nuxeo http://twitter.com/ogrisel OSDC FR 2009 – Paris Cité des Sciences

2. Quelques ordres de grandeur • % ls sh enwiki20090902pagesarticles.xml – 23G enwiki20090902pagesarticles.xml • % time cat enwiki20090902pagesarticles.xml > /dev/null – 2.53s user 41.39s system 23% cpu 3:03.92 total – 128MB/s (sur un disque SSD) • 100 GB => ~ 10 minutes • 1 TB => ~ 2 heures • 1 PB => ~ 3 mois

3. MapReduce • Architecture mise au point par Google • But: faire des traitements (indexation, aggrégation, datamining, ...) • Webscale (100 GB+, TB, PB, …) • Déplacer les traitements sur l'infra de stockage • Exploitation de l'information localisation des données • Tolérance aux erreurs disque / hardware

4. Un exemple: Indexer en MapReduce • map(pageName, pageText): – foreach word in pageText: – emitIntermediate(word, pageName); [copie et trie par clefs entre les noeuds] • reduce(word, pageNames): – bucket = createBucketFor(word) – foreach pageName in pageNames: ● bucket.add(pageName) – bucket.finalize()

5. Le projet Hadoop • Open Source / Apache Software Foundation • Yahoo / Facebook / Cloudera • Java • Sous projets : – Hadoop MapReduce – Hadoop DFS & Hbase – Pig & Hive – Mahout

6. Architecture générale Name Node Data Data Data Node Node Node Client Task Task Task Tracker Tracker Tracker Job Tracker

7. Demo • Construire un jeu de données basé sur un dump XML de wikipedia • Entrainer un “classifieur” bayesien de documents • Pour chaque pays, rassembler dans un fichier la liste des texte brut des articles de cette catégorie • Un article par ligne dans, 1 fichier par pays

8. Chargement des données dans HDFS java jar org.apache.mahout.classifier. bayes.WikipediaXmlSplitter d /path/to/enwikilatestpagesarticles.xml o wikipediachunks/ c 64 hadoop dfs put wikipediachunks/ wikipediadump

10.

11.

12. Lancement du Job hadoop jar /path/to/mahoutexamples*.job org.apache.mahout.classifier.bayes .WikipediaDatasetCreatorDriver i wikipediadump o wikipediadataset c src/test/resources/country.txt

13.

14. HadoopViz

15.

16.

17.

18. Les résultats

19.

20.

21. C'est bien tout ça mais j'aime pas le Java ... … et bien fais le en Scala ! ●

22. Hadoop Streaming • Utiliser des programmes hors JVM: – Lire sur stdin – Ecrire sur stdout – Respecter la forme “<key>t<value>n” – Emettre un heartbeat sur stderr • C, Perl, Python, Ruby, bash, sed, awk, ...

23.

24. Running Streaming Jobs hadoop jar /path/to/hadoop0.20.1streaming.jar mapper /home/hadoop/mapper.py reducer /home/hadoop/reducer.py input gutenberg/* output gutenbergoutput

25. Je suis DBA et je ne programme pas • Hive : SQLlike pour faire du Datawarehousing avec Hadoop • Pig Latin : scripting haut niveau pour faire des transformations sur des logs, dump de DB, ...

26. Comment installer Hadoop • Ajouter le repo Cloudera Distribution for Hadoop 2 (CDH2) dans /etc/apt/sources.list • sudo aptget install hadoop hadoopconfpseudo • for service in /etc/init.d/hadoop* ; do sudo $service start; done

27.

28. Comment ne pas installer Hadoop • Image Amazon EC2 AMI par cloudera avec CDH2 – scripts de lancement et de monitoring – Pig, Hive, ... – Possibilité d'installer des packages en plus • Service Amazon Elastic MapReduce – Lance un cluster AWS EC2 avec Hadoop préinstallé – 1$ / h / node (octocore avec 1TB de disque)

29.

30. Apprendre a Programmer en MapReduce • Tutoriel officiel : http://hadoop.apache.org • Autres tutos : http://www.michaelnoll.com • Blog avec exemples d'applications : http://www.datawrangling.com/ • Support de formation Cloudera – Videos – Slides + fichiers exercices – Images de machine virtuelle

31.

32. Merci pour votre attention ! Des questions ? http://twitter.com/ogrisel

Hadoop MapReduce - OSDC FR 2009

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (9)

Similaire à Hadoop MapReduce - OSDC FR 2009

Similaire à Hadoop MapReduce - OSDC FR 2009 (20)

Plus de Olivier Grisel

Plus de Olivier Grisel (7)

Hadoop MapReduce - OSDC FR 2009