Feedback du EMEA Hadoop Summit 2013

AMSTERDAM 20 et 21 Mars 2013
Vincent Heuschling
@vhe74
dimanche 28 avril 13

- Summit
SQL - Summit ?

Communauté

500 visiteurs
~ 100 interrogés par
75 % sont engagés dans des projets
41 % ont une stratégie sur les données
34 % ont une plateforme Hadoop en production
43 % expérimentent
Usages : applications marketing, reco, comportemental,
optimisation des contenus...

4 Tracks
Applied Hadoop
Operating Hadoop
Hadoop Futures
Integrating Hadoop

Past Present and Future of Data Processing in Apache
Hadoop
Innovations in Apache Hadoop MapReduce Pig Hive for
Improving Query Performance
Enterprise integration of Disruptive Technologies (HSBC)
Hadoop Operations at LinkedIn
Analyzing 1.4 Trillion events with Hadoop
Scaling Big Data Mining Infrastructure Twitter Experience
Crowd-Sourced Intelligence Built into Search over
Hadoop

FUTURE of Hadoop

Map/Reduce vsYARN

Apache TEZ

Pig/Hive : MR vs TEZ

Innovations in Apache
Hadoop MapReduce Pig Hive
for Improving Query

Enterprise Integration of
Disruptive Technologies

Nouvelle approche
1 plateforme
Données non structurées
Vues multiples
Générateur de changement
Scalabilité
Economie
Outil pour le business et les Techs

Economie : coûts / 10
Hadoop devient un outil stratégique
Pb d’organisation :
1 stack pour le stockage et les applications
Requiert des proﬁls généralistes

Hadoop Operations
@Linkedin

“Hadoop is not a developer problem;
it’s an operations problem.”
Hadoop vendor ex-employee

2009 : 20 nodes
20 users
pas de monitoring

2009 : 20 nodes
20 users
pas de monitoring
2013 : 5000 Nodes in ~10 grids
Full conﬁguration management
Full monitoring – Security
Capacity scheduler with SLA
~700 users
5 dedicated operations staff members

Scheduling

Hadoop != Grid

Autres :
1 seul benchmark : « Production code »
Outils de distribution
Gestion des utilisateurs
Tout sera rapidement open-sourcé !

Analyzing 1.4 Trillion events
with Hadoop
(comscore)

500 Milliards d’enregistrements par mois

Java Map-Reduce quotidien sur 92 jours de données
au début 170 Milliards d’enregistrements à trier et
ventiler

ventiler
.... très rapidement 30h / jour

ventiler
Solutions :
- Partitionner
- Trier les données en amont

ventiler
Solutions :
- Partitionner
- Trier les données en amont
... Job exécutés en 3 h !!!

120 Nodes
(3000 cores / 6TB memory / 2 PB de disques)
MAPR M5 2.1.0
SYNCSORT pour le tri et le loading

Scaling Big Data Mining
Infrastructure
Twitter Experience

Passés de 60 nodes / 6 analystes
à
~10000 nodes et ~100 analystes

Beaucoup de temps passé à
- Collecter
- Déplacer
- Organiser
Pour logger les données : Flume, Scribe, etc...
aujourd’hui :Thrift,AVRO, PROTOBUF
Construction d’un DAL au dessus de HCatalog

Crowd-Sourced Intelligence
Built into Search over
Hadoop

Interractions with Big-Data
HDFS
Command Line System Administrator
Key-Value store
Query
Engineer
Index
Keyword search
End User

Interractions with Big-Data
HDFS
Command Line System Administrator
Key-Value store
Query
Engineer
Index
Keyword search
End User
Reﬂected Intelligence

Pour aller plus loin !
http://hadoopsummit.org/amsterdam/schedule/
http://fr.slideshare.net/Hadoop_Summit/
http://www.youtube.com/user/HadoopSummit

Merci !
Vincent Heuschling
Gsm : 06 61 88 76 71
Email : vhe@affini-tech.com
Web : http://www.affini-tech.com
Twitter : @affinitech & @vhe74

Feedback du EMEA Hadoop Summit 2013

Recommandé

Recommandé

Contenu connexe

Similaire à Feedback du EMEA Hadoop Summit 2013

Similaire à Feedback du EMEA Hadoop Summit 2013 (20)

Feedback du EMEA Hadoop Summit 2013