SlideShare une entreprise Scribd logo
1  sur  45
Télécharger pour lire hors ligne
AMSTERDAM 20 et 21 Mars 2013
Vincent Heuschling
@vhe74
dimanche 28 avril 13
dimanche 28 avril 13
dimanche 28 avril 13
- Summit
dimanche 28 avril 13
- Summit
SQL - Summit ?
dimanche 28 avril 13
Communauté
dimanche 28 avril 13
500 visiteurs
~ 100 interrogés par
75 % sont engagés dans des projets
41 % ont une stratégie sur les données
34 % ont une plateforme Hadoop en production
43 % expérimentent
Usages : applications marketing, reco, comportemental,
optimisation des contenus...
dimanche 28 avril 13
4 Tracks
Applied Hadoop
Operating Hadoop
Hadoop Futures
Integrating Hadoop
dimanche 28 avril 13
Past Present and Future of Data Processing in Apache
Hadoop
Innovations in Apache Hadoop MapReduce Pig Hive for
Improving Query Performance
Enterprise integration of Disruptive Technologies (HSBC)
Hadoop Operations at LinkedIn
Analyzing 1.4 Trillion events with Hadoop
Scaling Big Data Mining Infrastructure Twitter Experience
Crowd-Sourced Intelligence Built into Search over
Hadoop
dimanche 28 avril 13
FUTURE of Hadoop
dimanche 28 avril 13
Map/Reduce vsYARN
dimanche 28 avril 13
Map/Reduce vsYARN
dimanche 28 avril 13
Apache TEZ
dimanche 28 avril 13
Pig/Hive : MR vs TEZ
dimanche 28 avril 13
Innovations in Apache
Hadoop MapReduce Pig Hive
for Improving Query
dimanche 28 avril 13
Enterprise Integration of
Disruptive Technologies
dimanche 28 avril 13
dimanche 28 avril 13
Nouvelle approche
1 plateforme
Données non structurées
Vues multiples
Générateur de changement
Scalabilité
Economie
Outil pour le business et les Techs
dimanche 28 avril 13
dimanche 28 avril 13
dimanche 28 avril 13
dimanche 28 avril 13
dimanche 28 avril 13
Economie : coûts / 10
Hadoop devient un outil stratégique
Pb d’organisation :
1 stack pour le stockage et les applications
Requiert des profils généralistes
dimanche 28 avril 13
Hadoop Operations
@Linkedin
dimanche 28 avril 13
“Hadoop is not a developer problem;
it’s an operations problem.”
Hadoop vendor ex-employee
dimanche 28 avril 13
2009 : 20 nodes
20 users
pas de monitoring
dimanche 28 avril 13
2009 : 20 nodes
20 users
pas de monitoring
2013 : 5000 Nodes in ~10 grids
Full configuration management
Full monitoring – Security
Capacity scheduler with SLA
~700 users
5 dedicated operations staff members
dimanche 28 avril 13
Scheduling
dimanche 28 avril 13
Hadoop != Grid
dimanche 28 avril 13
Autres :
1 seul benchmark : « Production code »
Outils de distribution
Gestion des utilisateurs
Tout sera rapidement open-sourcé !
dimanche 28 avril 13
Analyzing 1.4 Trillion events
with Hadoop
(comscore)
dimanche 28 avril 13
500 Milliards d’enregistrements par mois
dimanche 28 avril 13
Java Map-Reduce quotidien sur 92 jours de données
au début 170 Milliards d’enregistrements à trier et
ventiler
dimanche 28 avril 13
Java Map-Reduce quotidien sur 92 jours de données
au début 170 Milliards d’enregistrements à trier et
ventiler
.... très rapidement 30h / jour
dimanche 28 avril 13
Java Map-Reduce quotidien sur 92 jours de données
au début 170 Milliards d’enregistrements à trier et
ventiler
.... très rapidement 30h / jour
Solutions :
- Partitionner
- Trier les données en amont
dimanche 28 avril 13
Java Map-Reduce quotidien sur 92 jours de données
au début 170 Milliards d’enregistrements à trier et
ventiler
.... très rapidement 30h / jour
Solutions :
- Partitionner
- Trier les données en amont
... Job exécutés en 3 h !!!
dimanche 28 avril 13
120 Nodes
(3000 cores / 6TB memory / 2 PB de disques)
MAPR M5 2.1.0
SYNCSORT pour le tri et le loading
dimanche 28 avril 13
Scaling Big Data Mining
Infrastructure
Twitter Experience
dimanche 28 avril 13
Passés de 60 nodes / 6 analystes
à
~10000 nodes et ~100 analystes
dimanche 28 avril 13
Beaucoup de temps passé à
- Collecter
- Déplacer
- Organiser
Pour logger les données : Flume, Scribe, etc...
aujourd’hui :Thrift,AVRO, PROTOBUF
Construction d’un DAL au dessus de HCatalog
dimanche 28 avril 13
Crowd-Sourced Intelligence
Built into Search over
Hadoop
dimanche 28 avril 13
Interractions with Big-Data
HDFS
Command Line System Administrator
Key-Value store
Query
Engineer
Index
Keyword search
End User
dimanche 28 avril 13
Interractions with Big-Data
HDFS
Command Line System Administrator
Key-Value store
Query
Engineer
Index
Keyword search
End User
Reflected Intelligence
dimanche 28 avril 13
Pour aller plus loin !
http://hadoopsummit.org/amsterdam/schedule/
http://fr.slideshare.net/Hadoop_Summit/
http://www.youtube.com/user/HadoopSummit
dimanche 28 avril 13
Merci !
Vincent Heuschling
Gsm : 06 61 88 76 71
Email : vhe@affini-tech.com
Web : http://www.affini-tech.com
Twitter : @affinitech & @vhe74
dimanche 28 avril 13

Contenu connexe

Similaire à Feedback du EMEA Hadoop Summit 2013

Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
Ludovic Piot
 
Mise en place d’un moteur de recherche et de recommandation de documents text...
Mise en place d’un moteur de recherche et de recommandation de documents text...Mise en place d’un moteur de recherche et de recommandation de documents text...
Mise en place d’un moteur de recherche et de recommandation de documents text...
AbdeslamAMRANE3
 

Similaire à Feedback du EMEA Hadoop Summit 2013 (20)

Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big data
 
Big Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache HadoopBig Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache Hadoop
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
 
Zenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_ml
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
 
Dataiku-Petit-déjeuner-DataLab-290316.pdf
Dataiku-Petit-déjeuner-DataLab-290316.pdfDataiku-Petit-déjeuner-DataLab-290316.pdf
Dataiku-Petit-déjeuner-DataLab-290316.pdf
 
[GAB2016] Cortana Analytics - Jean-Pierre Riehl/Fabien Adato
[GAB2016] Cortana Analytics - Jean-Pierre Riehl/Fabien Adato[GAB2016] Cortana Analytics - Jean-Pierre Riehl/Fabien Adato
[GAB2016] Cortana Analytics - Jean-Pierre Riehl/Fabien Adato
 
Jean-Pierre Riehl, Fabien Adato - Cortana Analytics - Global Azure Bootcamp ...
Jean-Pierre Riehl, Fabien Adato - Cortana Analytics  - Global Azure Bootcamp ...Jean-Pierre Riehl, Fabien Adato - Cortana Analytics  - Global Azure Bootcamp ...
Jean-Pierre Riehl, Fabien Adato - Cortana Analytics - Global Azure Bootcamp ...
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
 
Mise en place d’un moteur de recherche et de recommandation de documents text...
Mise en place d’un moteur de recherche et de recommandation de documents text...Mise en place d’un moteur de recherche et de recommandation de documents text...
Mise en place d’un moteur de recherche et de recommandation de documents text...
 
Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données
 
DATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLEDATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLE
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
Spark Summit Europe Wrap Up and TASM State of the Community
Spark Summit Europe Wrap Up and TASM State of the CommunitySpark Summit Europe Wrap Up and TASM State of the Community
Spark Summit Europe Wrap Up and TASM State of the Community
 

Feedback du EMEA Hadoop Summit 2013