SlideShare une entreprise Scribd logo
1  sur  22
Télécharger pour lire hors ligne
HadoopHadoop
en 1461 leçonsen 1461 leçons
David MorelDavid Morel
1 / 22
Qui suis-je ?Qui suis-je ?
Dev chez Booking.com de 02/2007 à 11/2015
Frontend, Email marketing, Infra, Visitor personalization,
puis Big Data (2011)
Il n'y a pas de problème, il n'y a que des
solutions
(beaucoup de solutions)
2 / 22
© Gareth Bogdanoff/flickr
L'effet recherchéL'effet recherché
3 / 22
© peasap/flickr
Le prix à payerLe prix à payer
4 / 22
©kunkelstein/flickr
Des data devenues vraimentDes data devenues vraiment
too bigtoo big
Assez de scaffolding code !
Requêtes MySQL prenant
plusieurs heures, voire jours !
Enough is enough !
5 / 22
Le prototypeLe prototype
Vite fait, machines hétéroclites, jobs en
HadoopStreaming. Mariage peu orthodoxe
(Hadoop+Perl), mais des résultats encourageants, voire
magiques
6 / 22
Le premierLe premier vraivrai clustercluster
Import de tables de BDD (Sqoop) pour quelques
analystes : permettre enfin les requêtes cross-DB
Manque de docs à l'époque. Plus le cas aujourd'hui :
nombreux livres très utiles, voire obligatoires
Tout est à (ré)apprendre
7 / 22
Mise en productionMise en production
Passage rapide à deux clusters pour les tests de
configuration, les upgrades et la redondance
Consultants Cloudera pour le bootstrap, utilisation de
CM au début puis Puppet
8 / 22
Le dédale des optionsLe dédale des options
C'est un cauchemar !
Aucune config standard adaptée
Théorie : les gros utilisateurs (early adopters) n'ont pas
de temps pour la doc
Différent aujourd'hui ?
9 / 22
Nos premiers utilisateursNos premiers utilisateurs
Venant de MySQL, Hive était un choix évident
TRANSFORM est une killer feature
10 / 22
Ce qu'ils nous apprennentCe qu'ils nous apprennent
Une vélocité jamais atteinte, très favorable aux
processus de développement itératifs
Un effort de formation très important :
mapreduce demande un paradigm shift
les utilisateurs voient une chose qui just works et
cassent tout très facilement
11 / 22
La montée en chargeLa montée en charge
Ingestion des events du site : millions, puis milliards de
JSON par jour
Demande endémiquement sous-évaluée : croissance du
volume dans toutes les directions
Reprocess, big jointures : quelques indigestions
Prévisions d'espace disque et CPU : encore plus
difficiles sur un petit cluster
Les clusters sont de petits gros êtres fragiles
12 / 22
La minute de la haineLa minute de la haine
Le jour où on a effacé toutes les partitions
Le jour où le FairScheduler est devenu fou
Le jour où le HistoryServer a fait tomber le cluster
Et les 1458 autres jours
De grands moments de solitude (surtout la nuit)
Chasser les bugs est so fun
13 / 22
Pourquoi tant dePourquoi tant de hainehaine bugsbugs
fun ?fun ?
Parce que ce sont des systèmes jeunes !
Parce que ce sont des systèmes complexes (pas un
système, mais un écosystème)
Parce que le développement est rapide, et la
concurrence féroce
Encore très loin de la stabilité et de la prévisibilité des
SGBDR (même si c'est très différent)
14 / 22
Le cloud, pourquoi pas ?Le cloud, pourquoi pas ?
Obstacles culturels et confidentialité
Le faire si l'on peut, surtout pour le démarrage : se
concentrer sur la valeur, pas sur la plomberie
Virtualisation in-house ? Now you have 2 problems
15 / 22
La division du tempsLa division du temps
40 % troubleshoot infra, maintenance, évolution
40 % troubleshoot users, formation, assistance
40 % codage de scripts de monitoring, et facilitation
d'accès pour les users
Demande un peu d'organisation :-)
16 / 22
Des solutions ?Des solutions ?
Briques de bases (automatisation, profiling, grosses
config comme Kerberos) à implémenter toujours très
tôt ; les systèmes distribués ne rendent pas les choses
plus simples
Peut-être une 2ème équipe déchargée du support
utilisateurs ?
Favoriser la diffusion de la connaissance, utiliser des
outils adaptés, type StackOverflow. Former des
utilisateurs experts qui forment les autres
Classique, non ? Presque...
17 / 22
La récompenseLa récompense
Un analyste: "Without you guys, I simply
couldn't do my job anymore"
Yeehaa!
18 / 22
Recette : réussir ses lasagnesRecette : réussir ses lasagnes
à la big dataà la big data
Un investissement humain et matériel important, un
R.O.I incertain
Le data-centrisme et la transdiciplinarité en préalable
Pourquoi ai-je besoin d'Hadoop ? Quelles alternatives ?
Comme toujours, la clé est dans la qualité de l'exécution
Workhorses, not show ponies ; faire bien une chose,
plutôt que dix mal
19 / 22
Une promenade de santéUne promenade de santé
Allez-y !
20 / 22
Une promenadeUne promenade
de santéde santé
Allez-y !
(doucement, quand même)
21 / 22
david.morel@amakuru.net
http://www.amakuru.net/
22 / 22

Contenu connexe

Tendances

En 2016 : Faire du SEO face à une intelligence artificielle
En 2016 : Faire du SEO face à une intelligence artificielleEn 2016 : Faire du SEO face à une intelligence artificielle
En 2016 : Faire du SEO face à une intelligence artificiellePeak Ace
 
Comment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texteComment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texteAntidot
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQLAntoine Augusti
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech
 
Presentation Hadoop Québec
Presentation Hadoop QuébecPresentation Hadoop Québec
Presentation Hadoop QuébecMathieu Dumoulin
 
EuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTechnologies
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
Euratech'trends : Machine Learning
Euratech'trends : Machine LearningEuratech'trends : Machine Learning
Euratech'trends : Machine LearningEuraTechnologies
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinPALO IT
 
Comment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaireComment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaireAntidot
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherLilia Sfaxi
 

Tendances (13)

En 2016 : Faire du SEO face à une intelligence artificielle
En 2016 : Faire du SEO face à une intelligence artificielleEn 2016 : Faire du SEO face à une intelligence artificielle
En 2016 : Faire du SEO face à une intelligence artificielle
 
Comment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texteComment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texte
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
 
Presentation Hadoop Québec
Presentation Hadoop QuébecPresentation Hadoop Québec
Presentation Hadoop Québec
 
EuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTech Trends : Big Data
EuraTech Trends : Big Data
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Euratech'trends : Machine Learning
Euratech'trends : Machine LearningEuratech'trends : Machine Learning
Euratech'trends : Machine Learning
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foin
 
Comment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaireComment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaire
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 

En vedette

Curso de-lingu-stica-geral
Curso de-lingu-stica-geralCurso de-lingu-stica-geral
Curso de-lingu-stica-geralRafaela Seibert
 
Digital strategy
Digital strategy Digital strategy
Digital strategy Odino Pixar
 
Unidad popular - Programa Propuestas Empleo
Unidad popular - Programa Propuestas EmpleoUnidad popular - Programa Propuestas Empleo
Unidad popular - Programa Propuestas EmpleoRaúl Pérez González
 
Tayanne e pyetra
Tayanne e pyetraTayanne e pyetra
Tayanne e pyetraBarandaV
 
What do we know about the future of retail
What do we know about the future of retailWhat do we know about the future of retail
What do we know about the future of retailTim Ellis
 
Marathon medicine volunteer training course
Marathon medicine volunteer training courseMarathon medicine volunteer training course
Marathon medicine volunteer training courseBrett Thoreson
 
Atitudes que levam ao Fracasso profissional
Atitudes que levam ao Fracasso profissionalAtitudes que levam ao Fracasso profissional
Atitudes que levam ao Fracasso profissionalCOTIC-PROEG (UFPA)
 
Ehab Ali CV- 2016
Ehab Ali CV- 2016Ehab Ali CV- 2016
Ehab Ali CV- 2016Ehab Ali
 
Business plan delhi chapter
Business plan   delhi chapterBusiness plan   delhi chapter
Business plan delhi chapterOdino Pixar
 
Bmce capital research flash cdm 30 05 16
Bmce capital research flash cdm 30 05 16Bmce capital research flash cdm 30 05 16
Bmce capital research flash cdm 30 05 16www.bourse-maroc.org
 
Situación económica, política y social en tiempos de jesús
Situación económica, política y social en tiempos de jesúsSituación económica, política y social en tiempos de jesús
Situación económica, política y social en tiempos de jesúshjsz0601
 
Une journée en images
Une journée en imagesUne journée en images
Une journée en imagesguesteeda1a
 
Mystère de l'histoire
Mystère de l'histoire   Mystère de l'histoire
Mystère de l'histoire daroussin
 

En vedette (20)

Curso de-lingu-stica-geral
Curso de-lingu-stica-geralCurso de-lingu-stica-geral
Curso de-lingu-stica-geral
 
Psoe - Programa Propuestas Empleo
Psoe - Programa Propuestas EmpleoPsoe - Programa Propuestas Empleo
Psoe - Programa Propuestas Empleo
 
Seminario
SeminarioSeminario
Seminario
 
Digital strategy
Digital strategy Digital strategy
Digital strategy
 
Unidad popular - Programa Propuestas Empleo
Unidad popular - Programa Propuestas EmpleoUnidad popular - Programa Propuestas Empleo
Unidad popular - Programa Propuestas Empleo
 
Tayanne e pyetra
Tayanne e pyetraTayanne e pyetra
Tayanne e pyetra
 
What do we know about the future of retail
What do we know about the future of retailWhat do we know about the future of retail
What do we know about the future of retail
 
Marathon medicine volunteer training course
Marathon medicine volunteer training courseMarathon medicine volunteer training course
Marathon medicine volunteer training course
 
Atitudes que levam ao Fracasso profissional
Atitudes que levam ao Fracasso profissionalAtitudes que levam ao Fracasso profissional
Atitudes que levam ao Fracasso profissional
 
Ehab Ali CV- 2016
Ehab Ali CV- 2016Ehab Ali CV- 2016
Ehab Ali CV- 2016
 
Programar sozinho?!
Programar sozinho?!Programar sozinho?!
Programar sozinho?!
 
Business plan delhi chapter
Business plan   delhi chapterBusiness plan   delhi chapter
Business plan delhi chapter
 
Bmce capital research flash cdm 30 05 16
Bmce capital research flash cdm 30 05 16Bmce capital research flash cdm 30 05 16
Bmce capital research flash cdm 30 05 16
 
Situación económica, política y social en tiempos de jesús
Situación económica, política y social en tiempos de jesúsSituación económica, política y social en tiempos de jesús
Situación económica, política y social en tiempos de jesús
 
MY LAST SUMMER HOLIDAYS
MY LAST SUMMER HOLIDAYSMY LAST SUMMER HOLIDAYS
MY LAST SUMMER HOLIDAYS
 
Vanesa respuesta
Vanesa respuestaVanesa respuesta
Vanesa respuesta
 
Une journée en images
Une journée en imagesUne journée en images
Une journée en images
 
Paola
PaolaPaola
Paola
 
Comenius
ComeniusComenius
Comenius
 
Mystère de l'histoire
Mystère de l'histoire   Mystère de l'histoire
Mystère de l'histoire
 

Similaire à Hadoop en 1461 leçons

Intégration continue
Intégration continueIntégration continue
Intégration continueJohan Moreau
 
Présentation des initiatives Drupal 8 - Fev 12
Présentation des initiatives Drupal 8 - Fev 12Présentation des initiatives Drupal 8 - Fev 12
Présentation des initiatives Drupal 8 - Fev 12Drupal Asso France
 
[POSS 2018] Passer d'un écosystème baremetal à un univers micro services et d...
[POSS 2018] Passer d'un écosystème baremetal à un univers micro services et d...[POSS 2018] Passer d'un écosystème baremetal à un univers micro services et d...
[POSS 2018] Passer d'un écosystème baremetal à un univers micro services et d...Worteks
 
Séminaire Linagora : poste de travail Libre, décembre 2009
Séminaire Linagora : poste de travail Libre, décembre 2009Séminaire Linagora : poste de travail Libre, décembre 2009
Séminaire Linagora : poste de travail Libre, décembre 2009LINAGORA
 
Perfug BOF devoxx2017.pptx
Perfug BOF devoxx2017.pptxPerfug BOF devoxx2017.pptx
Perfug BOF devoxx2017.pptxMarc Bojoly
 
L'analyse qualitative informatique pas cher
L'analyse qualitative informatique pas cherL'analyse qualitative informatique pas cher
L'analyse qualitative informatique pas cherHubert Maisonneuve
 
FAN, Fully Automated Nagios, Rencontres Mondiales du Logiciel Libre 2008
FAN, Fully Automated Nagios, Rencontres Mondiales du Logiciel Libre 2008FAN, Fully Automated Nagios, Rencontres Mondiales du Logiciel Libre 2008
FAN, Fully Automated Nagios, Rencontres Mondiales du Logiciel Libre 2008FAN Fully Automated Nagios
 
Production logicielle, outils et pratiques
Production logicielle, outils et pratiquesProduction logicielle, outils et pratiques
Production logicielle, outils et pratiquesJohan Moreau
 
Retour d'expérience - Poste de travail Libre
Retour d'expérience - Poste de travail Libre Retour d'expérience - Poste de travail Libre
Retour d'expérience - Poste de travail Libre guest3be047
 
Cours Devops Sparks.pptx.pdf
Cours Devops Sparks.pptx.pdfCours Devops Sparks.pptx.pdf
Cours Devops Sparks.pptx.pdfboulonvert
 
Le DevOps : La clé de la transformation digitale ?
Le DevOps : La clé de la transformation digitale ?Le DevOps : La clé de la transformation digitale ?
Le DevOps : La clé de la transformation digitale ?Amico Fabien
 
Supervision d'un réseau informatique avec Nagios
Supervision d'un réseau informatique avec NagiosSupervision d'un réseau informatique avec Nagios
Supervision d'un réseau informatique avec Nagioschristedy keihouad
 
Introduction aux problématiques des architectures distribuées
Introduction aux problématiques des architectures distribuéesIntroduction aux problématiques des architectures distribuées
Introduction aux problématiques des architectures distribuéesSOAT
 
Introduction sur les problématiques d'une architecture distribuée
Introduction sur les problématiques d'une architecture distribuéeIntroduction sur les problématiques d'une architecture distribuée
Introduction sur les problématiques d'une architecture distribuéeKhanh Maudoux
 
Chapitre 1 - Introcution & cycles de développement - Etudiant.pptx
Chapitre 1 - Introcution & cycles de développement - Etudiant.pptxChapitre 1 - Introcution & cycles de développement - Etudiant.pptx
Chapitre 1 - Introcution & cycles de développement - Etudiant.pptxssuserec8501
 
MapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMathieu Dumoulin
 

Similaire à Hadoop en 1461 leçons (20)

Intégration continue
Intégration continueIntégration continue
Intégration continue
 
Wygday 2008
Wygday 2008Wygday 2008
Wygday 2008
 
Présentation des initiatives Drupal 8 - Fev 12
Présentation des initiatives Drupal 8 - Fev 12Présentation des initiatives Drupal 8 - Fev 12
Présentation des initiatives Drupal 8 - Fev 12
 
D8 update-2-22-12
D8 update-2-22-12D8 update-2-22-12
D8 update-2-22-12
 
[POSS 2018] Passer d'un écosystème baremetal à un univers micro services et d...
[POSS 2018] Passer d'un écosystème baremetal à un univers micro services et d...[POSS 2018] Passer d'un écosystème baremetal à un univers micro services et d...
[POSS 2018] Passer d'un écosystème baremetal à un univers micro services et d...
 
Séminaire Linagora : poste de travail Libre, décembre 2009
Séminaire Linagora : poste de travail Libre, décembre 2009Séminaire Linagora : poste de travail Libre, décembre 2009
Séminaire Linagora : poste de travail Libre, décembre 2009
 
Paris Chaos Engineering Meetup #6
Paris Chaos Engineering Meetup #6Paris Chaos Engineering Meetup #6
Paris Chaos Engineering Meetup #6
 
Perfug BOF devoxx2017.pptx
Perfug BOF devoxx2017.pptxPerfug BOF devoxx2017.pptx
Perfug BOF devoxx2017.pptx
 
L'analyse qualitative informatique pas cher
L'analyse qualitative informatique pas cherL'analyse qualitative informatique pas cher
L'analyse qualitative informatique pas cher
 
FAN, Fully Automated Nagios, Rencontres Mondiales du Logiciel Libre 2008
FAN, Fully Automated Nagios, Rencontres Mondiales du Logiciel Libre 2008FAN, Fully Automated Nagios, Rencontres Mondiales du Logiciel Libre 2008
FAN, Fully Automated Nagios, Rencontres Mondiales du Logiciel Libre 2008
 
Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)
 
Production logicielle, outils et pratiques
Production logicielle, outils et pratiquesProduction logicielle, outils et pratiques
Production logicielle, outils et pratiques
 
Retour d'expérience - Poste de travail Libre
Retour d'expérience - Poste de travail Libre Retour d'expérience - Poste de travail Libre
Retour d'expérience - Poste de travail Libre
 
Cours Devops Sparks.pptx.pdf
Cours Devops Sparks.pptx.pdfCours Devops Sparks.pptx.pdf
Cours Devops Sparks.pptx.pdf
 
Le DevOps : La clé de la transformation digitale ?
Le DevOps : La clé de la transformation digitale ?Le DevOps : La clé de la transformation digitale ?
Le DevOps : La clé de la transformation digitale ?
 
Supervision d'un réseau informatique avec Nagios
Supervision d'un réseau informatique avec NagiosSupervision d'un réseau informatique avec Nagios
Supervision d'un réseau informatique avec Nagios
 
Introduction aux problématiques des architectures distribuées
Introduction aux problématiques des architectures distribuéesIntroduction aux problématiques des architectures distribuées
Introduction aux problématiques des architectures distribuées
 
Introduction sur les problématiques d'une architecture distribuée
Introduction sur les problématiques d'une architecture distribuéeIntroduction sur les problématiques d'une architecture distribuée
Introduction sur les problématiques d'une architecture distribuée
 
Chapitre 1 - Introcution & cycles de développement - Etudiant.pptx
Chapitre 1 - Introcution & cycles de développement - Etudiant.pptxChapitre 1 - Introcution & cycles de développement - Etudiant.pptx
Chapitre 1 - Introcution & cycles de développement - Etudiant.pptx
 
MapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifié
 

Hadoop en 1461 leçons

  • 1. HadoopHadoop en 1461 leçonsen 1461 leçons David MorelDavid Morel 1 / 22
  • 2. Qui suis-je ?Qui suis-je ? Dev chez Booking.com de 02/2007 à 11/2015 Frontend, Email marketing, Infra, Visitor personalization, puis Big Data (2011) Il n'y a pas de problème, il n'y a que des solutions (beaucoup de solutions) 2 / 22
  • 3. © Gareth Bogdanoff/flickr L'effet recherchéL'effet recherché 3 / 22
  • 4. © peasap/flickr Le prix à payerLe prix à payer 4 / 22
  • 5. ©kunkelstein/flickr Des data devenues vraimentDes data devenues vraiment too bigtoo big Assez de scaffolding code ! Requêtes MySQL prenant plusieurs heures, voire jours ! Enough is enough ! 5 / 22
  • 6. Le prototypeLe prototype Vite fait, machines hétéroclites, jobs en HadoopStreaming. Mariage peu orthodoxe (Hadoop+Perl), mais des résultats encourageants, voire magiques 6 / 22
  • 7. Le premierLe premier vraivrai clustercluster Import de tables de BDD (Sqoop) pour quelques analystes : permettre enfin les requêtes cross-DB Manque de docs à l'époque. Plus le cas aujourd'hui : nombreux livres très utiles, voire obligatoires Tout est à (ré)apprendre 7 / 22
  • 8. Mise en productionMise en production Passage rapide à deux clusters pour les tests de configuration, les upgrades et la redondance Consultants Cloudera pour le bootstrap, utilisation de CM au début puis Puppet 8 / 22
  • 9. Le dédale des optionsLe dédale des options C'est un cauchemar ! Aucune config standard adaptée Théorie : les gros utilisateurs (early adopters) n'ont pas de temps pour la doc Différent aujourd'hui ? 9 / 22
  • 10. Nos premiers utilisateursNos premiers utilisateurs Venant de MySQL, Hive était un choix évident TRANSFORM est une killer feature 10 / 22
  • 11. Ce qu'ils nous apprennentCe qu'ils nous apprennent Une vélocité jamais atteinte, très favorable aux processus de développement itératifs Un effort de formation très important : mapreduce demande un paradigm shift les utilisateurs voient une chose qui just works et cassent tout très facilement 11 / 22
  • 12. La montée en chargeLa montée en charge Ingestion des events du site : millions, puis milliards de JSON par jour Demande endémiquement sous-évaluée : croissance du volume dans toutes les directions Reprocess, big jointures : quelques indigestions Prévisions d'espace disque et CPU : encore plus difficiles sur un petit cluster Les clusters sont de petits gros êtres fragiles 12 / 22
  • 13. La minute de la haineLa minute de la haine Le jour où on a effacé toutes les partitions Le jour où le FairScheduler est devenu fou Le jour où le HistoryServer a fait tomber le cluster Et les 1458 autres jours De grands moments de solitude (surtout la nuit) Chasser les bugs est so fun 13 / 22
  • 14. Pourquoi tant dePourquoi tant de hainehaine bugsbugs fun ?fun ? Parce que ce sont des systèmes jeunes ! Parce que ce sont des systèmes complexes (pas un système, mais un écosystème) Parce que le développement est rapide, et la concurrence féroce Encore très loin de la stabilité et de la prévisibilité des SGBDR (même si c'est très différent) 14 / 22
  • 15. Le cloud, pourquoi pas ?Le cloud, pourquoi pas ? Obstacles culturels et confidentialité Le faire si l'on peut, surtout pour le démarrage : se concentrer sur la valeur, pas sur la plomberie Virtualisation in-house ? Now you have 2 problems 15 / 22
  • 16. La division du tempsLa division du temps 40 % troubleshoot infra, maintenance, évolution 40 % troubleshoot users, formation, assistance 40 % codage de scripts de monitoring, et facilitation d'accès pour les users Demande un peu d'organisation :-) 16 / 22
  • 17. Des solutions ?Des solutions ? Briques de bases (automatisation, profiling, grosses config comme Kerberos) à implémenter toujours très tôt ; les systèmes distribués ne rendent pas les choses plus simples Peut-être une 2ème équipe déchargée du support utilisateurs ? Favoriser la diffusion de la connaissance, utiliser des outils adaptés, type StackOverflow. Former des utilisateurs experts qui forment les autres Classique, non ? Presque... 17 / 22
  • 18. La récompenseLa récompense Un analyste: "Without you guys, I simply couldn't do my job anymore" Yeehaa! 18 / 22
  • 19. Recette : réussir ses lasagnesRecette : réussir ses lasagnes à la big dataà la big data Un investissement humain et matériel important, un R.O.I incertain Le data-centrisme et la transdiciplinarité en préalable Pourquoi ai-je besoin d'Hadoop ? Quelles alternatives ? Comme toujours, la clé est dans la qualité de l'exécution Workhorses, not show ponies ; faire bien une chose, plutôt que dix mal 19 / 22
  • 20. Une promenade de santéUne promenade de santé Allez-y ! 20 / 22
  • 21. Une promenadeUne promenade de santéde santé Allez-y ! (doucement, quand même) 21 / 22