BigData et Hadoop
au secours de téraoctets de logs inexploitables chez
  l’un des plus grands sites marchands européens.

                     by Pablo Lopez
                      @pLopezFr




                                                       1
Abstract

•   Une plateforme de production hors normes, exigeante

•   Une solution BigData innovante

•   De nombreux usages

•   Voir toujours plus grand



                                                          2
Speaker
        @pLopezFr
        blog.xebia.fr
                                             Architect

              Pablo Lopez
                                      Big Data
Fort Traffic
                             DevOps
               Performance
                                                         3
C’est l’histoire d’une startup...




                                    4
La course à l’armement
                                         !"#$%&''(&')&%*&+%)'(&',%"(+-."/'
                                               &/0%&'1223'&0'1241'
• ~500 serveurs de production     '#!"

                                  '!!"



• 80 applications
                                  &#!"

                                  &!!"

                                  %#!"


• 5 JVMs / serveur                %!!"

                                  $#!"


• 13 niveaux de load balancing.   $!!"

                                   #!"

                                    !"




                                                                             5
Une mine d’informations...

• Logs techniques /
  fonctionnelles / analytiques

• 5 à 10 fichiers de logs par JVMs
• 7 Go de logs / serveur / jour


                                      6
... et un calvaire pour les équipes

• Rotation trop rapide
• Collecte semi automatisée
• Transferts laborieux
• Volume à traiter colossal

                                        7
Les fonctionnalités recherchées

•   Centraliser   • Informer

•   Sécuriser     • Archiver

•   Analyser      • En temps réel
                                       9
De grandes responsabilités

• Disponibilité 99,995 %
• Temps de réponse sous la
  seconde

• Base de données = Single Point
  of Failure

• Coûts maitrisés
                                     10
Big Data et open source




                          11
Centraliser




              12
Centraliser (v2)




                   13
Sécuriser




            14
Analyser




           15
Informer / Archiver




                      16
Vue end-to-end
12:49:22.203 DEBUG introduction.HelloWorld



                                                             {service:HelloWorld, count:2}




            12:49:22.203 DEBUG introduction.HelloWorld




                                                                                             17
Le défi du temps réel
   Version initiale          Tuning infrastructure   Tuning code



                       '#"
                       '!"
                       &#"
Temps d’exécution      &!"

     du job            %#"
                       %!"

   en minutes          $#"
                       $!"
                        #"
                        !"



                                                                   18
Utilisation quotidienne




                          19
L’avenir... des use cases




                            20
L’avenir... de la plate-forme




                                21
L’avenir... des produits




                           22
Réservé aux grands ?




                       23
L’équipe
• Philippe Martin martinphilippe@yahoo.com
• Arnault Jeanson @ArnaultJeanson
• Jean-Philippe Hautin @JpHautin
         • Jawed Khelil     • Pierre Revellin
         • François Ostyn • Olivier Del Favero
                                                 24
Des questions ?




                  25

BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)