Big Data : noSql, Map&Reduce, RDBMS
Quoi utiliser et quand ?
    !   Romain Chaumais – romain.chaumais@ysance.com
        Directeur du pôle Business Intelligence
Les origines du phénomène Big Data
Big Data ?

                      1 203 900 000
                                        +
                          164 500 000


                      1 368 400 000
     Le nombre de transactions aux péages
       des autoroutes de France en 2010
             41,5M de véhicules / 84,1Mrd de Km
Evolution d’un péage autoroutier




      Analogique    Anonyme    Product Centric
Vers un télépéage et le Big Data




                   Historisé et    Customer
      Numérique
                     analysé        Centric
L’ampleur du déluge de données
                                                     Web-Scale




!    Plus de 1 million de     !  500 millions de         !  7,2 milliards de
     transactions clients /      visiteurs / jours          pages vues / jour
     heure                                               !  88 milliards de
                              !  50 milliards de
!    2 500 To de données         photos stockées            recherches / mois
     en base                                             !  20 Po de données
                              !  90 milliards de
                                 contenus partagés          traitées / jour
                                 chaque mois
Volume de données

                                  •  Démarré en 2000

                                  •  En quelques semaines, a
                                     collecté plus de données que
                                     dans toute l’histoire de
                                     l’astronomie

                                  •  A ce jour, a généré plus de
                                     160 To de data archivées




Sloan Digital Sky Survey - Nouveau Mexique
Volume de données

                                   •  Démarrera en 2016

                                   •  Génèrera plus de 160 To de
                                      data en ...




                                          4 jours !!
Large Synoptic Survey Telescope - Chili
Raw Data ?
                 B




             9
Raw Data = Plus d’explorations
Qui aujourd’hui produit et
consomme la donnée ?




   Human generated data      Machine generated data
Big Data : Proposition de définition
La règle des 3 V

Volume                                    Vélocité
Collecte & stockage                        Intégration, traitement
d’un grand volume                          et restitution en temps
de données                                 limité




                           Variété
                           Données structurées mais aussi
                           non structurées (texte, audio,
                           vidéos, click streams, log files, etc.
Exemples de projets Big Data
Exemples Map & Reduce
Exemple projet Big Data Ysance

                 •  Casual Game consistant à échanger
                    des objets avec ses amis
                     ! 1,3 millions de joueurs mensuels
                 •  Analyse des interactions entre les
                    joueurs et leurs amis
                     ! Analyse du graphe social des joueurs
                     ! Catégorisation des joueurs selon le
                       nombre d'amis jouant aussi à IsCool
                 •  Mise en place d'un parcours de jeux
                    personnalisé selon le nombre d'amis
                     ! Objectif : Avoir au moins 10 amis avec
                       qui jouer à IsCool

                        •  >> Multiplication du CA
VSC : CHALLENGE TECHNO POUR UNE
PROMESSE BUSINESS !
                     Comment	
  offrir	
  plus	
  d’usage	
  B2C	
  aux	
  clients	
  sur	
  un	
  legacy	
  limité	
  au	
  B2B	
  ?	
  	
  

Des	
  clients	
  qui	
  exprimaient	
  leur	
  mécontentement	
  
	
  
«	
  trop	
  d'informa.ons	
  "accrocheuses",	
  décalage	
  avec	
  ce	
  que	
  l'on	
  trouve	
  
ensuite.je	
  trouve	
  rarement	
  un	
  trajet	
  en	
  promo.on	
  à	
  par.r	
  de	
  ma	
  ville	
  
(Tours	
  )	
  »	
  	
  
	
  
«	
  J'aDendais	
  de	
  pouvoir	
  avoir	
  un	
  tarif	
  très	
  avantageux	
  avec	
  une	
  date	
  
libre	
  en	
  complétant	
  simplement	
  départ	
  et	
  arrivée	
  du	
  train	
  ou	
  autre	
  
mode	
  de	
  locomo.on	
  choisi.	
  »	
  
Calendrier des prix : projet Big Data

                    •  Voyages-sncf : Calendrier des prix

                         Volume                Vélocité




                                    Variété
Comment le Big Data peut-il créer
de la valeur ?
•  En apportant de la transparence et la suppression des silos de
   données

•  En simplifiant l’exploration des données, l’expérimentation, la
   compréhension de phénomènes, l’identification de nouvelles
   tendances : Data discovery / Data visualization

•  En permettant la mise en place d’un CRM hyper segmenté
   tendant vers du One-To-One

•  En offrant une véritable aide à la décision via des algorithmes
   riches exécutés automatiquement : Datamining / prédictif

•  En devant le socle actif de nouveaux produits, services et
   Business modèle orientés données
Paysage Big Data / No SQL
Les problématiques du Big Data


                         Analyser /
Capturer /               Visualiser
Acheminer
                                      Partager /
                                      Sécuriser




   Stocker /                     Traiter /
   Organiser                     Consolider
Des acteurs du Big Data



                          MS	
  PowerPivot	
  
Classification des « bases de données »
     The CAP Theorem
                     •    Relational
     Data Models     •    Relational MPP
                     • 
                     • 
                     • 
                          Key - Value
                          Column Oriented / Tabular
                          Document Oriented
                                                        A     Availability means that all
                                                              clients can always read and
                                                              write

                   CA                                                                          AP
•    RDBMSs (Oracle, SQLServer, MySQL)                                     •    Dynamo, Voldemort, Tokyo Cabinet, KAI
•    Teradata, Exadata, Netezza, Fast Track                                •    SimpleDB, CouchDB, Riak
•    Vertica, Greenplum, InfiniDB                                          •    Cassandra,
•    Azure Table Storage
                                                Pick only 2



                                  C     Big Data : architecture alternative     P
                                                                                Partition tolerance means that
     Consistency means that
                                                                                the system works well across
     each client always has the                        CP
                                                                                physical network partitions
     same view of the data             •    BigTable, Hypertable, Hbase,
                                       •    Hive, Aster Data
                                       •    MongoDB, Terrastore
                                       •    Scalaris, Berkeley DB, MemcacheDB
                                       •    Redis, Scalaris                       Source : http://blog.nahurst.com
Classification des moteurs de traitement
des données de type Big Data
                                                                          _
                Moteur spécialisé
                                            +                                                                        +




                                                                         Volume	
  de	
  données	
  traitées	
  

                                                                                                                   Structura:on	
  des	
  données	
  
                Appliance MPP




                                           Performance	
  /	
  CPU	
  
                 Framework Map & Reduce



                                              _                                                                       _
                                                                         +
Hadoop : Plate-forme Big Data de
référence
•  Hadoop : HDFS + MapReduce = Stockage + Traitement

•  Historique d’Hadoop :
    ! Inspiré de Google Map Reduce - Première version en 2008 (Yahoo)
    ! Projet de la fondation Apache. Version 1.0 en janvier 2012.
    ! Utilisateurs : Yahoo, Facebook, Tweeter, LinkedIn, eBay, etc.


•  Hadoop : Leader des solutions de MapReduce
            Natives Hadoop                Dérivées Hadoop     Autres




                             BIGDATA
L’écosystème Hadoop = Distribution
                                                   Principal élément de différenciation entre les distributions

                                                   Data Mining         Index / search    ODBC / JDBC
                                                                                                              Distribution
                                   Hue	
  

                                                     Mahout	
             Lucene	
  
  Orchestration, Administration,




                                                                                              Hive	
  	
  
                                                     Pegasus	
              SolR	
           Add-­‐In	
         Hadoop
      Monitoring, Security
                                   Oozie	
  




                                                   Advanced Query Engine (Hive, Pig, Cascalog…)
                                                                                                             Data Integration layer
                                   ZooKeeper	
  




                                                           File Data               Row / Column HBase              API	
  HBase	
     Transac:ons	
  

                                                           MR : Distributed Data Processing                          Flume	
            Log	
  Data	
  
                                                             HDFS : Distributed File System                          Sqoop	
            RDBMS	
  

                                                                                                                       Fuse	
         File	
  System	
  
                                                         Cluster : CPU / RAM / Disk / Network
                                                                          OS + JVM
Architectures Big Data
En complément ou en remplacement
du SID traditionnel ?


                              Le Big Data en complément
                              de la BI traditionnelle




Le Big Data en remplacement
de la BI traditionnelle
Comment résoudre cette équation ?
    Base            Serveurs                                                                Mobile / Média
                                    Serveurs Web Serveurs Web Email / Marketing
opérationnelle     applicatifs                     Analytics                      CRM / MDM   sociaux
                                                                automation




                                                                                  Historiques /                                        Géoloc /
   Données             Logs            Clics          Web          Emailing         Données
opérationnelles   Transactionnels   Streaming       Analytics      tracking                                                             feeds
                                                                                  référentielles




                                                                                                   Applica:ons	
  décisionnelles	
  
                                                   DWH	
  
Architecture de type Big Data
           BI « Big Data »     Search /      Usages
           Données brutes     Indexation « temps réel »




                                                        BI traditionnelle
                                                       Données agrégées
            Traitements massivement parallèles




         Stockage réseau haute disponibilité




                    Archives J-N                            Text files
                                                 API




                                      Sources de données
Cas client : Dans le monde du jeu
L’existant

             Game Server             Game Server                Game Server




                                                   Base Pivot
                                    Job Talend
                                                    MySQL




                       Input Logs




                                                                              31
Problématique


•  Problème de montée en charge avec la volumétrie effective
    ! L’augmentation des volumes de données sources dépasse les prévisions
    ! Ces volumes engendrent des problèmes bloquants de performance sur
      les calculs d’agrégation des indicateurs de type « patrimoine »
    ! Nécessité de désactiver des agrégations (18%) afin de retrouver des
      performances acceptables
    ! Les optimisations « standard » ont été réalisées, mais elles ne
      permettent pas de résoudre les problèmes (qui vont s’aggraver)




                                                                      32
Basculer sur une architecture de
rupture type « Big Data »



                                   33
SGBD colonnes : Objectifs

•  S’appuyer sur un moteur de base de données taillé pour des
   grands volumes de données et des usages analytiques
    ! Le stockage des données en colonnes permet un très haut niveau de
      compression des données et accélère les requêtes de type agrégation
    ! Les performances attendues devraient être très supérieures à celles de
      MySQL


                                                    Pivot
                        Input Logs   Job Talend
                                                  New SGBD




                                                                         34
Sharding : Objectifs
•  Bâtir une plate-forme de type Scale Out
    ! Gérer la montée en charge consiste à ajouter de nouveau nœuds à la
      plate-forme
    ! Chaque nœud est techniquement identique et autonome en données
    ! Le sharding permet d’augmenter la tolérance aux pannes
    ! Le sharding est indépendant de la base de données
                              Job Talend     Pivot #1
                              Traitement




                                                            Server #1
                 Job Talend                                                Job Talend
    Input Logs    Sharding                                                Consolidation   Pivot Full

                                           ...

                              Job Talend         Pivot #n
                              Traitement



                                                              Server #n

                                                                                                       35
MapReduce : Objectifs

•  Apport de MapReduce : calculs parallélisés et distribués
    ! Changer l’approche et la méthode de calcul des agrégats complexes
    ! Linéariser la montée en charge
    ! S’appuyer sur le parallélisme et la distribution via AWS


                     Job Talend                 Job Talend      Pivot   Job Talend
        Input Logs    Sharding                agreg. simples              Update




                                                      Job MapReduce
                                                     agreg. complexes
                                  Server MR




                                                                                     36
Combination des techniques

                                        Job Talend        Pivot #1
                                        Traitement




                                                                        Server #1
               Job Talend                                                              Job Talend
  Input Logs    Sharding                                                              Consolidation   Pivot Full

                                                       ...

                                        Job Talend           Pivot #n
                                        Traitement




                                                                          Server #n
                                                                                                                   37



                                                      Job MapReduce
                                                     agreg. complexes
                            Server MR
Merci

OWF12/BIG DATA Presentation big data owf ysance

  • 1.
    Big Data :noSql, Map&Reduce, RDBMS Quoi utiliser et quand ? !   Romain Chaumais – romain.chaumais@ysance.com Directeur du pôle Business Intelligence
  • 2.
    Les origines duphénomène Big Data
  • 3.
    Big Data ? 1 203 900 000 + 164 500 000 1 368 400 000 Le nombre de transactions aux péages des autoroutes de France en 2010 41,5M de véhicules / 84,1Mrd de Km
  • 4.
    Evolution d’un péageautoroutier Analogique Anonyme Product Centric
  • 5.
    Vers un télépéageet le Big Data Historisé et Customer Numérique analysé Centric
  • 6.
    L’ampleur du délugede données Web-Scale ! Plus de 1 million de !  500 millions de !  7,2 milliards de transactions clients / visiteurs / jours pages vues / jour heure !  88 milliards de !  50 milliards de ! 2 500 To de données photos stockées recherches / mois en base !  20 Po de données !  90 milliards de contenus partagés traitées / jour chaque mois
  • 7.
    Volume de données •  Démarré en 2000 •  En quelques semaines, a collecté plus de données que dans toute l’histoire de l’astronomie •  A ce jour, a généré plus de 160 To de data archivées Sloan Digital Sky Survey - Nouveau Mexique
  • 8.
    Volume de données •  Démarrera en 2016 •  Génèrera plus de 160 To de data en ... 4 jours !! Large Synoptic Survey Telescope - Chili
  • 9.
  • 10.
    Raw Data =Plus d’explorations
  • 11.
    Qui aujourd’hui produitet consomme la donnée ? Human generated data Machine generated data
  • 12.
    Big Data :Proposition de définition La règle des 3 V Volume Vélocité Collecte & stockage Intégration, traitement d’un grand volume et restitution en temps de données limité Variété Données structurées mais aussi non structurées (texte, audio, vidéos, click streams, log files, etc.
  • 13.
  • 14.
  • 15.
    Exemple projet BigData Ysance •  Casual Game consistant à échanger des objets avec ses amis ! 1,3 millions de joueurs mensuels •  Analyse des interactions entre les joueurs et leurs amis ! Analyse du graphe social des joueurs ! Catégorisation des joueurs selon le nombre d'amis jouant aussi à IsCool •  Mise en place d'un parcours de jeux personnalisé selon le nombre d'amis ! Objectif : Avoir au moins 10 amis avec qui jouer à IsCool •  >> Multiplication du CA
  • 16.
    VSC : CHALLENGETECHNO POUR UNE PROMESSE BUSINESS ! Comment  offrir  plus  d’usage  B2C  aux  clients  sur  un  legacy  limité  au  B2B  ?     Des  clients  qui  exprimaient  leur  mécontentement     «  trop  d'informa.ons  "accrocheuses",  décalage  avec  ce  que  l'on  trouve   ensuite.je  trouve  rarement  un  trajet  en  promo.on  à  par.r  de  ma  ville   (Tours  )  »       «  J'aDendais  de  pouvoir  avoir  un  tarif  très  avantageux  avec  une  date   libre  en  complétant  simplement  départ  et  arrivée  du  train  ou  autre   mode  de  locomo.on  choisi.  »  
  • 17.
    Calendrier des prix: projet Big Data •  Voyages-sncf : Calendrier des prix Volume Vélocité Variété
  • 18.
    Comment le BigData peut-il créer de la valeur ? •  En apportant de la transparence et la suppression des silos de données •  En simplifiant l’exploration des données, l’expérimentation, la compréhension de phénomènes, l’identification de nouvelles tendances : Data discovery / Data visualization •  En permettant la mise en place d’un CRM hyper segmenté tendant vers du One-To-One •  En offrant une véritable aide à la décision via des algorithmes riches exécutés automatiquement : Datamining / prédictif •  En devant le socle actif de nouveaux produits, services et Business modèle orientés données
  • 19.
  • 20.
    Les problématiques duBig Data Analyser / Capturer / Visualiser Acheminer Partager / Sécuriser Stocker / Traiter / Organiser Consolider
  • 21.
    Des acteurs duBig Data MS  PowerPivot  
  • 22.
    Classification des «bases de données » The CAP Theorem •  Relational Data Models •  Relational MPP •  •  •  Key - Value Column Oriented / Tabular Document Oriented A Availability means that all clients can always read and write CA AP •  RDBMSs (Oracle, SQLServer, MySQL) •  Dynamo, Voldemort, Tokyo Cabinet, KAI •  Teradata, Exadata, Netezza, Fast Track •  SimpleDB, CouchDB, Riak •  Vertica, Greenplum, InfiniDB •  Cassandra, •  Azure Table Storage Pick only 2 C Big Data : architecture alternative P Partition tolerance means that Consistency means that the system works well across each client always has the CP physical network partitions same view of the data •  BigTable, Hypertable, Hbase, •  Hive, Aster Data •  MongoDB, Terrastore •  Scalaris, Berkeley DB, MemcacheDB •  Redis, Scalaris Source : http://blog.nahurst.com
  • 23.
    Classification des moteursde traitement des données de type Big Data _ Moteur spécialisé + + Volume  de  données  traitées   Structura:on  des  données   Appliance MPP Performance  /  CPU   Framework Map & Reduce _ _ +
  • 24.
    Hadoop : Plate-formeBig Data de référence •  Hadoop : HDFS + MapReduce = Stockage + Traitement •  Historique d’Hadoop : ! Inspiré de Google Map Reduce - Première version en 2008 (Yahoo) ! Projet de la fondation Apache. Version 1.0 en janvier 2012. ! Utilisateurs : Yahoo, Facebook, Tweeter, LinkedIn, eBay, etc. •  Hadoop : Leader des solutions de MapReduce Natives Hadoop Dérivées Hadoop Autres BIGDATA
  • 25.
    L’écosystème Hadoop =Distribution Principal élément de différenciation entre les distributions Data Mining Index / search ODBC / JDBC Distribution Hue   Mahout   Lucene   Orchestration, Administration, Hive     Pegasus   SolR   Add-­‐In   Hadoop Monitoring, Security Oozie   Advanced Query Engine (Hive, Pig, Cascalog…) Data Integration layer ZooKeeper   File Data Row / Column HBase API  HBase   Transac:ons   MR : Distributed Data Processing Flume   Log  Data   HDFS : Distributed File System Sqoop   RDBMS   Fuse   File  System   Cluster : CPU / RAM / Disk / Network OS + JVM
  • 26.
  • 27.
    En complément ouen remplacement du SID traditionnel ? Le Big Data en complément de la BI traditionnelle Le Big Data en remplacement de la BI traditionnelle
  • 28.
    Comment résoudre cetteéquation ? Base Serveurs Mobile / Média Serveurs Web Serveurs Web Email / Marketing opérationnelle applicatifs Analytics CRM / MDM sociaux automation Historiques / Géoloc / Données Logs Clics Web Emailing Données opérationnelles Transactionnels Streaming Analytics tracking feeds référentielles Applica:ons  décisionnelles   DWH  
  • 29.
    Architecture de typeBig Data BI « Big Data » Search / Usages Données brutes Indexation « temps réel » BI traditionnelle Données agrégées Traitements massivement parallèles Stockage réseau haute disponibilité Archives J-N Text files API Sources de données
  • 30.
    Cas client :Dans le monde du jeu
  • 31.
    L’existant Game Server Game Server Game Server Base Pivot Job Talend MySQL Input Logs 31
  • 32.
    Problématique •  Problème demontée en charge avec la volumétrie effective ! L’augmentation des volumes de données sources dépasse les prévisions ! Ces volumes engendrent des problèmes bloquants de performance sur les calculs d’agrégation des indicateurs de type « patrimoine » ! Nécessité de désactiver des agrégations (18%) afin de retrouver des performances acceptables ! Les optimisations « standard » ont été réalisées, mais elles ne permettent pas de résoudre les problèmes (qui vont s’aggraver) 32
  • 33.
    Basculer sur unearchitecture de rupture type « Big Data » 33
  • 34.
    SGBD colonnes :Objectifs •  S’appuyer sur un moteur de base de données taillé pour des grands volumes de données et des usages analytiques ! Le stockage des données en colonnes permet un très haut niveau de compression des données et accélère les requêtes de type agrégation ! Les performances attendues devraient être très supérieures à celles de MySQL Pivot Input Logs Job Talend New SGBD 34
  • 35.
    Sharding : Objectifs • Bâtir une plate-forme de type Scale Out ! Gérer la montée en charge consiste à ajouter de nouveau nœuds à la plate-forme ! Chaque nœud est techniquement identique et autonome en données ! Le sharding permet d’augmenter la tolérance aux pannes ! Le sharding est indépendant de la base de données Job Talend Pivot #1 Traitement Server #1 Job Talend Job Talend Input Logs Sharding Consolidation Pivot Full ... Job Talend Pivot #n Traitement Server #n 35
  • 36.
    MapReduce : Objectifs • Apport de MapReduce : calculs parallélisés et distribués ! Changer l’approche et la méthode de calcul des agrégats complexes ! Linéariser la montée en charge ! S’appuyer sur le parallélisme et la distribution via AWS Job Talend Job Talend Pivot Job Talend Input Logs Sharding agreg. simples Update Job MapReduce agreg. complexes Server MR 36
  • 37.
    Combination des techniques Job Talend Pivot #1 Traitement Server #1 Job Talend Job Talend Input Logs Sharding Consolidation Pivot Full ... Job Talend Pivot #n Traitement Server #n 37 Job MapReduce agreg. complexes Server MR
  • 38.