SlideShare une entreprise Scribd logo
1  sur  38
Télécharger pour lire hors ligne
Big Data : noSql, Map&Reduce, RDBMS
Quoi utiliser et quand ?
    !   Romain Chaumais – romain.chaumais@ysance.com
        Directeur du pôle Business Intelligence
Les origines du phénomène Big Data
Big Data ?

                      1 203 900 000
                                        +
                          164 500 000


                      1 368 400 000
     Le nombre de transactions aux péages
       des autoroutes de France en 2010
             41,5M de véhicules / 84,1Mrd de Km
Evolution d’un péage autoroutier




      Analogique    Anonyme    Product Centric
Vers un télépéage et le Big Data




                   Historisé et    Customer
      Numérique
                     analysé        Centric
L’ampleur du déluge de données
                                                     Web-Scale




!    Plus de 1 million de     !  500 millions de         !  7,2 milliards de
     transactions clients /      visiteurs / jours          pages vues / jour
     heure                                               !  88 milliards de
                              !  50 milliards de
!    2 500 To de données         photos stockées            recherches / mois
     en base                                             !  20 Po de données
                              !  90 milliards de
                                 contenus partagés          traitées / jour
                                 chaque mois
Volume de données

                                  •  Démarré en 2000

                                  •  En quelques semaines, a
                                     collecté plus de données que
                                     dans toute l’histoire de
                                     l’astronomie

                                  •  A ce jour, a généré plus de
                                     160 To de data archivées




Sloan Digital Sky Survey - Nouveau Mexique
Volume de données

                                   •  Démarrera en 2016

                                   •  Génèrera plus de 160 To de
                                      data en ...




                                          4 jours !!
Large Synoptic Survey Telescope - Chili
Raw Data ?
                 B




             9
Raw Data = Plus d’explorations
Qui aujourd’hui produit et
consomme la donnée ?




   Human generated data      Machine generated data
Big Data : Proposition de définition
La règle des 3 V

Volume                                    Vélocité
Collecte & stockage                        Intégration, traitement
d’un grand volume                          et restitution en temps
de données                                 limité




                           Variété
                           Données structurées mais aussi
                           non structurées (texte, audio,
                           vidéos, click streams, log files, etc.
Exemples de projets Big Data
Exemples Map & Reduce
Exemple projet Big Data Ysance

                 •  Casual Game consistant à échanger
                    des objets avec ses amis
                     ! 1,3 millions de joueurs mensuels
                 •  Analyse des interactions entre les
                    joueurs et leurs amis
                     ! Analyse du graphe social des joueurs
                     ! Catégorisation des joueurs selon le
                       nombre d'amis jouant aussi à IsCool
                 •  Mise en place d'un parcours de jeux
                    personnalisé selon le nombre d'amis
                     ! Objectif : Avoir au moins 10 amis avec
                       qui jouer à IsCool

                        •  >> Multiplication du CA
VSC : CHALLENGE TECHNO POUR UNE
PROMESSE BUSINESS !
                     Comment	
  offrir	
  plus	
  d’usage	
  B2C	
  aux	
  clients	
  sur	
  un	
  legacy	
  limité	
  au	
  B2B	
  ?	
  	
  

Des	
  clients	
  qui	
  exprimaient	
  leur	
  mécontentement	
  
	
  
«	
  trop	
  d'informa.ons	
  "accrocheuses",	
  décalage	
  avec	
  ce	
  que	
  l'on	
  trouve	
  
ensuite.je	
  trouve	
  rarement	
  un	
  trajet	
  en	
  promo.on	
  à	
  par.r	
  de	
  ma	
  ville	
  
(Tours	
  )	
  »	
  	
  
	
  
«	
  J'aDendais	
  de	
  pouvoir	
  avoir	
  un	
  tarif	
  très	
  avantageux	
  avec	
  une	
  date	
  
libre	
  en	
  complétant	
  simplement	
  départ	
  et	
  arrivée	
  du	
  train	
  ou	
  autre	
  
mode	
  de	
  locomo.on	
  choisi.	
  »	
  
Calendrier des prix : projet Big Data

                    •  Voyages-sncf : Calendrier des prix

                         Volume                Vélocité




                                    Variété
Comment le Big Data peut-il créer
de la valeur ?
•  En apportant de la transparence et la suppression des silos de
   données

•  En simplifiant l’exploration des données, l’expérimentation, la
   compréhension de phénomènes, l’identification de nouvelles
   tendances : Data discovery / Data visualization

•  En permettant la mise en place d’un CRM hyper segmenté
   tendant vers du One-To-One

•  En offrant une véritable aide à la décision via des algorithmes
   riches exécutés automatiquement : Datamining / prédictif

•  En devant le socle actif de nouveaux produits, services et
   Business modèle orientés données
Paysage Big Data / No SQL
Les problématiques du Big Data


                         Analyser /
Capturer /               Visualiser
Acheminer
                                      Partager /
                                      Sécuriser




   Stocker /                     Traiter /
   Organiser                     Consolider
Des acteurs du Big Data



                          MS	
  PowerPivot	
  
Classification des « bases de données »
     The CAP Theorem
                     •    Relational
     Data Models     •    Relational MPP
                     • 
                     • 
                     • 
                          Key - Value
                          Column Oriented / Tabular
                          Document Oriented
                                                        A     Availability means that all
                                                              clients can always read and
                                                              write

                   CA                                                                          AP
•    RDBMSs (Oracle, SQLServer, MySQL)                                     •    Dynamo, Voldemort, Tokyo Cabinet, KAI
•    Teradata, Exadata, Netezza, Fast Track                                •    SimpleDB, CouchDB, Riak
•    Vertica, Greenplum, InfiniDB                                          •    Cassandra,
•    Azure Table Storage
                                                Pick only 2



                                  C     Big Data : architecture alternative     P
                                                                                Partition tolerance means that
     Consistency means that
                                                                                the system works well across
     each client always has the                        CP
                                                                                physical network partitions
     same view of the data             •    BigTable, Hypertable, Hbase,
                                       •    Hive, Aster Data
                                       •    MongoDB, Terrastore
                                       •    Scalaris, Berkeley DB, MemcacheDB
                                       •    Redis, Scalaris                       Source : http://blog.nahurst.com
Classification des moteurs de traitement
des données de type Big Data
                                                                          _
                Moteur spécialisé
                                            +                                                                        +




                                                                         Volume	
  de	
  données	
  traitées	
  

                                                                                                                   Structura:on	
  des	
  données	
  
                Appliance MPP




                                           Performance	
  /	
  CPU	
  
                 Framework Map & Reduce



                                              _                                                                       _
                                                                         +
Hadoop : Plate-forme Big Data de
référence
•  Hadoop : HDFS + MapReduce = Stockage + Traitement

•  Historique d’Hadoop :
    ! Inspiré de Google Map Reduce - Première version en 2008 (Yahoo)
    ! Projet de la fondation Apache. Version 1.0 en janvier 2012.
    ! Utilisateurs : Yahoo, Facebook, Tweeter, LinkedIn, eBay, etc.


•  Hadoop : Leader des solutions de MapReduce
            Natives Hadoop                Dérivées Hadoop     Autres




                             BIGDATA
L’écosystème Hadoop = Distribution
                                                   Principal élément de différenciation entre les distributions

                                                   Data Mining         Index / search    ODBC / JDBC
                                                                                                              Distribution
                                   Hue	
  

                                                     Mahout	
             Lucene	
  
  Orchestration, Administration,




                                                                                              Hive	
  	
  
                                                     Pegasus	
              SolR	
           Add-­‐In	
         Hadoop
      Monitoring, Security
                                   Oozie	
  




                                                   Advanced Query Engine (Hive, Pig, Cascalog…)
                                                                                                             Data Integration layer
                                   ZooKeeper	
  




                                                           File Data               Row / Column HBase              API	
  HBase	
     Transac:ons	
  

                                                           MR : Distributed Data Processing                          Flume	
            Log	
  Data	
  
                                                             HDFS : Distributed File System                          Sqoop	
            RDBMS	
  

                                                                                                                       Fuse	
         File	
  System	
  
                                                         Cluster : CPU / RAM / Disk / Network
                                                                          OS + JVM
Architectures Big Data
En complément ou en remplacement
du SID traditionnel ?


                              Le Big Data en complément
                              de la BI traditionnelle




Le Big Data en remplacement
de la BI traditionnelle
Comment résoudre cette équation ?
    Base            Serveurs                                                                Mobile / Média
                                    Serveurs Web Serveurs Web Email / Marketing
opérationnelle     applicatifs                     Analytics                      CRM / MDM   sociaux
                                                                automation




                                                                                  Historiques /                                        Géoloc /
   Données             Logs            Clics          Web          Emailing         Données
opérationnelles   Transactionnels   Streaming       Analytics      tracking                                                             feeds
                                                                                  référentielles




                                                                                                   Applica:ons	
  décisionnelles	
  
                                                   DWH	
  
Architecture de type Big Data
           BI « Big Data »     Search /      Usages
           Données brutes     Indexation « temps réel »




                                                        BI traditionnelle
                                                       Données agrégées
            Traitements massivement parallèles




         Stockage réseau haute disponibilité




                    Archives J-N                            Text files
                                                 API




                                      Sources de données
Cas client : Dans le monde du jeu
L’existant

             Game Server             Game Server                Game Server




                                                   Base Pivot
                                    Job Talend
                                                    MySQL




                       Input Logs




                                                                              31
Problématique


•  Problème de montée en charge avec la volumétrie effective
    ! L’augmentation des volumes de données sources dépasse les prévisions
    ! Ces volumes engendrent des problèmes bloquants de performance sur
      les calculs d’agrégation des indicateurs de type « patrimoine »
    ! Nécessité de désactiver des agrégations (18%) afin de retrouver des
      performances acceptables
    ! Les optimisations « standard » ont été réalisées, mais elles ne
      permettent pas de résoudre les problèmes (qui vont s’aggraver)




                                                                      32
Basculer sur une architecture de
rupture type « Big Data »



                                   33
SGBD colonnes : Objectifs

•  S’appuyer sur un moteur de base de données taillé pour des
   grands volumes de données et des usages analytiques
    ! Le stockage des données en colonnes permet un très haut niveau de
      compression des données et accélère les requêtes de type agrégation
    ! Les performances attendues devraient être très supérieures à celles de
      MySQL


                                                    Pivot
                        Input Logs   Job Talend
                                                  New SGBD




                                                                         34
Sharding : Objectifs
•  Bâtir une plate-forme de type Scale Out
    ! Gérer la montée en charge consiste à ajouter de nouveau nœuds à la
      plate-forme
    ! Chaque nœud est techniquement identique et autonome en données
    ! Le sharding permet d’augmenter la tolérance aux pannes
    ! Le sharding est indépendant de la base de données
                              Job Talend     Pivot #1
                              Traitement




                                                            Server #1
                 Job Talend                                                Job Talend
    Input Logs    Sharding                                                Consolidation   Pivot Full

                                           ...

                              Job Talend         Pivot #n
                              Traitement



                                                              Server #n

                                                                                                       35
MapReduce : Objectifs

•  Apport de MapReduce : calculs parallélisés et distribués
    ! Changer l’approche et la méthode de calcul des agrégats complexes
    ! Linéariser la montée en charge
    ! S’appuyer sur le parallélisme et la distribution via AWS


                     Job Talend                 Job Talend      Pivot   Job Talend
        Input Logs    Sharding                agreg. simples              Update




                                                      Job MapReduce
                                                     agreg. complexes
                                  Server MR




                                                                                     36
Combination des techniques

                                        Job Talend        Pivot #1
                                        Traitement




                                                                        Server #1
               Job Talend                                                              Job Talend
  Input Logs    Sharding                                                              Consolidation   Pivot Full

                                                       ...

                                        Job Talend           Pivot #n
                                        Traitement




                                                                          Server #n
                                                                                                                   37



                                                      Job MapReduce
                                                     agreg. complexes
                            Server MR
Merci

Contenu connexe

Tendances

Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech
 
Java et les bases de données
Java et les bases de donnéesJava et les bases de données
Java et les bases de donnéesGuillaume Harry
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopJoseph Glorieux
 
Presentation Hadoop Québec
Presentation Hadoop QuébecPresentation Hadoop Québec
Presentation Hadoop QuébecMathieu Dumoulin
 
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTBenchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTCHAKER ALLAOUI
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic
 
Base NoSql et Python
Base NoSql et PythonBase NoSql et Python
Base NoSql et Pythonyboussard
 
Azure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaAzure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaMicrosoft
 
Introduction à la big data v3
Introduction à la big data v3 Introduction à la big data v3
Introduction à la big data v3 Mehdi TAZI
 
Dojo 02 : Introduction au noSQL
Dojo 02 : Introduction au noSQLDojo 02 : Introduction au noSQL
Dojo 02 : Introduction au noSQLSOAT
 
Bases de données NoSQL
Bases de données NoSQLBases de données NoSQL
Bases de données NoSQLSamy Dindane
 
NoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationNoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationMicrosoft Technet France
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
 
Valtech - NoSQL, solution alternative ou complémentaire aux bases de données ...
Valtech - NoSQL, solution alternative ou complémentaire aux bases de données ...Valtech - NoSQL, solution alternative ou complémentaire aux bases de données ...
Valtech - NoSQL, solution alternative ou complémentaire aux bases de données ...Valtech
 
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataPetit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataMarc Bojoly
 

Tendances (20)

Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
 
Java et les bases de données
Java et les bases de donnéesJava et les bases de données
Java et les bases de données
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 
Presentation Hadoop Québec
Presentation Hadoop QuébecPresentation Hadoop Québec
Presentation Hadoop Québec
 
Démarche d'une data factory par Xebia
Démarche d'une data factory par XebiaDémarche d'une data factory par Xebia
Démarche d'une data factory par Xebia
 
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTBenchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
Base NoSql et Python
Base NoSql et PythonBase NoSql et Python
Base NoSql et Python
 
Big data
Big dataBig data
Big data
 
Azure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaAzure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmedia
 
Introduction à la big data v3
Introduction à la big data v3 Introduction à la big data v3
Introduction à la big data v3
 
Dojo 02 : Introduction au noSQL
Dojo 02 : Introduction au noSQLDojo 02 : Introduction au noSQL
Dojo 02 : Introduction au noSQL
 
Bases de données NoSQL
Bases de données NoSQLBases de données NoSQL
Bases de données NoSQL
 
NoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationNoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisation
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
 
Presentation cassandra
Presentation cassandraPresentation cassandra
Presentation cassandra
 
Big data
Big dataBig data
Big data
 
NoSQL et Big Data
NoSQL et Big DataNoSQL et Big Data
NoSQL et Big Data
 
Valtech - NoSQL, solution alternative ou complémentaire aux bases de données ...
Valtech - NoSQL, solution alternative ou complémentaire aux bases de données ...Valtech - NoSQL, solution alternative ou complémentaire aux bases de données ...
Valtech - NoSQL, solution alternative ou complémentaire aux bases de données ...
 
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataPetit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
 

Similaire à OWF12/BIG DATA Presentation big data owf ysance

Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et an...
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et an...AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et an...
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et an...Amazon Web Services
 
Track 2 - Atelier 1 - Big data analytics présenté avec Intel
Track 2 - Atelier 1 - Big data analytics présenté avec IntelTrack 2 - Atelier 1 - Big data analytics présenté avec Intel
Track 2 - Atelier 1 - Big data analytics présenté avec IntelAmazon Web Services
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleMedhi Corneille Famibelle*
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 OCTO Technology
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data ScienceAshraf Grioute
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
Tracer la voie vers le big data avec Talend et AWS
Tracer la voie vers le big data avec Talend et AWSTracer la voie vers le big data avec Talend et AWS
Tracer la voie vers le big data avec Talend et AWSJean-Michel Franco
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013ADBS
 
OpenDataSoft -Transformez votre organisation en plateforme d'innovation
OpenDataSoft -Transformez votre organisation en plateforme d'innovationOpenDataSoft -Transformez votre organisation en plateforme d'innovation
OpenDataSoft -Transformez votre organisation en plateforme d'innovationOpenDataSoft
 
Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Abed Ajraou
 
TEch4Exec - OUI.sncf propose des voyages moins chers grâce au Big Data et au ...
TEch4Exec - OUI.sncf propose des voyages moins chers grâce au Big Data et au ...TEch4Exec - OUI.sncf propose des voyages moins chers grâce au Big Data et au ...
TEch4Exec - OUI.sncf propose des voyages moins chers grâce au Big Data et au ...Publicis Sapient Engineering
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientDenodo
 

Similaire à OWF12/BIG DATA Presentation big data owf ysance (20)

Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et an...
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et an...AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et an...
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et an...
 
Track 2 - Atelier 1 - Big data analytics présenté avec Intel
Track 2 - Atelier 1 - Big data analytics présenté avec IntelTrack 2 - Atelier 1 - Big data analytics présenté avec Intel
Track 2 - Atelier 1 - Big data analytics présenté avec Intel
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence Artificielle
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data Science
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Tracer la voie vers le big data avec Talend et AWS
Tracer la voie vers le big data avec Talend et AWSTracer la voie vers le big data avec Talend et AWS
Tracer la voie vers le big data avec Talend et AWS
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
 
OpenDataSoft -Transformez votre organisation en plateforme d'innovation
OpenDataSoft -Transformez votre organisation en plateforme d'innovationOpenDataSoft -Transformez votre organisation en plateforme d'innovation
OpenDataSoft -Transformez votre organisation en plateforme d'innovation
 
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsTraitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
 
Soutenance ysance
Soutenance ysanceSoutenance ysance
Soutenance ysance
 
Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310
 
TEch4Exec - OUI.sncf propose des voyages moins chers grâce au Big Data et au ...
TEch4Exec - OUI.sncf propose des voyages moins chers grâce au Big Data et au ...TEch4Exec - OUI.sncf propose des voyages moins chers grâce au Big Data et au ...
TEch4Exec - OUI.sncf propose des voyages moins chers grâce au Big Data et au ...
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
 

Plus de Paris Open Source Summit

#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...Paris Open Source Summit
 
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...Paris Open Source Summit
 
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...Paris Open Source Summit
 
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, ArduinoParis Open Source Summit
 
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...Paris Open Source Summit
 
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...Paris Open Source Summit
 
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, ZabbixParis Open Source Summit
 
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, InriaParis Open Source Summit
 
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...Paris Open Source Summit
 
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches  ...#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches  ...
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...Paris Open Source Summit
 
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...Paris Open Source Summit
 
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...Paris Open Source Summit
 
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...Paris Open Source Summit
 
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...Paris Open Source Summit
 
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...Paris Open Source Summit
 
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...Paris Open Source Summit
 
#OSSPARIS19 - Table ronde : souveraineté des données
#OSSPARIS19 - Table ronde : souveraineté des données #OSSPARIS19 - Table ronde : souveraineté des données
#OSSPARIS19 - Table ronde : souveraineté des données Paris Open Source Summit
 
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...Paris Open Source Summit
 
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...Paris Open Source Summit
 
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...Paris Open Source Summit
 

Plus de Paris Open Source Summit (20)

#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
 
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
 
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
 
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
 
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
 
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
 
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
 
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
 
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
 
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches  ...#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches  ...
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...
 
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
 
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
 
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
 
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
 
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
 
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
 
#OSSPARIS19 - Table ronde : souveraineté des données
#OSSPARIS19 - Table ronde : souveraineté des données #OSSPARIS19 - Table ronde : souveraineté des données
#OSSPARIS19 - Table ronde : souveraineté des données
 
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
 
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
 
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
 

OWF12/BIG DATA Presentation big data owf ysance

  • 1. Big Data : noSql, Map&Reduce, RDBMS Quoi utiliser et quand ? !   Romain Chaumais – romain.chaumais@ysance.com Directeur du pôle Business Intelligence
  • 2. Les origines du phénomène Big Data
  • 3. Big Data ? 1 203 900 000 + 164 500 000 1 368 400 000 Le nombre de transactions aux péages des autoroutes de France en 2010 41,5M de véhicules / 84,1Mrd de Km
  • 4. Evolution d’un péage autoroutier Analogique Anonyme Product Centric
  • 5. Vers un télépéage et le Big Data Historisé et Customer Numérique analysé Centric
  • 6. L’ampleur du déluge de données Web-Scale ! Plus de 1 million de !  500 millions de !  7,2 milliards de transactions clients / visiteurs / jours pages vues / jour heure !  88 milliards de !  50 milliards de ! 2 500 To de données photos stockées recherches / mois en base !  20 Po de données !  90 milliards de contenus partagés traitées / jour chaque mois
  • 7. Volume de données •  Démarré en 2000 •  En quelques semaines, a collecté plus de données que dans toute l’histoire de l’astronomie •  A ce jour, a généré plus de 160 To de data archivées Sloan Digital Sky Survey - Nouveau Mexique
  • 8. Volume de données •  Démarrera en 2016 •  Génèrera plus de 160 To de data en ... 4 jours !! Large Synoptic Survey Telescope - Chili
  • 10. Raw Data = Plus d’explorations
  • 11. Qui aujourd’hui produit et consomme la donnée ? Human generated data Machine generated data
  • 12. Big Data : Proposition de définition La règle des 3 V Volume Vélocité Collecte & stockage Intégration, traitement d’un grand volume et restitution en temps de données limité Variété Données structurées mais aussi non structurées (texte, audio, vidéos, click streams, log files, etc.
  • 14. Exemples Map & Reduce
  • 15. Exemple projet Big Data Ysance •  Casual Game consistant à échanger des objets avec ses amis ! 1,3 millions de joueurs mensuels •  Analyse des interactions entre les joueurs et leurs amis ! Analyse du graphe social des joueurs ! Catégorisation des joueurs selon le nombre d'amis jouant aussi à IsCool •  Mise en place d'un parcours de jeux personnalisé selon le nombre d'amis ! Objectif : Avoir au moins 10 amis avec qui jouer à IsCool •  >> Multiplication du CA
  • 16. VSC : CHALLENGE TECHNO POUR UNE PROMESSE BUSINESS ! Comment  offrir  plus  d’usage  B2C  aux  clients  sur  un  legacy  limité  au  B2B  ?     Des  clients  qui  exprimaient  leur  mécontentement     «  trop  d'informa.ons  "accrocheuses",  décalage  avec  ce  que  l'on  trouve   ensuite.je  trouve  rarement  un  trajet  en  promo.on  à  par.r  de  ma  ville   (Tours  )  »       «  J'aDendais  de  pouvoir  avoir  un  tarif  très  avantageux  avec  une  date   libre  en  complétant  simplement  départ  et  arrivée  du  train  ou  autre   mode  de  locomo.on  choisi.  »  
  • 17. Calendrier des prix : projet Big Data •  Voyages-sncf : Calendrier des prix Volume Vélocité Variété
  • 18. Comment le Big Data peut-il créer de la valeur ? •  En apportant de la transparence et la suppression des silos de données •  En simplifiant l’exploration des données, l’expérimentation, la compréhension de phénomènes, l’identification de nouvelles tendances : Data discovery / Data visualization •  En permettant la mise en place d’un CRM hyper segmenté tendant vers du One-To-One •  En offrant une véritable aide à la décision via des algorithmes riches exécutés automatiquement : Datamining / prédictif •  En devant le socle actif de nouveaux produits, services et Business modèle orientés données
  • 19. Paysage Big Data / No SQL
  • 20. Les problématiques du Big Data Analyser / Capturer / Visualiser Acheminer Partager / Sécuriser Stocker / Traiter / Organiser Consolider
  • 21. Des acteurs du Big Data MS  PowerPivot  
  • 22. Classification des « bases de données » The CAP Theorem •  Relational Data Models •  Relational MPP •  •  •  Key - Value Column Oriented / Tabular Document Oriented A Availability means that all clients can always read and write CA AP •  RDBMSs (Oracle, SQLServer, MySQL) •  Dynamo, Voldemort, Tokyo Cabinet, KAI •  Teradata, Exadata, Netezza, Fast Track •  SimpleDB, CouchDB, Riak •  Vertica, Greenplum, InfiniDB •  Cassandra, •  Azure Table Storage Pick only 2 C Big Data : architecture alternative P Partition tolerance means that Consistency means that the system works well across each client always has the CP physical network partitions same view of the data •  BigTable, Hypertable, Hbase, •  Hive, Aster Data •  MongoDB, Terrastore •  Scalaris, Berkeley DB, MemcacheDB •  Redis, Scalaris Source : http://blog.nahurst.com
  • 23. Classification des moteurs de traitement des données de type Big Data _ Moteur spécialisé + + Volume  de  données  traitées   Structura:on  des  données   Appliance MPP Performance  /  CPU   Framework Map & Reduce _ _ +
  • 24. Hadoop : Plate-forme Big Data de référence •  Hadoop : HDFS + MapReduce = Stockage + Traitement •  Historique d’Hadoop : ! Inspiré de Google Map Reduce - Première version en 2008 (Yahoo) ! Projet de la fondation Apache. Version 1.0 en janvier 2012. ! Utilisateurs : Yahoo, Facebook, Tweeter, LinkedIn, eBay, etc. •  Hadoop : Leader des solutions de MapReduce Natives Hadoop Dérivées Hadoop Autres BIGDATA
  • 25. L’écosystème Hadoop = Distribution Principal élément de différenciation entre les distributions Data Mining Index / search ODBC / JDBC Distribution Hue   Mahout   Lucene   Orchestration, Administration, Hive     Pegasus   SolR   Add-­‐In   Hadoop Monitoring, Security Oozie   Advanced Query Engine (Hive, Pig, Cascalog…) Data Integration layer ZooKeeper   File Data Row / Column HBase API  HBase   Transac:ons   MR : Distributed Data Processing Flume   Log  Data   HDFS : Distributed File System Sqoop   RDBMS   Fuse   File  System   Cluster : CPU / RAM / Disk / Network OS + JVM
  • 27. En complément ou en remplacement du SID traditionnel ? Le Big Data en complément de la BI traditionnelle Le Big Data en remplacement de la BI traditionnelle
  • 28. Comment résoudre cette équation ? Base Serveurs Mobile / Média Serveurs Web Serveurs Web Email / Marketing opérationnelle applicatifs Analytics CRM / MDM sociaux automation Historiques / Géoloc / Données Logs Clics Web Emailing Données opérationnelles Transactionnels Streaming Analytics tracking feeds référentielles Applica:ons  décisionnelles   DWH  
  • 29. Architecture de type Big Data BI « Big Data » Search / Usages Données brutes Indexation « temps réel » BI traditionnelle Données agrégées Traitements massivement parallèles Stockage réseau haute disponibilité Archives J-N Text files API Sources de données
  • 30. Cas client : Dans le monde du jeu
  • 31. L’existant Game Server Game Server Game Server Base Pivot Job Talend MySQL Input Logs 31
  • 32. Problématique •  Problème de montée en charge avec la volumétrie effective ! L’augmentation des volumes de données sources dépasse les prévisions ! Ces volumes engendrent des problèmes bloquants de performance sur les calculs d’agrégation des indicateurs de type « patrimoine » ! Nécessité de désactiver des agrégations (18%) afin de retrouver des performances acceptables ! Les optimisations « standard » ont été réalisées, mais elles ne permettent pas de résoudre les problèmes (qui vont s’aggraver) 32
  • 33. Basculer sur une architecture de rupture type « Big Data » 33
  • 34. SGBD colonnes : Objectifs •  S’appuyer sur un moteur de base de données taillé pour des grands volumes de données et des usages analytiques ! Le stockage des données en colonnes permet un très haut niveau de compression des données et accélère les requêtes de type agrégation ! Les performances attendues devraient être très supérieures à celles de MySQL Pivot Input Logs Job Talend New SGBD 34
  • 35. Sharding : Objectifs •  Bâtir une plate-forme de type Scale Out ! Gérer la montée en charge consiste à ajouter de nouveau nœuds à la plate-forme ! Chaque nœud est techniquement identique et autonome en données ! Le sharding permet d’augmenter la tolérance aux pannes ! Le sharding est indépendant de la base de données Job Talend Pivot #1 Traitement Server #1 Job Talend Job Talend Input Logs Sharding Consolidation Pivot Full ... Job Talend Pivot #n Traitement Server #n 35
  • 36. MapReduce : Objectifs •  Apport de MapReduce : calculs parallélisés et distribués ! Changer l’approche et la méthode de calcul des agrégats complexes ! Linéariser la montée en charge ! S’appuyer sur le parallélisme et la distribution via AWS Job Talend Job Talend Pivot Job Talend Input Logs Sharding agreg. simples Update Job MapReduce agreg. complexes Server MR 36
  • 37. Combination des techniques Job Talend Pivot #1 Traitement Server #1 Job Talend Job Talend Input Logs Sharding Consolidation Pivot Full ... Job Talend Pivot #n Traitement Server #n 37 Job MapReduce agreg. complexes Server MR
  • 38. Merci