0
Big Data : noSql, Map&Reduce, RDBMSQuoi utiliser et quand ?    !   Romain Chaumais – romain.chaumais@ysance.com        Dir...
Les origines du phénomène Big Data
Big Data ?                      1 203 900 000                                        +                          164 500 00...
Evolution d’un péage autoroutier      Analogique    Anonyme    Product Centric
Vers un télépéage et le Big Data                   Historisé et    Customer      Numérique                     analysé    ...
L’ampleur du déluge de données                                                     Web-Scale!    Plus de 1 million de     ...
Volume de données                                  •  Démarré en 2000                                  •  En quelques sema...
Volume de données                                   •  Démarrera en 2016                                   •  Génèrera plu...
Raw Data ?                 B             9
Raw Data = Plus d’explorations
Qui aujourd’hui produit etconsomme la donnée ?   Human generated data      Machine generated data
Big Data : Proposition de définitionLa règle des 3 VVolume                                    VélocitéCollecte & stockage ...
Exemples de projets Big Data
Exemples Map & Reduce
Exemple projet Big Data Ysance                 •  Casual Game consistant à échanger                    des objets avec ses...
VSC : CHALLENGE TECHNO POUR UNEPROMESSE BUSINESS !                     Comment	  offrir	  plus	  d’usage	  B2C	  aux	  clie...
Calendrier des prix : projet Big Data                    •  Voyages-sncf : Calendrier des prix                         Vol...
Comment le Big Data peut-il créerde la valeur ?•  En apportant de la transparence et la suppression des silos de   données...
Paysage Big Data / No SQL
Les problématiques du Big Data                         Analyser /Capturer /               VisualiserAcheminer             ...
Des acteurs du Big Data                          MS	  PowerPivot	  
Classification des « bases de données »     The CAP Theorem                     •    Relational     Data Models     •    R...
Classification des moteurs de traitementdes données de type Big Data                                                      ...
Hadoop : Plate-forme Big Data deréférence•  Hadoop : HDFS + MapReduce = Stockage + Traitement•  Historique d’Hadoop :    !...
L’écosystème Hadoop = Distribution                                                   Principal élément de différenciation ...
Architectures Big Data
En complément ou en remplacementdu SID traditionnel ?                              Le Big Data en complément              ...
Comment résoudre cette équation ?    Base            Serveurs                                                             ...
Architecture de type Big Data           BI « Big Data »     Search /      Usages           Données brutes     Indexation «...
Cas client : Dans le monde du jeu
L’existant             Game Server             Game Server                Game Server                                     ...
Problématique•  Problème de montée en charge avec la volumétrie effective    ! L’augmentation des volumes de données sourc...
Basculer sur une architecture derupture type « Big Data »                                   33
SGBD colonnes : Objectifs•  S’appuyer sur un moteur de base de données taillé pour des   grands volumes de données et des ...
Sharding : Objectifs•  Bâtir une plate-forme de type Scale Out    ! Gérer la montée en charge consiste à ajouter de nouvea...
MapReduce : Objectifs•  Apport de MapReduce : calculs parallélisés et distribués    ! Changer l’approche et la méthode de ...
Combination des techniques                                        Job Talend        Pivot #1                              ...
Merci
Prochain SlideShare
Chargement dans... 5
×

OWF12/BIG DATA Presentation big data owf ysance

967

Published on

0 commentaires
0 mentions J'aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Be the first to like this

Aucun téléchargement
Vues
Total des vues
967
Sur Slideshare
0
À partir des ajouts
0
Nombre d'ajouts
1
Actions
Partages
0
Téléchargements
86
Commentaires
0
J'aime
0
Ajouts 0
No embeds

No notes for slide

Transcript of "OWF12/BIG DATA Presentation big data owf ysance"

  1. 1. Big Data : noSql, Map&Reduce, RDBMSQuoi utiliser et quand ? !   Romain Chaumais – romain.chaumais@ysance.com Directeur du pôle Business Intelligence
  2. 2. Les origines du phénomène Big Data
  3. 3. Big Data ? 1 203 900 000 + 164 500 000 1 368 400 000 Le nombre de transactions aux péages des autoroutes de France en 2010 41,5M de véhicules / 84,1Mrd de Km
  4. 4. Evolution d’un péage autoroutier Analogique Anonyme Product Centric
  5. 5. Vers un télépéage et le Big Data Historisé et Customer Numérique analysé Centric
  6. 6. L’ampleur du déluge de données Web-Scale! Plus de 1 million de !  500 millions de !  7,2 milliards de transactions clients / visiteurs / jours pages vues / jour heure !  88 milliards de !  50 milliards de! 2 500 To de données photos stockées recherches / mois en base !  20 Po de données !  90 milliards de contenus partagés traitées / jour chaque mois
  7. 7. Volume de données •  Démarré en 2000 •  En quelques semaines, a collecté plus de données que dans toute l’histoire de l’astronomie •  A ce jour, a généré plus de 160 To de data archivéesSloan Digital Sky Survey - Nouveau Mexique
  8. 8. Volume de données •  Démarrera en 2016 •  Génèrera plus de 160 To de data en ... 4 jours !!Large Synoptic Survey Telescope - Chili
  9. 9. Raw Data ? B 9
  10. 10. Raw Data = Plus d’explorations
  11. 11. Qui aujourd’hui produit etconsomme la donnée ? Human generated data Machine generated data
  12. 12. Big Data : Proposition de définitionLa règle des 3 VVolume VélocitéCollecte & stockage Intégration, traitementd’un grand volume et restitution en tempsde données limité Variété Données structurées mais aussi non structurées (texte, audio, vidéos, click streams, log files, etc.
  13. 13. Exemples de projets Big Data
  14. 14. Exemples Map & Reduce
  15. 15. Exemple projet Big Data Ysance •  Casual Game consistant à échanger des objets avec ses amis ! 1,3 millions de joueurs mensuels •  Analyse des interactions entre les joueurs et leurs amis ! Analyse du graphe social des joueurs ! Catégorisation des joueurs selon le nombre damis jouant aussi à IsCool •  Mise en place dun parcours de jeux personnalisé selon le nombre damis ! Objectif : Avoir au moins 10 amis avec qui jouer à IsCool •  >> Multiplication du CA
  16. 16. VSC : CHALLENGE TECHNO POUR UNEPROMESSE BUSINESS ! Comment  offrir  plus  d’usage  B2C  aux  clients  sur  un  legacy  limité  au  B2B  ?    Des  clients  qui  exprimaient  leur  mécontentement    «  trop  dinforma.ons  "accrocheuses",  décalage  avec  ce  que  lon  trouve  ensuite.je  trouve  rarement  un  trajet  en  promo.on  à  par.r  de  ma  ville  (Tours  )  »      «  JaDendais  de  pouvoir  avoir  un  tarif  très  avantageux  avec  une  date  libre  en  complétant  simplement  départ  et  arrivée  du  train  ou  autre  mode  de  locomo.on  choisi.  »  
  17. 17. Calendrier des prix : projet Big Data •  Voyages-sncf : Calendrier des prix Volume Vélocité Variété
  18. 18. Comment le Big Data peut-il créerde la valeur ?•  En apportant de la transparence et la suppression des silos de données•  En simplifiant l’exploration des données, l’expérimentation, la compréhension de phénomènes, l’identification de nouvelles tendances : Data discovery / Data visualization•  En permettant la mise en place d’un CRM hyper segmenté tendant vers du One-To-One•  En offrant une véritable aide à la décision via des algorithmes riches exécutés automatiquement : Datamining / prédictif•  En devant le socle actif de nouveaux produits, services et Business modèle orientés données
  19. 19. Paysage Big Data / No SQL
  20. 20. Les problématiques du Big Data Analyser /Capturer / VisualiserAcheminer Partager / Sécuriser Stocker / Traiter / Organiser Consolider
  21. 21. Des acteurs du Big Data MS  PowerPivot  
  22. 22. Classification des « bases de données » The CAP Theorem •  Relational Data Models •  Relational MPP •  •  •  Key - Value Column Oriented / Tabular Document Oriented A Availability means that all clients can always read and write CA AP•  RDBMSs (Oracle, SQLServer, MySQL) •  Dynamo, Voldemort, Tokyo Cabinet, KAI•  Teradata, Exadata, Netezza, Fast Track •  SimpleDB, CouchDB, Riak•  Vertica, Greenplum, InfiniDB •  Cassandra,•  Azure Table Storage Pick only 2 C Big Data : architecture alternative P Partition tolerance means that Consistency means that the system works well across each client always has the CP physical network partitions same view of the data •  BigTable, Hypertable, Hbase, •  Hive, Aster Data •  MongoDB, Terrastore •  Scalaris, Berkeley DB, MemcacheDB •  Redis, Scalaris Source : http://blog.nahurst.com
  23. 23. Classification des moteurs de traitementdes données de type Big Data _ Moteur spécialisé + + Volume  de  données  traitées   Structura:on  des  données   Appliance MPP Performance  /  CPU   Framework Map & Reduce _ _ +
  24. 24. Hadoop : Plate-forme Big Data deréférence•  Hadoop : HDFS + MapReduce = Stockage + Traitement•  Historique d’Hadoop : ! Inspiré de Google Map Reduce - Première version en 2008 (Yahoo) ! Projet de la fondation Apache. Version 1.0 en janvier 2012. ! Utilisateurs : Yahoo, Facebook, Tweeter, LinkedIn, eBay, etc.•  Hadoop : Leader des solutions de MapReduce Natives Hadoop Dérivées Hadoop Autres BIGDATA
  25. 25. L’écosystème Hadoop = Distribution Principal élément de différenciation entre les distributions Data Mining Index / search ODBC / JDBC Distribution Hue   Mahout   Lucene   Orchestration, Administration, Hive     Pegasus   SolR   Add-­‐In   Hadoop Monitoring, Security Oozie   Advanced Query Engine (Hive, Pig, Cascalog…) Data Integration layer ZooKeeper   File Data Row / Column HBase API  HBase   Transac:ons   MR : Distributed Data Processing Flume   Log  Data   HDFS : Distributed File System Sqoop   RDBMS   Fuse   File  System   Cluster : CPU / RAM / Disk / Network OS + JVM
  26. 26. Architectures Big Data
  27. 27. En complément ou en remplacementdu SID traditionnel ? Le Big Data en complément de la BI traditionnelleLe Big Data en remplacementde la BI traditionnelle
  28. 28. Comment résoudre cette équation ? Base Serveurs Mobile / Média Serveurs Web Serveurs Web Email / Marketingopérationnelle applicatifs Analytics CRM / MDM sociaux automation Historiques / Géoloc / Données Logs Clics Web Emailing Donnéesopérationnelles Transactionnels Streaming Analytics tracking feeds référentielles Applica:ons  décisionnelles   DWH  
  29. 29. Architecture de type Big Data BI « Big Data » Search / Usages Données brutes Indexation « temps réel » BI traditionnelle Données agrégées Traitements massivement parallèles Stockage réseau haute disponibilité Archives J-N Text files API Sources de données
  30. 30. Cas client : Dans le monde du jeu
  31. 31. L’existant Game Server Game Server Game Server Base Pivot Job Talend MySQL Input Logs 31
  32. 32. Problématique•  Problème de montée en charge avec la volumétrie effective ! L’augmentation des volumes de données sources dépasse les prévisions ! Ces volumes engendrent des problèmes bloquants de performance sur les calculs d’agrégation des indicateurs de type « patrimoine » ! Nécessité de désactiver des agrégations (18%) afin de retrouver des performances acceptables ! Les optimisations « standard » ont été réalisées, mais elles ne permettent pas de résoudre les problèmes (qui vont s’aggraver) 32
  33. 33. Basculer sur une architecture derupture type « Big Data » 33
  34. 34. SGBD colonnes : Objectifs•  S’appuyer sur un moteur de base de données taillé pour des grands volumes de données et des usages analytiques ! Le stockage des données en colonnes permet un très haut niveau de compression des données et accélère les requêtes de type agrégation ! Les performances attendues devraient être très supérieures à celles de MySQL Pivot Input Logs Job Talend New SGBD 34
  35. 35. Sharding : Objectifs•  Bâtir une plate-forme de type Scale Out ! Gérer la montée en charge consiste à ajouter de nouveau nœuds à la plate-forme ! Chaque nœud est techniquement identique et autonome en données ! Le sharding permet d’augmenter la tolérance aux pannes ! Le sharding est indépendant de la base de données Job Talend Pivot #1 Traitement Server #1 Job Talend Job Talend Input Logs Sharding Consolidation Pivot Full ... Job Talend Pivot #n Traitement Server #n 35
  36. 36. MapReduce : Objectifs•  Apport de MapReduce : calculs parallélisés et distribués ! Changer l’approche et la méthode de calcul des agrégats complexes ! Linéariser la montée en charge ! S’appuyer sur le parallélisme et la distribution via AWS Job Talend Job Talend Pivot Job Talend Input Logs Sharding agreg. simples Update Job MapReduce agreg. complexes Server MR 36
  37. 37. Combination des techniques Job Talend Pivot #1 Traitement Server #1 Job Talend Job Talend Input Logs Sharding Consolidation Pivot Full ... Job Talend Pivot #n Traitement Server #n 37 Job MapReduce agreg. complexes Server MR
  38. 38. Merci
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×