OWF12/BIG DATA Presentation big data owf ysance
Prochain SlideShare
Loading in...5
×

Vous aimez ? Partagez donc ce contenu avec votre réseau

Partager
  • Full Name Full Name Comment goes here.
    Êtes-vous sûr de vouloir
    Votre message apparaîtra ici
    Be the first to comment
    Be the first to like this
No Downloads

Vues

Total des vues
1,168
Sur Slideshare
1,168
From Embeds
0
Nombre d'ajouts
0

Actions

Partages
Téléchargements
71
Commentaires
0
J'aime
0

Ajouts 0

No embeds

Signaler un contenu

Signalé comme inapproprié Signaler comme inapproprié
Signaler comme inapproprié

Indiquez la raison pour laquelle vous avez signalé cette présentation comme n'étant pas appropriée.

Annuler
    No notes for slide

Transcript

  • 1. Big Data : noSql, Map&Reduce, RDBMSQuoi utiliser et quand ? !   Romain Chaumais – romain.chaumais@ysance.com Directeur du pôle Business Intelligence
  • 2. Les origines du phénomène Big Data
  • 3. Big Data ? 1 203 900 000 + 164 500 000 1 368 400 000 Le nombre de transactions aux péages des autoroutes de France en 2010 41,5M de véhicules / 84,1Mrd de Km
  • 4. Evolution d’un péage autoroutier Analogique Anonyme Product Centric
  • 5. Vers un télépéage et le Big Data Historisé et Customer Numérique analysé Centric
  • 6. L’ampleur du déluge de données Web-Scale! Plus de 1 million de !  500 millions de !  7,2 milliards de transactions clients / visiteurs / jours pages vues / jour heure !  88 milliards de !  50 milliards de! 2 500 To de données photos stockées recherches / mois en base !  20 Po de données !  90 milliards de contenus partagés traitées / jour chaque mois
  • 7. Volume de données •  Démarré en 2000 •  En quelques semaines, a collecté plus de données que dans toute l’histoire de l’astronomie •  A ce jour, a généré plus de 160 To de data archivéesSloan Digital Sky Survey - Nouveau Mexique
  • 8. Volume de données •  Démarrera en 2016 •  Génèrera plus de 160 To de data en ... 4 jours !!Large Synoptic Survey Telescope - Chili
  • 9. Raw Data ? B 9
  • 10. Raw Data = Plus d’explorations
  • 11. Qui aujourd’hui produit etconsomme la donnée ? Human generated data Machine generated data
  • 12. Big Data : Proposition de définitionLa règle des 3 VVolume VélocitéCollecte & stockage Intégration, traitementd’un grand volume et restitution en tempsde données limité Variété Données structurées mais aussi non structurées (texte, audio, vidéos, click streams, log files, etc.
  • 13. Exemples de projets Big Data
  • 14. Exemples Map & Reduce
  • 15. Exemple projet Big Data Ysance •  Casual Game consistant à échanger des objets avec ses amis ! 1,3 millions de joueurs mensuels •  Analyse des interactions entre les joueurs et leurs amis ! Analyse du graphe social des joueurs ! Catégorisation des joueurs selon le nombre damis jouant aussi à IsCool •  Mise en place dun parcours de jeux personnalisé selon le nombre damis ! Objectif : Avoir au moins 10 amis avec qui jouer à IsCool •  >> Multiplication du CA
  • 16. VSC : CHALLENGE TECHNO POUR UNEPROMESSE BUSINESS ! Comment  offrir  plus  d’usage  B2C  aux  clients  sur  un  legacy  limité  au  B2B  ?    Des  clients  qui  exprimaient  leur  mécontentement    «  trop  dinforma.ons  "accrocheuses",  décalage  avec  ce  que  lon  trouve  ensuite.je  trouve  rarement  un  trajet  en  promo.on  à  par.r  de  ma  ville  (Tours  )  »      «  JaDendais  de  pouvoir  avoir  un  tarif  très  avantageux  avec  une  date  libre  en  complétant  simplement  départ  et  arrivée  du  train  ou  autre  mode  de  locomo.on  choisi.  »  
  • 17. Calendrier des prix : projet Big Data •  Voyages-sncf : Calendrier des prix Volume Vélocité Variété
  • 18. Comment le Big Data peut-il créerde la valeur ?•  En apportant de la transparence et la suppression des silos de données•  En simplifiant l’exploration des données, l’expérimentation, la compréhension de phénomènes, l’identification de nouvelles tendances : Data discovery / Data visualization•  En permettant la mise en place d’un CRM hyper segmenté tendant vers du One-To-One•  En offrant une véritable aide à la décision via des algorithmes riches exécutés automatiquement : Datamining / prédictif•  En devant le socle actif de nouveaux produits, services et Business modèle orientés données
  • 19. Paysage Big Data / No SQL
  • 20. Les problématiques du Big Data Analyser /Capturer / VisualiserAcheminer Partager / Sécuriser Stocker / Traiter / Organiser Consolider
  • 21. Des acteurs du Big Data MS  PowerPivot  
  • 22. Classification des « bases de données » The CAP Theorem •  Relational Data Models •  Relational MPP •  •  •  Key - Value Column Oriented / Tabular Document Oriented A Availability means that all clients can always read and write CA AP•  RDBMSs (Oracle, SQLServer, MySQL) •  Dynamo, Voldemort, Tokyo Cabinet, KAI•  Teradata, Exadata, Netezza, Fast Track •  SimpleDB, CouchDB, Riak•  Vertica, Greenplum, InfiniDB •  Cassandra,•  Azure Table Storage Pick only 2 C Big Data : architecture alternative P Partition tolerance means that Consistency means that the system works well across each client always has the CP physical network partitions same view of the data •  BigTable, Hypertable, Hbase, •  Hive, Aster Data •  MongoDB, Terrastore •  Scalaris, Berkeley DB, MemcacheDB •  Redis, Scalaris Source : http://blog.nahurst.com
  • 23. Classification des moteurs de traitementdes données de type Big Data _ Moteur spécialisé + + Volume  de  données  traitées   Structura:on  des  données   Appliance MPP Performance  /  CPU   Framework Map & Reduce _ _ +
  • 24. Hadoop : Plate-forme Big Data deréférence•  Hadoop : HDFS + MapReduce = Stockage + Traitement•  Historique d’Hadoop : ! Inspiré de Google Map Reduce - Première version en 2008 (Yahoo) ! Projet de la fondation Apache. Version 1.0 en janvier 2012. ! Utilisateurs : Yahoo, Facebook, Tweeter, LinkedIn, eBay, etc.•  Hadoop : Leader des solutions de MapReduce Natives Hadoop Dérivées Hadoop Autres BIGDATA
  • 25. L’écosystème Hadoop = Distribution Principal élément de différenciation entre les distributions Data Mining Index / search ODBC / JDBC Distribution Hue   Mahout   Lucene   Orchestration, Administration, Hive     Pegasus   SolR   Add-­‐In   Hadoop Monitoring, Security Oozie   Advanced Query Engine (Hive, Pig, Cascalog…) Data Integration layer ZooKeeper   File Data Row / Column HBase API  HBase   Transac:ons   MR : Distributed Data Processing Flume   Log  Data   HDFS : Distributed File System Sqoop   RDBMS   Fuse   File  System   Cluster : CPU / RAM / Disk / Network OS + JVM
  • 26. Architectures Big Data
  • 27. En complément ou en remplacementdu SID traditionnel ? Le Big Data en complément de la BI traditionnelleLe Big Data en remplacementde la BI traditionnelle
  • 28. Comment résoudre cette équation ? Base Serveurs Mobile / Média Serveurs Web Serveurs Web Email / Marketingopérationnelle applicatifs Analytics CRM / MDM sociaux automation Historiques / Géoloc / Données Logs Clics Web Emailing Donnéesopérationnelles Transactionnels Streaming Analytics tracking feeds référentielles Applica:ons  décisionnelles   DWH  
  • 29. Architecture de type Big Data BI « Big Data » Search / Usages Données brutes Indexation « temps réel » BI traditionnelle Données agrégées Traitements massivement parallèles Stockage réseau haute disponibilité Archives J-N Text files API Sources de données
  • 30. Cas client : Dans le monde du jeu
  • 31. L’existant Game Server Game Server Game Server Base Pivot Job Talend MySQL Input Logs 31
  • 32. Problématique•  Problème de montée en charge avec la volumétrie effective ! L’augmentation des volumes de données sources dépasse les prévisions ! Ces volumes engendrent des problèmes bloquants de performance sur les calculs d’agrégation des indicateurs de type « patrimoine » ! Nécessité de désactiver des agrégations (18%) afin de retrouver des performances acceptables ! Les optimisations « standard » ont été réalisées, mais elles ne permettent pas de résoudre les problèmes (qui vont s’aggraver) 32
  • 33. Basculer sur une architecture derupture type « Big Data » 33
  • 34. SGBD colonnes : Objectifs•  S’appuyer sur un moteur de base de données taillé pour des grands volumes de données et des usages analytiques ! Le stockage des données en colonnes permet un très haut niveau de compression des données et accélère les requêtes de type agrégation ! Les performances attendues devraient être très supérieures à celles de MySQL Pivot Input Logs Job Talend New SGBD 34
  • 35. Sharding : Objectifs•  Bâtir une plate-forme de type Scale Out ! Gérer la montée en charge consiste à ajouter de nouveau nœuds à la plate-forme ! Chaque nœud est techniquement identique et autonome en données ! Le sharding permet d’augmenter la tolérance aux pannes ! Le sharding est indépendant de la base de données Job Talend Pivot #1 Traitement Server #1 Job Talend Job Talend Input Logs Sharding Consolidation Pivot Full ... Job Talend Pivot #n Traitement Server #n 35
  • 36. MapReduce : Objectifs•  Apport de MapReduce : calculs parallélisés et distribués ! Changer l’approche et la méthode de calcul des agrégats complexes ! Linéariser la montée en charge ! S’appuyer sur le parallélisme et la distribution via AWS Job Talend Job Talend Pivot Job Talend Input Logs Sharding agreg. simples Update Job MapReduce agreg. complexes Server MR 36
  • 37. Combination des techniques Job Talend Pivot #1 Traitement Server #1 Job Talend Job Talend Input Logs Sharding Consolidation Pivot Full ... Job Talend Pivot #n Traitement Server #n 37 Job MapReduce agreg. complexes Server MR
  • 38. Merci