OWF12/BIG DATA Presentation big data owf ysance
Upcoming SlideShare
Loading in...5
×
 

OWF12/BIG DATA Presentation big data owf ysance

on

  • 1,126 vues

 

Statistiques

Vues

Total des vues
1,126
Vues sur SlideShare
1,126
Vues externes
0

Actions

J'aime
0
Téléchargements
69
Commentaires
0

0 Ajouts 0

No embeds

Accessibilité

Catégories

Détails de l'import

Uploaded via as Adobe PDF

Droits d'utilisation

© Tous droits réservés

Report content

Signalé comme inapproprié Signaler comme inapproprié
Signaler comme inapproprié

Indiquez la raison pour laquelle vous avez signalé cette présentation comme n'étant pas appropriée.

Annuler
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Votre message apparaîtra ici
    Processing...
Poster un commentaire
Modifier votre commentaire

OWF12/BIG DATA Presentation big data owf ysance OWF12/BIG DATA Presentation big data owf ysance Presentation Transcript

  • Big Data : noSql, Map&Reduce, RDBMSQuoi utiliser et quand ? !   Romain Chaumais – romain.chaumais@ysance.com Directeur du pôle Business Intelligence
  • Les origines du phénomène Big Data
  • Big Data ? 1 203 900 000 + 164 500 000 1 368 400 000 Le nombre de transactions aux péages des autoroutes de France en 2010 41,5M de véhicules / 84,1Mrd de Km
  • Evolution d’un péage autoroutier Analogique Anonyme Product Centric
  • Vers un télépéage et le Big Data Historisé et Customer Numérique analysé Centric
  • L’ampleur du déluge de données Web-Scale! Plus de 1 million de !  500 millions de !  7,2 milliards de transactions clients / visiteurs / jours pages vues / jour heure !  88 milliards de !  50 milliards de! 2 500 To de données photos stockées recherches / mois en base !  20 Po de données !  90 milliards de contenus partagés traitées / jour chaque mois
  • Volume de données •  Démarré en 2000 •  En quelques semaines, a collecté plus de données que dans toute l’histoire de l’astronomie •  A ce jour, a généré plus de 160 To de data archivéesSloan Digital Sky Survey - Nouveau Mexique
  • Volume de données •  Démarrera en 2016 •  Génèrera plus de 160 To de data en ... 4 jours !!Large Synoptic Survey Telescope - Chili
  • Raw Data ? B 9
  • Raw Data = Plus d’explorations
  • Qui aujourd’hui produit etconsomme la donnée ? Human generated data Machine generated data
  • Big Data : Proposition de définitionLa règle des 3 VVolume VélocitéCollecte & stockage Intégration, traitementd’un grand volume et restitution en tempsde données limité Variété Données structurées mais aussi non structurées (texte, audio, vidéos, click streams, log files, etc.
  • Exemples de projets Big Data
  • Exemples Map & Reduce
  • Exemple projet Big Data Ysance •  Casual Game consistant à échanger des objets avec ses amis ! 1,3 millions de joueurs mensuels •  Analyse des interactions entre les joueurs et leurs amis ! Analyse du graphe social des joueurs ! Catégorisation des joueurs selon le nombre damis jouant aussi à IsCool •  Mise en place dun parcours de jeux personnalisé selon le nombre damis ! Objectif : Avoir au moins 10 amis avec qui jouer à IsCool •  >> Multiplication du CA
  • VSC : CHALLENGE TECHNO POUR UNEPROMESSE BUSINESS ! Comment  offrir  plus  d’usage  B2C  aux  clients  sur  un  legacy  limité  au  B2B  ?    Des  clients  qui  exprimaient  leur  mécontentement    «  trop  dinforma.ons  "accrocheuses",  décalage  avec  ce  que  lon  trouve  ensuite.je  trouve  rarement  un  trajet  en  promo.on  à  par.r  de  ma  ville  (Tours  )  »      «  JaDendais  de  pouvoir  avoir  un  tarif  très  avantageux  avec  une  date  libre  en  complétant  simplement  départ  et  arrivée  du  train  ou  autre  mode  de  locomo.on  choisi.  »  
  • Calendrier des prix : projet Big Data •  Voyages-sncf : Calendrier des prix Volume Vélocité Variété
  • Comment le Big Data peut-il créerde la valeur ?•  En apportant de la transparence et la suppression des silos de données•  En simplifiant l’exploration des données, l’expérimentation, la compréhension de phénomènes, l’identification de nouvelles tendances : Data discovery / Data visualization•  En permettant la mise en place d’un CRM hyper segmenté tendant vers du One-To-One•  En offrant une véritable aide à la décision via des algorithmes riches exécutés automatiquement : Datamining / prédictif•  En devant le socle actif de nouveaux produits, services et Business modèle orientés données
  • Paysage Big Data / No SQL
  • Les problématiques du Big Data Analyser /Capturer / VisualiserAcheminer Partager / Sécuriser Stocker / Traiter / Organiser Consolider
  • Des acteurs du Big Data MS  PowerPivot  
  • Classification des « bases de données » The CAP Theorem •  Relational Data Models •  Relational MPP •  •  •  Key - Value Column Oriented / Tabular Document Oriented A Availability means that all clients can always read and write CA AP•  RDBMSs (Oracle, SQLServer, MySQL) •  Dynamo, Voldemort, Tokyo Cabinet, KAI•  Teradata, Exadata, Netezza, Fast Track •  SimpleDB, CouchDB, Riak•  Vertica, Greenplum, InfiniDB •  Cassandra,•  Azure Table Storage Pick only 2 C Big Data : architecture alternative P Partition tolerance means that Consistency means that the system works well across each client always has the CP physical network partitions same view of the data •  BigTable, Hypertable, Hbase, •  Hive, Aster Data •  MongoDB, Terrastore •  Scalaris, Berkeley DB, MemcacheDB •  Redis, Scalaris Source : http://blog.nahurst.com
  • Classification des moteurs de traitementdes données de type Big Data _ Moteur spécialisé + + Volume  de  données  traitées   Structura:on  des  données   Appliance MPP Performance  /  CPU   Framework Map & Reduce _ _ +
  • Hadoop : Plate-forme Big Data deréférence•  Hadoop : HDFS + MapReduce = Stockage + Traitement•  Historique d’Hadoop : ! Inspiré de Google Map Reduce - Première version en 2008 (Yahoo) ! Projet de la fondation Apache. Version 1.0 en janvier 2012. ! Utilisateurs : Yahoo, Facebook, Tweeter, LinkedIn, eBay, etc.•  Hadoop : Leader des solutions de MapReduce Natives Hadoop Dérivées Hadoop Autres BIGDATA
  • L’écosystème Hadoop = Distribution Principal élément de différenciation entre les distributions Data Mining Index / search ODBC / JDBC Distribution Hue   Mahout   Lucene   Orchestration, Administration, Hive     Pegasus   SolR   Add-­‐In   Hadoop Monitoring, Security Oozie   Advanced Query Engine (Hive, Pig, Cascalog…) Data Integration layer ZooKeeper   File Data Row / Column HBase API  HBase   Transac:ons   MR : Distributed Data Processing Flume   Log  Data   HDFS : Distributed File System Sqoop   RDBMS   Fuse   File  System   Cluster : CPU / RAM / Disk / Network OS + JVM
  • Architectures Big Data
  • En complément ou en remplacementdu SID traditionnel ? Le Big Data en complément de la BI traditionnelleLe Big Data en remplacementde la BI traditionnelle
  • Comment résoudre cette équation ? Base Serveurs Mobile / Média Serveurs Web Serveurs Web Email / Marketingopérationnelle applicatifs Analytics CRM / MDM sociaux automation Historiques / Géoloc / Données Logs Clics Web Emailing Donnéesopérationnelles Transactionnels Streaming Analytics tracking feeds référentielles Applica:ons  décisionnelles   DWH  
  • Architecture de type Big Data BI « Big Data » Search / Usages Données brutes Indexation « temps réel » BI traditionnelle Données agrégées Traitements massivement parallèles Stockage réseau haute disponibilité Archives J-N Text files API Sources de données
  • Cas client : Dans le monde du jeu
  • L’existant Game Server Game Server Game Server Base Pivot Job Talend MySQL Input Logs 31
  • Problématique•  Problème de montée en charge avec la volumétrie effective ! L’augmentation des volumes de données sources dépasse les prévisions ! Ces volumes engendrent des problèmes bloquants de performance sur les calculs d’agrégation des indicateurs de type « patrimoine » ! Nécessité de désactiver des agrégations (18%) afin de retrouver des performances acceptables ! Les optimisations « standard » ont été réalisées, mais elles ne permettent pas de résoudre les problèmes (qui vont s’aggraver) 32
  • Basculer sur une architecture derupture type « Big Data » 33
  • SGBD colonnes : Objectifs•  S’appuyer sur un moteur de base de données taillé pour des grands volumes de données et des usages analytiques ! Le stockage des données en colonnes permet un très haut niveau de compression des données et accélère les requêtes de type agrégation ! Les performances attendues devraient être très supérieures à celles de MySQL Pivot Input Logs Job Talend New SGBD 34
  • Sharding : Objectifs•  Bâtir une plate-forme de type Scale Out ! Gérer la montée en charge consiste à ajouter de nouveau nœuds à la plate-forme ! Chaque nœud est techniquement identique et autonome en données ! Le sharding permet d’augmenter la tolérance aux pannes ! Le sharding est indépendant de la base de données Job Talend Pivot #1 Traitement Server #1 Job Talend Job Talend Input Logs Sharding Consolidation Pivot Full ... Job Talend Pivot #n Traitement Server #n 35
  • MapReduce : Objectifs•  Apport de MapReduce : calculs parallélisés et distribués ! Changer l’approche et la méthode de calcul des agrégats complexes ! Linéariser la montée en charge ! S’appuyer sur le parallélisme et la distribution via AWS Job Talend Job Talend Pivot Job Talend Input Logs Sharding agreg. simples Update Job MapReduce agreg. complexes Server MR 36
  • Combination des techniques Job Talend Pivot #1 Traitement Server #1 Job Talend Job Talend Input Logs Sharding Consolidation Pivot Full ... Job Talend Pivot #n Traitement Server #n 37 Job MapReduce agreg. complexes Server MR
  • Merci