Meetup intro techno big data

730 vues

Publié le

Introduction about Hadoop, Map-Reduce, Yarn, NoSQL, Spark and Big Data

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
730
Sur SlideShare
0
Issues des intégrations
0
Intégrations
48
Actions
Partages
0
Téléchargements
45
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Meetup intro techno big data

  1. 1. BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr Big Data l Analytics l DataViz Introduction aux technologies Big Data
  2. 2. 2Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014 Cheminement du cours Volume Variété2 Vitesse3 Eco-System Hadoop4 1
  3. 3. 3BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Cette année nous fêtons les 80 ans de l’ informatique • 1934 : Alan Turing • 1968 : Intel • 1972 : Internet • 1977 : Oracle • 1992 : Internet = 1 million de PCs • 1995 : MySQL / PostGreSQL • 1996 : Internet = 36 millions de PCs • 2000 : Internet = 360 millions de Pcs • 2007 : Iphone • 2015 : 2 milliards de smartphones • 2020 : 50 milliards d’objets connectés ? Limit MySQL PostGreSQL MongoDB Oracle Database Size Limité par l'OS Unlimited 128 TB Table Size 16 TB 32 TB Row Size 65 000 bytes 1.6 TB Field Size … 0,06Mb 1 GB 16 Mb Rows per Table illimiteds Unlimited 4b or illimited Columns per Table 85 250 - 1600 Indexes per Table Unlimited unlimited
  4. 4. 4BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 % de personnes se connectant à internet
  5. 5. 5BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Où vont les données ? Sur des disques !
  6. 6. 6BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 La meilleure config sur Rue du Commerce : 60 To ➢ Les interfaces de connexion au disque dur: • IDE-ATA : 133 Mo/s ( obsolète ) • SCSI : de 5 à 600 Mo/s ( intelligent, plus rapide, standardisé ) • S-ATA : de 150 à 600 Mo/s ( standard actuel ) ➢ Carte mères : 500 eur • 2 x SATA3 6.0 Gb / s • 8 x SAS2/SATA3 6.0 Gb / s ➢ Taille des disques : 6 To – 300 euros ➢ Configuration : 60 To max / 3500 euros ➢ Temps de lecture : • Théorique : 10 000 secondes / 2.7 heures • Pratique : Deux ou trois fois plus lent : environ 9 heures IDE-ATA SCSI S-ATA => Combien de temps pour tout lire ?
  7. 7. 7BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 IBM Benchmark ( 2011) : 480 disques ! 480 disques de 146 Gb : 71 Tb 15 K RPM 14 Gb / s 5 000 secondes pour tout lire : 80 minutes !=> Combien de temps pour tout lire ? => A quel prix ?
  8. 8. 8BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 MTBF : Mean Time Before Failure 100 disques | MTBF 5 ans = 20 pannes / an Soit un disque à changer toutes les 2 semaines. Risques : 1. Coût 2. Instabilité du système 3. Perte d’information ! Hadoop résout le MTBF en déduplicant la donnée : replication factor = 3 Si un disque tombe en panne, on retrouve l’ information sur un des deux autres disques.
  9. 9. 9BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 MTBF : Transformer un problème en atout Lent (dédié au mode “batch”) Pas cher (12 Keur/machine) mais redondant ! Rapide Map (Sort) Reduce mais complexe !
  10. 10. 10BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Map-Reduce Algorihtm MAP (MAGIC SORT) REDUCE (RESULT)
  11. 11. 11Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014 Cheminement du cours Volume Variété2 Vitesse3 Eco-System Hadoop4 1
  12. 12. 12BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Des sources de plus en plus diverses
  13. 13. 13BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 La fin d’un monde 1950 - 2009 2015 JSON
  14. 14. 14BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Formalisme JSON :
  15. 15. 15BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Des caractéristiques différentes ... 1950 - 2009 2015 Online Transaction Processing Transactions garanties Lecture et écriture Schéma défini Banques / Systèmes de sécurité Oracle / Access PostGreSQL / MySQL Online Analytical Processing Pas de transactions Principalement en lecture Sans schéma Sites Web / Applications non critiques MongoDB / CouchDB HBase / Cassandra
  16. 16. 16BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Pour de nouveaux usages : 1950 - 2009 2015 Online Transaction Processing Transactions garanties Lecture et écriture Schéma défini Banques / Systèmes de sécurité Oracle / Access PostGreSQL / MySQL Online Analytical Processing Pas de transactions Principalement en lecture Sans schéma Sites Web / Applications non critiques MongoDB / CouchDB HBase / Cassandra
  17. 17. 17BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Un vocabulaire qui change : 1950 - 2009 2015 Online Transaction Processing MCD / Schéma / Relationnel UML / MERISE Référentiel / dictionnaires de données SQL Triggers Silos / Logiciels / Licences / BI Online Analytical Processing NoSQL / Schemaless Machine Learning / Prédictif Apprentissage (Non) Supervisé Partage / API / Open Sources / Dashboard / Data Visualisation
  18. 18. 18Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014 Cheminement du cours Volume Variété2 Vitesse3 Eco-System Hadoop4 1
  19. 19. 19BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Support matters La RAM est jusqu’à 70 fois plus rapide que le disque en écriture et 50 fois en lecture
  20. 20. 20BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Support matters x 388
  21. 21. 21BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Support matters x 388 x 777
  22. 22. 22BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Support matters x 388 x 777 x 1314
  23. 23. 23BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture
  24. 24. 24BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture
  25. 25. 25BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture
  26. 26. 26BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture
  27. 27. 27BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture 20 € / Tb
  28. 28. 28BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture 9 000 € / Tb 20 € / Tb
  29. 29. 29BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture 9 000 € / Tb 20 € / Tb
  30. 30. 30Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014 Cheminement du cours Volume Variété2 Vitesse3 Eco-système Hadoop4 1
  31. 31. 31BIG DATA – ESILV – Septembre 2014 Coordination complexe dans les Systèmes Parallèles Loi d’Amdhal : Soit un programme : • P = % possible en parallèle sans synchronisation (dans [ 0, 1[ ) • N = nombre de processeurs • 1 = durée nécessaire pour effectuer l’algorithme avec un processeur Gain possible en temps : • Gain sur P = P/N < P < 1 • Partie sur laquelle on ne peut rien gagner : 1 – P < 1 • Durée nécessaire : (1-P) + P/N <1 • Accélération possible : 1 / Durée nécessaire > 1 • Exemples : • 95% parallélisable : P = 0.95 • 100 processeurs : N = 100 • Accélération = 1 / ( 0.05 + 0.95/100) = 16,8 fois plus rapide • Avec 50 processeurs : 1 / (0.05 + 0.95/10) = 14,5 fois plus rapide
  32. 32. 32BIG DATA – ESILV – Septembre 2014 Rendez vos codes Parralélisables !
  33. 33. 33BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 HADOOP 1.0
  34. 34. 34BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 HADOOP 2.0
  35. 35. 35BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Zookeeper
  36. 36. 36BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Front - End
  37. 37. 37BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 D3JS
  38. 38. 38BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Présentation de Memorandum.pro ▪ Fondateur cabinet Mémorandum ▪ Alcatel-Lucent, Toshiba Services ▪ ESCP, Télécom Paris Romain Jouin ▪ Développement informatique ▪ Développement commercial ▪ Stratégie Big Data ▪ Analyse de données COMPÉTENCES ▪ Jaccede.com – gestion d’infrastructure ▪ EDF – E-reputation ▪ Toshiba –1ère plateforme de Cloud Computing ▪ Alcatel – Développement commercial Ex-URSS SELECTION DE PROJETS RECENTS • Cabinet de conseil en Stratégie Big Data • Expertise Usages et Applications Big Data • Missions de conseil et formations • Développement logiciel • Gestion d’industrialisation Big Data
  39. 39. 39BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 History
  40. 40. 41BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 La base :
  41. 41. BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr CONTACT romain@data-business.fr 06.52.86.87.30

×