BIG DATA l ANALYTICS l DATAVIZ
www.data-business.fr
Big Data l Analytics l
DataViz
Introduction aux technologies
Big Data
2Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-System ...
3BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Cette année nous fêtons les 80 ans de l’
informati...
4BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
% de personnes se connectant à internet
5BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Où vont les données ? Sur des disques !
6BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
La meilleure config sur Rue du Commerce :
60 To
➢ ...
7BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
IBM Benchmark ( 2011) : 480 disques !
480 disques ...
8BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
MTBF : Mean Time Before Failure
100 disques | MTBF...
9BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
MTBF : Transformer un problème en atout
Lent (dédi...
10BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Map-Reduce Algorihtm
MAP (MAGIC SORT) REDUCE (RES...
11Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-System...
12BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Des sources de plus en plus diverses
13BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
La fin d’un monde
1950 - 2009
2015
JSON
14BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Formalisme JSON :
15BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Des caractéristiques différentes ...
1950 - 2009
...
16BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Pour de nouveaux usages :
1950 - 2009
2015
Online...
17BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Un vocabulaire qui change :
1950 - 2009
2015
Onli...
18Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-System...
19BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Support matters
La RAM est jusqu’à 70 fois plus r...
20BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Support matters
x 388
21BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Support matters
x 388
x 777
22BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Support matters
x 388
x 777
x 1314
23BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
24BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
25BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
26BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
27BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
20 € / Tb
28BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
9 000 € / Tb
20 € / Tb
29BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
9 000 € / Tb
20 € / Tb
30Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-systèm...
31BIG DATA – ESILV – Septembre 2014
Coordination complexe dans les Systèmes Parallèles
Loi d’Amdhal :
Soit un programme :
...
32BIG DATA – ESILV – Septembre 2014
Rendez vos codes Parralélisables !
33BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
HADOOP 1.0
34BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
HADOOP 2.0
35BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Zookeeper
36BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Front - End
37BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
D3JS
38BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Présentation de Memorandum.pro
▪ Fondateur cabine...
39BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
History
41BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
La base :
BIG DATA l ANALYTICS l DATAVIZ
www.data-business.fr
CONTACT
romain@data-business.fr
06.52.86.87.30
Meetup intro techno big data
Prochain SlideShare
Chargement dans…5
×

Meetup intro techno big data

960 vues

Publié le

Introduction about Hadoop, Map-Reduce, Yarn, NoSQL, Spark and Big Data

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
960
Sur SlideShare
0
Issues des intégrations
0
Intégrations
65
Actions
Partages
0
Téléchargements
61
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Meetup intro techno big data

  1. 1. BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr Big Data l Analytics l DataViz Introduction aux technologies Big Data
  2. 2. 2Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014 Cheminement du cours Volume Variété2 Vitesse3 Eco-System Hadoop4 1
  3. 3. 3BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Cette année nous fêtons les 80 ans de l’ informatique • 1934 : Alan Turing • 1968 : Intel • 1972 : Internet • 1977 : Oracle • 1992 : Internet = 1 million de PCs • 1995 : MySQL / PostGreSQL • 1996 : Internet = 36 millions de PCs • 2000 : Internet = 360 millions de Pcs • 2007 : Iphone • 2015 : 2 milliards de smartphones • 2020 : 50 milliards d’objets connectés ? Limit MySQL PostGreSQL MongoDB Oracle Database Size Limité par l'OS Unlimited 128 TB Table Size 16 TB 32 TB Row Size 65 000 bytes 1.6 TB Field Size … 0,06Mb 1 GB 16 Mb Rows per Table illimiteds Unlimited 4b or illimited Columns per Table 85 250 - 1600 Indexes per Table Unlimited unlimited
  4. 4. 4BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 % de personnes se connectant à internet
  5. 5. 5BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Où vont les données ? Sur des disques !
  6. 6. 6BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 La meilleure config sur Rue du Commerce : 60 To ➢ Les interfaces de connexion au disque dur: • IDE-ATA : 133 Mo/s ( obsolète ) • SCSI : de 5 à 600 Mo/s ( intelligent, plus rapide, standardisé ) • S-ATA : de 150 à 600 Mo/s ( standard actuel ) ➢ Carte mères : 500 eur • 2 x SATA3 6.0 Gb / s • 8 x SAS2/SATA3 6.0 Gb / s ➢ Taille des disques : 6 To – 300 euros ➢ Configuration : 60 To max / 3500 euros ➢ Temps de lecture : • Théorique : 10 000 secondes / 2.7 heures • Pratique : Deux ou trois fois plus lent : environ 9 heures IDE-ATA SCSI S-ATA => Combien de temps pour tout lire ?
  7. 7. 7BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 IBM Benchmark ( 2011) : 480 disques ! 480 disques de 146 Gb : 71 Tb 15 K RPM 14 Gb / s 5 000 secondes pour tout lire : 80 minutes !=> Combien de temps pour tout lire ? => A quel prix ?
  8. 8. 8BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 MTBF : Mean Time Before Failure 100 disques | MTBF 5 ans = 20 pannes / an Soit un disque à changer toutes les 2 semaines. Risques : 1. Coût 2. Instabilité du système 3. Perte d’information ! Hadoop résout le MTBF en déduplicant la donnée : replication factor = 3 Si un disque tombe en panne, on retrouve l’ information sur un des deux autres disques.
  9. 9. 9BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 MTBF : Transformer un problème en atout Lent (dédié au mode “batch”) Pas cher (12 Keur/machine) mais redondant ! Rapide Map (Sort) Reduce mais complexe !
  10. 10. 10BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Map-Reduce Algorihtm MAP (MAGIC SORT) REDUCE (RESULT)
  11. 11. 11Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014 Cheminement du cours Volume Variété2 Vitesse3 Eco-System Hadoop4 1
  12. 12. 12BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Des sources de plus en plus diverses
  13. 13. 13BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 La fin d’un monde 1950 - 2009 2015 JSON
  14. 14. 14BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Formalisme JSON :
  15. 15. 15BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Des caractéristiques différentes ... 1950 - 2009 2015 Online Transaction Processing Transactions garanties Lecture et écriture Schéma défini Banques / Systèmes de sécurité Oracle / Access PostGreSQL / MySQL Online Analytical Processing Pas de transactions Principalement en lecture Sans schéma Sites Web / Applications non critiques MongoDB / CouchDB HBase / Cassandra
  16. 16. 16BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Pour de nouveaux usages : 1950 - 2009 2015 Online Transaction Processing Transactions garanties Lecture et écriture Schéma défini Banques / Systèmes de sécurité Oracle / Access PostGreSQL / MySQL Online Analytical Processing Pas de transactions Principalement en lecture Sans schéma Sites Web / Applications non critiques MongoDB / CouchDB HBase / Cassandra
  17. 17. 17BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Un vocabulaire qui change : 1950 - 2009 2015 Online Transaction Processing MCD / Schéma / Relationnel UML / MERISE Référentiel / dictionnaires de données SQL Triggers Silos / Logiciels / Licences / BI Online Analytical Processing NoSQL / Schemaless Machine Learning / Prédictif Apprentissage (Non) Supervisé Partage / API / Open Sources / Dashboard / Data Visualisation
  18. 18. 18Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014 Cheminement du cours Volume Variété2 Vitesse3 Eco-System Hadoop4 1
  19. 19. 19BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Support matters La RAM est jusqu’à 70 fois plus rapide que le disque en écriture et 50 fois en lecture
  20. 20. 20BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Support matters x 388
  21. 21. 21BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Support matters x 388 x 777
  22. 22. 22BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Support matters x 388 x 777 x 1314
  23. 23. 23BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture
  24. 24. 24BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture
  25. 25. 25BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture
  26. 26. 26BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture
  27. 27. 27BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture 20 € / Tb
  28. 28. 28BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture 9 000 € / Tb 20 € / Tb
  29. 29. 29BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture 9 000 € / Tb 20 € / Tb
  30. 30. 30Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014 Cheminement du cours Volume Variété2 Vitesse3 Eco-système Hadoop4 1
  31. 31. 31BIG DATA – ESILV – Septembre 2014 Coordination complexe dans les Systèmes Parallèles Loi d’Amdhal : Soit un programme : • P = % possible en parallèle sans synchronisation (dans [ 0, 1[ ) • N = nombre de processeurs • 1 = durée nécessaire pour effectuer l’algorithme avec un processeur Gain possible en temps : • Gain sur P = P/N < P < 1 • Partie sur laquelle on ne peut rien gagner : 1 – P < 1 • Durée nécessaire : (1-P) + P/N <1 • Accélération possible : 1 / Durée nécessaire > 1 • Exemples : • 95% parallélisable : P = 0.95 • 100 processeurs : N = 100 • Accélération = 1 / ( 0.05 + 0.95/100) = 16,8 fois plus rapide • Avec 50 processeurs : 1 / (0.05 + 0.95/10) = 14,5 fois plus rapide
  32. 32. 32BIG DATA – ESILV – Septembre 2014 Rendez vos codes Parralélisables !
  33. 33. 33BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 HADOOP 1.0
  34. 34. 34BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 HADOOP 2.0
  35. 35. 35BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Zookeeper
  36. 36. 36BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Front - End
  37. 37. 37BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 D3JS
  38. 38. 38BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 Présentation de Memorandum.pro ▪ Fondateur cabinet Mémorandum ▪ Alcatel-Lucent, Toshiba Services ▪ ESCP, Télécom Paris Romain Jouin ▪ Développement informatique ▪ Développement commercial ▪ Stratégie Big Data ▪ Analyse de données COMPÉTENCES ▪ Jaccede.com – gestion d’infrastructure ▪ EDF – E-reputation ▪ Toshiba –1ère plateforme de Cloud Computing ▪ Alcatel – Développement commercial Ex-URSS SELECTION DE PROJETS RECENTS • Cabinet de conseil en Stratégie Big Data • Expertise Usages et Applications Big Data • Missions de conseil et formations • Développement logiciel • Gestion d’industrialisation Big Data
  39. 39. 39BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 History
  40. 40. 41BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015 La base :
  41. 41. BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr CONTACT romain@data-business.fr 06.52.86.87.30

×