SlideShare une entreprise Scribd logo
1  sur  10
Big Data
UNE HISTOIRE D’ÉCHELLE
Sommaire
 Une histoire d’échelle
 A l’échelle verticale
 À l’horizontale
2
Une histoire d’échelle
 Plus de données
 Plus de stockage … rapide (on oublie les bandes de grande capacité)
 Plus de capacité de calcul
 Plus de mémoire (la mémoire est 1000 fois plus rapide que le disque)
 Deux solutions possibles
 Des machines plus performantes => vertical (Scale Up)
 Beaucoup de machines qui collaborent à un résultat final => horizontal (Scale
Out)
 A garder en tête
 L’efficacité énergétique (gros impact sur les coûts de fonctionnement)
3
Scale Up
 On augmente
 la puissance d’une machine
 son espace de stockage
 Sa mémoire
 On atteint des limites
 Disque dur : max 600 Mo/s (ca prend combien de temps pour lire un To ?)
 Un serveur gère rarement plus d’un To de mémoire
 Le silicium montre ses limites (augmentation du nombre de transistors dans un
processeurs, finesse de gravure de quelques nm)
 Les horloges ne peuvent aller plus vite à cause de certains effets quantiques
 3 Ghz pour les processeurs courant environ 2 000 000 000 de transistors
 500 Ghz en recherche à -270°C, monotransistor
4
Plongée dans un processeur
Processeur 80486 Core I5 Zoom
https://sites.google.com/site/imhe
ngwu/work
5
Les supercalculateurs
 Perçu par l’utilisateur comme une seule machine
 Deux options
 Effectuent le même traitement sur un lot de données (vectoriel)
 Effectuent chacun une partie du traitement (parallèle)
 Une architecte conçue pour fournir en permanence des données à traiter
aux processeurs
 C’est super cher : des millions d’euros
6
Quelques exemples en image
Cray 2 (1985)
NASA : http://gimp-savvy.com/cgi-
bin/img.cgi?ailswE7kkmL1216740
Titan (2013) Pangea
Le plus gros calculateur privé
(Groupe Total)
7
Pangea : un supercalculateur 8
Scale out
 On utilise plus unités de calcul, stocke en parallèle
 L’utilisateur le sait
 On répartit les fichiers sur plus (dizaines/centaines) de serveurs
 Système de fichier HDFS
 On utilise des méthodes de calcul spécifique
 Map-Reduce
 Pas cher
 8 CPU, 32 Go de RAM, 0,37 $ / heure
 0,03$ par Go par mois (on peut archiver pour 0,007 $) par tranche de 500 To,
quasi pas de limite
9
De nouveaux outils
 Pour gérer les données
 Pour répartir le calcul
 Pour offrir une infrastructure
 Un pionnier : Hadoop
10

Contenu connexe

Similaire à 03 big data échelle

Le stockage de données disruptif
Le stockage de données disruptifLe stockage de données disruptif
Le stockage de données disruptifekito
 
Ingénierie de la performance au sein des mégadonnées
Ingénierie de la performance au sein des mégadonnéesIngénierie de la performance au sein des mégadonnées
Ingénierie de la performance au sein des mégadonnéesDaniel Lemire
 
Le PC en détail
Le PC en détailLe PC en détail
Le PC en détailBruno Delb
 
Technologies & Systèmes
Technologies & SystèmesTechnologies & Systèmes
Technologies & SystèmesPaulin CHOUDJA
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfAhmedToujani1
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfMissaouiWissal
 
L'optimisation énergétique des datacenter
L'optimisation énergétique des datacenterL'optimisation énergétique des datacenter
L'optimisation énergétique des datacenterekito
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinPALO IT
 
PerfUG - Hadoop Performances
PerfUG - Hadoop PerformancesPerfUG - Hadoop Performances
PerfUG - Hadoop PerformancesSofian Djamaa
 
Meetup Google Cloud
Meetup Google CloudMeetup Google Cloud
Meetup Google CloudPierre Coste
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataArrow Group
 
Presentation cours informtiqueTDA2.ppt
Presentation cours informtiqueTDA2.pptPresentation cours informtiqueTDA2.ppt
Presentation cours informtiqueTDA2.pptPrimaelBouazo
 
ICT Journal - Dossier déduplication
ICT Journal - Dossier déduplicationICT Journal - Dossier déduplication
ICT Journal - Dossier déduplicationschene
 
Système d’exploitation: Principe
Système d’exploitation: PrincipeSystème d’exploitation: Principe
Système d’exploitation: PrincipeSouhaib El
 
Webinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud DatabasesWebinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud DatabasesOVHcloud
 
IBM FlashSystem : Les bonnes raisons de passer au Flash
IBM FlashSystem : Les bonnes raisons de passer au Flash IBM FlashSystem : Les bonnes raisons de passer au Flash
IBM FlashSystem : Les bonnes raisons de passer au Flash Solutions IT et Business
 

Similaire à 03 big data échelle (20)

ICDL MODULE 1 Lesson 2
ICDL MODULE 1 Lesson 2ICDL MODULE 1 Lesson 2
ICDL MODULE 1 Lesson 2
 
Le stockage de données disruptif
Le stockage de données disruptifLe stockage de données disruptif
Le stockage de données disruptif
 
Ingénierie de la performance au sein des mégadonnées
Ingénierie de la performance au sein des mégadonnéesIngénierie de la performance au sein des mégadonnées
Ingénierie de la performance au sein des mégadonnées
 
Le PC en détail
Le PC en détailLe PC en détail
Le PC en détail
 
Technologies & Systèmes
Technologies & SystèmesTechnologies & Systèmes
Technologies & Systèmes
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdf
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdf
 
Assembleur
AssembleurAssembleur
Assembleur
 
L'optimisation énergétique des datacenter
L'optimisation énergétique des datacenterL'optimisation énergétique des datacenter
L'optimisation énergétique des datacenter
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foin
 
PerfUG - Hadoop Performances
PerfUG - Hadoop PerformancesPerfUG - Hadoop Performances
PerfUG - Hadoop Performances
 
Meetup Google Cloud
Meetup Google CloudMeetup Google Cloud
Meetup Google Cloud
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
 
Presentation cours informtiqueTDA2.ppt
Presentation cours informtiqueTDA2.pptPresentation cours informtiqueTDA2.ppt
Presentation cours informtiqueTDA2.ppt
 
ICT Journal - Dossier déduplication
ICT Journal - Dossier déduplicationICT Journal - Dossier déduplication
ICT Journal - Dossier déduplication
 
Système d’exploitation: Principe
Système d’exploitation: PrincipeSystème d’exploitation: Principe
Système d’exploitation: Principe
 
Présentation1.pptx
Présentation1.pptxPrésentation1.pptx
Présentation1.pptx
 
Webinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud DatabasesWebinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud Databases
 
IBM FlashSystem : Les bonnes raisons de passer au Flash
IBM FlashSystem : Les bonnes raisons de passer au Flash IBM FlashSystem : Les bonnes raisons de passer au Flash
IBM FlashSystem : Les bonnes raisons de passer au Flash
 

Plus de Patrick Bury

16 graph databases
16 graph databases16 graph databases
16 graph databasesPatrick Bury
 
15 map reduce on azure
15 map reduce on azure15 map reduce on azure
15 map reduce on azurePatrick Bury
 
14 big data gitlab
14 big data gitlab14 big data gitlab
14 big data gitlabPatrick Bury
 
13 big data docker
13 big data docker13 big data docker
13 big data dockerPatrick Bury
 
10 big data hadoop
10 big data hadoop10 big data hadoop
10 big data hadoopPatrick Bury
 
08 big data dataviz
08 big data dataviz08 big data dataviz
08 big data datavizPatrick Bury
 
09 big data mapreduce
09 big data mapreduce09 big data mapreduce
09 big data mapreducePatrick Bury
 
06 cloud souverain
06 cloud souverain06 cloud souverain
06 cloud souverainPatrick Bury
 
05 creation instance ovh
05 creation instance ovh05 creation instance ovh
05 creation instance ovhPatrick Bury
 
04 big data fournisseurs
04 big data fournisseurs04 big data fournisseurs
04 big data fournisseursPatrick Bury
 
03 big data stockage
03 big data stockage03 big data stockage
03 big data stockagePatrick Bury
 
02 big data definition
02 big data definition02 big data definition
02 big data definitionPatrick Bury
 
01 big data introduction
01 big data introduction01 big data introduction
01 big data introductionPatrick Bury
 
16 graph databases
16 graph databases16 graph databases
16 graph databasesPatrick Bury
 
15 map reduce on azure
15 map reduce on azure15 map reduce on azure
15 map reduce on azurePatrick Bury
 

Plus de Patrick Bury (20)

100 évaluation
100 évaluation100 évaluation
100 évaluation
 
16 graph databases
16 graph databases16 graph databases
16 graph databases
 
15 map reduce on azure
15 map reduce on azure15 map reduce on azure
15 map reduce on azure
 
11 big data aws
11 big data aws11 big data aws
11 big data aws
 
14 big data gitlab
14 big data gitlab14 big data gitlab
14 big data gitlab
 
13 big data docker
13 big data docker13 big data docker
13 big data docker
 
10 big data hadoop
10 big data hadoop10 big data hadoop
10 big data hadoop
 
08 big data dataviz
08 big data dataviz08 big data dataviz
08 big data dataviz
 
12 big data azure
12 big data azure12 big data azure
12 big data azure
 
09 big data mapreduce
09 big data mapreduce09 big data mapreduce
09 big data mapreduce
 
07 big data sgbd
07 big data sgbd07 big data sgbd
07 big data sgbd
 
06 cloud souverain
06 cloud souverain06 cloud souverain
06 cloud souverain
 
05 creation instance ovh
05 creation instance ovh05 creation instance ovh
05 creation instance ovh
 
04 big data fournisseurs
04 big data fournisseurs04 big data fournisseurs
04 big data fournisseurs
 
03 big data stockage
03 big data stockage03 big data stockage
03 big data stockage
 
02 big data definition
02 big data definition02 big data definition
02 big data definition
 
01 open data
01 open data01 open data
01 open data
 
01 big data introduction
01 big data introduction01 big data introduction
01 big data introduction
 
16 graph databases
16 graph databases16 graph databases
16 graph databases
 
15 map reduce on azure
15 map reduce on azure15 map reduce on azure
15 map reduce on azure
 

03 big data échelle

  • 1. Big Data UNE HISTOIRE D’ÉCHELLE
  • 2. Sommaire  Une histoire d’échelle  A l’échelle verticale  À l’horizontale 2
  • 3. Une histoire d’échelle  Plus de données  Plus de stockage … rapide (on oublie les bandes de grande capacité)  Plus de capacité de calcul  Plus de mémoire (la mémoire est 1000 fois plus rapide que le disque)  Deux solutions possibles  Des machines plus performantes => vertical (Scale Up)  Beaucoup de machines qui collaborent à un résultat final => horizontal (Scale Out)  A garder en tête  L’efficacité énergétique (gros impact sur les coûts de fonctionnement) 3
  • 4. Scale Up  On augmente  la puissance d’une machine  son espace de stockage  Sa mémoire  On atteint des limites  Disque dur : max 600 Mo/s (ca prend combien de temps pour lire un To ?)  Un serveur gère rarement plus d’un To de mémoire  Le silicium montre ses limites (augmentation du nombre de transistors dans un processeurs, finesse de gravure de quelques nm)  Les horloges ne peuvent aller plus vite à cause de certains effets quantiques  3 Ghz pour les processeurs courant environ 2 000 000 000 de transistors  500 Ghz en recherche à -270°C, monotransistor 4
  • 5. Plongée dans un processeur Processeur 80486 Core I5 Zoom https://sites.google.com/site/imhe ngwu/work 5
  • 6. Les supercalculateurs  Perçu par l’utilisateur comme une seule machine  Deux options  Effectuent le même traitement sur un lot de données (vectoriel)  Effectuent chacun une partie du traitement (parallèle)  Une architecte conçue pour fournir en permanence des données à traiter aux processeurs  C’est super cher : des millions d’euros 6
  • 7. Quelques exemples en image Cray 2 (1985) NASA : http://gimp-savvy.com/cgi- bin/img.cgi?ailswE7kkmL1216740 Titan (2013) Pangea Le plus gros calculateur privé (Groupe Total) 7
  • 8. Pangea : un supercalculateur 8
  • 9. Scale out  On utilise plus unités de calcul, stocke en parallèle  L’utilisateur le sait  On répartit les fichiers sur plus (dizaines/centaines) de serveurs  Système de fichier HDFS  On utilise des méthodes de calcul spécifique  Map-Reduce  Pas cher  8 CPU, 32 Go de RAM, 0,37 $ / heure  0,03$ par Go par mois (on peut archiver pour 0,007 $) par tranche de 500 To, quasi pas de limite 9
  • 10. De nouveaux outils  Pour gérer les données  Pour répartir le calcul  Pour offrir une infrastructure  Un pionnier : Hadoop 10

Notes de l'éditeur

  1. 10 000 000 / 600 => 16 666s => 4h30 !!!