Big Data
UNE HISTOIRE D’ÉCHELLE
Sommaire
 Une histoire d’échelle
 A l’échelle verticale
 À l’horizontale
2
Une histoire d’échelle
 Plus de données
 Plus de stockage … rapide (on oublie les bandes de grande capacité)
 Plus de capacité de calcul
 Plus de mémoire (la mémoire est 1000 fois plus rapide que le disque)
 Deux solutions possibles
 Des machines plus performantes => vertical (Scale Up)
 Beaucoup de machines qui collaborent à un résultat final => horizontal (Scale
Out)
 A garder en tête
 L’efficacité énergétique (gros impact sur les coûts de fonctionnement)
3
Scale Up
 On augmente
 la puissance d’une machine
 son espace de stockage
 Sa mémoire
 On atteint des limites
 Disque dur : max 600 Mo/s (ca prend combien de temps pour lire un To ?)
 Un serveur gère rarement plus d’un To de mémoire
 Le silicium montre ses limites (augmentation du nombre de transistors dans un
processeurs, finesse de gravure de quelques nm)
 Les horloges ne peuvent aller plus vite à cause de certains effets quantiques
 3 Ghz pour les processeurs courant environ 2 000 000 000 de transistors
 500 Ghz en recherche à -270°C, monotransistor
4
Plongée dans un processeur
Processeur 80486 Core I5 Zoom
https://sites.google.com/site/imhe
ngwu/work
5
Les supercalculateurs
 Perçu par l’utilisateur comme une seule machine
 Deux options
 Effectuent le même traitement sur un lot de données (vectoriel)
 Effectuent chacun une partie du traitement (parallèle)
 Une architecte conçue pour fournir en permanence des données à traiter
aux processeurs
 C’est super cher : des millions d’euros
6
Quelques exemples en image
Cray 2 (1985)
NASA : http://gimp-savvy.com/cgi-
bin/img.cgi?ailswE7kkmL1216740
Titan (2013) Pangea
Le plus gros calculateur privé
(Groupe Total)
7
Pangea : un supercalculateur 8
Scale out
 On utilise plus unités de calcul, stocke en parallèle
 L’utilisateur le sait
 On répartit les fichiers sur plus (dizaines/centaines) de serveurs
 Système de fichier HDFS
 On utilise des méthodes de calcul spécifique
 Map-Reduce
 Pas cher
 8 CPU, 32 Go de RAM, 0,37 $ / heure
 0,03$ par Go par mois (on peut archiver pour 0,007 $) par tranche de 500 To,
quasi pas de limite
9
De nouveaux outils
 Pour gérer les données
 Pour répartir le calcul
 Pour offrir une infrastructure
 Un pionnier : Hadoop
10

03 big data échelle

  • 1.
  • 2.
    Sommaire  Une histoired’échelle  A l’échelle verticale  À l’horizontale 2
  • 3.
    Une histoire d’échelle Plus de données  Plus de stockage … rapide (on oublie les bandes de grande capacité)  Plus de capacité de calcul  Plus de mémoire (la mémoire est 1000 fois plus rapide que le disque)  Deux solutions possibles  Des machines plus performantes => vertical (Scale Up)  Beaucoup de machines qui collaborent à un résultat final => horizontal (Scale Out)  A garder en tête  L’efficacité énergétique (gros impact sur les coûts de fonctionnement) 3
  • 4.
    Scale Up  Onaugmente  la puissance d’une machine  son espace de stockage  Sa mémoire  On atteint des limites  Disque dur : max 600 Mo/s (ca prend combien de temps pour lire un To ?)  Un serveur gère rarement plus d’un To de mémoire  Le silicium montre ses limites (augmentation du nombre de transistors dans un processeurs, finesse de gravure de quelques nm)  Les horloges ne peuvent aller plus vite à cause de certains effets quantiques  3 Ghz pour les processeurs courant environ 2 000 000 000 de transistors  500 Ghz en recherche à -270°C, monotransistor 4
  • 5.
    Plongée dans unprocesseur Processeur 80486 Core I5 Zoom https://sites.google.com/site/imhe ngwu/work 5
  • 6.
    Les supercalculateurs  Perçupar l’utilisateur comme une seule machine  Deux options  Effectuent le même traitement sur un lot de données (vectoriel)  Effectuent chacun une partie du traitement (parallèle)  Une architecte conçue pour fournir en permanence des données à traiter aux processeurs  C’est super cher : des millions d’euros 6
  • 7.
    Quelques exemples enimage Cray 2 (1985) NASA : http://gimp-savvy.com/cgi- bin/img.cgi?ailswE7kkmL1216740 Titan (2013) Pangea Le plus gros calculateur privé (Groupe Total) 7
  • 8.
    Pangea : unsupercalculateur 8
  • 9.
    Scale out  Onutilise plus unités de calcul, stocke en parallèle  L’utilisateur le sait  On répartit les fichiers sur plus (dizaines/centaines) de serveurs  Système de fichier HDFS  On utilise des méthodes de calcul spécifique  Map-Reduce  Pas cher  8 CPU, 32 Go de RAM, 0,37 $ / heure  0,03$ par Go par mois (on peut archiver pour 0,007 $) par tranche de 500 To, quasi pas de limite 9
  • 10.
    De nouveaux outils Pour gérer les données  Pour répartir le calcul  Pour offrir une infrastructure  Un pionnier : Hadoop 10