3. Une histoire d’échelle
Plus de données
Plus de stockage … rapide (on oublie les bandes de grande capacité)
Plus de capacité de calcul
Plus de mémoire (la mémoire est 1000 fois plus rapide que le disque)
Deux solutions possibles
Des machines plus performantes => vertical (Scale Up)
Beaucoup de machines qui collaborent à un résultat final => horizontal (Scale
Out)
A garder en tête
L’efficacité énergétique (gros impact sur les coûts de fonctionnement)
3
4. Scale Up
On augmente
la puissance d’une machine
son espace de stockage
Sa mémoire
On atteint des limites
Disque dur : max 600 Mo/s (ca prend combien de temps pour lire un To ?)
Un serveur gère rarement plus d’un To de mémoire
Le silicium montre ses limites (augmentation du nombre de transistors dans un
processeurs, finesse de gravure de quelques nm)
Les horloges ne peuvent aller plus vite à cause de certains effets quantiques
3 Ghz pour les processeurs courant environ 2 000 000 000 de transistors
500 Ghz en recherche à -270°C, monotransistor
4
5. Plongée dans un processeur
Processeur 80486 Core I5 Zoom
https://sites.google.com/site/imhe
ngwu/work
5
6. Les supercalculateurs
Perçu par l’utilisateur comme une seule machine
Deux options
Effectuent le même traitement sur un lot de données (vectoriel)
Effectuent chacun une partie du traitement (parallèle)
Une architecte conçue pour fournir en permanence des données à traiter
aux processeurs
C’est super cher : des millions d’euros
6
7. Quelques exemples en image
Cray 2 (1985)
NASA : http://gimp-savvy.com/cgi-
bin/img.cgi?ailswE7kkmL1216740
Titan (2013) Pangea
Le plus gros calculateur privé
(Groupe Total)
7
9. Scale out
On utilise plus unités de calcul, stocke en parallèle
L’utilisateur le sait
On répartit les fichiers sur plus (dizaines/centaines) de serveurs
Système de fichier HDFS
On utilise des méthodes de calcul spécifique
Map-Reduce
Pas cher
8 CPU, 32 Go de RAM, 0,37 $ / heure
0,03$ par Go par mois (on peut archiver pour 0,007 $) par tranche de 500 To,
quasi pas de limite
9
10. De nouveaux outils
Pour gérer les données
Pour répartir le calcul
Pour offrir une infrastructure
Un pionnier : Hadoop
10