03 big data échelle

Big Data
UNE HISTOIRE D’ÉCHELLE

Sommaire
 Une histoire d’échelle
 A l’échelle verticale
 À l’horizontale
2

Une histoire d’échelle
 Plus de données
 Plus de stockage … rapide (on oublie les bandes de grande capacité)
 Plus de capacité de calcul
 Plus de mémoire (la mémoire est 1000 fois plus rapide que le disque)
 Deux solutions possibles
 Des machines plus performantes => vertical (Scale Up)
 Beaucoup de machines qui collaborent à un résultat final => horizontal (Scale
Out)
 A garder en tête
 L’efficacité énergétique (gros impact sur les coûts de fonctionnement)
3

Scale Up
 On augmente
 la puissance d’une machine
 son espace de stockage
 Sa mémoire
 On atteint des limites
 Disque dur : max 600 Mo/s (ca prend combien de temps pour lire un To ?)
 Un serveur gère rarement plus d’un To de mémoire
 Le silicium montre ses limites (augmentation du nombre de transistors dans un
processeurs, finesse de gravure de quelques nm)
 Les horloges ne peuvent aller plus vite à cause de certains effets quantiques
 3 Ghz pour les processeurs courant environ 2 000 000 000 de transistors
 500 Ghz en recherche à -270°C, monotransistor
4

Plongée dans un processeur
Processeur 80486 Core I5 Zoom
https://sites.google.com/site/imhe
ngwu/work
5

Les supercalculateurs
 Perçu par l’utilisateur comme une seule machine
 Deux options
 Effectuent le même traitement sur un lot de données (vectoriel)
 Effectuent chacun une partie du traitement (parallèle)
 Une architecte conçue pour fournir en permanence des données à traiter
aux processeurs
 C’est super cher : des millions d’euros
6

Quelques exemples en image
Cray 2 (1985)
NASA : http://gimp-savvy.com/cgi-
bin/img.cgi?ailswE7kkmL1216740
Titan (2013) Pangea
Le plus gros calculateur privé
(Groupe Total)
7

Pangea : un supercalculateur 8

Scale out
 On utilise plus unités de calcul, stocke en parallèle
 L’utilisateur le sait
 On répartit les fichiers sur plus (dizaines/centaines) de serveurs
 Système de fichier HDFS
 On utilise des méthodes de calcul spécifique
 Map-Reduce
 Pas cher
 8 CPU, 32 Go de RAM, 0,37 $ / heure
 0,03$ par Go par mois (on peut archiver pour 0,007 $) par tranche de 500 To,
quasi pas de limite
9

De nouveaux outils
 Pour gérer les données
 Pour répartir le calcul
 Pour offrir une infrastructure
 Un pionnier : Hadoop
10

03 big data échelle

Recommandé

Recommandé

Contenu connexe

Similaire à 03 big data échelle

Similaire à 03 big data échelle (20)

Plus de Patrick Bury

Plus de Patrick Bury (20)

03 big data échelle

Notes de l'éditeur