Big Data - Open Coffee Brest - 20121121

Production de données de + en + importante
Conservation de plus en plus longue

Coût du stockage en diminution
Espoir d'extraire un jour de la valeur

Production de données de + en + rapide
Nécessité d'analyser ces données de + en + vite

Environnement concurrentiel dynamique

Plus seulement des données structurées
Vers une majorité de données non structurées

texte (articles, commentaires, tweets, ...)
images (chèques)
logs, métriques, ...

5-10 ms pour positionner la tête

200 déplacements par seconde maximum

100 millions d'octets par seconde

Mo/s 75 100 125

1 Mo 13 ms 10 ms 8 ms
1 CD (700 Mo) 9.1 s 7s 5.6 s
1 Go (1000 Mo) 13 s 10 s 8s
1 DVD (4700 Mo) 1m01s 47 s 37.6 s
1 To (1000 Go) 3h36m 2h46m 2h13m

dd if=/dev/zero of=payload conv=fdatasync bs=1000000 count=1000
dd if=payload of=/dev/null iflag=direct bs=1024000

Mo/s 75 100 125

1 minute 4.5 Go 6 Go 7.5 Go
15 minutes 67.5 Go 90 Go 112.5 Go
1 heure 270 Go 360 Go 450 Go
1 jour 6.48 To 8.64 To 10.8 To

78 octets d'en-tête (38 + 20 + 20)
6-1460 octets de charge utile
94.9 % de la bande passante
Mbps 100 1000 800
1 Mo 84.3 ms 8.43 ms 10.5 ms
1 Go (1000 Mo) 1m24s 8.43 s 10.5 s
1 DVD (4700 Mo) 6m36s 39.6 s 49.5 s
1 To (1000 Go) 23h24m 2h20m 2h55m

Quelques exemples

Extraire une sous-chaîne (10→5) 25 ns
Convertir une chaîne en nombre 90 ns
Passer une chaîne en majuscules 75 ns
Allouer un tableau de 100 octets 30 ns

1 s = 1000 ms = 1 000 000 μs = 1 000 000 000 ns

Impact des temps de traitement

Une opération nécessitant 10 μs
peut être effectuée 100000 fois par seconde
L'appliquer 1 milliard de fois prend 10000 s

1000 s = 16m40s
10000 s = 2h46m40s
86400 s = 1 jour

“ Big data really is about having insights
and making an impact on your business.
If you aren’t taking advantage of the data you’re collecting,
then you just have a pile of data, you don’t have big data. ”

Jay Parikh – VP of Engineering, Facebook

Version Open Source de GFS et Map/Reduce
Hadoop Distributed File System

Segmentation des fichiers en blocs

A

B

C

Blocs de 64 Mo, favorisent les lectures séquentielles
Pas adapté à la gestion de nombreux petits fichiers

Répartition des blocs sur N machines
Réplication des blocs pour assurer
Performance et Disponibilité

A A

B B

B C C

A C

Parallélisation des traitements
et exécution au plus près des données
en agissant sur chacun des blocs
A A

B B

B C C

A C

Crunch

Cascading

(c) 2012 - Tarun Deep Girdher

Big Data - Open Coffee Brest - 20121121

Contenu connexe

En vedette

Similaire à Big Data - Open Coffee Brest - 20121121

Plus de Mathias Herberts

Big Data - Open Coffee Brest - 20121121