4. Production de données de + en + importante
Conservation de plus en plus longue
Coût du stockage en diminution
Espoir d'extraire un jour de la valeur
8. Plus seulement des données structurées
Vers une majorité de données non structurées
texte (articles, commentaires, tweets, ...)
images (chèques)
logs, métriques, ...
15. 100 millions d'octets par seconde
Mo/s 75 100 125
1 Mo 13 ms 10 ms 8 ms
1 CD (700 Mo) 9.1 s 7s 5.6 s
1 Go (1000 Mo) 13 s 10 s 8s
1 DVD (4700 Mo) 1m01s 47 s 37.6 s
1 To (1000 Go) 3h36m 2h46m 2h13m
dd if=/dev/zero of=payload conv=fdatasync bs=1000000 count=1000
dd if=payload of=/dev/null iflag=direct bs=1024000
16. Mo/s 75 100 125
1 minute 4.5 Go 6 Go 7.5 Go
15 minutes 67.5 Go 90 Go 112.5 Go
1 heure 270 Go 360 Go 450 Go
1 jour 6.48 To 8.64 To 10.8 To
17.
18.
19. 78 octets d'en-tête (38 + 20 + 20)
6-1460 octets de charge utile
94.9 % de la bande passante
Mbps 100 1000 800
1 Mo 84.3 ms 8.43 ms 10.5 ms
1 Go (1000 Mo) 1m24s 8.43 s 10.5 s
1 DVD (4700 Mo) 6m36s 39.6 s 49.5 s
1 To (1000 Go) 23h24m 2h20m 2h55m
20.
21. Quelques exemples
Extraire une sous-chaîne (10→5) 25 ns
Convertir une chaîne en nombre 90 ns
Passer une chaîne en majuscules 75 ns
Allouer un tableau de 100 octets 30 ns
1 s = 1000 ms = 1 000 000 μs = 1 000 000 000 ns
22. Impact des temps de traitement
Une opération nécessitant 10 μs
peut être effectuée 100000 fois par seconde
L'appliquer 1 milliard de fois prend 10000 s
1000 s = 16m40s
10000 s = 2h46m40s
86400 s = 1 jour
24. “ Big data really is about having insights
and making an impact on your business.
If you aren’t taking advantage of the data you’re collecting,
then you just have a pile of data, you don’t have big data. ”
Jay Parikh – VP of Engineering, Facebook