Big
Les 3 'V'
Volume
Production de données de + en + importante
Conservation de plus en plus longue

Coût du stockage en diminution
Espoir d'extraire un jour de la valeur
Vélocité
Production de données de + en + rapide
Nécessité d'analyser ces données de + en + vite

Environnement concurrentiel dynamique
Variété
Plus seulement des données structurées
Vers une majorité de données non structurées

texte (articles, commentaires, tweets, ...)
images (chèques)
logs, métriques, ...
Les Challenges
Technologiques
Seek Time
5-10 ms pour positionner la tête

200 déplacements par seconde maximum
Data Transfer Rate
100 millions d'octets par seconde

 Mo/s                          75                  100                    125

 1 Mo                          13 ms               10 ms                  8 ms
 1 CD (700 Mo)                 9.1 s               7s                     5.6 s
 1 Go (1000 Mo)                13 s                10 s                   8s
 1 DVD (4700 Mo) 1m01s                             47 s                   37.6 s
 1 To (1000 Go)                3h36m               2h46m                  2h13m

        dd if=/dev/zero of=payload conv=fdatasync bs=1000000 count=1000
        dd if=payload of=/dev/null iflag=direct bs=1024000
Mo/s         75       100      125

1 minute     4.5 Go   6 Go     7.5 Go
15 minutes   67.5 Go 90 Go     112.5 Go
1 heure      270 Go   360 Go   450 Go
1 jour       6.48 To 8.64 To 10.8 To
78 octets d'en-tête (38 + 20 + 20)
  6-1460 octets de charge utile
  94.9 % de la bande passante
 Mbps             100     1000     800
 1 Mo             84.3 ms 8.43 ms 10.5 ms
 1 Go (1000 Mo)   1m24s   8.43 s   10.5 s
 1 DVD (4700 Mo) 6m36s    39.6 s   49.5 s
 1 To (1000 Go)   23h24m 2h20m     2h55m
Quelques exemples

Extraire une sous-chaîne (10→5) 25 ns
Convertir une chaîne en nombre              90 ns
Passer une chaîne en majuscules             75 ns
Allouer un tableau de 100 octets            30 ns


  1 s = 1000 ms = 1 000 000 μs = 1 000 000 000 ns
Impact des temps de traitement

Une opération nécessitant 10 μs
peut être effectuée 100000 fois par seconde
L'appliquer 1 milliard de fois prend 10000 s


            1000 s = 16m40s
            10000 s = 2h46m40s
            86400 s = 1 jour
Fonctionnels
“ Big data really is about having insights
 and making an impact on your business.
 If you aren’t taking advantage of the data you’re collecting,
 then you just have a pile of data, you don’t have big data. ”

                                    Jay Parikh – VP of Engineering, Facebook
Statistiques
Data Mining
Machine Learning
Version Open Source de GFS et Map/Reduce
     Hadoop Distributed File System
Segmentation des fichiers en blocs

                                                             A



                                                             B



                                                             C




     Blocs de 64 Mo, favorisent les lectures séquentielles
     Pas adapté à la gestion de nombreux petits fichiers
Répartition des blocs sur N machines
 Réplication des blocs pour assurer
   Performance et Disponibilité

 A          A

            B           B

 B          C           C

 A          C
+       x

    =
Parallélisation des traitements
et exécution au plus près des données
   en agissant sur chacun des blocs
 A           A

             B          B

 B           C          C

 A           C
(c) 2012 - Tarun Deep Girdher
Crunch




Cascading




                     (c) 2012 - Tarun Deep Girdher
(c) 2012 - Tarun Deep Girdher
Les Opportunités
(c) 2012 - Tarun Deep Girdher
(c) 2012 - Tarun Deep Girdher
(c) 2012 - Tarun Deep Girdher
...
(c) 2012 - Tarun Deep Girdher

Big Data - Open Coffee Brest - 20121121

  • 1.
  • 2.
  • 3.
  • 4.
    Production de donnéesde + en + importante Conservation de plus en plus longue Coût du stockage en diminution Espoir d'extraire un jour de la valeur
  • 5.
  • 6.
    Production de donnéesde + en + rapide Nécessité d'analyser ces données de + en + vite Environnement concurrentiel dynamique
  • 7.
  • 8.
    Plus seulement desdonnées structurées Vers une majorité de données non structurées texte (articles, commentaires, tweets, ...) images (chèques) logs, métriques, ...
  • 9.
  • 10.
  • 12.
  • 13.
    5-10 ms pourpositionner la tête 200 déplacements par seconde maximum
  • 14.
  • 15.
    100 millions d'octetspar seconde Mo/s 75 100 125 1 Mo 13 ms 10 ms 8 ms 1 CD (700 Mo) 9.1 s 7s 5.6 s 1 Go (1000 Mo) 13 s 10 s 8s 1 DVD (4700 Mo) 1m01s 47 s 37.6 s 1 To (1000 Go) 3h36m 2h46m 2h13m dd if=/dev/zero of=payload conv=fdatasync bs=1000000 count=1000 dd if=payload of=/dev/null iflag=direct bs=1024000
  • 16.
    Mo/s 75 100 125 1 minute 4.5 Go 6 Go 7.5 Go 15 minutes 67.5 Go 90 Go 112.5 Go 1 heure 270 Go 360 Go 450 Go 1 jour 6.48 To 8.64 To 10.8 To
  • 19.
    78 octets d'en-tête(38 + 20 + 20) 6-1460 octets de charge utile 94.9 % de la bande passante Mbps 100 1000 800 1 Mo 84.3 ms 8.43 ms 10.5 ms 1 Go (1000 Mo) 1m24s 8.43 s 10.5 s 1 DVD (4700 Mo) 6m36s 39.6 s 49.5 s 1 To (1000 Go) 23h24m 2h20m 2h55m
  • 21.
    Quelques exemples Extraire unesous-chaîne (10→5) 25 ns Convertir une chaîne en nombre 90 ns Passer une chaîne en majuscules 75 ns Allouer un tableau de 100 octets 30 ns 1 s = 1000 ms = 1 000 000 μs = 1 000 000 000 ns
  • 22.
    Impact des tempsde traitement Une opération nécessitant 10 μs peut être effectuée 100000 fois par seconde L'appliquer 1 milliard de fois prend 10000 s 1000 s = 16m40s 10000 s = 2h46m40s 86400 s = 1 jour
  • 23.
  • 24.
    “ Big datareally is about having insights and making an impact on your business. If you aren’t taking advantage of the data you’re collecting, then you just have a pile of data, you don’t have big data. ” Jay Parikh – VP of Engineering, Facebook
  • 26.
  • 27.
  • 28.
  • 31.
    Version Open Sourcede GFS et Map/Reduce Hadoop Distributed File System
  • 32.
    Segmentation des fichiersen blocs A B C Blocs de 64 Mo, favorisent les lectures séquentielles Pas adapté à la gestion de nombreux petits fichiers
  • 33.
    Répartition des blocssur N machines Réplication des blocs pour assurer Performance et Disponibilité A A B B B C C A C
  • 34.
    + x =
  • 36.
    Parallélisation des traitements etexécution au plus près des données en agissant sur chacun des blocs A A B B B C C A C
  • 37.
    (c) 2012 -Tarun Deep Girdher
  • 38.
    Crunch Cascading (c) 2012 - Tarun Deep Girdher
  • 40.
    (c) 2012 -Tarun Deep Girdher
  • 41.
  • 45.
    (c) 2012 -Tarun Deep Girdher
  • 46.
    (c) 2012 -Tarun Deep Girdher
  • 47.
    (c) 2012 -Tarun Deep Girdher
  • 48.
  • 49.
    (c) 2012 -Tarun Deep Girdher