Cartographie des
                  solutions BigData
                      Panorama du marché
                         et prospective



                              1
samedi 11 juin 2011                        1
Solutions BigData

                      • Défi(s) pour les fournisseurs
                      • Quel marché
                      • Architectures
                      • Acteurs commerciaux
                      • Solutions alternatives
  Solutions BigData le 9/6/2011        2            Vincent Heuschling
samedi 11 juin 2011                                                      2
Quels Défis ?
                • des volumes impossibles à traiter :
                 • 30 To de logs par jour chez Facebook
                 • 15 Po de data par an au CERN
                • des croissances vertigineuses
                • du business en temps réel
                • des données différentes :
                 • Non structurées, réparties , NoSQL...
  Solutions BigData le 9/6/2011    3             Vincent Heuschling
samedi 11 juin 2011                                                   3
Le quadrant magique
                (DW database management)




  Solutions BigData le 9/6/2011   4   Vincent Heuschling
samedi 11 juin 2011                                        4
Positionnement des
                      acteurs du marché
                              Exadata
                              Teradata
                              DB2            Greenplum
                                             Netezza
                                                         Isilon
                                                         sonas
                                                         HDFS



                                             NoSQL



                              Oracle
                              DB2




  Solutions BigData le 9/6/2011          5                   Vincent Heuschling
samedi 11 juin 2011                                                               5
ROI

            •         Révolutionne les datawarehouses existants
            •         ROI de 27 mois à
                      6 mois
            •         3 fois moins cher
            •         4 fois plus rapide à
                      implémenter


  Solutions BigData le 9/6/2011              6          Vincent Heuschling
samedi 11 juin 2011                                                          6
Architecture &
                               composants

                      •   Shared Disk vs Share Nothing Arch.
                      •   Hadoop / HBase / HDFS
                      •   Map Reduce




  Solutions BigData le 9/6/2011            7              Vincent Heuschling
samedi 11 juin 2011                                                            7
Map Reduce

                       Map Function :
                      output ( word : 1 )




                              Reduce Function :
                            output ( word : sum(1) )


  Solutions BigData le 9/6/2011             8          Vincent Heuschling
samedi 11 juin 2011                                                         8
Map Reduce

                      •   S’appuie sur une base key / value
                      •   est scalable sur n serveurs
                      •   permet d’enchainer plusieurs Reduce
                      •   beaucoup d’implémentations



  Solutions BigData le 9/6/2011             9                 Vincent Heuschling
samedi 11 juin 2011                                                                9
Acteurs du marché

                      • Teradata
                      • Oracle / Exadata
                      • IBM / Netezza
                      • EMC / Greenplum
                      • ...
  Solutions BigData le 9/6/2011      10    Vincent Heuschling
samedi 11 juin 2011                                             10
Teradata
            •         Depuis 1979
            •         Appliances
            •         Share nothing arch.
            •         Parallélisme
            •         Pour les DW
            •         De 6 To à 92 Po

  Solutions BigData le 9/6/2011             11   Vincent Heuschling
samedi 11 juin 2011                                                   11
Oracle Exadata
                      •   «Database machine»
                          (n’est pas une appliance)
                      •   Serveurs de stockage
                          (168 cores, 5 TB de flash cache,
                          45 TB utiles)
                      •   Serveurs de traitements
                          (128 cores / 2 TB de mémoire)
                      •   1500000 IOPS
                      •   Data Load Rate: Up to 12 TB/hour
  Solutions BigData le 9/6/2011             12               Vincent Heuschling
samedi 11 juin 2011                                                               12
EMC Greenplum

          •       Serveurs std
          •       Share nothing arch
          •       Map Reduce
          •       SQL



  Solutions BigData le 9/6/2011        13   Vincent Heuschling
samedi 11 juin 2011                                              13
IBM Netezza
                      •   Blades IBM + Disques + FPGAs
                      •   Share nothing arch.
                      •   Map Reduce & SQL
                      •   Data load rates de 2TB/h
                      •   Produits : Skimmer (1TB à 10TB) &
                          TwinFin (1TB à 1PB+)


  Solutions BigData le 9/6/2011            14            Vincent Heuschling
samedi 11 juin 2011                                                           14
Alternatives et
                            Opensource
                      • Active circle
                      • Bases NOSQL
                      • Apache HADOOP
                      • Database.com
                      • Amazon Elastic Map Reduce
  Solutions BigData le 9/6/2011      15         Vincent Heuschling
samedi 11 juin 2011                                                  15
Active Circle
                      •   FileSystem distribué
                      •   Accès par NAS ou API
                      •   Virtualisation sur disque et bande
                      •   Noeuds locaux ou distants
                      •   Réplication
                      •   Hiérarchisation

  Solutions BigData le 9/6/2011             16                 Vincent Heuschling
samedi 11 juin 2011                                                                 16
NOSQL :
                                Not Only SQL

                      •   Cassandra
                      •   Google’s BigTable : HBase
                      •   MongoDB (documents, JSON)
                      •   CouchDB (documents, JSON)



  Solutions BigData le 9/6/2011            17         Vincent Heuschling
samedi 11 juin 2011                                                        17
Apache HADOOP
                      •   HDFS (distributed high throughput FS)
                      •   MapReduce
                      •   HBase (scalable, distributed database)
                      •   Hive (data warehouse infrastructure)
                      •   Mahout (data mining library)
                      •   Pig: (framework for parallel computation)
                      •   ZooKeeper (distributed applications)
  Solutions BigData le 9/6/2011             18              Vincent Heuschling
samedi 11 juin 2011                                                              18
Amazon
                      Elastic Map Reduce
                  •   Logique de PaaS :
                      •   Stockage avec Amazon S3
                      •   Processing avec un cluster Amazon EC2
                  •   Mise en oeuvre instantanée
                  •   Simple
                  •   Economique (0,3 $ / heure par node)

  Solutions BigData le 9/6/2011           19            Vincent Heuschling
samedi 11 juin 2011                                                          19
Database.com

                      •   Database as a Service (DaaS)
                      •   Multi-tenant
                      •   Scalable à l’infini
                      •   économique : ($10 / mois / 100000
                          records )



  Solutions BigData le 9/6/2011                 20        Vincent Heuschling
samedi 11 juin 2011                                                            20
Conclusions

                      •   Des solutions dans la continuité de
                          l’existant.
                      •   Des innovations permettant des ROI
                          attrayants : Attention aux ruptures
                      •   Outils opensource en voie de maturation



  Solutions BigData le 9/6/2011             21              Vincent Heuschling
samedi 11 juin 2011                                                              21
MERCI

                         Vincent Heuschling
                      vincent@heuschling.com
                          twitter : @vhe74
                                22
samedi 11 juin 2011                            22

Présentation des solutions big data pour Aristote 9-6-2011

  • 1.
    Cartographie des solutions BigData Panorama du marché et prospective 1 samedi 11 juin 2011 1
  • 2.
    Solutions BigData • Défi(s) pour les fournisseurs • Quel marché • Architectures • Acteurs commerciaux • Solutions alternatives Solutions BigData le 9/6/2011 2 Vincent Heuschling samedi 11 juin 2011 2
  • 3.
    Quels Défis ? • des volumes impossibles à traiter : • 30 To de logs par jour chez Facebook • 15 Po de data par an au CERN • des croissances vertigineuses • du business en temps réel • des données différentes : • Non structurées, réparties , NoSQL... Solutions BigData le 9/6/2011 3 Vincent Heuschling samedi 11 juin 2011 3
  • 4.
    Le quadrant magique (DW database management) Solutions BigData le 9/6/2011 4 Vincent Heuschling samedi 11 juin 2011 4
  • 5.
    Positionnement des acteurs du marché Exadata Teradata DB2 Greenplum Netezza Isilon sonas HDFS NoSQL Oracle DB2 Solutions BigData le 9/6/2011 5 Vincent Heuschling samedi 11 juin 2011 5
  • 6.
    ROI • Révolutionne les datawarehouses existants • ROI de 27 mois à 6 mois • 3 fois moins cher • 4 fois plus rapide à implémenter Solutions BigData le 9/6/2011 6 Vincent Heuschling samedi 11 juin 2011 6
  • 7.
    Architecture & composants • Shared Disk vs Share Nothing Arch. • Hadoop / HBase / HDFS • Map Reduce Solutions BigData le 9/6/2011 7 Vincent Heuschling samedi 11 juin 2011 7
  • 8.
    Map Reduce Map Function : output ( word : 1 ) Reduce Function : output ( word : sum(1) ) Solutions BigData le 9/6/2011 8 Vincent Heuschling samedi 11 juin 2011 8
  • 9.
    Map Reduce • S’appuie sur une base key / value • est scalable sur n serveurs • permet d’enchainer plusieurs Reduce • beaucoup d’implémentations Solutions BigData le 9/6/2011 9 Vincent Heuschling samedi 11 juin 2011 9
  • 10.
    Acteurs du marché • Teradata • Oracle / Exadata • IBM / Netezza • EMC / Greenplum • ... Solutions BigData le 9/6/2011 10 Vincent Heuschling samedi 11 juin 2011 10
  • 11.
    Teradata • Depuis 1979 • Appliances • Share nothing arch. • Parallélisme • Pour les DW • De 6 To à 92 Po Solutions BigData le 9/6/2011 11 Vincent Heuschling samedi 11 juin 2011 11
  • 12.
    Oracle Exadata • «Database machine» (n’est pas une appliance) • Serveurs de stockage (168 cores, 5 TB de flash cache, 45 TB utiles) • Serveurs de traitements (128 cores / 2 TB de mémoire) • 1500000 IOPS • Data Load Rate: Up to 12 TB/hour Solutions BigData le 9/6/2011 12 Vincent Heuschling samedi 11 juin 2011 12
  • 13.
    EMC Greenplum • Serveurs std • Share nothing arch • Map Reduce • SQL Solutions BigData le 9/6/2011 13 Vincent Heuschling samedi 11 juin 2011 13
  • 14.
    IBM Netezza • Blades IBM + Disques + FPGAs • Share nothing arch. • Map Reduce & SQL • Data load rates de 2TB/h • Produits : Skimmer (1TB à 10TB) & TwinFin (1TB à 1PB+) Solutions BigData le 9/6/2011 14 Vincent Heuschling samedi 11 juin 2011 14
  • 15.
    Alternatives et Opensource • Active circle • Bases NOSQL • Apache HADOOP • Database.com • Amazon Elastic Map Reduce Solutions BigData le 9/6/2011 15 Vincent Heuschling samedi 11 juin 2011 15
  • 16.
    Active Circle • FileSystem distribué • Accès par NAS ou API • Virtualisation sur disque et bande • Noeuds locaux ou distants • Réplication • Hiérarchisation Solutions BigData le 9/6/2011 16 Vincent Heuschling samedi 11 juin 2011 16
  • 17.
    NOSQL : Not Only SQL • Cassandra • Google’s BigTable : HBase • MongoDB (documents, JSON) • CouchDB (documents, JSON) Solutions BigData le 9/6/2011 17 Vincent Heuschling samedi 11 juin 2011 17
  • 18.
    Apache HADOOP • HDFS (distributed high throughput FS) • MapReduce • HBase (scalable, distributed database) • Hive (data warehouse infrastructure) • Mahout (data mining library) • Pig: (framework for parallel computation) • ZooKeeper (distributed applications) Solutions BigData le 9/6/2011 18 Vincent Heuschling samedi 11 juin 2011 18
  • 19.
    Amazon Elastic Map Reduce • Logique de PaaS : • Stockage avec Amazon S3 • Processing avec un cluster Amazon EC2 • Mise en oeuvre instantanée • Simple • Economique (0,3 $ / heure par node) Solutions BigData le 9/6/2011 19 Vincent Heuschling samedi 11 juin 2011 19
  • 20.
    Database.com • Database as a Service (DaaS) • Multi-tenant • Scalable à l’infini • économique : ($10 / mois / 100000 records ) Solutions BigData le 9/6/2011 20 Vincent Heuschling samedi 11 juin 2011 20
  • 21.
    Conclusions • Des solutions dans la continuité de l’existant. • Des innovations permettant des ROI attrayants : Attention aux ruptures • Outils opensource en voie de maturation Solutions BigData le 9/6/2011 21 Vincent Heuschling samedi 11 juin 2011 21
  • 22.
    MERCI Vincent Heuschling vincent@heuschling.com twitter : @vhe74 22 samedi 11 juin 2011 22