Face au déluge de donnée, que nous vivons aujourd'hui, quelles sont les réponses des grands acteurs du marché ? Quels défis présente cette explosion du volume de données pour les infrastructures. Décryptage des offres des grands constructeurs que sont EMC, IBM, Oracle…, et des architectures innovantes du monde opensource.
Présentation des solutions big data pour Aristote 9-6-2011
1. Cartographie des
solutions BigData
Panorama du marché
et prospective
1
samedi 11 juin 2011 1
2. Solutions BigData
• Défi(s) pour les fournisseurs
• Quel marché
• Architectures
• Acteurs commerciaux
• Solutions alternatives
Solutions BigData le 9/6/2011 2 Vincent Heuschling
samedi 11 juin 2011 2
3. Quels Défis ?
• des volumes impossibles à traiter :
• 30 To de logs par jour chez Facebook
• 15 Po de data par an au CERN
• des croissances vertigineuses
• du business en temps réel
• des données différentes :
• Non structurées, réparties , NoSQL...
Solutions BigData le 9/6/2011 3 Vincent Heuschling
samedi 11 juin 2011 3
4. Le quadrant magique
(DW database management)
Solutions BigData le 9/6/2011 4 Vincent Heuschling
samedi 11 juin 2011 4
5. Positionnement des
acteurs du marché
Exadata
Teradata
DB2 Greenplum
Netezza
Isilon
sonas
HDFS
NoSQL
Oracle
DB2
Solutions BigData le 9/6/2011 5 Vincent Heuschling
samedi 11 juin 2011 5
6. ROI
• Révolutionne les datawarehouses existants
• ROI de 27 mois à
6 mois
• 3 fois moins cher
• 4 fois plus rapide à
implémenter
Solutions BigData le 9/6/2011 6 Vincent Heuschling
samedi 11 juin 2011 6
7. Architecture &
composants
• Shared Disk vs Share Nothing Arch.
• Hadoop / HBase / HDFS
• Map Reduce
Solutions BigData le 9/6/2011 7 Vincent Heuschling
samedi 11 juin 2011 7
8. Map Reduce
Map Function :
output ( word : 1 )
Reduce Function :
output ( word : sum(1) )
Solutions BigData le 9/6/2011 8 Vincent Heuschling
samedi 11 juin 2011 8
9. Map Reduce
• S’appuie sur une base key / value
• est scalable sur n serveurs
• permet d’enchainer plusieurs Reduce
• beaucoup d’implémentations
Solutions BigData le 9/6/2011 9 Vincent Heuschling
samedi 11 juin 2011 9
10. Acteurs du marché
• Teradata
• Oracle / Exadata
• IBM / Netezza
• EMC / Greenplum
• ...
Solutions BigData le 9/6/2011 10 Vincent Heuschling
samedi 11 juin 2011 10
11. Teradata
• Depuis 1979
• Appliances
• Share nothing arch.
• Parallélisme
• Pour les DW
• De 6 To à 92 Po
Solutions BigData le 9/6/2011 11 Vincent Heuschling
samedi 11 juin 2011 11
12. Oracle Exadata
• «Database machine»
(n’est pas une appliance)
• Serveurs de stockage
(168 cores, 5 TB de flash cache,
45 TB utiles)
• Serveurs de traitements
(128 cores / 2 TB de mémoire)
• 1500000 IOPS
• Data Load Rate: Up to 12 TB/hour
Solutions BigData le 9/6/2011 12 Vincent Heuschling
samedi 11 juin 2011 12
13. EMC Greenplum
• Serveurs std
• Share nothing arch
• Map Reduce
• SQL
Solutions BigData le 9/6/2011 13 Vincent Heuschling
samedi 11 juin 2011 13
14. IBM Netezza
• Blades IBM + Disques + FPGAs
• Share nothing arch.
• Map Reduce & SQL
• Data load rates de 2TB/h
• Produits : Skimmer (1TB à 10TB) &
TwinFin (1TB à 1PB+)
Solutions BigData le 9/6/2011 14 Vincent Heuschling
samedi 11 juin 2011 14
15. Alternatives et
Opensource
• Active circle
• Bases NOSQL
• Apache HADOOP
• Database.com
• Amazon Elastic Map Reduce
Solutions BigData le 9/6/2011 15 Vincent Heuschling
samedi 11 juin 2011 15
16. Active Circle
• FileSystem distribué
• Accès par NAS ou API
• Virtualisation sur disque et bande
• Noeuds locaux ou distants
• Réplication
• Hiérarchisation
Solutions BigData le 9/6/2011 16 Vincent Heuschling
samedi 11 juin 2011 16
17. NOSQL :
Not Only SQL
• Cassandra
• Google’s BigTable : HBase
• MongoDB (documents, JSON)
• CouchDB (documents, JSON)
Solutions BigData le 9/6/2011 17 Vincent Heuschling
samedi 11 juin 2011 17
18. Apache HADOOP
• HDFS (distributed high throughput FS)
• MapReduce
• HBase (scalable, distributed database)
• Hive (data warehouse infrastructure)
• Mahout (data mining library)
• Pig: (framework for parallel computation)
• ZooKeeper (distributed applications)
Solutions BigData le 9/6/2011 18 Vincent Heuschling
samedi 11 juin 2011 18
19. Amazon
Elastic Map Reduce
• Logique de PaaS :
• Stockage avec Amazon S3
• Processing avec un cluster Amazon EC2
• Mise en oeuvre instantanée
• Simple
• Economique (0,3 $ / heure par node)
Solutions BigData le 9/6/2011 19 Vincent Heuschling
samedi 11 juin 2011 19
20. Database.com
• Database as a Service (DaaS)
• Multi-tenant
• Scalable à l’infini
• économique : ($10 / mois / 100000
records )
Solutions BigData le 9/6/2011 20 Vincent Heuschling
samedi 11 juin 2011 20
21. Conclusions
• Des solutions dans la continuité de
l’existant.
• Des innovations permettant des ROI
attrayants : Attention aux ruptures
• Outils opensource en voie de maturation
Solutions BigData le 9/6/2011 21 Vincent Heuschling
samedi 11 juin 2011 21
22. MERCI
Vincent Heuschling
vincent@heuschling.com
twitter : @vhe74
22
samedi 11 juin 2011 22