Discovery Session France: Atelier découverte de la Data Virtualization
Usi 2013-next big data architecture
1. www.usievents.com
24 & 25 Juin 2013
LE RENDEZ-VOUS DES GEEKS & DES BOSS
POUR UNE INFORMATIQUE QUI TRANSFORME NOS SOCIÉTÉS
Prochaine Génération
d’architectures Big Data
Olivier Mallassi
1
www.gopivotal.com
2. www.usievents.com 2
« Big Data »…
Tout attribut qui défie les contraintes d’une capacité d’un
système ou besoin métier.
Challenge nos savoir-faire.
5. www.usievents.com
UNE IMPLEMENTATION
DE REFERENCE : Hadoo
5
NameNode
DataNode
DataNode
DataNode
DataNode
File#2
Block#1
File#2
Block#2
File#2
Block#3
Un système de fichier distribué :
HDFS
Découpage des fichiers en « bloc ».
Répartition des données sur plusieurs machines.
Réplication des données pour assurer la tolérance à la panne.
File#2
File#2
Block#1
File#2
Block#2
File#2
Block#3
6. www.usievents.com
UNE IMPLEMENTATION
DE REFERENCE : Hadoo
6
TaskTracker
TaskTracker
TaskTracker
TaskTracker
File#2
Block#1
File#2
Block#2
File#2
Block#3
Map Map MapReduce
Une couche de traitement:
MapReduce
Distribution des traitements.
Co-localisation traitements & données.
JobTracker
8. www.usievents.com
QUI POSE QUELQUE
DEFIS
8
Manque de généricité :
« MapReduce Only »
Structurant en termes de développement.
Structurant en termes d’architecture (« scheduling »…).
Ne convient pas à tous les types de traitements.
TaskTracker
TaskTracker
TaskTracker
TaskTracker
File#2
Block#1
File#2
Block#2
File#2
Block#3
Map Map MapReduce
JobTracker
9. www.usievents.com 9
Une architecture qui ne répond
pas aux nouveaux enjeux
Complexité d’intégration.
Mode de traitement batch incompatible avec le « plus vite ».
Architecture Master / Slave incompatible avec les problématiques
d’ingestion (Machine-2-Machine).
QUI POSE QUELQUE
DEFIS
SI Opérationnel SI Décisionnel
Hadoop
DWH (MPP...)
Déchargement
Extraction / Enrichissement
App /
RDBMS
App /
RDBMS
App /
RDBMS
App /
RDBMS
16. www.usievents.com
THEORIE
DE
L’EVOLUTI
ON
16
#2. …avec SQL
Le portage du « moteur SQL » de
Greenplum MPP
Compatibilité avec SQL
« Moteur SQL » éprouvé : redistribution des
données en cas de jointure
Stockage polymorphe : compression, « row
/ column oriented »
20. www.usievents.com 20
Ouvrir vers d’autres
types de traitements
distribués avec YARN
Faciliter et diversifier
l’accès à la donnée
avec SQL
Intégrer différentes
couches de
traitements sur HDFS
Simplifie(ra) la « gestion
technique » de la donnée.
Simplifie(ra) l’analyse et
l’accès à cette donnée.
Facilite(ra) l’intégration à
l’écosystème et l’existant.
Sera le socle technique
aux nouveaux cas
d’usage.
Notes de l'éditeur
Gérer de la donnée n’a rien de nouveauMême à très grande échelledistributed file systemAnalyser « tout ou partie » de cette donnée non plus… RDBMS, MPP ou les fameux appliance BI