Usi 2013-next big data architecture

www.usievents.com
24 & 25 Juin 2013
LE RENDEZ-VOUS DES GEEKS & DES BOSS
POUR UNE INFORMATIQUE QUI TRANSFORME NOS SOCIÉTÉS
Prochaine Génération
d’architectures Big Data
Olivier Mallassi
1
www.gopivotal.com

www.usievents.com 2
« Big Data »…
Tout attribut qui défie les contraintes d’une capacité d’un
système ou besoin métier.
Challenge nos savoir-faire.

www.usievents.com 3
Plus…
…de
volume
…vite
…complexe
:
« predictive
enterprise »
…variée et
variable
…nous amène vers
« plus… »

www.usievents.com 4
UNE IMPLEMENTATION
DE REFERENCE : Hadoo

www.usievents.com
UNE IMPLEMENTATION
5
NameNode
DataNode
DataNode
DataNode
DataNode
File#2
Block#1
File#2
Block#2
File#2
Block#3
Un système de fichier distribué :
HDFS
Découpage des fichiers en « bloc ».
Répartition des données sur plusieurs machines.
Réplication des données pour assurer la tolérance à la panne.
File#2
File#2
Block#1
File#2
Block#2
File#2
Block#3

www.usievents.com
UNE IMPLEMENTATION
6
TaskTracker
TaskTracker
TaskTracker
TaskTracker
File#2
Block#1
File#2
Block#2
File#2
Block#3
Map Map MapReduce
Une couche de traitement:
MapReduce
Distribution des traitements.
Co-localisation traitements & données.
JobTracker

www.usievents.com 7
QUI POSE QUELQUE
DEFIS

www.usievents.com
QUI POSE QUELQUE
DEFIS
8
Manque de généricité :
« MapReduce Only »
Structurant en termes de développement.
Structurant en termes d’architecture (« scheduling »…).
Ne convient pas à tous les types de traitements.
TaskTracker
TaskTracker
TaskTracker
TaskTracker
File#2
Block#1
File#2
Block#2
File#2
Block#3
Map Map MapReduce
JobTracker

www.usievents.com 9
Une architecture qui ne répond
pas aux nouveaux enjeux
Complexité d’intégration.
Mode de traitement batch incompatible avec le « plus vite ».
Architecture Master / Slave incompatible avec les problématiques
d’ingestion (Machine-2-Machine).
QUI POSE QUELQUE
DEFIS
SI Opérationnel SI Décisionnel
Hadoop
DWH (MPP...)
Déchargement
Extraction / Enrichissement
App /
RDBMS
App /
RDBMS
App /
RDBMS
App /
RDBMS

www.usievents.com 10
THEORIE
DE
L’EVOLUTI
ON

www.usievents.com
THEORIE
DE
L’EVOLUTI
ON
11
#1. YARN ou l’ouverture vers
d’autres types de traitements
distribués
YARNRessourceManager
NodeMgr
NodeMgr
NodeMgr
NodeMgr
Map Map MapReduce
NodeMgr
MR
Application
Worker Master Worker
SQL SQL
MapReduce
Master/Worker
SQL

www.usievents.com
THEORIE
DE
L’EVOLUTI
ON
12
#2. Faciliter et diversifier l’accès
à la donnée…

www.usievents.com
THEORIE
DE
L’EVOLUTI
ON
13
#2. …avec SQL
Facilite l’accès via « SQL
Like »
Génération traitement
MR

www.usievents.com
THEORIE
DE
L’EVOLUTI
ON
14
#2. …avec SQL
Améliore les
performances de Hive
Enrichit la compatibilité
SQL
Privilégie la mémoire

www.usievents.com
THEORIE
DE
L’EVOLUTI
ON
15
#2. …avec SQL
Architecture différente de
MR
Compatibilité avec SQL
Nouveau format de
stockage, compression
Privilégie la mémoire

www.usievents.com
THEORIE
DE
L’EVOLUTI
ON
16
#2. …avec SQL
Le portage du « moteur SQL » de
Greenplum MPP
Compatibilité avec SQL
« Moteur SQL » éprouvé : redistribution des
données en cas de jointure
Stockage polymorphe : compression, « row
/ column oriented »

www.usievents.com
THEORIE
DE
L’EVOLUTI
ON
17
Analytic
Workloads
SQL Services
Operational
Intelligence
In-Memory Services
Stream Ingestion
HDFS
In memory /
Streaming Services
Processing / transformation
calculation
MR / SQL services
GemFire
#3. HDFS : le substrat sur lequel
s’intègre différentes couches de
traitement
Collecte, traitements temps réel : « In Memory Data Grid ».

www.usievents.com
THEORIE
DE
L’EVOLUTI
ON
18
Analytic
Workloads
SQL Services
Operational
Intelligence
In-Memory Services
Stream Ingestion
In memory /
Streaming Services
calculation
MR / SQL services
MR / Hive / HAWQ
insert into…. select from…
traitement
Analyse, Extraction, Machine Learning : MapReduce, SQL…
HDFS

www.usievents.com
THEORIE
DE
L’EVOLUTI
ON
19
Analytic
Workloads
SQL Services
Operational
Intelligence
In-Memory Services
Stream Ingestion
In memory /
Streaming Services
calculation
MR / SQL services
HAWQ SQLFire
select lag() over(partition by…) from … where …
traitement
Restitution : SQL.
HDFS

www.usievents.com 20
Ouvrir vers d’autres
types de traitements
distribués avec YARN
Faciliter et diversifier
l’accès à la donnée
avec SQL
Intégrer différentes
couches de
traitements sur HDFS
Simplifie(ra) la « gestion
technique » de la donnée.
Simplifie(ra) l’analyse et
l’accès à cette donnée.
Facilite(ra) l’intégration à
l’écosystème et l’existant.
Sera le socle technique
aux nouveaux cas
d’usage.

Usi 2013-next big data architecture

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à Usi 2013-next big data architecture

Similaire à Usi 2013-next big data architecture (20)

Usi 2013-next big data architecture

Notes de l'éditeur