L’influence de la gravité des données dans les architectures des lacs de données

L’influence de la gravité des
données dans les architectures
des lacs de données
Cedrine Madera – IBM & Université de Montpellier LIRMM, Montpellier, France
Anne Laurent – Université de Montpellier LIRMM, Montpellier, France
Therese Libourel – UMR Espace-Dev (UM, IRD, UG, UA, ULR), Université de
Montpellier
André Mirales - UMR Tetis/IRSTEA, Maison de la télédétection, Montpellier, France

Agenda
• Le contexte : Les lacs de données
• L’exploration : La gravité des données
• L’expérimentation : lac de données industriel

Notre proposition de définition
Les lacs de données
Bibliographie
faible
Maturité < 5 ans
Nouveau
composant
Le lac de données est une collection de données, non transformées, de formats
non contraints (tous formats acceptés),
conceptuellement rassemblées en un endroit unique mais potentiellement non
matérialisé,
destinées à un/des utilisateurs experts en science de données,
munie d’un catalogue de méta-données
ainsi que d’un ensemble de règles et méthodes de gouvernance de données.
Nommé par
M.Dixon ( 2010)
Transformation
digitale
"data driven "

Data Lake
4
Catch relevant data
without drinking from the firehose
Data in

Data Lake
5
Catch relevant data
Data Lake
Data at
Data in
Data Swamp

Data Lake
6
Catch relevant data
Data Lake
Data at
Data in
Business Analytics
Data Swamp

Data Lake
7
Catch relevant data
Data Lake
Data at
Data in
Business Analytics
Data Swamp
Governance
Data Privacy
Data Security
Data Quality
Data live cycle management
Data Lake users
Self Service
Explore
Analyse
Discover
Catalog

• Quels sont les facteurs qui influencent la conception des lacs de données?
• La réplication systématique des données vers le lac est elle toujours possible?
• Quelles sont les contraintes non fonctionnelles qui doivent être prises en
compte?
• Peut on envisager les liens données-traitements autrement?
• Quels en sont les impacts?
• Quelles sont les différentes architectures possibles pour les lacs de données ?
• Quelles valeurs apportent les architectures hybrides aux lacs de données?
Nos interrogations

• Analogie gravité physique – données
• Relation données- traitement
• Masse des données,
• Vitesse de déplacement de ces données
• Traitements/services qui y sont associés
La gravité des données
McCrory, 2010
Coût du
déplacement
SensibilitéMasse- Volume
Notre proposition
Données-
Traitement

• Le volume
• Augmentation de la masse , c’est le traitement qui va aller vers la donnée
• Cycle de vie des données ( augmentation du volume à l’intérieur du lac)
• La sensibilité
• Criticité et protection des données
• Anonymisation – cryptage
• Régulations
• Le coût
• Production de la donnée
• Déplacement- transfert-duplication
Influence de la gravité des données sur les lacs de données
L’objectif de notre cas d’étude : démontrer que la gravité des données devrait être considérée
lors la conception d'un lac de données

Cas d’étude- le contexte
• Industrie : secteur finance
• Lac de données métrologie
• Projet pilote- architecture- pour les autres lacs de données
• Evaluation des trois éléments de la gravité des données :
• Volume
• Sensibilité
• Coût
ü Serveurs de type x86 : 18000
ü Serveurs de type Unix : 30
ü Serveurs de type Mainframe : 6
ü Baies de stockage : 50
ü Réseaux : 3 types LAN, MAN, WAN
0
2
4
6
8
10
Sensibilité Faible
Disponibilité
Moyenne
Volumétrie Haute
Sécurité FaibleSauvegarde Faible
Fiabilité Haute
Gestion historique
faible
Poids
2 exabytes de données
faible
Non evalué

• Volume
• Le volume n’est pas jugé trop important pour bloquer les déplacements des
données MAIS une alerte est mise sur certains facteurs non pris en compte
• Sensibilité
• Coût
• Mesures du déplacement des données des serveurs mainframe : 22M$ pour une
année – 8,6 TB/jour à déplacer.
Cas d’étude- l’expérimentation
Serveur
X86
Serveurs Unix
Serveurs
Mainframe
Baies de
stockage
Réseaux
Sensibilité
2 6 10 8 9
Évaluation Faible Moyenne Haute Haute Haute

• Si le volume n’a pas eu d’impact significatif, l’évaluation du coût et de la
sensibilité sur certains serveurs (les mainframes) impose que la relation
donnée-traitement soit revue.
• Un mode d’accès en fédération et non en réplication doit être mis en
place pour les données provenant de ce type de serveur.
Cas d’étude- conclusion
0
5
10
Serveur X86
Serveurs Unix
Serveurs
Mainframe
Baies de
stockage
Reseaux
Gravité de la donnée
Volume sensibilité cout

• La gravité des données devrait être considérée lors la conception d'un lac
de données
• Remise en question d’une systématique réplication des données sur un
seul mode de stockage ( type HDFS)
• Les alternatives à explorer:
• Accès en mode fédération
• Création de différents réceptacles dans les lacs de données
• Architecture hybride et prise en compte « du cloud»
Conclusions
• Solutions d’architecture des lacs de données intégrant la gravité des données
• Modélisation d’un lac de données , via l’approche ligne de produit
• Evaluation de la maturité d’un lac de données , via l’approche ligne de produit
• Bio mimétisme – eutrophisation d’un lac
• Metadonnées
Perspectives- travaux en cours

MERCI
cedrinemadera@fr.ibm.com

L’influence de la gravité des données dans les architectures des lacs de données

Recommandé

Recommandé

Contenu connexe

Similaire à L’influence de la gravité des données dans les architectures des lacs de données

Similaire à L’influence de la gravité des données dans les architectures des lacs de données (20)

L’influence de la gravité des données dans les architectures des lacs de données