La révolution digitale qui met au cœur de sa stratégie la donnée fait émerger le nouveau concept de lac de données. Celui-ci devient un composant incontournable pour la découverte de l’information potentiellement enfouie dans les données. Nombre d’industriels qui s’engagent sur cette voie, recourent massivement à l’intégration de lacs de données dans leur système d’information et utilisent le plus souvent une plateforme fédératrice, reposant sur une technologie open source « Apache Hadoop ». Cette approche industrielle unique commence à trouver ses limites. Nous nous intéressons, d’un point de vue académique, à l’hypothèse de la remise en cause de cette mono technologie par divers facteurs, dont ceux liés à la gravité des données. Nous illustrons notre hypothèse par un cas d’usage en milieu industriel.
IODS : Retour d’expériences au sein du Center for Data Science
L’influence de la gravité des données dans les architectures des lacs de données
1. L’influence de la gravité des
données dans les architectures
des lacs de données
Cedrine Madera – IBM & Université de Montpellier LIRMM, Montpellier, France
Anne Laurent – Université de Montpellier LIRMM, Montpellier, France
Therese Libourel – UMR Espace-Dev (UM, IRD, UG, UA, ULR), Université de
Montpellier
André Mirales - UMR Tetis/IRSTEA, Maison de la télédétection, Montpellier, France
3. Notre proposition de définition
Les lacs de données
Bibliographie
faible
Maturité < 5 ans
Nouveau
composant
Le lac de données est une collection de données, non transformées, de formats
non contraints (tous formats acceptés),
conceptuellement rassemblées en un endroit unique mais potentiellement non
matérialisé,
destinées à un/des utilisateurs experts en science de données,
munie d’un catalogue de méta-données
ainsi que d’un ensemble de règles et méthodes de gouvernance de données.
Nommé par
M.Dixon ( 2010)
Transformation
digitale
"data driven "
7. Data Lake
7
Catch relevant data
without drinking from the firehose
Data Lake
Data at
Data in
Business Analytics
Data Swamp
Governance
Data Privacy
Data Security
Data Quality
Data live cycle management
Data Lake users
Self Service
Explore
Analyse
Discover
Catalog
9. • Analogie gravité physique – données
• Relation données- traitement
• Masse des données,
• Vitesse de déplacement de ces données
• Traitements/services qui y sont associés
La gravité des données
McCrory, 2010
Coût du
déplacement
SensibilitéMasse- Volume
Notre proposition
Données-
Traitement
10. • Le volume
• Augmentation de la masse , c’est le traitement qui va aller vers la donnée
• Cycle de vie des données ( augmentation du volume à l’intérieur du lac)
• La sensibilité
• Criticité et protection des données
• Anonymisation – cryptage
• Régulations
• Le coût
• Production de la donnée
• Déplacement- transfert-duplication
Influence de la gravité des données sur les lacs de données
L’objectif de notre cas d’étude : démontrer que la gravité des données devrait être considérée
lors la conception d'un lac de données
11. Cas d’étude- le contexte
• Industrie : secteur finance
• Lac de données métrologie
• Projet pilote- architecture- pour les autres lacs de données
• Evaluation des trois éléments de la gravité des données :
• Volume
• Sensibilité
• Coût
ü Serveurs de type x86 : 18000
ü Serveurs de type Unix : 30
ü Serveurs de type Mainframe : 6
ü Baies de stockage : 50
ü Réseaux : 3 types LAN, MAN, WAN
0
2
4
6
8
10
Sensibilité Faible
Disponibilité
Moyenne
Volumétrie Haute
Sécurité FaibleSauvegarde Faible
Fiabilité Haute
Gestion historique
faible
Poids
2 exabytes de données
faible
Non evalué
13. • Si le volume n’a pas eu d’impact significatif, l’évaluation du coût et de la
sensibilité sur certains serveurs (les mainframes) impose que la relation
donnée-traitement soit revue.
• Un mode d’accès en fédération et non en réplication doit être mis en
place pour les données provenant de ce type de serveur.
Cas d’étude- conclusion
0
5
10
Serveur X86
Serveurs Unix
Serveurs
Mainframe
Baies de
stockage
Reseaux
Gravité de la donnée
Volume sensibilité cout