SlideShare une entreprise Scribd logo
1  sur  15
Télécharger pour lire hors ligne
L’influence de	la	gravité des	
données dans les	architectures	
des	lacs	de	données
Cedrine	Madera – IBM & Université de Montpellier LIRMM, Montpellier, France
Anne Laurent – Université de Montpellier LIRMM, Montpellier, France
Therese Libourel – UMR Espace-Dev (UM, IRD, UG, UA, ULR), Université de
Montpellier
André Mirales - UMR Tetis/IRSTEA, Maison de la télédétection, Montpellier, France
Agenda
• Le	contexte	:	Les	lacs	de	données
• L’exploration	:	La	gravité	des	données
• L’expérimentation	:	lac	de	données	industriel
Notre	proposition	de	définition
Les	lacs	de	données
Bibliographie	
faible
Maturité	<	5	ans
Nouveau	
composant		
Le lac de données est une collection de données, non transformées, de formats
non contraints (tous formats acceptés),
conceptuellement rassemblées en un endroit unique mais potentiellement non
matérialisé,
destinées à un/des utilisateurs experts en science de données,
munie d’un catalogue de méta-données
ainsi que d’un ensemble de règles et méthodes de gouvernance de données.
Nommé	par	
M.Dixon (	2010)
Transformation
digitale
"data	driven "
Data	Lake
4
Catch relevant data
without drinking from the firehose
Data in
Data	Lake
5
Catch relevant data
without drinking from the firehose
Data Lake
Data at
Data in
Data Swamp
Data	Lake
6
Catch relevant data
without drinking from the firehose
Data Lake
Data at
Data in
Business Analytics
Data Swamp
Data	Lake
7
Catch relevant data
without drinking from the firehose
Data Lake
Data at
Data in
Business Analytics
Data Swamp
Governance
Data Privacy
Data Security
Data Quality
Data live cycle management
Data Lake users
Self Service
Explore
Analyse
Discover
Catalog
• Quels	sont	les	facteurs	qui	influencent	la	conception	des	lacs	de	données?
• La	réplication	systématique	des	données	vers	le	lac	est	elle	toujours	possible?
• Quelles	sont	les	contraintes	non	fonctionnelles	qui	doivent	être	prises	en	
compte?
• Peut	on	envisager	les	liens	données-traitements	autrement?
• Quels	en	sont	les	impacts?
• Quelles	sont	les	différentes	architectures	possibles	pour	les	lacs	de	données	?
• Quelles	valeurs	apportent	les	architectures	hybrides	aux	lacs	de	données?
Nos	interrogations
• Analogie	gravité	physique	– données
• Relation	données- traitement
• Masse	des	données,
• Vitesse	de	déplacement	de	ces	données
• Traitements/services	qui	y	sont	associés
La	gravité	des	données
McCrory,	2010
Coût	du	
déplacement
SensibilitéMasse- Volume
Notre	proposition
Données-
Traitement
• Le	volume
• Augmentation	de	la	masse	,	c’est	le	traitement	qui	va	aller	vers	la	donnée
• Cycle	de	vie	des	données	(	augmentation	du	volume	à	l’intérieur	du	lac)
• La	sensibilité
• Criticité	et	protection	des	données
• Anonymisation	– cryptage
• Régulations
• Le	coût
• Production	de	la	donnée	
• Déplacement- transfert-duplication
Influence	de	la	gravité	des	données	sur	les	lacs	de	données
L’objectif	de	notre	cas	d’étude	:	démontrer	que	la	gravité	des	données	devrait	être	considérée	
lors	la	conception	d'un	lac	de	données
Cas	d’étude- le	contexte
• Industrie	:	secteur	finance
• Lac	de	données	métrologie
• Projet	pilote- architecture- pour	les	autres	lacs	de	données
• Evaluation	des	trois	éléments	de	la	gravité	des	données	:	
• Volume
• Sensibilité
• Coût
ü Serveurs de type x86 : 18000
ü Serveurs de type Unix : 30
ü Serveurs de type Mainframe : 6
ü Baies de stockage : 50
ü Réseaux : 3 types LAN, MAN, WAN
0
2
4
6
8
10
Sensibilité	Faible
Disponibilité	
Moyenne
Volumétrie	Haute
Sécurité	FaibleSauvegarde	Faible
Fiabilité	Haute
Gestion	historique	
faible
Poids
2 exabytes de données
faible
Non evalué
• Volume
• Le	volume	n’est	pas	jugé	trop	important	pour	bloquer	les	déplacements	des	
données	MAIS	une	alerte	est	mise	sur	certains	facteurs	non	pris	en	compte
• Sensibilité	
• Coût	
• Mesures	du	déplacement	des	données	des	serveurs	mainframe	:	22M$	pour	une	
année	– 8,6	TB/jour	à	déplacer.
Cas	d’étude- l’expérimentation
Serveur	
X86
Serveurs	Unix
Serveurs	
Mainframe
Baies	de	
stockage
Réseaux
Sensibilité
2 6 10 8 9
Évaluation Faible Moyenne Haute Haute Haute
• Si	le	volume	n’a pas	eu d’impact significatif,	l’évaluation du	coût et	de	la	
sensibilité sur	certains serveurs (les	mainframes)	impose	que	la	relation	
donnée-traitement soit revue.	
• Un	mode	d’accès en fédération et	non	en réplication doit être mis en
place	pour	les	données provenant de	ce type	de	serveur.
Cas	d’étude- conclusion
0
5
10
Serveur	X86
Serveurs	Unix
Serveurs	
Mainframe
Baies	de	
stockage
Reseaux
Gravité	de	la	donnée
Volume sensibilité cout
• La	gravité	des	données	devrait	être	considérée	lors	la	conception	d'un	lac	
de	données
• Remise	en	question	d’une	systématique	réplication	des	données	sur	un	
seul	mode	de	stockage	(	type	HDFS)
• Les	alternatives	à	explorer:
• Accès	en	mode	fédération
• Création	de	différents	réceptacles	dans	les	lacs	de	données
• Architecture	hybride	et	prise	en	compte	« du	cloud»
Conclusions
• Solutions	d’architecture	des	lacs	de	données	intégrant	la	gravité	des	données	
• Modélisation	d’un	lac	de	données	,	via	l’approche	ligne	de	produit
• Evaluation	de	la	maturité	d’un	lac	de	données	,	via	l’approche	ligne	de	produit
• Bio	mimétisme	– eutrophisation	d’un	lac	
• Metadonnées
Perspectives- travaux	en	cours
MERCI
cedrinemadera@fr.ibm.com

Contenu connexe

Similaire à L’influence de la gravité des données dans les architectures des lacs de données

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
 
A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)Abdelkader OUARED
 
Cours Base de données relationnelles
Cours Base de données relationnellesCours Base de données relationnelles
Cours Base de données relationnellesAymen Kasmi
 
L’Open Data au service de l’eau et de l’energie : cas d’usage et workshop - 3...
L’Open Data au service de l’eau et de l’energie : cas d’usage et workshop - 3...L’Open Data au service de l’eau et de l’energie : cas d’usage et workshop - 3...
L’Open Data au service de l’eau et de l’energie : cas d’usage et workshop - 3...Cluster TWEED
 
Open data et gouvernance des organisations par www.opendatasoft.com
Open data et gouvernance des organisations par www.opendatasoft.comOpen data et gouvernance des organisations par www.opendatasoft.com
Open data et gouvernance des organisations par www.opendatasoft.comOpenDataSoft
 
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...kmichel69
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02ABES
 
Slides Edataday2021_V2.pdf
Slides Edataday2021_V2.pdfSlides Edataday2021_V2.pdf
Slides Edataday2021_V2.pdfDr Hajji Hicham
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungenGalsungen
 
OWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceOWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceParis Open Source Summit
 
Bid CE Workshop 1 session 06 - Data quality during digitization
Bid CE Workshop 1   session 06 - Data quality during digitizationBid CE Workshop 1   session 06 - Data quality during digitization
Bid CE Workshop 1 session 06 - Data quality during digitizationAlberto González-Talaván
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
Présentation genève 20130617
Présentation genève 20130617Présentation genève 20130617
Présentation genève 20130617Tobias Wildi
 
Vers une intégration complète des standards de description du Conseil interna...
Vers une intégration complète des standards de description du Conseil interna...Vers une intégration complète des standards de description du Conseil interna...
Vers une intégration complète des standards de description du Conseil interna...Forum des archivistes de l'arc lémanique
 
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETICNoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETICLa FeWeb
 
Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022Denodo
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceBorderCloud
 

Similaire à L’influence de la gravité des données dans les architectures des lacs de données (20)

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)
 
Module 02_FR.pdf
Module 02_FR.pdfModule 02_FR.pdf
Module 02_FR.pdf
 
Cours Base de données relationnelles
Cours Base de données relationnellesCours Base de données relationnelles
Cours Base de données relationnelles
 
L’Open Data au service de l’eau et de l’energie : cas d’usage et workshop - 3...
L’Open Data au service de l’eau et de l’energie : cas d’usage et workshop - 3...L’Open Data au service de l’eau et de l’energie : cas d’usage et workshop - 3...
L’Open Data au service de l’eau et de l’energie : cas d’usage et workshop - 3...
 
Open data et gouvernance des organisations par www.opendatasoft.com
Open data et gouvernance des organisations par www.opendatasoft.comOpen data et gouvernance des organisations par www.opendatasoft.com
Open data et gouvernance des organisations par www.opendatasoft.com
 
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02
 
Slides Edataday2021_V2.pdf
Slides Edataday2021_V2.pdfSlides Edataday2021_V2.pdf
Slides Edataday2021_V2.pdf
 
Big data
Big dataBig data
Big data
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
 
OWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceOWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysance
 
Bid CE Workshop 1 session 06 - Data quality during digitization
Bid CE Workshop 1   session 06 - Data quality during digitizationBid CE Workshop 1   session 06 - Data quality during digitization
Bid CE Workshop 1 session 06 - Data quality during digitization
 
1-Intro to DB.pptx
1-Intro to DB.pptx1-Intro to DB.pptx
1-Intro to DB.pptx
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Présentation genève 20130617
Présentation genève 20130617Présentation genève 20130617
Présentation genève 20130617
 
Vers une intégration complète des standards de description du Conseil interna...
Vers une intégration complète des standards de description du Conseil interna...Vers une intégration complète des standards de description du Conseil interna...
Vers une intégration complète des standards de description du Conseil interna...
 
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETICNoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
 
Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data Science
 

L’influence de la gravité des données dans les architectures des lacs de données