SlideShare une entreprise Scribd logo
1  sur  23
Télécharger pour lire hors ligne
I D E N T I F I C A T I O N D E S
D O N N É E S
L E S R E C O M M A N D AT I O N S R D A
20/21 janvier 2016
Présentation globale
3
Add an image
Constat d’une difficulté
Citer des données n’est pas trivial
• Un jeu de données peut évoluer dans le temps
• Un jeu de données peut être corrigé
• On peut vouloir citer plusieurs ou des parties de jeux de données
• Citer des données n’est pas citer les programmes ou les personnes
Les préconisations RDA
Travail de 18 mois
14 préconisations permettant un mécanisme de citation précis
des données
Téléchargement
https://rd-alliance.org/system/files/documents/RDA-DC-
Recommendations_151020.pdf
C i t e r l e s D o n n é e s
3
O b j e c t i f s
4
CITATION
Permettre l’identification et la citation de toute partie d’un ensemble de données associées
à un instant précis du système de données
RÉCUPÉRATION
Permettre de récupérer – à partir d’une citation – les données dans l’état qu’elles avaient au
moment où la citation a été définie
STABILITÉ Assurer une stabilité au fil des changements technologiques
S o l u t i o n
5
SUIVI des
VERSIONS
Les différentes versions d’une données doivent être conservées dans le système de
données
HORODATAGE Chaque opération sur les données doit être horodatée
STOCKAGE des
REQUÊTES
Les jeux de données sont identifiées en assignant des PID aux requêtes qui les ont retournés.
Le couple PID-Requête* est stocké de manière pérenne dans le SI : c’est le query store
* On parle bien des requêtes et non de leur résultat.
Les recommandations
A : P r é p a r a t i o n s d e s d o n n é e s ( R 1  R 3 )
7
R1
Les différentes versions des données doivent être conservées.
Gestion des versions
R2
Les opérations sur les données – addition, suppression, … – doivent-être horodatées.
Horodatage
R3
Les requêtes et leurs métadonnées doivent être stockées de manière pérenne et doivent pouvoir être
exécutées à nouveau.
Stockage des requêtes
B : I d e n t i f i c a t i o n d e s j e u x ( R 4  R 1 0 )
8
R4
Les requêtes doivent être normalisées afin de détecter des requêtes identiques.
Unicité des requêtes
R5
L’ordre des données au sein des jeux de données produits lors des extractions doit être stable.
Stabilité de l’ordre des données
R6
Lors de la première exécution d’une requête, la signature du jeu de données (somme de contrôle) doit être
calculée et stockée avec la requête afin de vérifier le résultat d’une re-exécution.
Vérification des jeux de données
B : I d e n t i f i c a t i o n d e s j e u x ( R 4  R 1 0 )
9
R7
Chaque requête doit contenir la date de son exécution ou, préférablement, la date de la dernière
mise à jour de la base de données
Horodatage de la requête
R8
Le PID doit permettre d’identifier la requête. Le calcul du PID de la requête doit prendre en
compte tous les paramètres, y compris l’horodatage
Affectation d’un PID à la requête
R9
Le query store doit stocker la requête et ses métadonnées: requête normalisée, somme de contrôle,
horodatage…
Ces informations doivent pouvoir être affichées sans calcul complémentaire conséquent
Stockage de la requête (complément R3)
B : I d e n t i f i c a t i o n d e s j e u x ( R 4  R 1 0 )
10
R10
Le texte de citation doit être généré automatiquement doit être fourni en même temps que le jeu
de données
Texte de citation automatiques
C : R e - e x é c u t i o n d e s r e q u ê t e s ( R 1 1  R 1 2 )
11
R11
La landing page des PID doit permettre
• De re-exécuter la requête
•Obtenir les métadonnées associées à la requête (y.c. le texte de citation)
Landing Page
R12
Les fonctionnalités de R11 doivent être automatisables (interopérabilité)
Automatisation
D : I n v a r i a n c e a u c h a n g e m e n t ( R 1 3  R 1 4 )
12
R13
Lors d’une migration (modèle du stockage, technologique, hébergement,…) les requêtes doivent
être migrées (adaptation, déplacement)
Migration des requêtes
R14
Une migration de requête doit faire l’objet d’une vérification de re-exécution (comparaison des
sommes de contrôle) .
Vérification des migrations
C o m p l é m e n t s
13
IMPLÉMENTATIONS
• Dans le cadre de son activité leWG Data Citation a aidé à la mise en place
d’implémentations spécifiques pilotes
• Pas d’implémentation générique pour le moments
POURSUITE
LeWG a achevé sa mission initiale
Suite de l’activité :
- Un document complémentaire aux recommandations est en cours de validation
-Webminaire en mars
Extensions
R e c o m m a n d a t i o n s s u p p l é m e n t a i r e s
15
R9b
Parmi les critères de recherche, certains doivent permettre au PI d’identifier facilement ces
données afin de créer facilement les PID le concernant
Recherche de sélections pour le producteur de la donnée
R10b
Le système d’information doit proposer la publication du PID sur une Registration Authorities
(RA). La publication n’est pas le seul fait du fournisseur de la donnée.
On peut ne stocker que les requêtes pour lesquelles l’utilisateur a explicité exprimé ce besoin
Publication du PID
R10c
Le système doit permettre d’obtenir un PID (et de le publier) sans pour autant réaliser l’extraction
(dans ce cas la somme de contrôle n’est pas présente)
Génération du PID sans exécuter l’extraction
R e c o m m a n d a t i o n s s u p p l é m e n t a i r e s
16
R11b
La landing page doit permettre de savoir si les données ont été modifiées depuis la requête
Landing page étendue
R11c
La landing page doit permettre de re-exécuter la requête avec les données actuelles (c.a.d. sans
tenir compte de l’horodatage de la requête)
Obtenir les données plus récentes
R?
Le système doit permettre de PID correspondant à plusieurs PID existants
Générer un PID de PIDs
Pros & Cons
AVANTAGES
Répond à un besoin scientifique (?)
Précision de la citation
Traite la question de la granularité
Est compatible avec le mécanisme classique
Ouvre la publication à l’utilisateur
Pro s & Co n sCo mplémen ts
Lien avec d’autres problèmatiques
structurantes (métadonnées, provenance,…)
INCONVENIENTS
Implémentations limitées à des prototypes
Eléments structurellement spécifiques
Certaines fonctionnalités complexes
Pro s & Co n s
SUITE
Une implémentation partielle ou
incrémentale peut être intéressante
Certaines recommandations peuvent être
assouplies
Pro s & Co n s
Communauté motivée (pilotes RDA,
ENVRI+,…)
Technologies proposant l’horodatage (SQL
2011, Git,…)
Action Interpôles ?
Autres initiatives
A u t r e s i n i t i a t i v e s
22
FORCE11 : https://www.force11.org/datacitation
•CODATA : http://www.codata.org/task-groups/data-citation-standards-and-practices
CEOS : 29 recommandations basées sur les DOI
• 29 recommandations basées sur les DOI
Téléchargement :
http://ceos.org/document_management/Working_Groups/WGISS/Interest_Groups/Data_Stewardship/Best_Practices/CEOS%20Persistent%20Identifier
%20Best%20Practices_v1.0.pdf
• Extraits
R
8
PID non significatif
Nouvelles versions  nouveau PID
Similaire à RDA R8
Citation au niveau de la collection  Perte de la citation fine
Gestion des séries évolutives : PID unique  Perte de la reproductibilité.
Citation de données venant de jeux différents  potentiellement citation
très longue.
Différent de RDA
Autres
Merci
www.aeris-data.fr
Modèle de présentation : ttp://thepopp.com/ - Jun Akizak

Contenu connexe

Similaire à Recommandations rda sur la citation des données

REX Cassandra et Spark au service de la musique en ligne (Français)
REX Cassandra et Spark au service de la musique en ligne (Français)REX Cassandra et Spark au service de la musique en ligne (Français)
REX Cassandra et Spark au service de la musique en ligne (Français)DataStax Academy
 
Denodo, pilier central de votre stratégie API
Denodo, pilier central de votre stratégie APIDenodo, pilier central de votre stratégie API
Denodo, pilier central de votre stratégie APIDenodo
 
SplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data InSplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data InSplunk
 
Stream processing et SQL
Stream processing et SQLStream processing et SQL
Stream processing et SQLBruno Bonnin
 
Stream processing et SQL
Stream processing et SQLStream processing et SQL
Stream processing et SQLBruno Bonnin
 
Stream processing et SQL
Stream processing et SQLStream processing et SQL
Stream processing et SQLBruno Bonnin
 
IBM Bluemix Paris Meetup #24 2017-06-26 - Société Générale testimony Decis...
IBM Bluemix Paris Meetup #24   2017-06-26 - Société Générale testimony  Decis...IBM Bluemix Paris Meetup #24   2017-06-26 - Société Générale testimony  Decis...
IBM Bluemix Paris Meetup #24 2017-06-26 - Société Générale testimony Decis...IBM France Lab
 
Gestion des données d'entreprise à l'ère de MongoDB et du Data Lake
Gestion des données d'entreprise à l'ère de MongoDB et du Data LakeGestion des données d'entreprise à l'ère de MongoDB et du Data Lake
Gestion des données d'entreprise à l'ère de MongoDB et du Data LakeMongoDB
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...Micropole Group
 
Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...
Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...
Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...Bruno Bonnin
 
[DAF 2015] Atelier API AT internet
[DAF 2015] Atelier API AT internet[DAF 2015] Atelier API AT internet
[DAF 2015] Atelier API AT internetAT Internet
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusCHAKER ALLAOUI
 
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...OCTO Technology
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologyImad ALILAT
 
Plateforme de gestion d'API : Projet API-AGRO
Plateforme de gestion d'API : Projet API-AGROPlateforme de gestion d'API : Projet API-AGRO
Plateforme de gestion d'API : Projet API-AGROOpenDataSoft
 
S17 adressez vos besoins complexes de reporting avec db2 web query
S17   adressez vos besoins complexes de reporting avec db2 web queryS17   adressez vos besoins complexes de reporting avec db2 web query
S17 adressez vos besoins complexes de reporting avec db2 web queryGautier DUMAS
 

Similaire à Recommandations rda sur la citation des données (20)

REX Cassandra et Spark au service de la musique en ligne (Français)
REX Cassandra et Spark au service de la musique en ligne (Français)REX Cassandra et Spark au service de la musique en ligne (Français)
REX Cassandra et Spark au service de la musique en ligne (Français)
 
Denodo, pilier central de votre stratégie API
Denodo, pilier central de votre stratégie APIDenodo, pilier central de votre stratégie API
Denodo, pilier central de votre stratégie API
 
SplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data InSplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data In
 
Stream processing et SQL
Stream processing et SQLStream processing et SQL
Stream processing et SQL
 
Stream processing et SQL
Stream processing et SQLStream processing et SQL
Stream processing et SQL
 
Stream processing et SQL
Stream processing et SQLStream processing et SQL
Stream processing et SQL
 
IBM Bluemix Paris Meetup #24 2017-06-26 - Société Générale testimony Decis...
IBM Bluemix Paris Meetup #24   2017-06-26 - Société Générale testimony  Decis...IBM Bluemix Paris Meetup #24   2017-06-26 - Société Générale testimony  Decis...
IBM Bluemix Paris Meetup #24 2017-06-26 - Société Générale testimony Decis...
 
Gestion des données d'entreprise à l'ère de MongoDB et du Data Lake
Gestion des données d'entreprise à l'ère de MongoDB et du Data LakeGestion des données d'entreprise à l'ère de MongoDB et du Data Lake
Gestion des données d'entreprise à l'ère de MongoDB et du Data Lake
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
 
Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...
Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...
Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...
 
5_EAI_des_SI.pdf
5_EAI_des_SI.pdf5_EAI_des_SI.pdf
5_EAI_des_SI.pdf
 
[DAF 2015] Atelier API AT internet
[DAF 2015] Atelier API AT internet[DAF 2015] Atelier API AT internet
[DAF 2015] Atelier API AT internet
 
Mongo db with C#
Mongo db with C#Mongo db with C#
Mongo db with C#
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processus
 
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Séance 3.pptx
Séance 3.pptxSéance 3.pptx
Séance 3.pptx
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
 
Plateforme de gestion d'API : Projet API-AGRO
Plateforme de gestion d'API : Projet API-AGROPlateforme de gestion d'API : Projet API-AGRO
Plateforme de gestion d'API : Projet API-AGRO
 
S17 adressez vos besoins complexes de reporting avec db2 web query
S17   adressez vos besoins complexes de reporting avec db2 web queryS17   adressez vos besoins complexes de reporting avec db2 web query
S17 adressez vos besoins complexes de reporting avec db2 web query
 

Recommandations rda sur la citation des données

  • 1. I D E N T I F I C A T I O N D E S D O N N É E S L E S R E C O M M A N D AT I O N S R D A 20/21 janvier 2016
  • 3. 3 Add an image Constat d’une difficulté Citer des données n’est pas trivial • Un jeu de données peut évoluer dans le temps • Un jeu de données peut être corrigé • On peut vouloir citer plusieurs ou des parties de jeux de données • Citer des données n’est pas citer les programmes ou les personnes Les préconisations RDA Travail de 18 mois 14 préconisations permettant un mécanisme de citation précis des données Téléchargement https://rd-alliance.org/system/files/documents/RDA-DC- Recommendations_151020.pdf C i t e r l e s D o n n é e s 3
  • 4. O b j e c t i f s 4 CITATION Permettre l’identification et la citation de toute partie d’un ensemble de données associées à un instant précis du système de données RÉCUPÉRATION Permettre de récupérer – à partir d’une citation – les données dans l’état qu’elles avaient au moment où la citation a été définie STABILITÉ Assurer une stabilité au fil des changements technologiques
  • 5. S o l u t i o n 5 SUIVI des VERSIONS Les différentes versions d’une données doivent être conservées dans le système de données HORODATAGE Chaque opération sur les données doit être horodatée STOCKAGE des REQUÊTES Les jeux de données sont identifiées en assignant des PID aux requêtes qui les ont retournés. Le couple PID-Requête* est stocké de manière pérenne dans le SI : c’est le query store * On parle bien des requêtes et non de leur résultat.
  • 7. A : P r é p a r a t i o n s d e s d o n n é e s ( R 1  R 3 ) 7 R1 Les différentes versions des données doivent être conservées. Gestion des versions R2 Les opérations sur les données – addition, suppression, … – doivent-être horodatées. Horodatage R3 Les requêtes et leurs métadonnées doivent être stockées de manière pérenne et doivent pouvoir être exécutées à nouveau. Stockage des requêtes
  • 8. B : I d e n t i f i c a t i o n d e s j e u x ( R 4  R 1 0 ) 8 R4 Les requêtes doivent être normalisées afin de détecter des requêtes identiques. Unicité des requêtes R5 L’ordre des données au sein des jeux de données produits lors des extractions doit être stable. Stabilité de l’ordre des données R6 Lors de la première exécution d’une requête, la signature du jeu de données (somme de contrôle) doit être calculée et stockée avec la requête afin de vérifier le résultat d’une re-exécution. Vérification des jeux de données
  • 9. B : I d e n t i f i c a t i o n d e s j e u x ( R 4  R 1 0 ) 9 R7 Chaque requête doit contenir la date de son exécution ou, préférablement, la date de la dernière mise à jour de la base de données Horodatage de la requête R8 Le PID doit permettre d’identifier la requête. Le calcul du PID de la requête doit prendre en compte tous les paramètres, y compris l’horodatage Affectation d’un PID à la requête R9 Le query store doit stocker la requête et ses métadonnées: requête normalisée, somme de contrôle, horodatage… Ces informations doivent pouvoir être affichées sans calcul complémentaire conséquent Stockage de la requête (complément R3)
  • 10. B : I d e n t i f i c a t i o n d e s j e u x ( R 4  R 1 0 ) 10 R10 Le texte de citation doit être généré automatiquement doit être fourni en même temps que le jeu de données Texte de citation automatiques
  • 11. C : R e - e x é c u t i o n d e s r e q u ê t e s ( R 1 1  R 1 2 ) 11 R11 La landing page des PID doit permettre • De re-exécuter la requête •Obtenir les métadonnées associées à la requête (y.c. le texte de citation) Landing Page R12 Les fonctionnalités de R11 doivent être automatisables (interopérabilité) Automatisation
  • 12. D : I n v a r i a n c e a u c h a n g e m e n t ( R 1 3  R 1 4 ) 12 R13 Lors d’une migration (modèle du stockage, technologique, hébergement,…) les requêtes doivent être migrées (adaptation, déplacement) Migration des requêtes R14 Une migration de requête doit faire l’objet d’une vérification de re-exécution (comparaison des sommes de contrôle) . Vérification des migrations
  • 13. C o m p l é m e n t s 13 IMPLÉMENTATIONS • Dans le cadre de son activité leWG Data Citation a aidé à la mise en place d’implémentations spécifiques pilotes • Pas d’implémentation générique pour le moments POURSUITE LeWG a achevé sa mission initiale Suite de l’activité : - Un document complémentaire aux recommandations est en cours de validation -Webminaire en mars
  • 15. R e c o m m a n d a t i o n s s u p p l é m e n t a i r e s 15 R9b Parmi les critères de recherche, certains doivent permettre au PI d’identifier facilement ces données afin de créer facilement les PID le concernant Recherche de sélections pour le producteur de la donnée R10b Le système d’information doit proposer la publication du PID sur une Registration Authorities (RA). La publication n’est pas le seul fait du fournisseur de la donnée. On peut ne stocker que les requêtes pour lesquelles l’utilisateur a explicité exprimé ce besoin Publication du PID R10c Le système doit permettre d’obtenir un PID (et de le publier) sans pour autant réaliser l’extraction (dans ce cas la somme de contrôle n’est pas présente) Génération du PID sans exécuter l’extraction
  • 16. R e c o m m a n d a t i o n s s u p p l é m e n t a i r e s 16 R11b La landing page doit permettre de savoir si les données ont été modifiées depuis la requête Landing page étendue R11c La landing page doit permettre de re-exécuter la requête avec les données actuelles (c.a.d. sans tenir compte de l’horodatage de la requête) Obtenir les données plus récentes R? Le système doit permettre de PID correspondant à plusieurs PID existants Générer un PID de PIDs
  • 18. AVANTAGES Répond à un besoin scientifique (?) Précision de la citation Traite la question de la granularité Est compatible avec le mécanisme classique Ouvre la publication à l’utilisateur Pro s & Co n sCo mplémen ts Lien avec d’autres problèmatiques structurantes (métadonnées, provenance,…)
  • 19. INCONVENIENTS Implémentations limitées à des prototypes Eléments structurellement spécifiques Certaines fonctionnalités complexes Pro s & Co n s
  • 20. SUITE Une implémentation partielle ou incrémentale peut être intéressante Certaines recommandations peuvent être assouplies Pro s & Co n s Communauté motivée (pilotes RDA, ENVRI+,…) Technologies proposant l’horodatage (SQL 2011, Git,…) Action Interpôles ?
  • 22. A u t r e s i n i t i a t i v e s 22 FORCE11 : https://www.force11.org/datacitation •CODATA : http://www.codata.org/task-groups/data-citation-standards-and-practices CEOS : 29 recommandations basées sur les DOI • 29 recommandations basées sur les DOI Téléchargement : http://ceos.org/document_management/Working_Groups/WGISS/Interest_Groups/Data_Stewardship/Best_Practices/CEOS%20Persistent%20Identifier %20Best%20Practices_v1.0.pdf • Extraits R 8 PID non significatif Nouvelles versions  nouveau PID Similaire à RDA R8 Citation au niveau de la collection  Perte de la citation fine Gestion des séries évolutives : PID unique  Perte de la reproductibilité. Citation de données venant de jeux différents  potentiellement citation très longue. Différent de RDA Autres
  • 23. Merci www.aeris-data.fr Modèle de présentation : ttp://thepopp.com/ - Jun Akizak