3. 3
Add an image
Constat d’une difficulté
Citer des données n’est pas trivial
• Un jeu de données peut évoluer dans le temps
• Un jeu de données peut être corrigé
• On peut vouloir citer plusieurs ou des parties de jeux de données
• Citer des données n’est pas citer les programmes ou les personnes
Les préconisations RDA
Travail de 18 mois
14 préconisations permettant un mécanisme de citation précis
des données
Téléchargement
https://rd-alliance.org/system/files/documents/RDA-DC-
Recommendations_151020.pdf
C i t e r l e s D o n n é e s
3
4. O b j e c t i f s
4
CITATION
Permettre l’identification et la citation de toute partie d’un ensemble de données associées
à un instant précis du système de données
RÉCUPÉRATION
Permettre de récupérer – à partir d’une citation – les données dans l’état qu’elles avaient au
moment où la citation a été définie
STABILITÉ Assurer une stabilité au fil des changements technologiques
5. S o l u t i o n
5
SUIVI des
VERSIONS
Les différentes versions d’une données doivent être conservées dans le système de
données
HORODATAGE Chaque opération sur les données doit être horodatée
STOCKAGE des
REQUÊTES
Les jeux de données sont identifiées en assignant des PID aux requêtes qui les ont retournés.
Le couple PID-Requête* est stocké de manière pérenne dans le SI : c’est le query store
* On parle bien des requêtes et non de leur résultat.
7. A : P r é p a r a t i o n s d e s d o n n é e s ( R 1 R 3 )
7
R1
Les différentes versions des données doivent être conservées.
Gestion des versions
R2
Les opérations sur les données – addition, suppression, … – doivent-être horodatées.
Horodatage
R3
Les requêtes et leurs métadonnées doivent être stockées de manière pérenne et doivent pouvoir être
exécutées à nouveau.
Stockage des requêtes
8. B : I d e n t i f i c a t i o n d e s j e u x ( R 4 R 1 0 )
8
R4
Les requêtes doivent être normalisées afin de détecter des requêtes identiques.
Unicité des requêtes
R5
L’ordre des données au sein des jeux de données produits lors des extractions doit être stable.
Stabilité de l’ordre des données
R6
Lors de la première exécution d’une requête, la signature du jeu de données (somme de contrôle) doit être
calculée et stockée avec la requête afin de vérifier le résultat d’une re-exécution.
Vérification des jeux de données
9. B : I d e n t i f i c a t i o n d e s j e u x ( R 4 R 1 0 )
9
R7
Chaque requête doit contenir la date de son exécution ou, préférablement, la date de la dernière
mise à jour de la base de données
Horodatage de la requête
R8
Le PID doit permettre d’identifier la requête. Le calcul du PID de la requête doit prendre en
compte tous les paramètres, y compris l’horodatage
Affectation d’un PID à la requête
R9
Le query store doit stocker la requête et ses métadonnées: requête normalisée, somme de contrôle,
horodatage…
Ces informations doivent pouvoir être affichées sans calcul complémentaire conséquent
Stockage de la requête (complément R3)
10. B : I d e n t i f i c a t i o n d e s j e u x ( R 4 R 1 0 )
10
R10
Le texte de citation doit être généré automatiquement doit être fourni en même temps que le jeu
de données
Texte de citation automatiques
11. C : R e - e x é c u t i o n d e s r e q u ê t e s ( R 1 1 R 1 2 )
11
R11
La landing page des PID doit permettre
• De re-exécuter la requête
•Obtenir les métadonnées associées à la requête (y.c. le texte de citation)
Landing Page
R12
Les fonctionnalités de R11 doivent être automatisables (interopérabilité)
Automatisation
12. D : I n v a r i a n c e a u c h a n g e m e n t ( R 1 3 R 1 4 )
12
R13
Lors d’une migration (modèle du stockage, technologique, hébergement,…) les requêtes doivent
être migrées (adaptation, déplacement)
Migration des requêtes
R14
Une migration de requête doit faire l’objet d’une vérification de re-exécution (comparaison des
sommes de contrôle) .
Vérification des migrations
13. C o m p l é m e n t s
13
IMPLÉMENTATIONS
• Dans le cadre de son activité leWG Data Citation a aidé à la mise en place
d’implémentations spécifiques pilotes
• Pas d’implémentation générique pour le moments
POURSUITE
LeWG a achevé sa mission initiale
Suite de l’activité :
- Un document complémentaire aux recommandations est en cours de validation
-Webminaire en mars
15. R e c o m m a n d a t i o n s s u p p l é m e n t a i r e s
15
R9b
Parmi les critères de recherche, certains doivent permettre au PI d’identifier facilement ces
données afin de créer facilement les PID le concernant
Recherche de sélections pour le producteur de la donnée
R10b
Le système d’information doit proposer la publication du PID sur une Registration Authorities
(RA). La publication n’est pas le seul fait du fournisseur de la donnée.
On peut ne stocker que les requêtes pour lesquelles l’utilisateur a explicité exprimé ce besoin
Publication du PID
R10c
Le système doit permettre d’obtenir un PID (et de le publier) sans pour autant réaliser l’extraction
(dans ce cas la somme de contrôle n’est pas présente)
Génération du PID sans exécuter l’extraction
16. R e c o m m a n d a t i o n s s u p p l é m e n t a i r e s
16
R11b
La landing page doit permettre de savoir si les données ont été modifiées depuis la requête
Landing page étendue
R11c
La landing page doit permettre de re-exécuter la requête avec les données actuelles (c.a.d. sans
tenir compte de l’horodatage de la requête)
Obtenir les données plus récentes
R?
Le système doit permettre de PID correspondant à plusieurs PID existants
Générer un PID de PIDs
18. AVANTAGES
Répond à un besoin scientifique (?)
Précision de la citation
Traite la question de la granularité
Est compatible avec le mécanisme classique
Ouvre la publication à l’utilisateur
Pro s & Co n sCo mplémen ts
Lien avec d’autres problèmatiques
structurantes (métadonnées, provenance,…)
20. SUITE
Une implémentation partielle ou
incrémentale peut être intéressante
Certaines recommandations peuvent être
assouplies
Pro s & Co n s
Communauté motivée (pilotes RDA,
ENVRI+,…)
Technologies proposant l’horodatage (SQL
2011, Git,…)
Action Interpôles ?
22. A u t r e s i n i t i a t i v e s
22
FORCE11 : https://www.force11.org/datacitation
•CODATA : http://www.codata.org/task-groups/data-citation-standards-and-practices
CEOS : 29 recommandations basées sur les DOI
• 29 recommandations basées sur les DOI
Téléchargement :
http://ceos.org/document_management/Working_Groups/WGISS/Interest_Groups/Data_Stewardship/Best_Practices/CEOS%20Persistent%20Identifier
%20Best%20Practices_v1.0.pdf
• Extraits
R
8
PID non significatif
Nouvelles versions nouveau PID
Similaire à RDA R8
Citation au niveau de la collection Perte de la citation fine
Gestion des séries évolutives : PID unique Perte de la reproductibilité.
Citation de données venant de jeux différents potentiellement citation
très longue.
Différent de RDA
Autres