Un PGD, qu'est-ce que c'est ? Pour quoi faire ? Comment ?
Un PGD sert surtout à se poser les bonnes questions et à adopter des méthodes rigoureuses de gestion pour documenter, stocker, responsabiliser, archiver, informer, et finalement partager les données scientifiques.
Le PGD est de plus en plus souvent recommandé ou même exigé par les financeurs, les éditeurs, les organismes scientifiques.
L’exposé présente les grands principes et principales étapes d’un PGD et les aides à la rédaction.
Cette intervention d'Hanka Hensens a eu lieu le 20 septembre 2018, dans le cadre des JeudIST de l'IRD Occitanie.
Hanka Hensens, responsable du Centre de Documentation IRD Occitanie, a animé depuis 2017 plusieurs ateliers sur les Plans de Gestion de Données en direction des scientifiques d’Agropolis. Elle forme étudiants et chercheurs depuis près de 20 ans à la recherche et à la gestion de l’information scientifique.
4. A quelles questions répond un PGD ?
Les plans de gestion de données ‐ S. Cocaud et D. L'Hostis, INRA. URFIST Paris ‐ 11/07/18
4
• En quoi consiste le projet ?
• Qui sont les partenaires ?
• Quelle est la politique de
gestion des données ?
• Qui est responsable de la
gestion des données ?
Responsabilités dans le projet
• Quelles données seront
produites/utilisées au cours du
projet ? (type, format, volume
et accroissement…).
• Comment seront-elles
produites ou transformées ?
Collecte des données
• Comment, où, par qui, seront
stockées, sauvegardées et
sécurisées les données ?
Sauvegarde des données
• Comment les données seront
elles identifiées, décrites ?
• Quels standards de
métadonnées utilisera t’on ?
• Comment seront générées les
métadonnées ?
Documentation des données
• Qui sera propriétaire des
données produites ?
• Des données externes seront-
elles utilisées ?
Propriété intellectuelle
• Qui pourra accéder aux
données ? Les données
seront-elles partagées ?
publiées ? Avec qui ?
• Comment ?
• Dans quel délai ?
• Sous quelle licence ?
Accès et partage des données
• Comment la gestion des
données est-elle financée, en
particulier à long terme ?
Ressources
• Quel plan pour l’archivage et la
préservation à long terme ?
Archivage et préservation des
données
Ethique
• Des données sensibles seront-
elles produites ou utilisées ?
• Comment sera assurée leur
anonymisation ?
6. PGD : Eléments clés
1. Description du projet de recherche : but, partenaires, responsable,…
2. Inventaire et Description des données : listing, taille estimée, méthode de
collecte et traitement, responsables,…
3. Documentation : métadonnées, documents accompagnant les données,
logiciel nécessaire, type de fichier,…
4. Sauvegarde et sécurité : matériel et méthode, formats, périodicité et
nombre de copies, versioning, nommage,…
5. Déontologie et éthique
6. Conservation : quelles données à long terme, combien de temps, à quel
endroit (type d’entrepôt) _selon politique d'établissement / préconisations
bailleur / éthique / cadre légal_
7. Partage (pendant et après le projet) : accès, propriété intellectuelle, cadre
légal, embargo, confidentialité,…
Aussi ouvert que possible, aussi fermé que nécessaire
8. Ressources : matérielles, financières, humaines, …
10. II‐Un PGD, pourquoi? _en introduction_
Pour les auteurs
Pour les équipes, organismes, institutions
Pour la recherche mondiale
Causes :
Destruction des supports
Problème de version, obsolescence matérielle
ou logicielle
Lieu de stockage indéfini
Conséquences :
Perte de temps, d’argent (fonds publics…)
Pas de vérification des résultats possible
Pas de comparaison des résultats dans le temps
ou l’espace
Pas de réutilisations (différentes)
10
20 ans après publication, 80 %des données scientifiques sont perdues…
15. Les engagements du gouvernement français
21/09/2018 15
« Généraliser la mise
en place de plans de
gestion des données
dans les appels à
projets de recherche »
Plan d’action pour un
gouvernement ouvert
2018‐2019
Les plans de gestion de données ‐ S. Cocaud et D. L'Hostis, INRA. URFIST Paris ‐ 11/07/18
18. Utiliser des ressources spécialisées
Fichiers Métadonnées Entrepôts Licences
•Types de fichier
(Datapartage
INRA)
Formats de
fichiers
ouverts/fermés
(Doranum)
•Nommage et
organisation
(Datapartage
INRA)
Choix de standard
de métadonnées
par thématique sur :
•DCC,
•RDA,
•Biosharing
•Quelles données
conserver ? (DCC)
•Choix d’un
entrepôt sur
re3data.org
(browse by subject)
•Dataverse IRD en
2019 cf. JeudIST du
13/12/18 !
•Q/R : mes données
sont‐elles
partageables ?
•Choix d’une
licence : ODBL et
Etalab / données
« administratives »
(Datapartage
INRA)
•Choix d’une
licence Creative
Commons
21/09/2018 18
20. …Mais toujours les mêmes informations demandées
Modèles plus ou moins détaillés (les commentaires sont utiles) : de 2 à 20 pages…
• Informations sur le plan de gestion : Nom, auteur(s), version, date
• Informations sur le projet : Identifiants, financeur, nom, durée, partenaires, objectifs,
localisation,…
• Informations de base sur les données (à réitérer par chacun des jeux de données =>
précédé par un listing des jeux‐tableau résumé) : type, taille estimée, origine,
publications
• Description des données : métadonnées (types, standarts,…), organisation, versions,…
• Droit, confidentialité, déontologie : propriété intellectuelle, droits spécifiques,…
• Sauvegarde et sécurité (pendant le projet) : Supports, flux, volumes, traçabilité,
intégrité,…
• Conservation (après le projet) : lesquelles ? Où ? Pendant combien de temps ?
Responsable ?
• Partage (pendant et après le projet) : Comment ? Avec qui ? Quand ?
Toutes les rubriques ne doivent pas obligatoirement être remplies : quand on n’a pas
encore fait un choix, le dire et remplir plus tard
Préciser et chiffrer tout ce qui peut l’être, en listant les ressources nécessaires
(pense bête sur http://www.data‐archive.ac.uk/media/247429/costing_v3.docx) :
les coûts nécessaires à la gestion des données, peuvent être inclus dans votre demande de
financement 20
24. FAIR : Où ranger quelles informations ?
Redondances…
Facile à trouver Accessible Interopérable Réutilisable
•Identifiant (unique
et pérenne : DOI)
•Versionning,
organisation et
nommage des
fichiers
•Métadonnées et
vocabulaires (mot‐
clés) standardisés,
description
multilingue
•Entrepôt choisi :
type de
recherches/moisso
nnages offerts
(SQL, APIs,…)
•Données librement
accessibles :
Lesquelles ? Où ?
•Données non
librement
accessibles :
Pourquoi ?
Comment ?
Conditions,
Embargo,…
•Documentation et
logiciel nécessaires
: fournis, open
source ?
•Contacts et accès
pérennes
•Formats de
données standards
et non
propriétaires
•Métadonnées
standardisées et
de préférence
interdisciplinaires
•Ou Lien (mapping)
vers des
vocabulaires
standards
•Liens standardisé
vers d’autres
données
(relatedIdentifier,
relatedPublication)
•Licence choisie
•Processus
d’assurance qualité
•Description fine de
la collecte et des
traitements
•Documentation et
logiciel nécessaires
•Partage pendant et
après le projet : cf.
Accessible
24