3. Autour de la reproductibilité des expériences
1500 chercheurs répondent à Nature
“More than 70% of researchers have tried
and failed to reproduce another
scientist's experiments, and more than
half have failed to reproduce their own
experiments”
Nature may 2016 : https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970
4. 4
Reused data in astronomy
https://archive.stsci.edu/hst/bibliography/pubstat.html
Archived data
are more used
and cited in
publication than
life data
5. Pourquoi partager les données ?
Entre injonctions et bénéfices Augmenter ces citations
Le partage des données
augmente l’attractivité
de l’article jusqu’à 69%
Étendre son réseau
nouvelle opportunité
pour
échanger/collaborer
Attirer sur son profil
chercheur
La demande pour réutiliser
les données est en forte
hausse
Renforcer ses possibilités
de recevoir des
financements
Compatibilité avec les
exigences des financeurs
Reproductibilité
Preuve
Résultats accessibles à tous public
Préservation
Description et visibilité
Pilote données ouvertes par défaut
Wiley
Incitation
ou
obligation
de partage
Protocole de
Nagoya
6. Qu'est-ce que la science ouverte ?
La science ouverte, c’est la diffusion sans entrave des publications et des
données de la recherche. Elle s’appuie sur l’opportunité que représente la
mutation numérique pour développer l’accès ouvert aux publications et – autant
que possible – aux données de la recherche.
Son objectif : faire sortir la recherche financée sur fonds publics du cadre confiné
des bases de données fermées. Elle réduit les efforts dupliqués dans la collecte, la
création, le transfert et la réutilisation du matériel scientifique. Elle augmente
ainsi l’efficacité de la recherche.
La science ouverte vise à construire un écosystème dans lequel la science est
plus cumulative, plus fortement étayée par des données, plus transparente,
plus rapide et d’accès plus universel. Elle induit une démocratisation de l’accès
aux savoirs, utile à la recherche, à la formation, à l’économie, à la société.
Elle favorise les avancées scientifiques ainsi que l’innovation, les progrès
économiques et sociaux, en France, dans les pays développés et dans les pays en
développement.
Elle constitue un levier pour l’intégrité scientifique et favorise la confiance des
citoyens dans la science. Elle constitue un progrès scientifique et un progrès de
société.
6
« La science ouverte n’est pas une mode, ce n’est pas une discipline,
c’est un nouveau paradigme. Elle comporte donc ses nouvelles
pratiques et ses nouvelles compétences ». FrédériqueVidal. 4 juillet 2018.
http://m.enseignementsup-recherche.gouv.fr/cid132529/le-plan-national-pour-la-science-ouverte-les-resultats-de-la-recherche-scientifique-ouverts-a-tous-sans-
entrave-sans-delai-sans-paiement.html
7. Plan national pour la science ouverte
3 axes pour sa concrétisation
Axe 1 Généraliser l’accès ouvert aux publications
Axe 2 : Structurer et ouvrir les données de la recherche
4 – obligation de la diffusion ouverte des données
5 - Créer la fonction d’administrateur des données par établissement
6 – Données ouvertes associées aux articles scientifiques
Axe 3 : s’inscrire dans une dynamique durable, européenne et
internationale
7 - Développer les compétences dans les écoles doctorales.
8 – Politique de science ouverte pour les opérateurs de la recherche
9 - Contribuer à la structuration européenne (EOSC,GO FAIR)
7
8. Comment mieux gérer les données ?
Intérêt d’ouvrir les données et de mieux les
décrire
8
10. Questions soulevées par l’ouverture des données
•1. C’est compliqué C’est la raison pour laquelle les infrastructures de données et
les plans de gestion des données existent (DMP).
•2. C’est cher C’est la raison pour laquelle les frais de structuration et d’ouverture
sont éligibles dans les appels à projets.
•3. C’est risqué pour les données sensibles (personnelle, secret défense, sécurité
publique, secret professionnel, secret industriel et commercial, risque pour la
protection du potentiel scientifique…) Données présentant des risques pour la
protection du potentiel scientifique et technique de la nation.
Dans tous ces cas, il ne faut pas ouvrir les données, mais on peut les Fairiser.
Marin Dacos, 27/03/2018 : Ouverture des données de la recherche DGESIP - DGRI Journée sur le doctorat
Aussi ouvert que possible, aussi fermé que nécessaire
11. Principes FAIR : Augmenter le potentiel des données
11
• Licence d’utilisation
appropriée
• Utiliser des formats
ouverts
• Utiliser un vocabulaire
partagé
• Standards de
métadonnées communs
• Gérer de façon pérenne
l’accès aux données
• Obtenir l’accord des
producteurs
• Attribuer un
Identifiant pérenne
• Décrire les données
au sein d’un entrepôt
Facile à
trouver
Accessible
RéutilisableInteropérable
12. 12
INRA
Un site web et entrepôt de données
Annuaire développé dans l’entrepôt de données
Formations : Plan de gestion de données
Liens entre données et documents (Prodinra)
CNRS
Lié au TGIR HUMA-NUM : exemple Nakala (entrepôt de données), Isodore (moteur de recherche)
Ifremer
entrepôt de données SEANOE
Liens forts avec l’entrepôt de documents Archimer
CIRAD
Entrepôt de données dataverse
Un annuaire développé en dehors de l’entrepôt de données
Des formations : Plan de gestion de données
Science Po
Entrepôt de données dataverse du CDSP
INRIA
Software héritage pour le dépôt des codes sources
CEA, IRSTEA
Des préconisations
Ecosystème pour la science ouverte en France
Niveau d’avancement de nos partenaires
13. Plan national pour la science ouverte
3 axes pour sa concrétisation
Axe 1 Généraliser l’accès ouvert aux publications
Axe 2 : Structurer et ouvrir les données de la recherche
4 – obligation de la diffusion ouverte des données
5 - Créer la fonction d’administrateur des données par établissement
6 – Données ouvertes associées aux articles scientifiques
Axe 3 : s’inscrire dans une dynamique durable, européenne et
internationale
7 - Développer les compétences dans les écoles doctorales.
8 – Politique de science ouverte pour les opérateurs de la recherche
9 - Contribuer à la structuration européenne (EOSC,GO FAIR)
13
14. Notions autour des entrepôts de données
1413/02/2019 Présentation GT Données - IST - 27 mars 2018
15. Service en ligne permettant le dépôt, la description, la
conservation, la recherche et la diffusion des jeux de données.
Entrepôt disciplinaire / institutionnel / ouvert à toutes disciplines / Infrastructure nationale,
internationale
D’après Sylvie Cocaud. Cocaud et Aventurier 2017
Entrepôt de données de recherche
Définition
16. Déposer ses données dans un entrepôt facilite la découverte
et la réutilisation des données
Les entrepôts sont scannés par des outils de recherche spécifiques
Data Cite search
Data Citation Index (Thomson Reuters)
Google Dataset Search
Data Search (Elsevier)
Peuvent diffuser leurs données via le protocole d’échange standard
OAI-PMH
D’après Cocaud et Aventurier 2017
http://dx.doi.org/10.15454/1.4993537478868977E12
et moissonnés par des catalogues, intégrateurs, infrastructures européennes
de données… de plus en plus nombreux
Plus value des entrepôts pour les scientifiques
Augmentation de la visibilité des travaux
18. 18
Positionnement
Données cibles 1/2
Données non structurées, non
numérisées, enfouies dans les PC,
historiques non rattachées à des BD
accessibles en interne ou externe
Observatoires, pôles
de données, base de
données accessibles
sur le web
Distribution des données de la recherche
(Ferguson et al., 2014)
19. Identificationdescriptiondécouverte
stockage
dépôt
Motivations
Changer les pratiques de gestion des données
19
oubli
destruction
Conception projet
de recherche
démarrage
projet
acquisition de
données
Analyse de
données
publication
résultats
fin projet
cycle de vie au cours du projet
cycle de vie dans l’entrepôt
bornes du projet
valorisation
partage
nouvelles
publications
citations
réutilisation
Conception projet
de recherche
démarrage
projet
acquisition de
données
Analyse de
données
publication
résultats
fin projet
Plan de
gestion de
données
20. 20
Objectifs de l’entrepôt
Première pièce de l’écosystème « gestion des données pour la
science ouverte »
À court terme
Fournir un service (plateforme + accompagnement + curation) aux
chercheurs pour maitriser la diffusion de leur données et leur
préservation
À moyen terme
Assurer la découverte des ressources IRD déposées dans d’autres
entrepôts, pôles de données, infrastructures de recherche (fonction
d’annuaire)
21. 21
Sur la visibilité des produits de leur recherche
Augmentation de la visibilité de leurs travaux
Indexation par les moteurs de recherche internationaux (DataCite,
Google, R3data.org…)
Objectifs
Au service des chercheurs
Sur la préservation et la réutilisation des données
Préservation des données pour les projets hors observatoires, IR ;
Récupération des données en danger
Apprendre les bonnes pratiques de gestion des données
22. 22
En interne
Répondre au plan national de la science ouverte
Améliorer la connaissance et la gestion de notre patrimoine de données
Un premier élément « concret » vers une politique de science ouverte à
l’IRD
Objectifs
Au service de l’institut
Pour nos partenaires Sud et internationaux
Améliorer l’accessibilité de nos données aux partenaires du sud
Être un support pour des initiatives de science ouverte au sud
(réplication de l’entrepôt, mise à disposition, renforcement de
capacités)
Europe et international
Répondre aux exigences des programmes européens
S ’intégrer dans des infrastructures européennes EOSC (European
Open Science Cloud)
23. 23
Adhérence avec l’existant
l’entrepôt interconnecté
Lab
Entrepôts
ESR Français
Observatoires
Pôle de
données
PNDB
Système Terre
Moteur de
recherche
Entrepôt
24. 24
Méthodologie
Réunion d’informations
Recueils des besoins sur un large panel disciplinaire
Tests d’une application de dépôts et de partage
Quelques exemples
Génomique
SHS
Milieu marin
Ecologie - biodiversité
Santé
Environnement
Méthodologie
Nombreux besoins identifiés au sein des UMR…
3 séminaires d’informations et d’échanges organisés :
> 10 UMR, DDUNI, DAJ, IST, MIDN
26. • Logiciel open source, créé en 2006 par Harvard
• Installer une instance locale de Dataverse et participer au réseau de
Dataverse (Cirad, INRA, Science Po…)
• Intégrer un « écosystème » d’entrepôts interopérables
26
Plateforme logicielle pour l’entrepôt IRD
Outil open source Dataverse
https://dataverse.org/
27. Une collection
Un jeu de données
Recherche générale
Recherche ciblée
Dataverse
Interface web – découverte des données
28. La citation du jeu de
données
Dataverse
Interface web – Citation et accès aux données
Les
données
associées
29. Fonctionnement type de l’entrepôt
29
Appui DAJ / Supports
d’accompagnement/
Hotline pour répondre
aux questions
• Création d’un espace et formation d’une personne référente
• Unités, projets peuvent créer un espace de dépôt personnalisable « Dataverse », ….)
Description et
dépôt de
données
Validation du
dépôt par
IST/personne
désignée
Publication du
jeu de données
Référencement
dans les
moteurs et les
outils de
recherche
Données FAIR
• Les chercheurs déposent, en accord,
avec le plan de gestion de données, un
jeu de données dans cet espace dans
des formats standardisés, et décrivent
leurs données
• (ouvert /
fermée/embargo/métadonnée
s seules)
31. Organisation en interne
Articulation entre pôle Science et pôle Appui
MCST – Service
IST
MIDN
D-DUNI –
Service Etudes
et
Développement
DRH – Service
Développement
des
compétences
DAJ – Service
juridique
32. 32
Calendrier prévisionnel
Phases et première cible
1
• Recueils des besoins pour orienter le périmètre du projet et les choix techniques
2
• Tests et études techniques
3
• Mise en place de la plateforme Dataverse à l’IRD (septembre – janvier 19)
• Configuration, développements annexes (fédération authentification, interopérabilité, visualisation)
5
• Phase d’utilisation pilote de Dataverse (janvier – mars 19)
• Configuration, développements annexes (fédération authentification, interopérabilité,
visualisation)
6
• Ouverture de l’entrepôt de données – version 1 (printemps 19)
33. 33
Entrepôt de données
Mettre en place des Data Management Plans (DMPs), faisant
partie du processus de recherche, et l’établissant comme
condition pour l’obtention de fonds
Introduire des incitations positives à l’ouvertures des données
à leur « fairisation » : promouvoir et récompenser les pratiques
d’ouverture.
Tout en définissant l’ouverture comme le principe par défaut,
prévoir des dérogations avec une gestion des accès en
fonction des contraintes disciplinaires, légales et économiques.
Actuellement, les chercheurs sont placés devant des
injonctions contradictoires face à la science ouverte.
Réformer le système d’évaluation pour encourager le
partage des données.
Former les chercheurs aux principes, méthodes et bonnes
pratiques de la science ouverte.
Former des experts des données scientifiques et offrir de
véritables carrières à ces métiers, qui seront le pont entre
l’informatique et la recherche
Eléments d’une politique de données ouvertes
pour l’IRD
Accès ouvert aux publications
34. 34
Entrepôt pour accueillir les données que les chercheurs de l’IRD souhaitent
déposer, partager
Rendre les données: Facile à trouver, Accessible, Interopérable, Réutilisable
Complémentarité avec les plateformes existantes : descriptions associés à la
création d’un DOI et aux fonctions de découverte sur les données
Des objectifs raisonnables
Nombreuses attentes des scientifiques pour des contextes variés
Et des besoins différents (valorisation , préservation, attribution de
DOI, partage)
Pour répondre aux besoins des chercheurs
Conclusion
Améliorer la connaissance et la gestion de notre patrimoine de données
Un premier élément « concret » vers une politique de science ouverte à
l’IRD
Et au service de l’institut
Notes de l'éditeur
AR : utilisateur non producteur
GI : producteur = utilisateur
AR/GI = entre les deux
Programs not assigned : programme non identifiés
https://www.ersa.edu.au/four-reasons-to-share-your-research-data/
Springer : https://researchdata.springernature.com/
Elsevier : https://www.elsevier.com/authors/author-services/research-data/data-statement
Plos https://journals.plos.org/plosone/s/data-availability
Wiley https://authorservices.wiley.com/author-resources/Journal-Authors/open-access/data-sharing-citation/index.html
Nagoya Protocol https://www.cbd.int/abs/
NERC https://nerc.ukri.org/research/sites/data/policy/
ANR http://www.agence-nationale-recherche.fr/informations/actualites/detail/lagence-nationale-de-la-recherche-publie-son-plan-daction-2019/
ANR Les valeurs et engagements du Plan d’action 2019
Aux côtés des établissements de recherche, l’ANR réaffirme ses engagements en faveur de :
La promotion d’une culture de recherche intègre et le respect des règles et bonnes pratiques fixées dans la Charte nationale de déontologie des métiers de la recherche, et la Charte de déontologie et d’intégrité scientifique de l’ANR ;
La prise en compte systématique de la dimension sexe et/ou genre dans les recherches et l’évaluation, ainsi que la valorisation des femmes de science ayant obtenus un financement ANR et la valorisation de leur rôle au sein des comités d’évaluation scientifique (CES) ;
L’application du Protocole de Nagoya sur l’accès et le partage des avantages découlant de l’utilisation des ressources génétiques ;
L’ouverture des données de recherche, dans le cadre de la politique de science ouverte inscrite dans le plan national présenté le 4 juillet 2018 par la ministre de l’Enseignement supérieur, de la Recherche et de l’Innovation, Frédérique Vidal.
Présenté par la ministre f. vidal le 4 juillet à Lille
Inspiration : initiatives venues de la commission européenne (avec pays précurseurs : hollande, Allemagne)
Positionnement dans la dynamique nationale : vient formaliser et organiser au plus haut niveaux des initiatives déjà démarrées dans de quelques ESR
En conclusion :
Il faut transformer les pratiques scientifiques pour qu’elles intègrent la science ouverte au quotidien, qu’elles deviennent un réflexe et contribuent à la structuration du paysage international de la science ouverte par la diffusion des meilleurs usages et des meilleures pratiques.
Il convient aussi de généraliser les pratiques quotidiennes de la science ouverte, notamment dans le domaine des publications, des données, de la propriété intellectuelle et de l’évaluation par les pairs. Et de contribuer à un écosystème à la fois résilient, régulé et transparent, œuvrant dans le sens des intérêts de la communauté scientifique.
Discours : open science : Ce n’est pas uniquement un défi technique mais avant tout humain, organisationnel, juridique
Mindset = état d’esprit
Crée par un groupe force 11: long processus qui souhaitait donner un label
RDA
europe
Différents niveaux d’avancement chez nos partenaires de la recherche en France
Archimer : archive institutionnelle de documents 40 000 documents
Huma-Num est une très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales. Au coeur des SHS et des humanités numériques, elle est bâtie sur une organisation originale consistant à mettre en œuvre un dispositif humain (concertation collective) et technologique (services numériques pérennes) à l’échelle nationale et européenne en s’appuyant sur un important réseau de partenaires et d’opérateurs.
Présenté par la ministre f. vidal le 4 juillet à Lille
Inspiration : initiatives venues de la commission européenne (avec pays précurseurs : hollande, Allemagne)
Positionnement dans la dynamique nationale : vient formaliser et organiser au plus haut niveaux des initiatives déjà démarrées dans de quelques ESR
En conclusion :
Il faut transformer les pratiques scientifiques pour qu’elles intègrent la science ouverte au quotidien, qu’elles deviennent un réflexe et contribuent à la structuration du paysage international de la science ouverte par la diffusion des meilleurs usages et des meilleures pratiques.
Il convient aussi de généraliser les pratiques quotidiennes de la science ouverte, notamment dans le domaine des publications, des données, de la propriété intellectuelle et de l’évaluation par les pairs. Et de contribuer à un écosystème à la fois résilient, régulé et transparent, œuvrant dans le sens des intérêts de la communauté scientifique.
Certainement diminuer le nombre de planches sur cette partie
À présenter sous forme de puzzle :
1 – service auprès des chercheurs pour mieux maitriser la diffusion et la préservation des données
2 – inventaire des données à l’IRD
3 – renforcement de capacités des chercheurs et des étudiants autour des bonnes pratiques de gestion des données
4 – principes, consignes et moyens pour la production et la gestion de données FAIR à l’IRD
Augmentation de la visibilité de leurs travaux (data papers, accès des données pour un partenariat élargi via la découverte)
- - > Rappeler que l’interconnexion des bases documentaires, données, individu n’augmente pas directement h index mais participe une meilleur visibilité des travaux
On ne réinvente pas, on réutilise et on adapte
Faire schéma en associant les personnes aux étapes du processus de dépôt
Ou comment on s’organise pour aller vers la réalisation de l’entrepôt
Ressources mobilisées à l’IRD
Rôle des acteurs
MIDN : (lien avec infrastructure et plateforme + expertise en matière d’interopérabilité des SI+ pilotage)
IST (lien avec les systèmes d’information, métadonnées + open science + pilotage)
DDUNI : (développement mise en place des outils, spécifications des architectures et des pré requis sur les infrastructures de stockage, mise en production….)
DRH - (formation sur l’open data)
Mettre en évidence « où en sommes nous ? Aujourd’hui
Rappeler le pari que l’on fait en allant vite vers une ouverture au printemps : répondre à des besoins de certains et d’autres non comblés aujourd’hui, se mettre dans l’agenda du plan national et
susciter le besoin des autres et accompagner, impulser les bonnes pratiques de gestion des données à l’IRD
À mentionner : travail sur l’évaluation des risques du projet (SWOT) que l’on pourra détailler si nécessaire.
Amsterdam call for open science
Texte sur lequel s’inspire la politique nationale française
Rendre les données FAIR = bien décrites avec vérification des droits et des métadonnée
Complémentarité avec les plateformes
Exemple un jeu de données sur une plateforme sera décrite avec les métadonnées de la directive Inspire
Sur Dataverse , il sera décrit avec les métadonnées de Datacite
Titre auteurs ; Doi etc…
Nombreuses attentes des scientifiques pour des contextes variés : santé, génomique, milieu marin, science humaine et sociales, environnement
Et des besoins différents : répondre exigences de dépôts associés à une publication, données en danger, préservation de données, attribution de DOI