Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Entreposer ses donnees-JeudIST IRD 20181213

228 vues

Publié le

La Science Ouverte est à l’ordre du jour, en France et en Europe.
Après les publications, les données de la recherche sont sous le feu des projecteurs.
Ce gisement de connaissances, trop peu connu et exploité, est même souvent voué à l’oubli et à la destruction, faute de signalisation et de sauvegarde pérenne.
L’IRD, plus encore que les autres organismes de recherche, se doit de proposer une politique, des méthodologies et des outils de préservation et de partage des données recueillies dans, par et pour les pays du Sud par l’ensemble de ses équipes de recherche.
Lors de cette conférence, Pascal Aventurier, responsable du Service Information Scientifique et Technique (IST), et Jean-Christophe Desconnets, Directeur de la Mission Infrastructure et Données Numériques (MIDN), présenteront le projet d’entrepôt de données de l’IRD qui ouvrira mi 2019.

Publié dans : Internet
  • Soyez le premier à commenter

Entreposer ses donnees-JeudIST IRD 20181213

  1. 1. Entreposer ses données :  préservation et partage  Séminaire JEUDIST 13 Décembre 2018 Jean‐Christophe Desconnets ‐ MIDN Pascal Aventurier, Caroline Doucouré ‐ IST/MCST  Stéphane Banon ‐ D‐DUNI  
  2. 2. https://libereurope.eu/wp‐content/uploads/PARSE‐Insight_D3‐5_InterimInsightReport_final.pd Données en danger !  Perte de 17 % par an (Pierre Corvol Collège de France)
  3. 3. Autour de la reproductibilité des expériences 1500 chercheurs répondent à Nature “More than 70% of researchers have tried and failed to reproduce another scientist's experiments, and more than half have failed to reproduce their own experiments” Nature may 2016 :  https://www.nature.com/news/1‐500‐scientists‐lift‐the‐lid‐on‐reproducibility‐1.19970
  4. 4. 4 Reused data in astronomy https://archive.stsci.edu/hst/bibliography/pubstat.html Archived data  are more used and cited in  publication than life data
  5. 5. Pourquoi partager les données ? Entre injonctions et bénéfices Augmenter ces citations Le partage des données  augmente l’attractivité  de l’article jusqu’à 69%  Étendre son réseau nouvelle opportunité  pour  échanger/collaborer Attirer sur son profil  chercheur La demande pour réutiliser  les données est en forte  hausse Renforcer ses possibilités  de recevoir des  financements Compatibilité avec les  exigences des financeurs Reproductibilité Preuve  Résultats accessibles à tous public Préservation  Description et visibilité Pilote données ouvertes par défaut  Wiley Incitation  ou  obligation  de partage Protocole de Nagoya 
  6. 6. Qu'est‐ce que la science ouverte ? La science ouverte, c’est la diffusion sans entrave des publications et des données de la recherche. Elle s’appuie sur l’opportunité que représente la mutation numérique pour développer l’accès ouvert aux publications et – autant que possible – aux données de la recherche. Son objectif : faire sortir la recherche financée sur fonds publics du cadre confiné des bases de données fermées. Elle réduit les efforts dupliqués dans la collecte, la création, le transfert et la réutilisation du matériel scientifique. Elle augmente ainsi l’efficacité de la recherche. La science ouverte vise à construire un écosystème dans lequel la science est plus cumulative, plus fortement étayée par des données, plus transparente, plus rapide et d’accès plus universel. Elle induit une démocratisation de l’accès aux savoirs, utile à la recherche, à la formation, à l’économie, à la société. Elle favorise les avancées scientifiques ainsi que l’innovation, les progrès économiques et sociaux, en France, dans les pays développés et dans les pays en développement. Elle constitue un levier pour l’intégrité scientifique et favorise la confiance des citoyens dans la science. Elle constitue un progrès scientifique et un progrès de société. 6 « La science ouverte n’est pas une mode, ce n’est pas une discipline,  c’est un nouveau paradigme. Elle comporte donc ses nouvelles  pratiques et ses nouvelles compétences ». Frédérique Vidal. 4 juillet 2018. http://m.enseignementsup‐recherche.gouv.fr/cid132529/le‐plan‐national‐pour‐la‐science‐ouverte‐les‐resultats‐de‐la‐recherche‐scientifique‐ouverts‐a‐tous‐sans‐ entrave‐sans‐delai‐sans‐paiement.html
  7. 7. Plan national pour la science ouverte 3 axes pour sa concrétisation Axe 1 Généraliser l’accès ouvert aux publications Axe 2 : Structurer et ouvrir les données de la recherche 4 – obligation de la diffusion ouverte des données 5 ‐ Créer la fonction d’administrateur des données par établissement 6 – Données ouvertes associées aux articles scientifiques Axe 3 : s’inscrire dans une dynamique durable, européenne et internationale 7 ‐ Développer les compétences dans les écoles doctorales. 8 – Politique de science ouverte pour les opérateurs de la recherche 9 ‐ Contribuer à la structuration européenne (EOSC, GO FAIR) 7 6
  8. 8. Comment mieux gérer les données ? Intérêt d’ouvrir les données et de mieux les  décrire 8
  9. 9. partly FAIR, partly Cloudy Barend Mons 
  10. 10. Questions soulevées par l’ouverture des données •1. C’est compliqué C’est la raison pour laquelle les infrastructures de données et les plans de gestion des données existent (DMP). •2. C’est cher C’est la raison pour laquelle les frais de structuration et d’ouverture sont éligibles dans les appels à projets. •3. C’est risqué pour les données sensibles (personnelle, secret défense, sécurité publique, secret professionnel, secret industriel et commercial, risque pour la protection du potentiel scientifique…) Données présentant des risques pour la protection du potentiel scientifique et technique de la nation. Dans tous ces cas, il ne faut pas ouvrir les données, mais on peut les Fairiser. Marin Dacos, 27/03/2018 : Ouverture des données de la recherche  DGESIP ‐ DGRI Journée sur le doctorat  Aussi ouvert que possible, aussi fermé que nécessaire
  11. 11. Principes FAIR : Augmenter le potentiel des données  11 • Licence d’utilisation  appropriée • Utiliser des formats  ouverts • Utiliser un vocabulaire  partagé   • Standards de  métadonnées communs • Gérer de façon pérenne  l’accès aux données • Obtenir l’accord des  producteurs  • Attribuer un  Identifiant pérenne • Décrire les données  au sein d’un entrepôt Facile à  trouver Accessible RéutilisableInteropérable
  12. 12. 12 INRA   Un site web et entrepôt  de données  Annuaire développé dans l’entrepôt de données  Formations : Plan de gestion de données  Liens entre données et documents (Prodinra) CNRS  Lié au TGIR HUMA‐NUM : exemple Nakala (entrepôt de données), Isodore (moteur de recherche) Ifremer  entrepôt de données SEANOE  Liens forts avec l’entrepôt de documents Archimer CIRAD   Entrepôt de données dataverse  Un annuaire développé en dehors de l’entrepôt de données  Des formations : Plan de gestion de données Science Po   Entrepôt de données dataverse du CDSP INRIA  Software héritage pour le dépôt des codes sources CEA, IRSTEA  Des préconisations Ecosystème pour la science ouverte en France Niveau d’avancement de nos partenaires 
  13. 13. Plan national pour la science ouverte 3 axes pour sa concrétisation Axe 1 Généraliser l’accès ouvert aux publications Axe 2 : Structurer et ouvrir les données de la recherche 4 – obligation de la diffusion ouverte des données 5 ‐ Créer la fonction d’administrateur des données par établissement 6 – Données ouvertes associées aux articles scientifiques Axe 3 : s’inscrire dans une dynamique durable, européenne et internationale 7 ‐ Développer les compétences dans les écoles doctorales. 8 – Politique de science ouverte pour les opérateurs de la recherche 9 ‐ Contribuer à la structuration européenne (EOSC, GO FAIR) 13 6
  14. 14. Notions autour des entrepôts de données 1413/12/2018 Présentation GT Données ‐ IST ‐ 27 mars 2018
  15. 15. Service en ligne permettant le dépôt, la description, la  conservation, la recherche et la diffusion des jeux de données.  Entrepôt disciplinaire / institutionnel / ouvert à toutes disciplines / Infrastructure nationale,  internationale  D’après Sylvie Cocaud. Cocaud et Aventurier 2017 Entrepôt de données de recherche Définition 
  16. 16. Déposer ses données dans un entrepôt facilite la découverte  et la réutilisation des données Les entrepôts sont scannés par des outils de recherche spécifiques  Data Cite search  Data Citation Index (Thomson Reuters)  Google Dataset Search  Data Search (Elsevier)  Peuvent diffuser leurs données via le protocole d’échange standard  OAI‐PMH D’après Cocaud et Aventurier 2017  http://dx.doi.org/10.15454/1.4993537478868977E12 et moissonnés par des catalogues, intégrateurs, infrastructures européennes  de données… de plus en plus nombreux  Plus value des entrepôts pour les scientifiques Augmentation de la visibilité des travaux
  17. 17. Vers un entrepôt de données ouvertes pour l’IRD  17
  18. 18. 18 Positionnement Données cibles 1/2 Données non structurées, non  numérisées, enfouies dans les PC,  historiques non rattachées à des BD  accessibles en interne ou externe Observatoires, pôles  de données, base de  données accessibles  sur le web Distribution des données de la recherche  (Ferguson et al., 2014)
  19. 19. Identificationdescriptiondécouverte stockage dépôt Motivations  Changer les pratiques de gestion des données 19 oubli destruction Conception projet de recherche démarrage projet acquisition de données Analyse de données publication résultats fin projet cycle de vie au cours du projet cycle de vie dans l’entrepôt bornes du projet valorisation partage nouvelles publications citations réutilisation Conception projet de recherche démarrage projet acquisition de données Analyse de données publication résultats fin projet Plan de gestion de données
  20. 20. 20 Objectifs de l’entrepôt Première pièce de l’écosystème « gestion des données pour la  science ouverte » À court terme  Fournir un service (plateforme + accompagnement + curation) aux  chercheurs pour maitriser la diffusion de leur données et leur  préservation À moyen terme  Assurer la découverte des ressources IRD déposées dans d’autres  entrepôts, pôles de données, infrastructures de recherche (fonction  d’annuaire)
  21. 21. 21 Sur la visibilité des produits de leur recherche   Augmentation de la visibilité de leurs travaux   Indexation par les moteurs de recherche internationaux (DataCite,  Google, R3data.org…) Objectifs  Au service des chercheurs Sur la préservation et la réutilisation des données  Préservation des données pour les projets hors observatoires, IR ;  Récupération des données en danger  Apprendre les bonnes pratiques de gestion des données
  22. 22. 22 En interne  Répondre au plan national de la science ouverte  Améliorer la connaissance et la gestion de notre patrimoine de données  Un premier élément « concret » vers une politique de science ouverte à  l’IRD Objectifs  Au service de l’institut Pour nos partenaires Sud et internationaux  Améliorer l’accessibilité de nos données aux partenaires du sud  Être un support pour des initiatives de science ouverte au sud  (réplication de l’entrepôt, mise à disposition, renforcement de  capacités) Europe et international  Répondre aux exigences des programmes européens  S ’intégrer dans des infrastructures européennes EOSC  (European Open Science Cloud)
  23. 23. 23 Adhérence avec l’existant l’entrepôt interconnecté Lab Entrepôts ESR Français Observatoires Pôle de données PNDB Système Terre Moteur de recherche Entrepôt
  24. 24. 24 Méthodologie   Réunion d’informations   Recueils des besoins sur un large panel disciplinaire  Tests d’une application de dépôts et de partage Quelques exemples  Génomique   SHS  Milieu marin   Ecologie ‐ biodiversité  Santé  Environnement Méthodologie Nombreux besoins identifiés au sein des UMR… 3 séminaires d’informations et d’échanges organisés : > 10 UMR, DDUNI, DAJ, IST, MIDN
  25. 25. Plateforme technique 13/12/2018 25 « On ne réinvente pas, on réutilise et on adapte »
  26. 26. • Logiciel open source, créé en 2006 par Harvard • Installer une instance locale de Dataverse et participer au réseau de  Dataverse (Cirad, INRA, Science Po…) • Intégrer un « écosystème » d’entrepôts interopérables 26 Plateforme logicielle pour l’entrepôt IRD Outil open source Dataverse https://dataverse.org/
  27. 27. Une collection Un jeu de données Recherche générale Recherche ciblée Dataverse Interface web – découverte des données
  28. 28. La citation du jeu de  données Dataverse Interface web – Citation et accès aux données Les  données  associées
  29. 29. Fonctionnement type de l’entrepôt 29 Appui DAJ / Supports  d’accompagnement/  Hotline pour répondre  aux questions  • Création d’un espace et formation d’une personne référente • Unités, projets peuvent créer un espace de dépôt personnalisable « Dataverse », ….) Description et  dépôt de  données Validation du  dépôt par  IST/personne  désignée  Publication du  jeu de données  Référencement  dans les  moteurs et les  outils de  recherche  Données FAIR • Les chercheurs déposent, en accord,  avec le plan de gestion de données, un  jeu de données dans cet espace dans  des formats standardisés, et décrivent  leurs données • (ouvert /  fermée/embargo/métadonnée s seules)
  30. 30. Organisation du projet 13/12/2018 30
  31. 31. Organisation en interne Articulation entre pôle Science et pôle Appui MCST – Service  IST MIDN D‐DUNI – Service Etudes  et  Développement DRH – Service  Développement  des  compétences DAJ – Service  juridique 
  32. 32. 32 Calendrier prévisionnel Phases et première cible 1 • Recueils des besoins pour orienter le périmètre du projet et les choix techniques 2 • Tests et études techniques 3 • Mise en place de la plateforme Dataverse à l’IRD (septembre – janvier 19) • Configuration, développements annexes (fédération authentification, interopérabilité, visualisation) 5 • Phase d’utilisation pilote de Dataverse (janvier – mars 19) • Configuration, développements annexes (fédération authentification, interopérabilité,  visualisation) 6 • Ouverture de l’entrepôt de données – version 1 (printemps 19)
  33. 33. 33 Entrepôt de données  Mettre en place des Data Management Plans (DMPs), faisant  partie du processus de recherche, et l’établissant comme  condition pour l’obtention de fonds  Introduire des incitations positives à l’ouvertures des données  à leur « fairisation » : promouvoir et récompenser les pratiques  d’ouverture.  Tout en définissant l’ouverture comme le principe par défaut,  prévoir des dérogations avec une gestion des accès en  fonction des contraintes disciplinaires, légales et économiques.  Actuellement, les chercheurs sont placés devant des  injonctions contradictoires face à la science ouverte.  Réformer le système d’évaluation pour encourager le  partage des données.  Former les chercheurs aux principes, méthodes et bonnes  pratiques de la science ouverte.  Former des experts des données scientifiques et offrir de  véritables carrières à ces métiers, qui seront le pont entre  l’informatique et la recherche Eléments d’une politique de données ouvertes pour l’IRD Accès ouvert aux publications
  34. 34. 34  Entrepôt pour accueillir les données que les chercheurs de l’IRD souhaitent  déposer, partager  Rendre les données: Facile à trouver, Accessible, Interopérable, Réutilisable  Complémentarité avec les plateformes existantes : descriptions associés à la  création d’un DOI et aux fonctions de découverte sur les données Des objectifs raisonnables  Nombreuses attentes des scientifiques pour des contextes variés  Et des besoins différents (valorisation , préservation, attribution de  DOI, partage) Pour répondre aux besoins des chercheurs  Conclusion  Améliorer la connaissance et la gestion de notre patrimoine de données  Un premier élément « concret » vers une politique de science ouverte à  l’IRD Et au service de l’institut 

×