SlideShare une entreprise Scribd logo
1  sur  32
Entrepôt de données ouvertes IRD
Un service en ligne pour l’ouverture et le partage des
données scientifiques au Sud
Sète, le 13 septembre 2018
Published in: Ankit Agrawal; Alok Choudhary; APL Materials 2016, 4, Copyright © 2016 Author(s)
https://www.microsoft.com/en-us/research/publication/fourth-paradigm-data-intensive-scientific-discovery/
Le 4ème paradigme : la science dirigée par les données
Qu'est-ce que la science ouverte ?
La science ouverte, c’est la diffusion sans entrave des publications et des
données de la recherche. Elle s’appuie sur l’opportunité que représente la
mutation numérique pour développer l’accès ouvert aux publications et – autant
que possible – aux données de la recherche.
Son objectif : faire sortir la recherche financée sur fonds publics du cadre confiné
des bases de données fermées. Elle réduit les efforts dupliqués dans la collecte, la
création, le transfert et la réutilisation du matériel scientifique. Elle augmente
ainsi l’efficacité de la recherche.
La science ouverte vise à construire un écosystème dans lequel la science est
plus cumulative, plus fortement étayée par des données, plus transparente,
plus rapide et d’accès plus universel. Elle induit une démocratisation de l’accès
aux savoirs, utile à la recherche, à la formation, à l’économie, à la société.
Elle favorise les avancées scientifiques ainsi que l’innovation, les progrès
économiques et sociaux, en France, dans les pays développés et dans les pays en
développement.
Elle constitue un levier pour l’intégrité scientifique et favorise la confiance des
citoyens dans la science. Elle constitue un progrès scientifique et un progrès de
société.
4
« La science ouverte n’est pas une mode, ce n’est pas une discipline,
c’est un nouveau paradigme. Elle comporte donc ses nouvelles
pratiques et ses nouvelles compétences ». FrédériqueVidal. 4 juillet 2018.
http://m.enseignementsup-recherche.gouv.fr/cid132529/le-plan-national-pour-la-science-ouverte-les-resultats-de-la-recherche-scientifique-ouverts-a-tous-sans-
entrave-sans-delai-sans-paiement.html
Pourquoi partager les données ?
Entre injonctions et bénéfices Augmenter ces citations
Le partage des données
augmente l’attractivité
de l’article jusqu’à 69%
Étendre son réseau
nouvelle opportunité
pour
échanger/collaborer
Attirer sur son profil
chercheur
La demande pour réutiliser
les données est en forte
hausse
Renforcer ses possibilités
de recevoir des
financements
Compatibilité avec les
exigences des financeurs
Reproductibilité
Preuve
Résultats accessibles à tous public
Préservation
Description et visibilité
Pilote données ouvertes par défaut
Wiley
Incitation
ou
obligation
de partage
Protocole de
Nagoya
Comment ouvrir les données ?
6
partly FAIR, partly Cloudy
Barend Mons
Questions soulevées par l’ouverture des données
•1. C’est compliqué C’est la raison pour laquelle les infrastructures de données et
les plans de gestion des données existent (DMP).
•2. C’est cher C’est la raison pour laquelle les frais de structuration et d’ouverture
sont éligibles dans les appels à projets.
•3. C’est risqué pour les données sensibles (personnelle, secret défense, sécurité
publique, secret professionnel, secret industriel et commercial, risque pour la
protection du potentiel scientifique…) Données présentant des risques pour la
protection du potentiel scientifique et technique de la nation.
Dans tous ces cas, il ne faut pas ouvrir les données, mais on peut les Fairiser.
Marin Dacos, 27/03/2018 : Ouverture des données de la recherche DGESIP - DGRI Journée sur le doctorat
Aussi ouvert que possible, aussi fermé que nécessaire
Principes FAIR : Augmenter le potentiel des données
9
• Licence d’utilisation
appropriée
• Utiliser des formats
ouverts
• Utiliser une vocabulaire
partagé
• Standards de
métadonnées communs
• Gérer de façon pérenne
de l’accès aux données
• Obtenir l’accord des
producteurs
• Attribuer un
Identifiant pérenne
• Décrire les données
décrites au sein d’un
entrepôt
Facile à
trouver
Accessible
RéutilisableInteropérable
Contexte national
1
0
Plan national pour la science ouverte
3 axes pour sa concrétisation
Axe 1 Généraliser l’accès ouvert aux publications
Axe 2 : Structurer et ouvrir les données de la recherche
4 – obligation de la diffusion ouverte des données
5 - Créer la fonction d’administrateur des données par établissement
6 – Données ouvertes associées aux articles scientifiques
Axe 3 : s’inscrire dans une dynamique durable, européenne et
internationale
7 - Développer les compétences dans les écoles doctorales.
8 – Politique de science ouverte pour les opérateurs de la recherche
9 - Contribuer à la structuration européenne (EOSC,GO FAIR)
11
12
INRA
 Un site web et entrepôt de données
 Annuaire développé dans l’entrepôt de données
 Formations : Plan de gestion de données
 Liens entre données et documents (Prodinra)
CNRS
 Lié au TGIR HUMA-NUM : exemple Nakala (entrepôt de données), Isodore (moteur de recherche)
Ifremer
 entrepôt de données SEANOE
 Liens forts avec l’entrepôt de documents Archimer
CIRAD
 Entrepôt de données dataverse
 Un annuaire développé en dehors de l’entrepôt de données
 Des formations : Plan de gestion de données
Science Po
 Entrepôt de données dataverse du CDSP
INRIA
 Software héritage pour le dépôt des codes sources
CEA, IRSTEA
 Des préconisations
Ecosystème pour la science ouverte en France
Niveau d’avancement de nos partenaires
Notions autour des entrepôts de données
1313/02/2019 Présentation GT Données - IST - 27 mars 2018
Service en ligne permettant le dépôt, la description, la
conservation, la recherche et la diffusion des jeux de données.
Entrepôt disciplinaire / institutionnel / ouvert à toutes disciplines / Infrastructure nationale,
internationale
D’après Sylvie Cocaud. Cocaud et Aventurier 2017
Entrepôt de données de recherche
Définition
Déposer ses données dans un entrepôt facilite la découverte
et la réutilisation des données
Les entrepôts sont scannés par des outils de recherche spécifiques
 Data Cite search
 Data Citation Index (Thomson Reuters)
 Google Dataset Search
 Data Search (Elsevier)
Peuvent diffuser leurs données via le protocole d’échange standard
OAI-PMH
D’aprèsCocaud et Aventurier 2017
et moissonnés par des catalogues, intégrateurs, infrastructures européennes
de données… de plus en plus nombreux
Plus value des entrepôts pour les scientifiques
Augmentation de la visibilité des travaux
Vers un entrepôt de données ouvertes pour l’IRD
16
17
Positionnement
Données cibles 1/2
Données non structurées, non
numérisées, enfouies dans les PC,
historiques non rattachées à des BD
accessibles en interne ou externe
Observatoires, pôles
de données, base de
données accessibles
sur le web
Distribution des données de la recherche
(Ferguson et al., 2014)
https://libereurope.eu/wp-content/uploads/PARSE-Insight_D3-5_InterimInsightReport_final.pd
Positionnement
Données cibles 2/2
Identificationdescriptiondécouverte
stockage
dépôt
Motivations
Changer les pratiques de gestion des données
19
oubli
destruction
Conception projet
de recherche
démarrage
projet
acquisition de
données
Analyse de
données
publication
résultats
fin projet
cycle de vie au cours du projet
cycle de vie dans l’entrepôt
bornes du projet
valorisation
partage
nouvelles
publications
citations
réutilisation
Conception projet
de recherche
démarrage
projet
acquisition de
données
Analyse de
données
publication
résultats
fin projet
Plan de
gestion de
données
20
Objectifs de l’entrepôt
Première pièce de l’écosystème « gestion des données pour la
science ouverte »
À court terme
 Fournir un service (plateforme + accompagnement + curation) aux
chercheurs pour maitriser la diffusion de leur données et leur
préservation
À moyen terme
 Assurer la découverte des ressources IRD déposées dans d’autres
entrepôts, pôles de données, infrastructures de recherche (fonction
d’annuaire)
21
Sur la visibilité des produits de leur recherche
 Augmentation de la visibilité de leurs travaux
 Indexation par les moteurs de recherche internationaux (DataCite,
Google, R3data.org…)
Objectifs
Au service des chercheurs
Sur la préservation et la réutilisation des données
 Préservation des données pour les projets hors observatoires, IR ;
Récupération des données en danger
 Apprendre les bonnes pratiques de gestion des données
22
En interne
 Répondre au plan national de la science ouverte
 Améliorer la connaissance et la gestion de notre patrimoine de données
 Un premier élément « concret » vers une politique de science ouverte à
l’IRD
Objectifs
Au service de l’institut
Pour nos partenaires Sud et internationaux
 Améliorer l’accessibilité de nos données aux partenaires du sud
 Être un support pour des initiatives de science ouverte au sud
(réplication de l’entrepôt, mise à disposition, renforcement de
capacités)
Europe et international
 Répondre aux exigences des programmes européens
 S ’intégrer dans des infrastructures européennes EOSC (European
Open Science Cloud)
23
Adhérence avec l’existant
l’entrepôt interconnecté
Lab
Entrepôts
ESR Français
Observatoires
Pôle de
données
PNDB
Système Terre
Moteur de
recherche
Entrepôt
24
Méthodologie
 Réunion d’informations
 Recueils des besoins sur un large panel disciplinaire
 Tests d’une application de dépôts et de partage
Quelques exemples
 Génomique
 SHS
 Milieu marin
 Ecologie - biodiversité
 Santé
 Environnement
Méthodologie
Nombreux besoins identifiés au sein des UMR…
3 séminaires d’informations et d’échanges organisés :
> 10 UMR, DDUNI, DAJ, IST, MIDN
Plateforme technique
13/02/2019 25
« On ne réinvente pas, on réutilise et on adapte »
• Logiciel open source, créé en 2006 par Harvard
• Installer une instance locale de Dataverse et participer au réseau de
Dataverse (Cirad, INRA, Science Po…)
• Intégrer un « écosystème » d’entrepôts interopérables
26
Plateforme logicielle pour l’entrepôt IRD
Outil open source Dataverse
https://dataverse.org/
Une collection
Un jeu de données
Recherche générale
Recherche ciblée
Dataverse
Interface web – découverte des données
La citation du jeu de
données
Dataverse
Interface web – Citation et accès aux données
Les
données
associées
Fonctionnement type de l’entrepôt
29
Appui DAJ / Supports
d’accompagnement/
Hotline pour répondre
aux questions
• Création d’un espace et formation d’une personne référente
• Unités, projets peuvent créer un espace de dépôt personnalisable « Dataverse », ….)
Description et
dépôt de
données
Validation du
dépôt par
IST/personne
désignée
Publication du
jeu de données
Référencement
dans les
moteurs et les
outils de
recherche
Données FAIR
• Les chercheurs déposent, en accord,
avec le plan de gestion de données, un
jeu de données dans cet espace dans
des formats standardisés, et décrivent
leurs données
• (ouvert /
fermée/embargo/métadonnée
s seules)
Organisation du projet
13/02/2019 30
Organisation en interne
Articulation entre pôle Science et pôle Appui
MCST – Service
IST
MIDN
D-DUNI –
Service Etudes
et
Développement
DRH – Service
Développement
des
compétences
DAJ – Service
juridique
32
Calendrier prévisionnel
Phases et première cible
1
• Recueils des besoins pour orienter le périmètre du projet et les choix techniques
2
• Tests et études techniques
3
• Mise en place de la plateforme Dataverse à l’IRD (septembre – janvier 19)
• Configuration, développements annexes (fédération authentification, interopérabilité, visualisation)
5
• Phase d’utilisation pilote de Dataverse (janvier – mars 19)
• Configuration, développements annexes (fédération authentification, interopérabilité,
visualisation)
6
• Ouverture de l’entrepôt de données – version 1 (printemps 19)
33
 Entrepôt pour accueillir les données que les chercheurs de l’IRD souhaitent
déposer, partager
 Rendre les données: Facile à trouver, Accessible, Interopérable, Réutilisable
 Complémentarité avec les plateformes existantes : descriptions associés à la
création d’un DOI et aux fonctions de découverte sur les données
Des objectifs raisonnables
 Nombreuses attentes des scientifiques pour des contextes variés
 Et des besoins différents (valorisation , préservation, attribution de
DOI, partage)
Pour répondre aux besoins des chercheurs
Conclusion
 Améliorer la connaissance et la gestion de notre patrimoine de données
 Un premier élément « concret » vers une politique de science ouverte à
l’IRD
Et au service de l’institut

Contenu connexe

Tendances

Tendances (20)

Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...
 
Stage pgd 2021-04-07
Stage pgd 2021-04-07Stage pgd 2021-04-07
Stage pgd 2021-04-07
 
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
 
L'Open Access et les Données de la Recherche dans le cadre du Programme Horiz...
L'Open Access et les Données de la Recherche dans le cadre du Programme Horiz...L'Open Access et les Données de la Recherche dans le cadre du Programme Horiz...
L'Open Access et les Données de la Recherche dans le cadre du Programme Horiz...
 
Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheFiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
 
Open Access scientific Literature
Open Access scientific LiteratureOpen Access scientific Literature
Open Access scientific Literature
 
Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...
Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...
Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...
 
Données de la recherche : quel positionnement et quels rôles pour les bibliot...
Données de la recherche : quel positionnement et quels rôles pour les bibliot...Données de la recherche : quel positionnement et quels rôles pour les bibliot...
Données de la recherche : quel positionnement et quels rôles pour les bibliot...
 
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...
 
M allanic piv2017_c
M allanic piv2017_cM allanic piv2017_c
M allanic piv2017_c
 
Let's talk about policy! Politiques publiques pour l’ouverture des données sc...
Let's talk about policy! Politiques publiques pour l’ouverture des données sc...Let's talk about policy! Politiques publiques pour l’ouverture des données sc...
Let's talk about policy! Politiques publiques pour l’ouverture des données sc...
 
Accompagnement actif des chercheurs à la gestion et au partage des données de...
Accompagnement actif des chercheurs à la gestion et au partage des données de...Accompagnement actif des chercheurs à la gestion et au partage des données de...
Accompagnement actif des chercheurs à la gestion et au partage des données de...
 
Réaliser un plan de gestion de données
Réaliser un plan de gestion de donnéesRéaliser un plan de gestion de données
Réaliser un plan de gestion de données
 
Archives ouvertes - Perspectives Europeennes
Archives ouvertes - Perspectives EuropeennesArchives ouvertes - Perspectives Europeennes
Archives ouvertes - Perspectives Europeennes
 
IST, comment préparer l'avenir ?
IST, comment préparer l'avenir ?IST, comment préparer l'avenir ?
IST, comment préparer l'avenir ?
 
Mc jacquemot piv2017_c
Mc jacquemot piv2017_cMc jacquemot piv2017_c
Mc jacquemot piv2017_c
 
Gerer ses données avec un Plan de Gestion de Donnees (PGD/DMP). 20/09/2018. J...
Gerer ses données avec un Plan de Gestion de Donnees (PGD/DMP). 20/09/2018. J...Gerer ses données avec un Plan de Gestion de Donnees (PGD/DMP). 20/09/2018. J...
Gerer ses données avec un Plan de Gestion de Donnees (PGD/DMP). 20/09/2018. J...
 
Documation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifiéDocumation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifié
 
Votre "data" je vous la sers comment ?
Votre "data" je vous la sers comment ?Votre "data" je vous la sers comment ?
Votre "data" je vous la sers comment ?
 
Données ouvertes de la recherche : nouvelles pratiques de publication et de p...
Données ouvertes de la recherche : nouvelles pratiques de publication et de p...Données ouvertes de la recherche : nouvelles pratiques de publication et de p...
Données ouvertes de la recherche : nouvelles pratiques de publication et de p...
 

Similaire à Presentation entrepot polescience-v73-ssbonus

Une introduction aux données de la recherche. Journée d'Etude Agropolis Montp...
Une introduction aux données de la recherche. Journée d'Etude Agropolis Montp...Une introduction aux données de la recherche. Journée d'Etude Agropolis Montp...
Une introduction aux données de la recherche. Journée d'Etude Agropolis Montp...
pascal aventurier
 
OpenData : au-delà des publications, le partage des données de la recherche e...
OpenData : au-delà des publications, le partage des données de la recherche e...OpenData : au-delà des publications, le partage des données de la recherche e...
OpenData : au-delà des publications, le partage des données de la recherche e...
Thierry Chanier
 
ResearchGate et les réseaux sociaux en recherche
ResearchGate et les réseaux sociaux en rechercheResearchGate et les réseaux sociaux en recherche
ResearchGate et les réseaux sociaux en recherche
pascal aventurier
 
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
infoclio.ch
 
Raymond Werlen (CRUS) - Les enjeux de l’information scientifique. Le point de...
Raymond Werlen (CRUS) - Les enjeux de l’information scientifique. Le point de...Raymond Werlen (CRUS) - Les enjeux de l’information scientifique. Le point de...
Raymond Werlen (CRUS) - Les enjeux de l’information scientifique. Le point de...
infoclio.ch
 
Congress 09 data_share_handout_f
Congress 09 data_share_handout_fCongress 09 data_share_handout_f
Congress 09 data_share_handout_f
Fyrdaous Lahlou
 
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
olivier
 

Similaire à Presentation entrepot polescience-v73-ssbonus (20)

L'Accord Science Internationale sur les données ouvertues dans un monde des d...
L'Accord Science Internationale sur les données ouvertues dans un monde des d...L'Accord Science Internationale sur les données ouvertues dans un monde des d...
L'Accord Science Internationale sur les données ouvertues dans un monde des d...
 
Une introduction aux données de la recherche. Journée d'Etude Agropolis Montp...
Une introduction aux données de la recherche. Journée d'Etude Agropolis Montp...Une introduction aux données de la recherche. Journée d'Etude Agropolis Montp...
Une introduction aux données de la recherche. Journée d'Etude Agropolis Montp...
 
Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...
Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...
Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...
 
5Jpro CTLes : intervention MM Géroudet
5Jpro CTLes : intervention MM Géroudet5Jpro CTLes : intervention MM Géroudet
5Jpro CTLes : intervention MM Géroudet
 
OpenData : au-delà des publications, le partage des données de la recherche e...
OpenData : au-delà des publications, le partage des données de la recherche e...OpenData : au-delà des publications, le partage des données de la recherche e...
OpenData : au-delà des publications, le partage des données de la recherche e...
 
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
 
OpenMinTeD - Une infrastructure text-mining au service des scientifiques
OpenMinTeD - Une infrastructure text-mining au service des scientifiquesOpenMinTeD - Une infrastructure text-mining au service des scientifiques
OpenMinTeD - Une infrastructure text-mining au service des scientifiques
 
Retour sur 5 années d'évolution des problématiques IST : rapport d'étonnement
Retour sur 5 années d'évolution des problématiques IST : rapport d'étonnementRetour sur 5 années d'évolution des problématiques IST : rapport d'étonnement
Retour sur 5 années d'évolution des problématiques IST : rapport d'étonnement
 
ResearchGate et les réseaux sociaux en recherche
ResearchGate et les réseaux sociaux en rechercheResearchGate et les réseaux sociaux en recherche
ResearchGate et les réseaux sociaux en recherche
 
Contribution des Archives Ouvertes dans les grandes réformes de l'Enseignemen...
Contribution des Archives Ouvertes dans les grandes réformes de l'Enseignemen...Contribution des Archives Ouvertes dans les grandes réformes de l'Enseignemen...
Contribution des Archives Ouvertes dans les grandes réformes de l'Enseignemen...
 
JE_FGouzi-ABarrio_SCDPau
JE_FGouzi-ABarrio_SCDPauJE_FGouzi-ABarrio_SCDPau
JE_FGouzi-ABarrio_SCDPau
 
Duchesne Medialab Mai09
Duchesne Medialab Mai09Duchesne Medialab Mai09
Duchesne Medialab Mai09
 
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesFiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
 
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
 
Raymond Werlen (CRUS) - Les enjeux de l’information scientifique. Le point de...
Raymond Werlen (CRUS) - Les enjeux de l’information scientifique. Le point de...Raymond Werlen (CRUS) - Les enjeux de l’information scientifique. Le point de...
Raymond Werlen (CRUS) - Les enjeux de l’information scientifique. Le point de...
 
Evolution de la bibliothèque scientifique: La nouvelle stratégie LIBER 2018-2022
Evolution de la bibliothèque scientifique: La nouvelle stratégie LIBER 2018-2022Evolution de la bibliothèque scientifique: La nouvelle stratégie LIBER 2018-2022
Evolution de la bibliothèque scientifique: La nouvelle stratégie LIBER 2018-2022
 
Congress 09 data_share_handout_f
Congress 09 data_share_handout_fCongress 09 data_share_handout_f
Congress 09 data_share_handout_f
 
Science ouverte en Afro-Francophonie subsaharienne
Science ouverte en Afro-Francophonie subsaharienneScience ouverte en Afro-Francophonie subsaharienne
Science ouverte en Afro-Francophonie subsaharienne
 
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
 
Cersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutionsCersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutions
 

Plus de Desconnets Jean-Christophe

Plus de Desconnets Jean-Christophe (20)

Les entrepôts de données ou comment rendre les données trouvables accessibles...
Les entrepôts de données ou comment rendre les données trouvables accessibles...Les entrepôts de données ou comment rendre les données trouvables accessibles...
Les entrepôts de données ou comment rendre les données trouvables accessibles...
 
infrastructures de données geosud : des standards à la réalité
infrastructures de données geosud : des standards à la réalitéinfrastructures de données geosud : des standards à la réalité
infrastructures de données geosud : des standards à la réalité
 
How to populate the GEONETCAB portal ?
How to populate the GEONETCAB portal ? How to populate the GEONETCAB portal ?
How to populate the GEONETCAB portal ?
 
Eopower Resource Facility and connection with others resource facilities
Eopower Resource Facility and connection with others resource facilitiesEopower Resource Facility and connection with others resource facilities
Eopower Resource Facility and connection with others resource facilities
 
Eopower Resource Facility and connection with others resource facilities
Eopower Resource Facility and connection with others resource facilitiesEopower Resource Facility and connection with others resource facilities
Eopower Resource Facility and connection with others resource facilities
 
WGCapD Collaboration with EOPOWER on Resource facility
WGCapD Collaboration with EOPOWER on Resource facilityWGCapD Collaboration with EOPOWER on Resource facility
WGCapD Collaboration with EOPOWER on Resource facility
 
GEOCAB portal : GEO Capacity Portal
GEOCAB portal : GEO Capacity PortalGEOCAB portal : GEO Capacity Portal
GEOCAB portal : GEO Capacity Portal
 
Proposition de structuration des métadonnées en géosciences: spécificité de l...
Proposition de structuration des métadonnées en géosciences: spécificité de l...Proposition de structuration des métadonnées en géosciences: spécificité de l...
Proposition de structuration des métadonnées en géosciences: spécificité de l...
 
Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...
 
Gestion des métadonnées. ANR PADOUE
Gestion des métadonnées. ANR PADOUEGestion des métadonnées. ANR PADOUE
Gestion des métadonnées. ANR PADOUE
 
Approche pour la constitution et la mise en oeuvre des systèmes d'information...
Approche pour la constitution et la mise en oeuvre des systèmes d'information...Approche pour la constitution et la mise en oeuvre des systèmes d'information...
Approche pour la constitution et la mise en oeuvre des systèmes d'information...
 
Les métadonnées pour la mutualisation de l'information géographique: expérien...
Les métadonnées pour la mutualisation de l'information géographique: expérien...Les métadonnées pour la mutualisation de l'information géographique: expérien...
Les métadonnées pour la mutualisation de l'information géographique: expérien...
 
using a semantic approach for a cataloguing service
using a semantic approach for a cataloguing serviceusing a semantic approach for a cataloguing service
using a semantic approach for a cataloguing service
 
MDweb: outil libre de catalogage et de localisation de l'information
MDweb: outil libre de catalogage et de localisation de l'informationMDweb: outil libre de catalogage et de localisation de l'information
MDweb: outil libre de catalogage et de localisation de l'information
 
MDweb: un composant pour le catalogage et la localisation de l'information en...
MDweb: un composant pour le catalogage et la localisation de l'information en...MDweb: un composant pour le catalogage et la localisation de l'information en...
MDweb: un composant pour le catalogage et la localisation de l'information en...
 
spatial data infrastructure : data modelling and web services for data access
spatial data infrastructure : data modelling and web services for data accessspatial data infrastructure : data modelling and web services for data access
spatial data infrastructure : data modelling and web services for data access
 
spatial data infrastructure : issues and concepts
spatial data infrastructure : issues and conceptsspatial data infrastructure : issues and concepts
spatial data infrastructure : issues and concepts
 
Mutualization of environmental data and knowledge
Mutualization of environmental data and knowledgeMutualization of environmental data and knowledge
Mutualization of environmental data and knowledge
 
infrastructure de données spatiales: notions et enjeux
infrastructure de données spatiales: notions et enjeuxinfrastructure de données spatiales: notions et enjeux
infrastructure de données spatiales: notions et enjeux
 
the capacity building resource access portal
the capacity building resource access portal the capacity building resource access portal
the capacity building resource access portal
 

Presentation entrepot polescience-v73-ssbonus

  • 1. Entrepôt de données ouvertes IRD Un service en ligne pour l’ouverture et le partage des données scientifiques au Sud Sète, le 13 septembre 2018
  • 2. Published in: Ankit Agrawal; Alok Choudhary; APL Materials 2016, 4, Copyright © 2016 Author(s) https://www.microsoft.com/en-us/research/publication/fourth-paradigm-data-intensive-scientific-discovery/ Le 4ème paradigme : la science dirigée par les données
  • 3. Qu'est-ce que la science ouverte ? La science ouverte, c’est la diffusion sans entrave des publications et des données de la recherche. Elle s’appuie sur l’opportunité que représente la mutation numérique pour développer l’accès ouvert aux publications et – autant que possible – aux données de la recherche. Son objectif : faire sortir la recherche financée sur fonds publics du cadre confiné des bases de données fermées. Elle réduit les efforts dupliqués dans la collecte, la création, le transfert et la réutilisation du matériel scientifique. Elle augmente ainsi l’efficacité de la recherche. La science ouverte vise à construire un écosystème dans lequel la science est plus cumulative, plus fortement étayée par des données, plus transparente, plus rapide et d’accès plus universel. Elle induit une démocratisation de l’accès aux savoirs, utile à la recherche, à la formation, à l’économie, à la société. Elle favorise les avancées scientifiques ainsi que l’innovation, les progrès économiques et sociaux, en France, dans les pays développés et dans les pays en développement. Elle constitue un levier pour l’intégrité scientifique et favorise la confiance des citoyens dans la science. Elle constitue un progrès scientifique et un progrès de société. 4 « La science ouverte n’est pas une mode, ce n’est pas une discipline, c’est un nouveau paradigme. Elle comporte donc ses nouvelles pratiques et ses nouvelles compétences ». FrédériqueVidal. 4 juillet 2018. http://m.enseignementsup-recherche.gouv.fr/cid132529/le-plan-national-pour-la-science-ouverte-les-resultats-de-la-recherche-scientifique-ouverts-a-tous-sans- entrave-sans-delai-sans-paiement.html
  • 4. Pourquoi partager les données ? Entre injonctions et bénéfices Augmenter ces citations Le partage des données augmente l’attractivité de l’article jusqu’à 69% Étendre son réseau nouvelle opportunité pour échanger/collaborer Attirer sur son profil chercheur La demande pour réutiliser les données est en forte hausse Renforcer ses possibilités de recevoir des financements Compatibilité avec les exigences des financeurs Reproductibilité Preuve Résultats accessibles à tous public Préservation Description et visibilité Pilote données ouvertes par défaut Wiley Incitation ou obligation de partage Protocole de Nagoya
  • 5. Comment ouvrir les données ? 6
  • 6. partly FAIR, partly Cloudy Barend Mons
  • 7. Questions soulevées par l’ouverture des données •1. C’est compliqué C’est la raison pour laquelle les infrastructures de données et les plans de gestion des données existent (DMP). •2. C’est cher C’est la raison pour laquelle les frais de structuration et d’ouverture sont éligibles dans les appels à projets. •3. C’est risqué pour les données sensibles (personnelle, secret défense, sécurité publique, secret professionnel, secret industriel et commercial, risque pour la protection du potentiel scientifique…) Données présentant des risques pour la protection du potentiel scientifique et technique de la nation. Dans tous ces cas, il ne faut pas ouvrir les données, mais on peut les Fairiser. Marin Dacos, 27/03/2018 : Ouverture des données de la recherche DGESIP - DGRI Journée sur le doctorat Aussi ouvert que possible, aussi fermé que nécessaire
  • 8. Principes FAIR : Augmenter le potentiel des données 9 • Licence d’utilisation appropriée • Utiliser des formats ouverts • Utiliser une vocabulaire partagé • Standards de métadonnées communs • Gérer de façon pérenne de l’accès aux données • Obtenir l’accord des producteurs • Attribuer un Identifiant pérenne • Décrire les données décrites au sein d’un entrepôt Facile à trouver Accessible RéutilisableInteropérable
  • 10. Plan national pour la science ouverte 3 axes pour sa concrétisation Axe 1 Généraliser l’accès ouvert aux publications Axe 2 : Structurer et ouvrir les données de la recherche 4 – obligation de la diffusion ouverte des données 5 - Créer la fonction d’administrateur des données par établissement 6 – Données ouvertes associées aux articles scientifiques Axe 3 : s’inscrire dans une dynamique durable, européenne et internationale 7 - Développer les compétences dans les écoles doctorales. 8 – Politique de science ouverte pour les opérateurs de la recherche 9 - Contribuer à la structuration européenne (EOSC,GO FAIR) 11
  • 11. 12 INRA  Un site web et entrepôt de données  Annuaire développé dans l’entrepôt de données  Formations : Plan de gestion de données  Liens entre données et documents (Prodinra) CNRS  Lié au TGIR HUMA-NUM : exemple Nakala (entrepôt de données), Isodore (moteur de recherche) Ifremer  entrepôt de données SEANOE  Liens forts avec l’entrepôt de documents Archimer CIRAD  Entrepôt de données dataverse  Un annuaire développé en dehors de l’entrepôt de données  Des formations : Plan de gestion de données Science Po  Entrepôt de données dataverse du CDSP INRIA  Software héritage pour le dépôt des codes sources CEA, IRSTEA  Des préconisations Ecosystème pour la science ouverte en France Niveau d’avancement de nos partenaires
  • 12. Notions autour des entrepôts de données 1313/02/2019 Présentation GT Données - IST - 27 mars 2018
  • 13. Service en ligne permettant le dépôt, la description, la conservation, la recherche et la diffusion des jeux de données. Entrepôt disciplinaire / institutionnel / ouvert à toutes disciplines / Infrastructure nationale, internationale D’après Sylvie Cocaud. Cocaud et Aventurier 2017 Entrepôt de données de recherche Définition
  • 14. Déposer ses données dans un entrepôt facilite la découverte et la réutilisation des données Les entrepôts sont scannés par des outils de recherche spécifiques  Data Cite search  Data Citation Index (Thomson Reuters)  Google Dataset Search  Data Search (Elsevier) Peuvent diffuser leurs données via le protocole d’échange standard OAI-PMH D’aprèsCocaud et Aventurier 2017 et moissonnés par des catalogues, intégrateurs, infrastructures européennes de données… de plus en plus nombreux Plus value des entrepôts pour les scientifiques Augmentation de la visibilité des travaux
  • 15. Vers un entrepôt de données ouvertes pour l’IRD 16
  • 16. 17 Positionnement Données cibles 1/2 Données non structurées, non numérisées, enfouies dans les PC, historiques non rattachées à des BD accessibles en interne ou externe Observatoires, pôles de données, base de données accessibles sur le web Distribution des données de la recherche (Ferguson et al., 2014)
  • 18. Identificationdescriptiondécouverte stockage dépôt Motivations Changer les pratiques de gestion des données 19 oubli destruction Conception projet de recherche démarrage projet acquisition de données Analyse de données publication résultats fin projet cycle de vie au cours du projet cycle de vie dans l’entrepôt bornes du projet valorisation partage nouvelles publications citations réutilisation Conception projet de recherche démarrage projet acquisition de données Analyse de données publication résultats fin projet Plan de gestion de données
  • 19. 20 Objectifs de l’entrepôt Première pièce de l’écosystème « gestion des données pour la science ouverte » À court terme  Fournir un service (plateforme + accompagnement + curation) aux chercheurs pour maitriser la diffusion de leur données et leur préservation À moyen terme  Assurer la découverte des ressources IRD déposées dans d’autres entrepôts, pôles de données, infrastructures de recherche (fonction d’annuaire)
  • 20. 21 Sur la visibilité des produits de leur recherche  Augmentation de la visibilité de leurs travaux  Indexation par les moteurs de recherche internationaux (DataCite, Google, R3data.org…) Objectifs Au service des chercheurs Sur la préservation et la réutilisation des données  Préservation des données pour les projets hors observatoires, IR ; Récupération des données en danger  Apprendre les bonnes pratiques de gestion des données
  • 21. 22 En interne  Répondre au plan national de la science ouverte  Améliorer la connaissance et la gestion de notre patrimoine de données  Un premier élément « concret » vers une politique de science ouverte à l’IRD Objectifs Au service de l’institut Pour nos partenaires Sud et internationaux  Améliorer l’accessibilité de nos données aux partenaires du sud  Être un support pour des initiatives de science ouverte au sud (réplication de l’entrepôt, mise à disposition, renforcement de capacités) Europe et international  Répondre aux exigences des programmes européens  S ’intégrer dans des infrastructures européennes EOSC (European Open Science Cloud)
  • 22. 23 Adhérence avec l’existant l’entrepôt interconnecté Lab Entrepôts ESR Français Observatoires Pôle de données PNDB Système Terre Moteur de recherche Entrepôt
  • 23. 24 Méthodologie  Réunion d’informations  Recueils des besoins sur un large panel disciplinaire  Tests d’une application de dépôts et de partage Quelques exemples  Génomique  SHS  Milieu marin  Ecologie - biodiversité  Santé  Environnement Méthodologie Nombreux besoins identifiés au sein des UMR… 3 séminaires d’informations et d’échanges organisés : > 10 UMR, DDUNI, DAJ, IST, MIDN
  • 24. Plateforme technique 13/02/2019 25 « On ne réinvente pas, on réutilise et on adapte »
  • 25. • Logiciel open source, créé en 2006 par Harvard • Installer une instance locale de Dataverse et participer au réseau de Dataverse (Cirad, INRA, Science Po…) • Intégrer un « écosystème » d’entrepôts interopérables 26 Plateforme logicielle pour l’entrepôt IRD Outil open source Dataverse https://dataverse.org/
  • 26. Une collection Un jeu de données Recherche générale Recherche ciblée Dataverse Interface web – découverte des données
  • 27. La citation du jeu de données Dataverse Interface web – Citation et accès aux données Les données associées
  • 28. Fonctionnement type de l’entrepôt 29 Appui DAJ / Supports d’accompagnement/ Hotline pour répondre aux questions • Création d’un espace et formation d’une personne référente • Unités, projets peuvent créer un espace de dépôt personnalisable « Dataverse », ….) Description et dépôt de données Validation du dépôt par IST/personne désignée Publication du jeu de données Référencement dans les moteurs et les outils de recherche Données FAIR • Les chercheurs déposent, en accord, avec le plan de gestion de données, un jeu de données dans cet espace dans des formats standardisés, et décrivent leurs données • (ouvert / fermée/embargo/métadonnée s seules)
  • 30. Organisation en interne Articulation entre pôle Science et pôle Appui MCST – Service IST MIDN D-DUNI – Service Etudes et Développement DRH – Service Développement des compétences DAJ – Service juridique
  • 31. 32 Calendrier prévisionnel Phases et première cible 1 • Recueils des besoins pour orienter le périmètre du projet et les choix techniques 2 • Tests et études techniques 3 • Mise en place de la plateforme Dataverse à l’IRD (septembre – janvier 19) • Configuration, développements annexes (fédération authentification, interopérabilité, visualisation) 5 • Phase d’utilisation pilote de Dataverse (janvier – mars 19) • Configuration, développements annexes (fédération authentification, interopérabilité, visualisation) 6 • Ouverture de l’entrepôt de données – version 1 (printemps 19)
  • 32. 33  Entrepôt pour accueillir les données que les chercheurs de l’IRD souhaitent déposer, partager  Rendre les données: Facile à trouver, Accessible, Interopérable, Réutilisable  Complémentarité avec les plateformes existantes : descriptions associés à la création d’un DOI et aux fonctions de découverte sur les données Des objectifs raisonnables  Nombreuses attentes des scientifiques pour des contextes variés  Et des besoins différents (valorisation , préservation, attribution de DOI, partage) Pour répondre aux besoins des chercheurs Conclusion  Améliorer la connaissance et la gestion de notre patrimoine de données  Un premier élément « concret » vers une politique de science ouverte à l’IRD Et au service de l’institut