Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, moteur de la recherche et de l'innovation, deux outils au service de l'activité scientifique"
Similaire à Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, moteur de la recherche et de l'innovation, deux outils au service de l'activité scientifique"
Similaire à Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, moteur de la recherche et de l'innovation, deux outils au service de l'activité scientifique" (20)
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, moteur de la recherche et de l'innovation, deux outils au service de l'activité scientifique"
1. Utilisations de bases et référentiels ouverts
pour aider au pilotage de politiques
publiques
Exemple de ScanR et du Baromètre de la Science Ouverte
JABES
29 Mai 2019
Mai 2019Départements outils d’aide à la décision 1
2. Agenda
2Départements outils d’aide à la décision Mai 2019
■ Qui sommes nous ?
■ Comment avons nous construit ScanR et le Baromètre de la
Science Ouverte ?
■ Quels enseignements en avons nous tirés ?
3. Qui sommes nous ?
Mai 2019Départements outils d’aide à la décision 3
4. Qui sommes nous ? Notre philosophie …
4Départements outils d’aide à la décision Mai 2019
➔ On n’entretient pas de référentiel propre
○ mais (ré)utilisons, transformons, croisons les référentiels existants
➔ On ne produit pas directement de sources
○ mais on les structure, on les enrichit
➔ On partage le fruit de nos travaux (APIs, Open Data ..)
➔ Avec un positionnement transversal
○ Enseignement supérieur, recherche et d’innovation
○ public et privé
○ international
○ transdisciplinaire et transmétier (RH, finance, immobilier, brevets,
publications)
5. De la collecte d’informations à l’exposition
de services ouverts
5Départements outils d’aide à la décision Mai 2019
www
API
BDD
www
www
BDD
Collecte des données
➔ Identification des
sources
➔ Récupération des
données (stock et
mises à jour)
➔ Formats très
hétérogènes
Enrichissement et
croisement des données
➔ Ajout d’identifiants
(alignement)
➔ Croisement des
informations
concernant un
même objet
➔ Liaisons des objets
entre eux
Structuration de
l’information
➔ Extraction des
informations
➔ Normalisation
des informations
(schémas de
données)
Exposition de nouveaux
services ouverts
➔ Site web
➔ Widgets
➔ APIs
➔ Open Data
ScanR
Baromètre
Science Ouverte
dataESR
EESRI
...
7. Les Objectifs du Baromètre de la science ouverte
7Départements outils d’aide à la décision Mai 2019
Piloter la Science Ouverte en France
Engagement du 1er axe du Plan National pour la Science
Ouverte (Juillet 2018)
Mesurer régulièrement les tendances de l’Open
Access en France
- à partir de données ouvertes
- de façon décomposable (par champ disciplinaire
notamment)
- à partir de données interopérables et partageables
8. Baromètre de la science ouverte
Une méthodologie en 3 étapes
8Départements outils d’aide à la décision Mai 2019
1 - Identifier les publications avec une affiliation française
Approche en entonnoir: d’une liste la plus exhaustive de
publications vers une liste de publications “françaises”
(un auteur avec une affiliation FR)
2 - Enrichir les méta-données de ces publications
- Champ disciplinaire
- Ajout d’identifiants pour les auteurs et affiliations quand
c’est possible
3 - Déterminer quelles publications sont Open Access
- A partir du service Unpaywall (basé sur le DOI)
9. Baromètre de la science ouverte
Premiers résultats sur 2013 - 2017
9Départements outils d’aide à la décision Mai 2019
Taux Open Access par discipline en 2017
Evolution du taux Open Access 2013 - 2017
➔ Des résultats très hétérogènes entre champs
disciplinaires
➔ Le statut OA est dynamique : le délai de passage OA
+ délai d’observation crée un décalage expliquant le
léger repli de 2017
10. Baromètre de la science ouverte
Quels services utilisés ? Qu’avons nous dû construire ?
10Départements outils d’aide à la décision Mai 2019
Services et données utilisés
➔ Pour lister les publications et détecter leur statut
Open Access
➔ Pour lister des noms de personnes ayant (eu) une
affiliation française
➔ Pour bâtir une base de données d’apprentissage
➔ Pour identifier les publications
Ce que nous avons dû
construire
➔ Outil de détection des affiliations françaises
dans une page web (redirection DOI)
➔ Algorithme de machine learning pour inférer le
champ disciplinaire à partir du titre d’une
publication et de sa revue
11. Baromètre de la science ouverte
Quelles difficultés avons nous rencontrées ?
11Départements outils d’aide à la décision Mai 2019
➔ Accès à la donnée d’affiliations
○ Donnée peu disponible directement dans des sources ouvertes
○ Recours à des techniques d’analyse de pages web
⇒ Implique nécessairement des erreurs, mais que nous tentons de maîtriser en mesurant le taux
d’erreur (4% de faux positifs dans ce cas)
➔ Détection Open Access (basée sur Unpaywall et HAL)
○ Unpaywall aussi peut fournir un résultat erroné
○ Le statut Open Access peut varier dans le temps
(Closed → Open mais aussi Open → Closed)
⇒ Les résultats fournis sont des photos à un instant donné mais les chiffres peuvent évoluer, y compris
en historique
⇒ Nous tâcherons de mesurer la “vitesse” d’évolution : à quel rythme une publication devient-elle OA ?
➔ Publications sans DOI
○ Quelle(s) sources utiliser ? Quel identifiant ?
○ Comment repérer si OA ? (Unpaywall est basé sur les DOI)
⇒ Pour le moment nous nous restreignons aux publications avec un DOI
13. Les Objectifs de ScanR
13Départements outils d’aide à la décision Mai 2019
➔ Rendre accessible à tous (sans contrôle d’accès) une vision du paysage des acteurs
français de la recherche (publics/privés, tous domaines) , via un moteur de
recherche combiné à des filtres (discipline, géographie …)
➔ Améliorer la pertinence des résultats avec une approche participative avec
modération : corrections, repérages complémentaires, suggestions de sites à
crawler, …
La 1ere version sortie en 2016 présente deux grands modes de restitution :
• « Fiche structure » : carte d’identité, listes d’objets (publications, projets) qui
sont reliés à la structure, visualisation du voisinage/relations
• « Vue synthétique » d’un ensemble de structures (répartition géographique,
disciplinaire/sectorielle, …)
14. La nouvelle version de ScanR prévue pour 2019
14Départements outils d’aide à la décision Mai 2019
➔ Les résultats du moteur de
recherche sont des Entités, mais
aussi des Personnes, Projets de
Recherche et Publications, qui,
chacun, ont une carte d’identité
➔ Mise en évidence des liens entre
ces objets
➔ Une nouvelle UI repensée en
multilingue (EN / FR)
➔ Des focus thématiques utilisant la
richesse de la base de données
15. ScanR
Quels services utilisés ? Qu’avons nous dû construire ?
15Départements outils d’aide à la décision Mai 2019
Services et données utilisés
Principales sources parmi les 60+ utilisées
➔ Référentiels de structures
➔ Référentiel de personnes
➔ Publications
➔ Projets
Ce que nous avons dû
construire
➔ Un outil de d’alignement pour les personnes au
sein du référentiel IdRef (avec utilisation des
co-contributeurs Sudoc pour aider à la
désambiguïsation)
⇒ Cela a notamment mis en lumière 14 000
personnes, avec une affiliation française, et sans
IdRef, permettant ainsi un double
enrichissement ScanR / IdRef
➔ Un méta-référentiel de structures, regroupant
RNSR, Sirene et Grid
➔ des tentatives d’alignement des structures au
sein de ce méta-référentiel
➔ Un moteur de recherche pour explorer ces
données et les liens entre elles au sein d’une
application web
Baromètre
Science Ouverte
16. ScanR
Quelles difficultés avons nous rencontrées ?
16Départements outils d’aide à la décision Mai 2019
➔ Il n’y a pas de référentiel global des entités de recherche (public et privé)
○ Nous avons eu recours à une combinaison de référentiels (RNSR, Sirene et Grid)
⇒ Impliquant donc un risque de doublons … et de “trou”
➔ La difficultés d’accès aux données est très variable suivant les sources
○ Des cas simples (Dump d’une BDD, API) ou plus coûteux selon les cas (web scraping, parsing …)
➔ L’alignement de données avec un référentiel est un exercice difficile
○ Très spécifique au type de données : alignement de personnes est très différent d’une méthode
d’alignement de structures par exemple
○ Nécessite des données contextuelles pour aider à la désambiguïsation
○ Pour le moment, les référentiels utilisés ne fournissent pas de service d’alignement ouvert
⇒ Un alignement automatique comment nécessairement des erreurs, coûteuses à contrôler
➔ Performance du moteur de recherche : comment aller au-delà du mot clé ?
➔ Produire une interface intuitive sans simplisme qui présente une grande
diversité de sources complexes interconnectées
18. Pour nos usages, nos attentes vis à vis des référentiels
18Départements outils d’aide à la décision Mai 2019
➔ Un référentiel administré actif en matière de couverture, de qualité, et de suivi
historique
➔ Un référentiel riche d’un écosystème qui facilite sa réutilisation et son
intégration via des services
○ recherche mots clé, filtres
○ alignements
○ suggestions ...
➔ Un référentiel interconnecté avec d’autres référentiels, notamment
internationaux ou d’autres domaines (exemple SIRENE)
➔ Un référentiel ouvert
○ Code ouvert
○ Données ouvertes
○ Services ouverts
19. Un chantier prioritaire pour nos usages, l’alignement
19Départements outils d’aide à la décision Mai 2019
➔ Notre équipe a testé plusieurs approches :
○ règles de matching associée à une intervention humaine assistée
○ approche générique (machine à données) à partir d’un moteur de recherche
○ approche mixte
➔ Aucune n’est infaillible, et génère donc des erreurs
○ il faut tenter de mesurer ces erreurs
○ l’équilibre taux d’erreur / couverture de l’alignement est à arbitrer en
fonction de l’objectif de l’alignement
➔ Dans quelle mesure peut-on viser une approche participative ?
○ Pour corriger / enrichir les alignements faits ?
○ Pour contribuer à bâtir des briques pour des algorithmes d’alignement au
sein d’un écosystème ?
20. Conclusion
20Départements outils d’aide à la décision Mai 2019
➔ Nos attentes vis-à-vis des référentiels sont nombreuses
➔ Les référentiels ouverts sont d’autant plus utiles s’ils
bénéficient d’un écosystème de services ouverts ...
➔ … pour faciliter leur utilisation et amélioration par la
communauté …
➔ … favorisant en retour le référentiel lui-même sur le long
terme