Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, moteur de la recherche et de l'innovation, deux outils au service de l'activité scientifique"

Utilisations de bases et référentiels ouverts
pour aider au pilotage de politiques
publiques
Exemple de ScanR et du Baromètre de la Science Ouverte
JABES
29 Mai 2019
Mai 2019Départements outils d’aide à la décision 1

Agenda
2Départements outils d’aide à la décision Mai 2019
■ Qui sommes nous ?
■ Comment avons nous construit ScanR et le Baromètre de la
Science Ouverte ?
■ Quels enseignements en avons nous tirés ?

Qui sommes nous ?

Qui sommes nous ? Notre philosophie …
➔ On n’entretient pas de référentiel propre
○ mais (ré)utilisons, transformons, croisons les référentiels existants
➔ On ne produit pas directement de sources
○ mais on les structure, on les enrichit
➔ On partage le fruit de nos travaux (APIs, Open Data ..)
➔ Avec un positionnement transversal
○ Enseignement supérieur, recherche et d’innovation
○ public et privé
○ international
○ transdisciplinaire et transmétier (RH, finance, immobilier, brevets,
publications)

De la collecte d’informations à l’exposition
de services ouverts
www
API
BDD
www
www
BDD
Collecte des données
➔ Identification des
sources
➔ Récupération des
données (stock et
mises à jour)
➔ Formats très
hétérogènes
Enrichissement et
croisement des données
➔ Ajout d’identifiants
(alignement)
➔ Croisement des
informations
concernant un
même objet
➔ Liaisons des objets
entre eux
Structuration de
l’information
➔ Extraction des
informations
➔ Normalisation
des informations
(schémas de
données)
Exposition de nouveaux
services ouverts
➔ Site web
➔ Widgets
➔ APIs
➔ Open Data
ScanR
Baromètre
Science Ouverte
dataESR
EESRI
...

Construction du Baromètre
de la Science Ouverte

Les Objectifs du Baromètre de la science ouverte
Piloter la Science Ouverte en France
Engagement du 1er axe du Plan National pour la Science
Ouverte (Juillet 2018)
Mesurer régulièrement les tendances de l’Open
Access en France
- à partir de données ouvertes
- de façon décomposable (par champ disciplinaire
notamment)
- à partir de données interopérables et partageables

Baromètre de la science ouverte
Une méthodologie en 3 étapes
1 - Identifier les publications avec une affiliation française
Approche en entonnoir: d’une liste la plus exhaustive de
publications vers une liste de publications “françaises”
(un auteur avec une affiliation FR)
2 - Enrichir les méta-données de ces publications
- Champ disciplinaire
- Ajout d’identifiants pour les auteurs et affiliations quand
c’est possible
3 - Déterminer quelles publications sont Open Access
- A partir du service Unpaywall (basé sur le DOI)

Premiers résultats sur 2013 - 2017
Taux Open Access par discipline en 2017
Evolution du taux Open Access 2013 - 2017
➔ Des résultats très hétérogènes entre champs
disciplinaires
➔ Le statut OA est dynamique : le délai de passage OA
+ délai d’observation crée un décalage expliquant le
léger repli de 2017

Quels services utilisés ? Qu’avons nous dû construire ?
Services et données utilisés
➔ Pour lister les publications et détecter leur statut
Open Access
➔ Pour lister des noms de personnes ayant (eu) une
affiliation française
➔ Pour bâtir une base de données d’apprentissage
➔ Pour identifier les publications
Ce que nous avons dû
construire
➔ Outil de détection des affiliations françaises
dans une page web (redirection DOI)
➔ Algorithme de machine learning pour inférer le
champ disciplinaire à partir du titre d’une
publication et de sa revue

Quelles difficultés avons nous rencontrées ?
➔ Accès à la donnée d’affiliations
○ Donnée peu disponible directement dans des sources ouvertes
○ Recours à des techniques d’analyse de pages web
⇒ Implique nécessairement des erreurs, mais que nous tentons de maîtriser en mesurant le taux
d’erreur (4% de faux positifs dans ce cas)
➔ Détection Open Access (basée sur Unpaywall et HAL)
○ Unpaywall aussi peut fournir un résultat erroné
○ Le statut Open Access peut varier dans le temps
(Closed → Open mais aussi Open → Closed)
⇒ Les résultats fournis sont des photos à un instant donné mais les chiffres peuvent évoluer, y compris
en historique
⇒ Nous tâcherons de mesurer la “vitesse” d’évolution : à quel rythme une publication devient-elle OA ?
➔ Publications sans DOI
○ Quelle(s) sources utiliser ? Quel identifiant ?
○ Comment repérer si OA ? (Unpaywall est basé sur les DOI)
⇒ Pour le moment nous nous restreignons aux publications avec un DOI

Construction de ScanR

Les Objectifs de ScanR
➔ Rendre accessible à tous (sans contrôle d’accès) une vision du paysage des acteurs
français de la recherche (publics/privés, tous domaines) , via un moteur de
recherche combiné à des filtres (discipline, géographie …)
➔ Améliorer la pertinence des résultats avec une approche participative avec
modération : corrections, repérages complémentaires, suggestions de sites à
crawler, …
La 1ere version sortie en 2016 présente deux grands modes de restitution :
• « Fiche structure » : carte d’identité, listes d’objets (publications, projets) qui
sont reliés à la structure, visualisation du voisinage/relations
• « Vue synthétique » d’un ensemble de structures (répartition géographique,
disciplinaire/sectorielle, …)

La nouvelle version de ScanR prévue pour 2019
➔ Les résultats du moteur de
recherche sont des Entités, mais
aussi des Personnes, Projets de
Recherche et Publications, qui,
chacun, ont une carte d’identité
➔ Mise en évidence des liens entre
ces objets
➔ Une nouvelle UI repensée en
multilingue (EN / FR)
➔ Des focus thématiques utilisant la
richesse de la base de données

ScanR
Quels services utilisés ? Qu’avons nous dû construire ?
Services et données utilisés
Principales sources parmi les 60+ utilisées
➔ Référentiels de structures
➔ Référentiel de personnes
➔ Publications
➔ Projets
Ce que nous avons dû
construire
➔ Un outil de d’alignement pour les personnes au
sein du référentiel IdRef (avec utilisation des
co-contributeurs Sudoc pour aider à la
désambiguïsation)
⇒ Cela a notamment mis en lumière 14 000
personnes, avec une affiliation française, et sans
IdRef, permettant ainsi un double
enrichissement ScanR / IdRef
➔ Un méta-référentiel de structures, regroupant
RNSR, Sirene et Grid
➔ des tentatives d’alignement des structures au
sein de ce méta-référentiel
➔ Un moteur de recherche pour explorer ces
données et les liens entre elles au sein d’une
application web
Baromètre
Science Ouverte

ScanR
Quelles difficultés avons nous rencontrées ?
➔ Il n’y a pas de référentiel global des entités de recherche (public et privé)
○ Nous avons eu recours à une combinaison de référentiels (RNSR, Sirene et Grid)
⇒ Impliquant donc un risque de doublons … et de “trou”
➔ La difficultés d’accès aux données est très variable suivant les sources
○ Des cas simples (Dump d’une BDD, API) ou plus coûteux selon les cas (web scraping, parsing …)
➔ L’alignement de données avec un référentiel est un exercice difficile
○ Très spécifique au type de données : alignement de personnes est très différent d’une méthode
d’alignement de structures par exemple
○ Nécessite des données contextuelles pour aider à la désambiguïsation
○ Pour le moment, les référentiels utilisés ne fournissent pas de service d’alignement ouvert
⇒ Un alignement automatique comment nécessairement des erreurs, coûteuses à contrôler
➔ Performance du moteur de recherche : comment aller au-delà du mot clé ?
➔ Produire une interface intuitive sans simplisme qui présente une grande
diversité de sources complexes interconnectées

Quels enseignements en
tirons nous ?

Pour nos usages, nos attentes vis à vis des référentiels
➔ Un référentiel administré actif en matière de couverture, de qualité, et de suivi
historique
➔ Un référentiel riche d’un écosystème qui facilite sa réutilisation et son
intégration via des services
○ recherche mots clé, filtres
○ alignements
○ suggestions ...
➔ Un référentiel interconnecté avec d’autres référentiels, notamment
internationaux ou d’autres domaines (exemple SIRENE)
➔ Un référentiel ouvert
○ Code ouvert
○ Données ouvertes
○ Services ouverts

Un chantier prioritaire pour nos usages, l’alignement
➔ Notre équipe a testé plusieurs approches :
○ règles de matching associée à une intervention humaine assistée
○ approche générique (machine à données) à partir d’un moteur de recherche
○ approche mixte
➔ Aucune n’est infaillible, et génère donc des erreurs
○ il faut tenter de mesurer ces erreurs
○ l’équilibre taux d’erreur / couverture de l’alignement est à arbitrer en
fonction de l’objectif de l’alignement
➔ Dans quelle mesure peut-on viser une approche participative ?
○ Pour corriger / enrichir les alignements faits ?
○ Pour contribuer à bâtir des briques pour des algorithmes d’alignement au
sein d’un écosystème ?

Conclusion
➔ Nos attentes vis-à-vis des référentiels sont nombreuses
➔ Les référentiels ouverts sont d’autant plus utiles s’ils
bénéficient d’un écosystème de services ouverts ...
➔ … pour faciliter leur utilisation et amélioration par la
communauté …
➔ … favorisant en retour le référentiel lui-même sur le long
terme

Contacts
Emmanuel Weisenburger
emmanuel.weisenburger@recherche.gouv.fr
Eric Jeangirard
eric.jeangirard@recherche.gouv.fr

Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, moteur de la recherche et de l'innovation, deux outils au service de l'activité scientifique"

Recommandé

Recommandé

Contenu connexe

Similaire à Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, moteur de la recherche et de l'innovation, deux outils au service de l'activité scientifique"

Similaire à Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, moteur de la recherche et de l'innovation, deux outils au service de l'activité scientifique" (20)

Plus de ABES

Plus de ABES (20)

Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, moteur de la recherche et de l'innovation, deux outils au service de l'activité scientifique"