Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants auteurs"
1. « La récré est finie ! » : mécanique des
alignements d’identifiants auteurs
au service de la recherche et de la
science ouverte
Session parallèle
Aline Le Provost
Isabelle Mauger Perez
François Mistral
Service Autorités & Référentiels de l’Abes
2. « La récré est finie ! » : réagissez en direct !
Framapad pour prise de notes
collaboratives
https://mensuel.framapad.org
/p/jabes21_alignements-
9q5k?lang=fr
Réagissez aussi sur twitter
Hastag
#jabes21
#alignements
2
Cette session est retransmise en direct : https://vimeo.com/event/1310665
3. - Allez, les identifiants : la récré est finie ! Alignez-vous pour vous
mettre en rang.
Attention ORCID ! Tu marches sur les pieds d’ISNI !
- C’est pas ma faute, M’dame. C’est IdRef qui pousse !
- Mais non ! On compte nos billes communes avec ARK BnF
A deux, on sera plus fort !
- Certainement.
Dis-donc IdHAL (même si tu as un joli nom) il faut rentrer
dans le rang toi aussi !
- Oui M’dame ! Je m’aligne tout de suite !
ttps://www.flickr.com/photos/jarchie/3809330833/
La maîtresse
ORCID
IdRef
La maîtresse
IdHAL
Source: https://svgsilh.com/image/1294675.html
3
4. Plan
• Partie 1 : IdRef en 2021
• Nouveaux encarts bibliographiques
• Nouveaux producteurs de données
• Pourquoi aligner ? Comment aligner ? Les deux types d’alignements
• Partie 2 : aligner des identifiants d’auteurs
• Panorama des identifiants d’auteurs
• Zoom sur les ambitions de l’Abes
• Partie 3 : aligner des identifiants d’auteurs ne suffit pas
• La preuve par l’exemple : HAL
• Partie 4 : exploiter les alignements
• Exposer
• Améliorer
4
6. Une notice
d’autorité est un
ensemble de
poupées russes
Crédits : Joe Lodge, 125/365 Dolls in the Rain,
https://www.flickr.com/photos/joe57spike/5690570945/
un numéro PPN = un identifiant dont l’Abes fait en
sorte qu’il soit un PID
un contenu stocké dans une notice Unimarc = des
métadonnées stockées et associées à l’identifiant
• des appellations : une principale et des variantes
• des notes biographiques
• la source documentaire à l’origine de la création de la
notice d’autorité
• des identifiants dans d’autres systèmes
des liens = des métadonnées associées à l’identifiant
• vers une ou des notices Sudoc (souvent mais pas
toujours)
• vers des documents Calames
• vers tous les gisements documentaires qui sont
« branchés » à IdRef
6
12. Base contenant
les autorités
Moteur de
recherche
URI pérennes
Résultats
www.idref.fr
Une interface web, un moteur de recherche,
une base de données
12
29. Aligner de référentiel à référentiel
tel ORCID
0000-0002-9361-5295
tel IdRef
139753753
=
=
tel ScopusID
6507898565
=
=
Source : https://www.lemonde.fr/m-le-mag/article/2020/03/27/marin-dacos-la-science-en-
partage_6034640_4500055.html 29
30. Aligner des identifiants chercheurs : ils l’ont
fait et le font régulièrement !
A notre connaissance
• Université de Pau et des Pays de l’Adour
• Université Polytechnique Hauts-de-France
• Réseau Toul’AO
La collecte est manuelle mais l’injection dans IdRef peut être faite par
l’Abes.
30
RDV sur Abesstp > IdRef > Données pour prendre contact !
31. Etat des lieux au 1er octobre 2021 :
identifiants de personnes stockés dans IdRef
Identifiant
VIAF
ISNI
ARK BnF
ORCID
IdHAL
Volume
3 413 834
2 115 058
1 445 198
81 870
35 538
31
Tout IdRef est dans VIAF.
-
Toutes les notices communes IdRef-BnF
devraient avoir dans IdRef un ARK
Sur 186 000 comptes français (dont
beaucoup sont vides).
Sur 51 000.
32. Pourquoi l’Abes s’intéresse à VIAF ?
Pour les professionnels
Aide au catalogage
Désambiguïsation
Aide à la curation
(AlgoDoublons)
dédoublonnage
Pour les besoins internes
Pour faire des
alignements.
32
33. Pourquoi l’Abes s’intéresse à ARK BnF ?
Pour le grand public
tendre à
l’exhaustivité du
signalement de la
production d’une
personne.
=> encart BnF
Pour les professionnels
Aide au catalogage
=> mécanisme de
dérivation
Pour les besoins internes
Pour faire des
alignements dans la
perspective du Fichier
National d’Entités (FNE).
33
34. Pourquoi l’Abes s’intéresse à ORCID ?
Pour le grand public
tendre à l’exhaustivité
du signalement de la
production d’une
personne.
=> encart ORCID
Pour les professionnels
L’Abes est avec
Couperin le porteur
du consortium
ORCID France.
Pour les besoins internes
Pour faire des
alignements.
34
35. Pourquoi l’Abes s’intéresse à IdHAL ?
Pour les professionnels
Les établissements
déploient beaucoup
d’énergie à
convaincre les
chercheurs de se
créer un IdHAL.
35
36. Pourquoi l’Abes s’intéresse à ?
Pour le grand public
tendre à l’exhaustivité
du signalement de la
production d’une
personne.
L’usage des IdHAL est cependant trop limité dans HAL pour qu’il serve à
générer les rebonds bibliographiques.
L’Abes a une ambition modérée sur IdHAL mais très grande sur HAL
(et les autres archives ouvertes).
36
39. Aligner depuis les données bibliographiques
vers un référentiel
• De gisement documentaire vers référentiel
une mention d’auteur dans un document = une entrée dans un référentiel
39
40. Aligner leur portail HAL sur IdRef : ils l’ont fait !
• Bordeaux-Montaigne
• Franche-Comté
• Grenoble
• INALCO
• INRAE
• La Réunion
• Limoges
• Lorraine
• Normandie
• Orléans
• INSA Toulouse
RDV sur Abesstp > IdRef > Données pour prendre contact !
40
41. Mettre plus de HAL dans IdRef : comment ça
marche ?
41
Base
contenant les
autorités
Moteur de
recherche
www.idref.fr
data.idref.fr
42. Le pipeline « HAL » : workflow complet
1. Récupération des documents en TEI à partir d’une requête à l’API de HAL
2. Conversion et chargement dans une base RDF interne
3. Calculs d’alignements suivant plusieurs méthodes
4. Propagation et normalisation des liens
5. Chargement dans data.idref.fr des liens entre les documents HAL et des
identifiants IdRef
42
43. 1/ Récupération des documents en TEI à
partir d’une requête à l’API de HAL
ex :
https://api.archives-ouvertes.fr/search/?q=collCode_s:"UNIV-BORDEAUX-MONTAIGNE"
43
44. 2/ Conversion et chargement dans une
base RDF interne
• Utilisation des URI HAL pour identifier les documents
• Utilisation des URI AURéHAL pour identifier les structures
• Création d’un identifiant (URI) par mention d’auteur (id document + halAuthorId)
• Toutes les métadonnées utiles pour :
• Les calculs
• L’affichage dans data.idref.fr
Titre
Auteurs (nom, prénom, halAuthorid, structure, e-mail)
Citation bibliographique
Domaines Hal
Sujets
Date de dépôt 44
46. 3/ Calculs d’alignements selon plusieurs méthodes
46
Clusterisation : même mail +
nom identique ou proche
exemple : beaucoup de Dominique Breton
47. 3/ Calculs d’alignements selon plusieurs méthodes
47
Clusterisation : même mail +
nom identique ou proche
Clusterisation : même affiliation +
nom et prénom identique
exemple : beaucoup de Dominique Breton
48. 3/ Calculs d’alignements selon plusieurs méthodes
48
Clusterisation : même mail +
nom identique ou proche
Clusterisation : même affiliation +
nom et prénom identique
Liage à ORCID
exemple : beaucoup de Dominique Breton
49. 3/ Calculs d’alignements selon plusieurs méthodes
49
Clusterisation : même mail +
nom identique ou proche
Clusterisation : même affiliation +
nom et prénom identique
Liage à ORCID
exemple : beaucoup de Dominique Breton
50. 3/ Calculs d’alignements selon plusieurs méthodes
50
Clusterisation : même mail +
nom identique ou proche
Clusterisation : même affiliation +
nom et prénom identique
Liage à ORCID
Liage à IdRef
exemple : beaucoup de Dominique Breton
51. 3/ Calculs d’alignements selon plusieurs méthodes
51
Clusterisation : même mail +
nom identique ou proche
Clusterisation : même affiliation +
nom et prénom identique
Liage à ORCID
exemple : beaucoup de Dominique Breton
Liage à IdRef
52. 3/ Calculs d’alignements selon plusieurs méthodes
52
Clusterisation : même mail +
nom identique ou proche
Clusterisation : même affiliation +
nom et prénom identique
Liage à ORCID
exemple : beaucoup de Dominique Breton
Liage à IdRef
53. Liage à IdRef
53
Clusterisation : même mail +
nom identique ou proche
Clusterisation : même affiliation +
nom et prénom identique
Liage à ORCID
« Propagation » des liens par inférence
Création de nouveaux liens :
• entre mentions d’auteur HAL et IdRef
• entre IDs ORCID et IdRef
exemple : beaucoup de Dominique Breton
4/ Propagation et normalisation des liens
54. 54
exemple : beaucoup de Dominique Breton
« Normalisation » des liens
Ordre de préférence : IdRef > ORCID > même Mail > même
Affiliation
Mémoire des liens précédents pour connaître la provenance (la
méthode de calcul du liens) et pouvoir revenir en arrière
4/ Propagation et normalisation des liens
55. 5/ Chargement des liens dans
data.idref.fr et dans les notices IdRef
55
56. 5/ Chargement des liens dans
data.idref.fr et dans les notices IdRef
56
68. Donner à voir par les machines (1/2)
68
• Webservice « références » :
Je te donne un IdRef, donne-moi toutes les références bibliographiques liées que tu connais.
https://www.idref.fr/services/references/139753753
69. Donner à voir par les machines (2/2)
69
• Webservice « idref2id » et ses déclinaisons :
Je te donne un IdRef, donne-moi tous les IDs que tu connais.
https://www.idref.fr/services/idref2id/139753753
78. Aligner la production de leur établissement
sur IdRef : ils l’ont fait !
• Catalogues des éditeurs :
• ENS Lyon
• Ecoles françaises à l’étranger
• Bibliothèques patrimoniales :
• Antilles : Manioc
• Ecole des Chartes : Thenc@
• Revues en ligne :
• Lyon 3 Prairial : Arabesques
• Métopes
• Entrepôt de données de la recherche :
• EHESS : Didomena
78
80. Sortez vos cahiers de texte. Pour la semaine prochaine, vous conjuguerez le
verbe IDREFISER au présent de l’indicatif ; n’oubliez pas :
j’idrefise sans accent
tu iderefises avec un s
etc.
M’dame m’dame, y a deux « f » à idreffiser ?
Pfffou, mais non banane ! I-d-R-e-f !!
La sonnerie retentit « DRING DRING »
- Le dernier dans la cour est une crotte ! Eh IdRef tu me pousses encore !
- Dis-donc IdHAL tu n’as pas entendu la cloche ! C’est l’heure de la récré.
- Oui M’dame ! Mais je me suis déjà fait gagner toutes mes billes, wouin !
La maîtresse
ORCID
IdRef
La maîtresse
ARK BnF
Source: https://svgsilh.com/image/1294675.html
80
IdHAL
16h – Orateur : Isabelle
16h05 le goûter est fini. La cloche a sonné ; la récré est finie.
La classe compte une bonne vingtaine d’élèves, voire une petite trentaine. Nous allons focaliser notre attention sur 5 d’entre eux, non pas parce que la maitresse a ses chouchous mais parce que ces 5 là demandent en ce moment une attention particulière.
ORCID
ISNI
IdRef
ARK BnF
IdHAL
Dans l’heure, nous allons apprendre à conjuguer le verbe « aligner » au présent de l’indicatif.
Voilà le pitch de cette session parallèle, pitch que nous avons conçu dans le monde d’avant, il y a presque 18 mois.
Nous parlerons exclusivement d’identifiants auteur.
Par contre nous irons au-delà de cette saynète. Nous parlerons alignements d’identifiants donc alignement entre référentiels mais nous parlerons aussi d’un autre type d’alignement où les identifiants d’auteurs jouent un rôle moindre.
Présentation en 4 parties et à 3 voix.
16h10 Orateur : François jusqu’à la diapo de démarrage de la 2nde partie. 15mn. 13 diapos.
https://www.idref.fr/139753753
Objectif : identification sans ambiguïté
Objectif : identification sans ambiguïté (bis)
Objectif : encore la même chose²
La session d’aujourd’hui va être centrée sur ces deux rubriques que vous voyez dans les pages IdRef de personnes
Dans la notice d’autorité (à gauche) : les autres identifiants stockés dans le format unimarc A dans les zones A010, A033 et A035.
Dans cet exemple, beaucoup d’identifiants externes ont été collectés et sont stockés dans IdRef.
Dans les liens (à droite de la diapo) : liens qui pointent vers des gisements documentaires divers
Dans cet exemple : des liens
Vers des catalogues de bibliothèques : Sudoc, Université de Liège, catalogue des bibliothèques universitaires francophones SLSP, catalogue général de la BnF
D’autres gisements documentaires :
La plateforme de revues en accès ouvert de Lyon 3 Prairial
Le portail Persée
L’archive ouverte HAL
Les références bibliographiques des travaux référencés dans le compte ORCID de cette personne
Ce que vous voyez affiché est le résultat d’alignements, soit que vous avez réalisé soit que l’Abes a réalisé.
https://www.idref.fr/057735492
Autre exemple d’une chercheuse de Bordeaux Montaigne.
Nom relativement commun, risque d’homonymie important, prénom non genré qui peut porter à confusion.
Une liste d’identifiants externes moins fournie.
Et malgré tout, des alignements ont été produits par l’Abes et il est possible notamment d’afficher les ressources HAL liées à cette personne.
Tendance des dernières années : agréger autour de la notice d’autorités le maximum de liens quelle que soit la source de ces liens.
Enrichissements bibliographiques d’IdRef qui va bien au-delà des applications gérées par l’Abes.
Si ces encarts sont possibles c’est parce que soit des alignements ont eu lieu soit les partenaires sont devenus producteurs de données dans IdRef.
Trois filières de production dans IdRef.
Généré via https://nuagedemots.co/
coproduction coproduction coproduction coproduction coproduction coproduction coproduction mutualisation mutualisation mutualisation mutualisation francophone francophone francophone francophone national national national national national patrimoine patrimoine patrimoine ESR ESR ESR ESR souveraineté souveraineté souveraineté souveraineté souveraineté autonomie autonomie autonomie autonomie administration administration administration administration réseau réseau réseau réseau réseau expertise expertise expertise expertise collaboration collaboration collaboration collaboration
Généré via https://nuagedemots.co/
calculs calculs calculs calculs calculs calculs calculs calculs calculs collecte collecte collecte collecte collecte inférence inférence clusterisation clusterisation analyse analyse diagnostic diagnostic manuel automatique hommes hommes hommes machines machines machines
De référentiel vers référentiel
une entrée dans un référentiel = une entrée dans un autre référentiel 2ème partie de la présentation
De gisement documentaire vers référentiel
une mention d’auteur dans un document = une entrée dans un référentiel 3ème partie de la présentation
En 2000, il existe des catalogues de bibliothèques adossés à des fichiers d’autorités qui n’ont pas d’existence autonome ie indépendante du catalogue pour lequel ils ont été créés.
En France, deux fichiers d’autorités, qui entretiennent des liens forts, puisque les autorités Sudoc sont à l’origine un miroir des autorités BnF avant leur divergence.
En 2010 pour ses propres besoins, l’Abes rend les autorités Sudoc indépendantes du catalogue Sudoc. Les notices d’autorités sont désormais dotées d’une URL pérenne construite autour du numéro PPN de la notice d’autorité. L’identifiant IdRef apparait. Il peuple les bases de données Calames et theses.fr.
En 2012, grandes manœuvres à l’échelle mondiale. On voit apparaitre :
ISNI qui vise à recenser toutes les personnes impliquées dans la production littéraire, intellectuelle et artistique, dans une optique de gestion des droits d’auteur.
ORCID qui vise à recenser les chercheurs.
VIAF qui clusterise les fichiers d’autorités nationaux dont celui de la BnF et celui de l’Abes.
Ces trois ID à vocation globale ont des liens entre eux.
Une tranche d’ISNI est réservée à ORCID. Et ISNI est constitué à l’origine à partir des données de VIAF.
La BnF se positionne rapidement comme agence d’attribution de l’ISNI.
En 2014, la BnF commence à s’intéresser au système de liens permanents ARK et généralise l’usage de cet identifiant dans ses notices d’autorités.
Le CCSD met en place l’IdHAL pour permettre aux déposants dans HAL de bénéficier d’un service d’affichage de CV. IdHAL est perçu comme un identifiant même si cette fonction est en réalité accessoire.
Vers 2018, l’Abes et ses catalogueurs commencent à investir le champ des alignements d’identifiants d’une manière plus systématique, notamment vis-à-vis d’ORCID et des IdHAL.
Parallèlement, de nouveaux producteurs rejoignent IdRef : Persée et l’archive institutionnelle OATAO des Ecoles d’Ingénieurs Toulousaines (dont INP Toulouse).
En 2020,
Nouvelle flèche entre VIAF et ORCID car les catalogueurs du monde entier saisissent des ORCID dans leurs fichiers d’autorités.
L’EHESS devient producteur dans IdRef pour les besoins de son entrepôt des données de la recherche Didomena.
l’Abes s’intéresse de plus en plus à HAL, au-delà de l’IdHAL. Nouvelle flèche qui vous sera présentée en détails tout à l’heure.
En 2021, UnivOAK l’archive institutionnelle alsacienne, et Toulouse capitole Publications l’archive, ainsi que CAIRN et Canal-U deviennent des catalogueurs dans IdRef.
Et IdRef devient un fichier d’autorités francophones avec les 3 réseaux distincts de la Suisse francophone et en Belgique l’Université de Liège.
Au final ce sont peut-être entre 200 ou 300 personnes qui seront cette année devenues des catalogueurs dans IdRef.
Nul doute que ce paysage évoluera encore.
François vous a présenté ce schéma il y a quelques minutes. Je vais vous détailler la partie droite, à savoir les alignements de référentiel vers référentiel.
De référentiel vers référentiel
une entrée dans un référentiel = une entrée dans un autre référentiel 2ème partie de la présentation
Dans le monde réel, il existe une personne. Vous aurez reconnu Marin Dacos.
Aligner des référentiels revient à établir des égalités entre référentiels. Dire que tel ORCID, tel IdRef ou tel ScopusID désigne la même personne du mode réel
https://svgsilh.com/image/1302161.html
VIAF Des programmes poussent régulièrement les nouvelles notices IdRef dans VIAF et récupèrent les IDs VIAF correspondants. Tout IdRef est dans VIAF.
ISNI 58% des notices de personnes physiques ont un ISNI.
ARK BnF. L’objectif est que toutes les notices communes IdRef-BnF aient dans IdRef un ARK. Ce n’est pas le cas aujourd’hui sans que l’on sache exactement combien de notices IdRef sont passées au travers les mailles du filet.
ORCID. 186 360 comptes ORCID ont le code pays France, selon ORCID. Mais attention beaucoup de comptes sont vides ! On a des doutes sur cette cible de 186 000 comptes. 44% de l’objectif est atteint.
IdHAL 51 000 IdHAL. 69% de l’objectif est atteint.
Exemple des Suisses francophones
RERO+,
SLSP,
bientôt Renouvaud.
16h45 : Orateur Aline jusqu’à la partie 4. 20 mn. 15-20 diapos.
De gisement documentaire vers référentiel
une mention d’auteur dans un document = une entrée dans un référentiel 3ème partie de la présentation
Workflow rôdé durant près d’un an avec plusieurs établissements cobayes
Une requête pour circonscrire un périmètre documentaire
Tout index
https://hal.archives-ouvertes.fr/[id du document]/person/[halAuthorId de la personne]
Par exemple : https://hal.archives-ouvertes.fr/hal-00000078/person/30
Travail dans une base rdf = Base interne de travail :
modèle de données riches et flexible
mécanismes d’inférence permis par base rdf => on peut déduire de nouvelles informations à partir d’informations existantes (utile pour propager des liens, comme je vais l’expliquer juste après)
alimentation data.idref
URI de person => id doc + halauthorId -> identification et contextualisation de l’auteur
Notre système utilise différentes méthodes pour produire des liens des deux types dont François vous a parlé :
Entre des référentiels différents (Orcid – IdRef)
Entre des mentions d’auteurs et des référentiels (Hal-IdRef et Hal-Orcid)
A la fin du processus on a un ensemble de liens
On envoie :
une partie vers data.idref.fr : les liens + qq infos (citation biblio, date, rôle )
une autre vers la base de données à laquelle s’adosse IdRef pour ajouter les liens Orcid-IdRef dans les notices d’autorité
A partir d’une mention d’auteur HAL
Regardons comment cela se présente dans HAL et dans AuréHAL
-> pas d’idHal
Pourtant, des références HAL sont visibles dans IdRef
17h05 : orateur François. 10 mn. 10 diapos.
Fin à 17h15.
Paprika est une application professionnelle de curation de données, dédiée au contrôle qualité des liens entre notices bibliographiques et notices d'autorité de type personne.
Paprika utilise un service d'intelligence artificielle co-dévelopé par l'Abes et l'équipe de recherche GraphIK (LIRMM).
Sa déclinaison avec les dépôts HAL, fonctionnelle dans les grandes lignes, est en cours de développement à l’Abes, et avec l’aide d’établissements pilotes (Orléans, Grenoble).
Sa déclinaison avec les dépôts HAL, fonctionnelle dans les grandes lignes, est en cours de développement à l’Abes, et avec l’aide d’établissements pilotes (Orléans, Grenoble).
Enregistrement dans data.idref
Donc requêtable dans data.idref
Et donc visible dans les notices IdRef !
Enregistrement dans HAL ?
Les établissements reprennent le contrôle. Extension du domaine du signalement documentaire.
La récré est finie. Vous êtes les acteurs de premier plan. Qu’allez-vous idrefiser en rentrant à la maison ?
https://worditout.com/
presses~_universitaires presses~_universitaires Canal-U Canal-U Canal-U Canal-U pépinière~_de~_revues pépinière~_de~_revues portail~_HAL portail~_HAL portail~_HAL portail~_HAL archive~_institutionnelle base~_bibliométrique~_locale bibliothèque~_numérique~_patrimoniale bibliothèque~_numérique~_patrimoniale Frantiq Frantiq Frantiq entrepôt~_de~_données
La sonnerie va bientôt retentir et les enfants s’égayer dans la cour.