Présentation de Paprika : Visualiser et produire différemment de bonnes données d’autorité liées
4e journée professionnelle du groupe Systèmes & Données (BnF, 15 novembre 2019) du programme Transition Bibliographique : N’oubliez pas les données d’autorité
Aline Le Provost - Abes
Formation M2i - Comprendre les neurosciences pour développer son leadership
Présentation de Paprika - Journée professionnelle Systèmes & Données 15-11-2019
1. Visualiser et produire différemment de bonnes données d’autorité liées
Aline Le Provost (le-provost@abes.fr)Journée « Métadonnées en bibliothèques », 14/11/2019
4. IdRef : référentiel partagé
un cercle vertueux
4
Un peu de lecture
• http://mutualisationpratiquesdoc.enssib.fr/lire-en-ligne/II-3-mutualiser-metadonnee-idref
• http://urfist.chartes.psl.eu/ressources/idref-et-son-offre-de-services-comment-et-pourquoi-mener-un-projet-avec-des-identifiants
• https://punktokomo.abes.fr/?s=idref
• http://documentation.abes.fr/aideidref/accueil/fr/index.html
5. « notre catalogue n'est pas sur
son parcours »
VS
« sortir de la notion de
catalogue et s'intégrer dans le
web »
La Transition Bibliographique distillée
5
Extrait de : Programme transition bibliographique, Web
sémantique et Web de données. Sensibilisation à l’évolution
des catalogues.
Source : https://www.aroma-essentiel.fr/blog/34_distillation-autres-methodes-extraction
6. « De quel outil disposons-nous pour analyser les relations
entre les données au sein des catalogues de bibliothèques ? »
À la distillerie : les outils
6
Extrait de : Programme transition
bibliographique, Web sémantique
et Web de données. Sensibilisation
à l’évolution des catalogues.
Source : https://cache.larvf.com/data/photo/w1000_ci/4w/165078.jpg
7. • Ouvert depuis mars 2019 à tous les catalogueurs Sudoc
• Contrôle qualité des liens entre notices bibliographiques et notices
d'autorité personnes physiques (entités agents > personnes)
• Pour visualiser et agir : créer et modifier des liens
• Connecté à la base bibliographique Sudoc et à la base d’autorités IdRef
7
8. Périmètre actuel de Paprika
Le Sudoc : cœur d’un système extensible
• Réservoir national de données structurées
• Point de convergence
• Catalogage partagé = force d’un collectif
Les personnes physiques : des entités choyées
• Elles forment un gros paquet
• Elles sont très bien couvertes par IdRef
• Elles sont stratégiques
8
11. Contexte d’utilisation
Différents usages possibles
• Pour un chantier rétrospectif de corrections d’anomalies
• Comme appui visuel au quotidien
• A partir d’une liste de personnes ou de publications
Un besoin d’intégration plus important
• Fluidité avec les interfaces de catalogage
• Connexion avec d’autres services de contrôle
11
12. Retour à la distillerie
12
Les bienfaits
+++ Les soins apportés ici seront bénéfiques ici, mais aussi là… et là-bas
+++ Penser global, agir local / Penser local, agir global
+++ Récupérer de bonnes données dans les catalogues locaux
La diversification
Sources (Persée, Hal, Calames…)
Cibles (BnF, ISNI, ORCID, IdHal…)
Entités (collectivités, œuvres)
Je travaille au sein du service Autorités et Référentiels de l’Abes. Je suis responsable de l’application paprika.idref.fr, que je vais vous présenter aujourd’hui.
Le nom de l’application correspond à son URL d’accès. Et dedans il y a « IdRef ». Idref est la base d’autorités maintenu par l’Abes.
TRANSITION -> IdRef KESAKO
Avant d’entrer dans le vif du sujet, je voudrais passer par quelques éléments de contexte.
L’origine d’IdRef, ce sont les autorités Sudoc.
Depuis sa création il y a 10 ans, les catalogues par l’Abes sont liés à IdRef : le Sudoc en premier lieu, les applications liées au signalement des thèses et Le catalogues des manuscripts de l’ESR Calames.
- Un référentiel interopérable. On perçoit l’interopérabilité à travers différents services d’IdRef
« connectable » à n’importe quelle application
Des web services, pour le réutiliser les données
L’interface publique, qui permet de voir une fédération de métadonnées
ouvert, exposé sur le web de données : data.idref.fr, pour interroger les données autrement => contient les données d’autorités et les liens vers les références documentaires liées : pour l’instant Sudoc, mais à terme toutes les références issues d’autres catalogues (comme theses.fr, calames, hal ou persée).
Le graphe représente le cadre plus large : des référentiels liés entre eux à différents niveaux.
TRANSITION -> Puisque cette journée est consacrée aux données d’autorités, laissez-moi développer un petit peu sur IdRef.
Ça permettra aux personnes dans la salle qui ne sont pas membres du réseau Sudoc de comprendre un peu le contexte.
IdRef va au-delà des applications maintenues par l’Abes.
A gauche, les 3 catalogues historiques / A droite, de nouveaux acteurs.
Les usages d’IdRef aujourd’hui sont multiples : chacun peut faire son miel de cet entrepôt de données interopérable.
Toutes ces images représentent des portails de ressources, des projets, des outils qui utilisent IdRef à un moment de leur processus.
RERO
logo de Collex persée : développer des services pour et surtout AVEC les chercheurs
Toutes ces contributions à différentes échelles sont bénéfiques de façon réciproque.
IdRef s’enrichie et se consolide grâce aux liens qui apportent de nouvelles informations
les systèmes d’informations sont enrichis et sont interopérables / les services rendus sont meilleurs.
Tous ces chantiers, ces projets, ces raccrochements, ces coups de crayon sont toujours source d’amélioration des données. Car il faut souvent corriger et enrichir ces dernières.
C’est ce qu’on appelle de nos jours la curation, le fait de soigner les données. IdRef est un cadre collectif pour la curation des données.
TRANSITION ->TB
Qu’est-ce que tout cela a à voir avec la Transition bibliographique ?
Aujourd’hui l’idée est de parler de la manière dont la transition bibliographique s’implémente au quotidien.
Mais d’abord, quelle est l’essence de la TB ?
Comment à partir du feu qui est la volonté de toute une communauté, on distille les catalogues et les ressources pour arriver à ces 2 grands objectifs ?
Il me semble qu’on peut voir IdRef comme un vecteur permettant cette ouverture que l’on appelle tous de nos vœux.
Finalement, un référentiel partagé comme IdRef, et plus tard le FNE (dont vous avez tous, j’imagine, entendu parlé) devient un moteur de la TB.
Si nous avons besoin de vecteurs, nous avons aussi besoin d’outils. Et c’est là que j’en viens à Paprika.
On parle ici beaucoup de RDA, de LRM, des entités et de la manière dont on pourra visualiser les données dans nos catalogues.
Pour que la transition opère cependant, nous avons aussi besoin d’outils professionnels nouveaux, pour apprendre à travailler différemment. On a besoin d’interfaces qui permettent de voir les entités en dehors du modèle traditionnel de la notice : c’est ce que promet la TB. Ces outils doivent donc incarner cette ambition.
Avec Paprika, il est question des liens entre les entités (ce dont vous a parlé Françoise tout à l’heure).
Paprika propose une autre façon de visualiser les données.
Avec Paprika, on s’intéresse aux entités personnes. On va regarder non pas les notices, mais les entités personnes avec toutes les données qui leur sont associées.
Qu’est-ce que Paprika ?
Tout d’abord, c’est un service d’IdRef.
TRANSITION -> pour le Sudoc
Pour l’instant, Paprika est disponible pour le catalogue Sudoc uniquement.
Le Sudoc, c’est le socle de tout cela :
son réservoir de données de 15 millions de notices
son organisation et son grand principe : le catalogage partagé.
convergence de plusieurs réseaux
=> Le Sudoc alimente et consolide le référentiel IdRef, puisque c’est grâce aux liens que l’on arrive à identifier les entités.
Les bibliothèques de l’ESR, avec leur réseau bien organisé, peuvent être motrices. Les autorités, la description structurée c’est leur rayon.
On arrive depuis quelques années (la technique, la reflexion, les enjeux autour de la connaissance) à un moment où ce bagage vaut de l’or.
Et les personnes physiques car elle sont très importantes.
Attention : ça ne veut pas dire que les autres ne sont pas importantes. C’est juste que pour le moment, ce n’est pas sur ces entités que l’on s’est concentré.
Mais le boulot qu’on fait sur les personnes ne sera pas perdu pour les autres entités (notamment les collectivités et les œuvres) : la structure sera la même / la logique aussi.
*1ere partie : basique avec sudoc*
Pour vous montrer qu’il s’agit d’une représentation visuelle avec une vue d’ensemble à partir d’un nom et d’un prénom.
Insister sur la visualisation détaillée
*2eme partie : appel qualinka*
Les utilisateurs de Paprika peuvent appeler un outil appelé Qualinka. C’est un clin d’œil au projet de recherche Qualinca (lui avec un « c ») auquel l’Abes a participé entre 2012 et 2016, avec une équipe de chercheurs de l’équipe GraphIK du LIRMM de Montpellier.
Une fonctionnalité qui fait appel à un programme de traitement automatisé, c’est un peu de l’intelligence artificielle. Ce programme est accessible par web service, donc toute applications web peut s’en servir. Je ne rentrerai pas dans les détails de son fonctionnement ici.
Ce qui m’intéresse c’est de vous montrer son utilisation à travers Paprika.
Qualinka c’est un vrai outil d’aide à la décision : produire différemment c’est aussi produire avec de l’aide. Là encore, on est dans une démarche d’amélioration de l’environnement de travail pour pouvoir effectuer de nouvelles tâches.
Cela permet :
de se concentrer sur les cas complexes, que la machine ne peut pas résoudre.
de confirmer un premier débroussaillage
de vérifier rapidement la cohérence globale au sein d’une boite d’autorité
Une nouvelle version de Qualinka a été développée et permettra :
d’améliorer les temps de traitement,
De montrer les justifications du programme (pourquoi ce point d’accès est-il en rouge/vert ?),
d’ajouter de nouvelles fonctionnalités : regroupement (clusters) et détection de doublons.
*3eme partie : ouverture avec hal*
C’est une démo pour l’instant, la présentation est indicative.
Vous pouvez voir qu’en ajoutant un paramètre dans l’URL, je récupère des points d’accès issus de publications HAL.
Paprika interroge la base de donnée HAL grâce à l’API de recherche.
Je peux déplacer les boîtes vers la bonne autorité IdRef. L’idéal serait ensuite de pouvoir enregistrer ces nouveaux liens dans la base de HAL qui accepte les ID IdRef.
Mais, si cela n’est pas possible, ces ID pourront être stocké dans notre base interne d’alignements qui viendra alimenter data.idref.fr.
J’ai pu m’entretenir avec plusieurs utilisateurs (en l'occurrence, des utilisatrices) qui m’ont dit comment elles utilisaient paprika.
Selon leurs fonctions particulières au sein du réseau Sudoc, ça peut être différent.
1) Par exemple, les utilisateurs aimeraient pouvoir corriger les données dans Paprika plutôt que de changer d’interface (exemple : code de fonction erroné)
2) Environnement de travail intégré : alignements, stockage des alignements, détections d’anomalies (algoLiens, algoDoublons)…
Il s’agit de passer des listes, bien souvent dans des tableaux excel, à leur visualisation dans l’interface.
LES BIENFAITS
En utilisant paprika sur les données que vous décidez de choyer, vous bénéficierez de ces bonnes données dans votre catalogue local et vous ferez bénéficier toute la communauté.
J’ai parlé d’un cercle vertueux : Plus il y a de contributeurs, plus il y a de liens et plus la base est riche. Et plus la base est riche, plus chaque catalogue est riche.
Transition : mais il faut aussi que les outils soient accessibles plus largement. Au-delà du Sudoc.
SE DIVERSIFIER
Comme vous avez pu voir dans ma courte démo avec les entités issues de Hal, nous avons la volonté d’ajouter d’autres sources, i.e. d’autres catalogues connectés à IdRef.
Et puis, derrière Paprika il y a un logiciel générique qui peut être exploité :
pour corriger d’autres types de données => c’est-à-dire qu’au lieu de voir des points d’accès personnes physiques, on verrait des points d’accès collectivité ; ou bien des entités œuvres au lieu des entités personnes.
pour lier vers d’autres référentiels => C’est-à-dire qu’au lieu d’IdRef, il y aurait les autorités de la Bnf ou bien les entités ISNI.
Voilà, vous avez pu voir ce qu’était Paprika. J’ai essayé de remettre dans le contexte : celui du catalogue Sudoc, mais aussi d’un réseau bien plus large et qui ne cesse de grandir : le réseau des utilisateurs et contributeurs du référentiel partagé IdRef.
Un mot de conclusion : pour que les catalogues de bib évoluent vraiment, il faut peut-être aussi des outils pour ouvrir le champ de vision des bibliothécaires en leur offrant des outils plus génériques, moins techniques, moins « jargoneux ». Pour que les bibliothécaires aujourd’hui catalogueurs (dans un sens très large qui inclus les admistrateurs Hal par exemple) puissent comprendre les mutations progressives de leurs fonctions.
Quelques mots d’utilisateurs que j’ai récemment interviewer au sujet de Paprika.