Les démos des réseaux : Améliorer le signalement dans les outils de découverte
Comparer pour mieux compléter
Cyril Leroy, Constantin Moll (SCD Université de Limoges)
Journées ABES 2018
JABES 2018 - Démo : Améliorer le signalement dans les outils de découverte
1. • Enjeu : amélioration du signalement dans les outils de découverte (DT)
• Périmètre : évaluation du contenu de la base de connaissance du DT de chez EBSCO, EDS.
• Méthode : tests sur la présence, dans Publication Finder (AtoZ de chez Ebsco), de ressources pour lesquelles
l’université de Limoges dispose par ailleurs d’un abonnement
1
2. • Constat fait par UKSG peu après 2005
• KBART = Knowledge bases and related tools càd Bases de connaissances et outils associés. Un groupe de travail
(https://www.niso.org/standards-committees/kbart) a élaboré une méthode et un format d’échange entre
éditeurs, prestataires de DT et BU afin de favoriser le signalement et l’accès à la documentation électronique.
• La BAse de COnnaissance Nationale (BACON) est un projet de l’ABES visant à accompagner les éditeurs
francophones dans la mise en place de la recommandation KBART. C’est aussi un réservoir contenant les
métadonnées au format KBART transmises par ces éditeurs à l’ABES : https://bacon.abes.fr
2
3. • A Limoges, nous avons profité du passage de Summon à EDS et du fait d’avoir accès aux deux bases de
connaissance simultanément pour les comparer. Le but était (Phase I) de valider le paramétrage des bouquets
effectué par le prestataire EBSCO sur EDS.
• Pour la Phase II, on passe d’une vérification située au niveau bouquet à une vérification niveau titre. On ne
cherche plus à savoir si tous les bouquets sont présents mais on plonge dans un niveau de détail supérieur : on
cherche à savoir si, pour un bouquet donné, toutes les ressources qui le constituent sont signalées dans
Publication Finder.
3
4. Les principaux enjeux du projet sont:
• Évaluer la qualité d’un service payant ;
• Améliorer ce service le cas échéant ;
• Connaître la réactivité du prestataire et les possibilités quant aux améliorations demandées ;
• Savoir si EBSCO utilise BACON. Dans le cas contraire, valoriser cette base de connaissance comme référence.
4
5. • A partir d’un export des bases de connaissance de chacun des deux DT, Summon et EDS, il s’agit de connaître le
taux de correspondance.
• Un taux suffisant par bouquet permet de valider le fait qu’il ait été sélectionné dans la base.
5
6. • Entre la Phase I et la Phase II, le prestataire a ouvert l’API de notre DT. De cette manière, il a été possible de
travailler directement à la volée.
• La méthodologie reste très simple puisqu’il ne s’agit que de vérifier la présence des ressources, sans mener
l’évaluation plus avant, tout du moins pour l’instant.
• A partir des identifiants (ISSN, ISBN électronique et papier) puis par défaut du titre, Publication API (qui est l’API
liée à Publication Finder) a été interrogée. En cas de réponse positive, on a considéré le titre présent dans
Publication Finder. Dans le cas des comparaisons sur les titres (lorsqu’aucun identifiant ne répondait), une
correspondante exacte (hormis la casse et certains caractères comme les deux point, la virgule…) a été jugée
pertinente et le titre présent.
• Pour les autres titres, présents dans BACON et donc absents de Publication Finder, nous en avons communiqué
la liste à EBSCO, dont le réflexe a été de nous donner pour solution de créer un bouquet personnalisé
(autrement dit à maintenir soi-même et dont nous seul avons le bénéfice).
6
7. • Tous ces outils auraient pu mener les traitements à bien, en théorie.
• En pratique, seul le langage informatique Python a permis des performances suffisantes et une automatisation
par ailleurs bienvenue.
7
8. • Voici un aperçu du dossier contenant le programme Python.
• Ce programme est disponible à l’adresse suivante : https://git.unilim.fr/leroyp05/eole.git
8
9. • Voici une partie du contenu du fichier « bacon.py », le cœur du dossier qui permet d’appliquer la plupart des
traitements de récupération des données de BACON, de l’interrogation de Publication API et de l’analyse du
résultat.
9
11. • Ceci est le fichier « bouquets.csv », qui contient les noms de bouquets disponibles dans BACON et pour lesquels
l’université de Limoges dispose d’un abonnement. Autrement dit, les bouquets sur lesquels ont porté les tests.
11
13. • Contenu du fichier « terminal.py », qui permet de récupérer les noms de bouquets du fichier « bouquets.csv »
afin de les renseigner à la fonction contenue dans le fichier « bacon.py ».
13
15. • Contenu d’un fichier après récupération des données de BACON pour un bouquet donné (en l’occurrence
API_COUPERIN_FRONTLIST)
15
16. • Même fichier après interrogation de Publication API. On remarque que chaque identifiant a ramené une
réponse. On considère que ces ressources sont dans Publication Finder.
• Si l’un d’entre eux n’avait pas renvoyé de réponse, on serait passé à la comparaison sur le titre de la ressource.
Dans le cas d’une absence de correspondance exacte entre le titre BACON et le titre renvoyé par Publication API,
un marqueur aurait été ajouté à la colonne « ABSENT-DE-EDS ».
• Une fois que le programme a fini de tourner nous disposons, pour chaque bouquet, de la liste des ressources
présentes dans BACON et absentes d’EDS.
16
17. • Le travail mené par EBSCO afin de paramétrer les bouquets a été validé par nos tests.
• Sur 25 000 titres, seulement 65 ont été jugés comme absents d’EDS. Autrement dit, sur le corpus testé, 99,7%
des ressources sont présentes dans Publication Finder.
• Cependant, 25 000 titres représente 5 % seulement du total des titres présents dans Publication Finder
17
18. • Par ailleurs, sur ces 25 000 titres, la moitié sont des titres ISTEX pour lesquels nous savons que l’ABES fournit
directement les fichiers KBART à EBSCO
• Enfin, si l’on ajoute certains bouquets (EBSCO_COUPERIN_ECONLIT-WITH-FULLTEXT-EOH, OPENEDITION…), on
atteint un taux de représentativité supérieur (13% des 500 000 titres) mais on chute à un taux de réponse de
54%...
• Plusieurs raisons à cela : certains bouquets BACON signalent des ressources qui ne sont pas directement
signalées dans Publication Finder mais le sont dans des bases de données externes.
Certains titres semblent présents dans HLM (Holdings Management) mais pour autant ne remontent pas dans
Publication API.
Ces résultats ont été communiqués à EBSCO. Les échanges sont en cours avec leur service technique afin de les
comprendre.
18
19. • Le projet a à ce jour permis de :
• développer la confiance avec le prestataire ;
• faire un focus sur les problèmes liés au service fourni par ce dernier ;
• développer des connaissances et compétences techniques en Python, qui pourront à nouveau être
utilisées ;
• améliorer les services BACON et EDS.
• L’enjeu est ensuite de faire en sorte que les titres manquants et inclus dans le bouquet personnalisé profitent à
tous les clients d’EDS et soient donc intégrés directement à la base de connaissance d’EBSCO et ainsi maintenus
à jour par leurs services.
• Par la suite, on peut envisager :
• d’appliquer cette méthode dans d’autres établissements clients d’EDS ;
• d‘appliquer cette méthode dans d’autres établissements clients d’autres DT;
• d’affiner les tests afin d’évaluer la qualité des métadonnées de signalement dans le détail ;
• de s’attaquer à l’évaluation des accès.
19