Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
• Enjeu : amélioration du signalement dans les outils de découverte (DT)
• Périmètre : évaluation du contenu de la base de...
• Constat fait par UKSG peu après 2005
• KBART = Knowledge bases and related tools càd Bases de connaissances et outils as...
• A Limoges, nous avons profité du passage de Summon à EDS et du fait d’avoir accès aux deux bases de
connaissance simulta...
Les principaux enjeux du projet sont:
• Évaluer la qualité d’un service payant ;
• Améliorer ce service le cas échéant ;
•...
• A partir d’un export des bases de connaissance de chacun des deux DT, Summon et EDS, il s’agit de connaître le
taux de c...
• Entre la Phase I et la Phase II, le prestataire a ouvert l’API de notre DT. De cette manière, il a été possible de
trava...
• Tous ces outils auraient pu mener les traitements à bien, en théorie.
• En pratique, seul le langage informatique Python...
• Voici un aperçu du dossier contenant le programme Python.
• Ce programme est disponible à l’adresse suivante : https://g...
• Voici une partie du contenu du fichier « bacon.py », le cœur du dossier qui permet d’appliquer la plupart des
traitement...
10
• Ceci est le fichier « bouquets.csv », qui contient les noms de bouquets disponibles dans BACON et pour lesquels
l’univer...
12
• Contenu du fichier « terminal.py », qui permet de récupérer les noms de bouquets du fichier « bouquets.csv »
afin de les...
14
• Contenu d’un fichier après récupération des données de BACON pour un bouquet donné (en l’occurrence
API_COUPERIN_FRONTLI...
• Même fichier après interrogation de Publication API. On remarque que chaque identifiant a ramené une
réponse. On considè...
• Le travail mené par EBSCO afin de paramétrer les bouquets a été validé par nos tests.
• Sur 25 000 titres, seulement 65 ...
• Par ailleurs, sur ces 25 000 titres, la moitié sont des titres ISTEX pour lesquels nous savons que l’ABES fournit
direct...
• Le projet a à ce jour permis de :
• développer la confiance avec le prestataire ;
• faire un focus sur les problèmes lié...
20
Prochain SlideShare
Chargement dans…5
×

JABES 2018 - Démo : Améliorer le signalement dans les outils de découverte

122 vues

Publié le

Les démos des réseaux : Améliorer le signalement dans les outils de découverte
Comparer pour mieux compléter
Cyril Leroy, Constantin Moll (SCD Université de Limoges)
Journées ABES 2018

Publié dans : Formation
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

JABES 2018 - Démo : Améliorer le signalement dans les outils de découverte

  1. 1. • Enjeu : amélioration du signalement dans les outils de découverte (DT) • Périmètre : évaluation du contenu de la base de connaissance du DT de chez EBSCO, EDS. • Méthode : tests sur la présence, dans Publication Finder (AtoZ de chez Ebsco), de ressources pour lesquelles l’université de Limoges dispose par ailleurs d’un abonnement 1
  2. 2. • Constat fait par UKSG peu après 2005 • KBART = Knowledge bases and related tools càd Bases de connaissances et outils associés. Un groupe de travail (https://www.niso.org/standards-committees/kbart) a élaboré une méthode et un format d’échange entre éditeurs, prestataires de DT et BU afin de favoriser le signalement et l’accès à la documentation électronique. • La BAse de COnnaissance Nationale (BACON) est un projet de l’ABES visant à accompagner les éditeurs francophones dans la mise en place de la recommandation KBART. C’est aussi un réservoir contenant les métadonnées au format KBART transmises par ces éditeurs à l’ABES : https://bacon.abes.fr 2
  3. 3. • A Limoges, nous avons profité du passage de Summon à EDS et du fait d’avoir accès aux deux bases de connaissance simultanément pour les comparer. Le but était (Phase I) de valider le paramétrage des bouquets effectué par le prestataire EBSCO sur EDS. • Pour la Phase II, on passe d’une vérification située au niveau bouquet à une vérification niveau titre. On ne cherche plus à savoir si tous les bouquets sont présents mais on plonge dans un niveau de détail supérieur : on cherche à savoir si, pour un bouquet donné, toutes les ressources qui le constituent sont signalées dans Publication Finder. 3
  4. 4. Les principaux enjeux du projet sont: • Évaluer la qualité d’un service payant ; • Améliorer ce service le cas échéant ; • Connaître la réactivité du prestataire et les possibilités quant aux améliorations demandées ; • Savoir si EBSCO utilise BACON. Dans le cas contraire, valoriser cette base de connaissance comme référence. 4
  5. 5. • A partir d’un export des bases de connaissance de chacun des deux DT, Summon et EDS, il s’agit de connaître le taux de correspondance. • Un taux suffisant par bouquet permet de valider le fait qu’il ait été sélectionné dans la base. 5
  6. 6. • Entre la Phase I et la Phase II, le prestataire a ouvert l’API de notre DT. De cette manière, il a été possible de travailler directement à la volée. • La méthodologie reste très simple puisqu’il ne s’agit que de vérifier la présence des ressources, sans mener l’évaluation plus avant, tout du moins pour l’instant. • A partir des identifiants (ISSN, ISBN électronique et papier) puis par défaut du titre, Publication API (qui est l’API liée à Publication Finder) a été interrogée. En cas de réponse positive, on a considéré le titre présent dans Publication Finder. Dans le cas des comparaisons sur les titres (lorsqu’aucun identifiant ne répondait), une correspondante exacte (hormis la casse et certains caractères comme les deux point, la virgule…) a été jugée pertinente et le titre présent. • Pour les autres titres, présents dans BACON et donc absents de Publication Finder, nous en avons communiqué la liste à EBSCO, dont le réflexe a été de nous donner pour solution de créer un bouquet personnalisé (autrement dit à maintenir soi-même et dont nous seul avons le bénéfice). 6
  7. 7. • Tous ces outils auraient pu mener les traitements à bien, en théorie. • En pratique, seul le langage informatique Python a permis des performances suffisantes et une automatisation par ailleurs bienvenue. 7
  8. 8. • Voici un aperçu du dossier contenant le programme Python. • Ce programme est disponible à l’adresse suivante : https://git.unilim.fr/leroyp05/eole.git 8
  9. 9. • Voici une partie du contenu du fichier « bacon.py », le cœur du dossier qui permet d’appliquer la plupart des traitements de récupération des données de BACON, de l’interrogation de Publication API et de l’analyse du résultat. 9
  10. 10. 10
  11. 11. • Ceci est le fichier « bouquets.csv », qui contient les noms de bouquets disponibles dans BACON et pour lesquels l’université de Limoges dispose d’un abonnement. Autrement dit, les bouquets sur lesquels ont porté les tests. 11
  12. 12. 12
  13. 13. • Contenu du fichier « terminal.py », qui permet de récupérer les noms de bouquets du fichier « bouquets.csv » afin de les renseigner à la fonction contenue dans le fichier « bacon.py ». 13
  14. 14. 14
  15. 15. • Contenu d’un fichier après récupération des données de BACON pour un bouquet donné (en l’occurrence API_COUPERIN_FRONTLIST) 15
  16. 16. • Même fichier après interrogation de Publication API. On remarque que chaque identifiant a ramené une réponse. On considère que ces ressources sont dans Publication Finder. • Si l’un d’entre eux n’avait pas renvoyé de réponse, on serait passé à la comparaison sur le titre de la ressource. Dans le cas d’une absence de correspondance exacte entre le titre BACON et le titre renvoyé par Publication API, un marqueur aurait été ajouté à la colonne « ABSENT-DE-EDS ». • Une fois que le programme a fini de tourner nous disposons, pour chaque bouquet, de la liste des ressources présentes dans BACON et absentes d’EDS. 16
  17. 17. • Le travail mené par EBSCO afin de paramétrer les bouquets a été validé par nos tests. • Sur 25 000 titres, seulement 65 ont été jugés comme absents d’EDS. Autrement dit, sur le corpus testé, 99,7% des ressources sont présentes dans Publication Finder. • Cependant, 25 000 titres représente 5 % seulement du total des titres présents dans Publication Finder 17
  18. 18. • Par ailleurs, sur ces 25 000 titres, la moitié sont des titres ISTEX pour lesquels nous savons que l’ABES fournit directement les fichiers KBART à EBSCO • Enfin, si l’on ajoute certains bouquets (EBSCO_COUPERIN_ECONLIT-WITH-FULLTEXT-EOH, OPENEDITION…), on atteint un taux de représentativité supérieur (13% des 500 000 titres) mais on chute à un taux de réponse de 54%... • Plusieurs raisons à cela : certains bouquets BACON signalent des ressources qui ne sont pas directement signalées dans Publication Finder mais le sont dans des bases de données externes. Certains titres semblent présents dans HLM (Holdings Management) mais pour autant ne remontent pas dans Publication API. Ces résultats ont été communiqués à EBSCO. Les échanges sont en cours avec leur service technique afin de les comprendre. 18
  19. 19. • Le projet a à ce jour permis de : • développer la confiance avec le prestataire ; • faire un focus sur les problèmes liés au service fourni par ce dernier ; • développer des connaissances et compétences techniques en Python, qui pourront à nouveau être utilisées ; • améliorer les services BACON et EDS. • L’enjeu est ensuite de faire en sorte que les titres manquants et inclus dans le bouquet personnalisé profitent à tous les clients d’EDS et soient donc intégrés directement à la base de connaissance d’EBSCO et ainsi maintenus à jour par leurs services. • Par la suite, on peut envisager : • d’appliquer cette méthode dans d’autres établissements clients d’EDS ; • d‘appliquer cette méthode dans d’autres établissements clients d’autres DT; • d’affiner les tests afin d’évaluer la qualité des métadonnées de signalement dans le détail ; • de s’attaquer à l’évaluation des accès. 19
  20. 20. 20

×