Publicité

Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"

ABES
ABES
15 Oct 2021
Publicité

Contenu connexe

Similaire à Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"(20)

Publicité

Plus de ABES(20)

Dernier(20)

Publicité

Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"

  1. Repenser le SI de l'Abes en période de transition(s) Session coordonnée par Marianne Giloux responsable du département métadonnées et réseau - Abes Intervenants : Benjamin Bober Michaël Jeulin Emilie Romand-Monnier Stéphane Gully
  2. Sommaire • Un renouvellement conceptuel international • Un renouvellement technologique nécessaire • La transition bibliographique de l’Abes • L’expérimentation SudocFRBR • Le FNE • Le projet Sudoc21 • Vers la LRMisation des données Repenser le SI de l’Abes - Marianne Giloux 2
  3. Repenser le SI de l’Abes - M. Giloux 3 Signaler moins plus mieux : un renouvellement conceptuel international Notice bibliographique Trouver Identifier Sélectionner Obtenir Explorer 5 tâches utilisateur Œuvre Expression Manifestation Item Agents Concepts Lieux Temps 8 entités Notices autorité Nouveau modèle pour décrire les documents (IFLA-LRM, 2017)
  4. Un renouvellement technologique nécessaire à l’échelle nationale pour profiter du nouveau modèle Formation des catalogueurs Nouveaux systèmes de catalogage Evolution des SGB Transformation des données Processus de “LRMisation” par éclatement des notices Evolution des formats UNIMARC, MARC21, BIBFRAME…. Nouveau code de catalogage par entités (application du modèle IFLA- LRM) RDA-FR Repenser le SI de l’Abes - Marianne Giloux 4
  5. Repenser le SI de l’Abes - Marianne Giloux 5 La transition bibliographique de l’Abes
  6. 6 La TB de l’Abes : Cible de Stockage Repenser le SI de l’Abes - Marianne Giloux
  7. 2011-2018 2019 2020 2021… Projets Status SudocFrbr + AlgoOclc1 +AlgoOclc2 Terminé POC’S Sudoc21 Terminé FNE (POC puis lancement du projet) En cours LRM - Nouveau système de gestion de métadonnées En cours La TB de l’Abes : feuille de route SudocFrBr Sudoc21 FNE LRMisation Repenser le SI de l’Abes - Marianne Giloux 7
  8. 2011-2018 2019 2020 2021… L’expérimentation SudocFrBr SudocFrBr Sudoc21 FNE Repenser le SI de l’Abes - Marianne Giloux 8
  9. Le Fichier National d’Entités 2011-2018 2019 2020 2021… Sudoc21 FNE Repenser le SI de l’Abes - Marianne Giloux 9
  10. Le FNE : une définition “Le projet Fichier national d’entités (FNE), co-réalisé par la BnF et l’Abes, est un projet de plate-forme centralisée de production mutualisée des données relatives à plusieurs des entités nécessaires à la description d'objets documentaires des bibliothèques, centres de documentation, et potentiellement archives et institutions culturelles françaises. Cette description s'appuie principalement sur le modèle conceptuel IFLA LRM.” Repenser le SI de l’Abes – Benjamin Bober 10
  11. Le FNE ce sont donc • Des données mises en commun • Un nouveau réseau de production • Une nouvelle base de production Repenser le SI de l’Abes – Benjamin Bober 11
  12. Les données du FNE • Choix d’avancer par ensemble d’entités • Dans un premier temps (V1): • Agents (personne, famille, collectivité) • Concepts (RAMEAU et Dewey) • Lieux • Temps • Dans un second temps (V2) : • Œuvres • Expressions Repenser le SI de l’Abes – Benjamin Bober 12
  13. Mise en commun des données : Alignements et fusions Personnes : 3,5 M Collectivités : 367 000 Lieux : 111 000 Personnes : 4,3 M Collectivités : 627 000 Lieux : 321 000 Repenser le SI de l’Abes – Benjamin Bober 13
  14. Mise en commun des données : Alignements et fusions Personnes : 1273K Collectivités : 163K Lieux: 40K Personnes : 2227K Collectivités : 204K Lieux : 71K Personnes : 3027K Collectivités : 464K Lieux : 281K (Mais en fait le taux de recouvrement est supérieur) Repenser le SI de l’Abes – Benjamin Bober 14
  15. Mise en commun des données : Alignements et fusions • Principes retenus : • Le travail se concentrera sur les nouveaux alignements à faire et sur les données dites à problème pour la qualité de la base à l’initialisation • Utilisation des outils de l’Abes pour les travaux de préparation des données (dédoublonnage et réduction au maximum des données problématiques - homonymes indiscernables, etc.) - • Objectifs pour fin 2021 • Stratégie et méthodologie globale des alignements. En s’appuyant sur les enseignements tirés du travail sur l’alignement des entités Personnes courant 2021 • Alignement des données sur les Personnes (nouveaux alignements) Repenser le SI de l’Abes – Benjamin Bober 15
  16. Le FNE et le modèle IFLA-LRM • Réalisation de scénarios de modélisation - focus entité Personne/Identité publique en tenant compte : • des besoins et usages à satisfaire • des contraintes du système (Wikibase), • des données source à traduire en format/ontologie FNE et • des contraintes liées à la production d’une ontologie. • Objectif pour fin 2021 • Première ossature de l’ontologie sur les Personnes et Identités publiques Repenser le SI de l’Abes – Benjamin Bober 16
  17. Repenser le SI de l’Abes – Benjamin Bober 17
  18. La construction de l’infrastructure et de l’outil • Installation de l’infrastructure à l’ABES • Premiers tests concluants sur l’articulation entre une interface de production, la base du FNE, et le cœur du SUDOC • Travaux du groupe métier : analyse des processus actuels, tantABES que BnF • Objectif pour fin 2021 • Proposition des contours de FNEV1 en termes de fonctionnalités • Affinage de la définition des fonctionnalités requises du FNE et anticiper l’intégration du FNE dans les SI de la BnF et de l’Abes Repenser le SI de l’Abes – Benjamin Bober 18
  19. Les flux de données dans le FNE Repenser le SI de l’Abes – Benjamin Bober 19
  20. Ce qui va changer avec le FNE v1 Un cap : la non-régression en termes de fonctionnalités Repenser le SI de l’Abes – Benjamin Bober 20
  21. Ce qui va changer avec le FNE v1 • Données • Plus de données • Un réseau étendu de producteurs • De nouvelles règles de production, une nouvelle gouvernance des données Repenser le SI de l’Abes – Benjamin Bober 21
  22. Ce qui va changer avec le FNE v1 • Outils de production à l’unité • Idref comme outil de saisie, en mode formulaire • Winibw pour produire des notices biblio • Pas de choix arrêté pour la saisie en mode « expert » • La BnF produit dans son propre environnement Repenser le SI de l’Abes – Benjamin Bober 22
  23. Ce qui va changer avec le FNE v1 • Outils d’administration des données • Outils communs avec la BnF • Périmètre en cours de définition Repenser le SI de l’Abes – Benjamin Bober 23
  24. Pour en savoir plus • Le site Transition bibliographique • Repères historiques du projet • La charte FNE • Les acteurs du projet Repenser le SI de l’Abes – Benjamin Bober 24
  25. 2011-2018 2019 2020 2021… Projets Status SudocFrbr + AlgoOclc1 +AlgoOclc2 Terminé POC’S Sudoc21 Terminé FNE (POC puis lancement du projet) En cours LRM - Nouveau système de gestion de métadonnées En cours La TB de l’Abes : feuille de route SudocFrBr Sudoc21 FNE LRMisation Repenser le SI de l’Abes - Marianne Giloux 25
  26. 2011-2018 2019 2020 2021… Le projet Sudoc21 Sudoc21 FNE Repenser le SI de l’Abes - Marianne Giloux 26
  27. LE PROJET SUDOC21 Quelques rappels • Démarrage : avril 2019 • La commande : 3 preuves de concept (POC) • Equipe : 9 personnes / 40% (4 fonctionnels – 5 informaticiens) • Méthode agile Scrum • Terminé en mars 2021 27 Repenser le SI de l’Abes – Michaël Jeulin
  28. Les objectifs • Décompartimenter les différents types de données • Expérimenter une implémentation du modèle IFLA-LRM • Explorer plusieurs environnements techniques ■ POC 1 : Graphes de propriétés (Neo4J) ■ POC 2 : Base de données relationnelle (Oracle) ■ POC 3 : Bases RDF (Stardog et GraphDB) Repenser le SI de l’Abes – Michaël Jeulin 28
  29. 29 Méthodologie Les éléments du problème : ● entrée : des jeux de données natives ● cible : un “pot commun” ● un modèle unique basé sur LRM Moyen : choix d’un “format pivot” transversal aux trois preuves de concept Enjeux : ● fournir des données à charger dans chaque base testée ● éprouver la faisabilité et les difficultés de l’unification des données Repenser le SI de l’Abes – Michaël Jeulin
  30. Repenser le SI de l’Abes – M. Jeulin Les données Constitution des jeux de données issus de nos différents “silos” : • notices du Sudoc • fichiers Kbart de Bacon • thèses de STAR (xml tef) • articles de revues et chapitres de monographies en rdf dont un sous-ensemble de données à l’intersection de tout ou partie de ces silos 30 ⇒ le “pot commun”
  31. 2 méthodes complémentaires : • Exploitation des regroupements d’oeuvres issus de l’expérimentation “SudocFrbr” pour le Sudoc • “Eclatement” des notices et fichiers = extraction des informations relevant de chaque entité OEMI 31 Convertir en LRM > Clusterisation et éclatement Repenser le SI de l’Abes – Michaël Jeulin
  32. 32 Convertir en LRM > Enseignements • La phase d’éclatement / extraction semble inévitable • Corollaire : une prolifération d’entités à réconcilier ensuite • Le regroupement d’oeuvres reste néanmoins une étape utile Repenser le SI de l’Abes – Michaël Jeulin
  33. 33 Convertir en LRM > Limites de l’exercice Transformer mais pas tout En raison de la richesse du format Marc, par manque de temps, des choix ont été opérés pour l’extraction ; ont été modélisées : ● les zones représentatives pour la notion de pot commun ● les zones soulevant des problématiques intéressantes à éprouver (Nomen, identifiants, les zones de lien entre notices) ● les zones fréquentes (sur la base de statistiques établies par Catmandu) Des zones ont été écartées : ● pas de nouvelle problématique de modélisation ● informations imbriquées intrinsèques aux formats Marc (ex. ISBD) ⇒ Idée : migrer de façon “brute”pour assurer la réversibilité avec l’Unimarc (exports) Repenser le SI de l’Abes – Michaël Jeulin
  34. Rappel titre présentation - Intervenant 34 LRM augmenté
  35. Le choix d’un format “pivot” Contexte d’expérimentation • hors cadre normatif ou de “production” • besoin d’un formalisme indépendant Choix du XML, pourquoi ? • maitrisé au sein de l'équipe Sudoc 21 (transformation via des XSLT) • données directement disponibles en XML (TEF, RDF/XML) ou facilement convertibles (Unimarc, Kbart) • performances des XSLT acceptables à l’échelle des jeux de données 35 Repenser le SI de l’Abes – Michaël Jeulin
  36. Deux démarches possibles : Rappel titre présentation - Intervenant 36 Le choix d’un format “pivot” > Pourquoi ? 1.
  37. 37 2. Repenser le SI de l’Abes – Michaël Jeulin
  38. Générique : vocabulaire maison + extensible à volonté. Une recette simplissime : des entités, des relations et des identifiants pour lier le tout. Le format “pivot” au microscope 38
  39. 39 Démonstration ● Soit un auteur : George C. Levy - idref : https://www.idref.fr/032540493 - 6 monographies dans Sudoc - 33 articles et les revues dans lesquelles ils sont publiés dans scienceplus.abes.fr (issus des métadonnées Istex pour le corpus “American Chemical Society”) ● les revues appartiennent toutes au corpus “American Chemical Society” : - dans Bacon : package (bouquet) ACS - dans le Sudoc leur version imprimée avec des localisations - des informations sur les abonnements au bouquet ACS injectées ⇒ objectif : où trouver à un des articles ● dans sa version imprimée ● dans sa version électronique Repenser le SI de l’Abes – Emilie Romand-Monnier
  40. Rappel titre présentation - Intervenant 40 Les publications de George C. Levy dans le Repenser le SI de l’Abes – Emilie Romand-Monnier
  41. Rappel titre présentation - Intervenant 41 George C. Levy dans
  42. 42 Un article de George C. Levy issu de la revue Analytical Chemistry Repenser le SI de l’Abes – Emilie Romand-Monnier
  43. 43 La revue Analytical Chemistry : les accès à la version imprimée Repenser le SI de l’Abes – Emilie Romand-Monnier
  44. Rappel titre présentation - Intervenant 44 Package au format KBART : American Chemical Society FRANCE_LN-ISTEX-JOURNALS-PFEDITEUR Le KBART ISTEX “American Chemical Society” dans
  45. Rappel titre présentation - Intervenant 45 Requête SPARQL et triplets résultats
  46. 46 Graphe de résultats : de l’article aux bibliothèques
  47. 47 Focus auteur
  48. 49 De l’article à la revue imprimée
  49. 50 Où trouver l’article en version imprimée ?
  50. 52 Où trouver l’article en version l’électronique ?
  51. Pour en savoir plus 53  La trilogie de billets consacrée au projet Sudoc21 sur Punktokomo (blog technique de l’Abes)  Nom de code Sudoc21  Les données en diptyque  2- 1 Le noyau de la cerise ou la culture du pivot  2- 2 Exercice d’apagogie négative  Retours sur l’exploration des solutions informatiques (billet technique)  Transformations XSLT permettant de transformer les métadonnées dans différents langages  https://github.com/abes-esr/abes-format-pivot  Le rapport final du projet (présenté au Conseil Scientifique de l’Abes en mars 2021) Repenser le SI de l’Abes – Emilie Romand-Monnier
  52. 2011-2018 2019 2020 2021… Projets Status SudocFrbr + AlgoOclc1 +AlgoOclc2 Terminé POC’S Sudoc21 Terminé FNE (POC puis lancement du projet) En cours LRM - Nouveau système de gestion de métadonnées En cours La TB de l’Abes : feuille de route SudocFrBr Sudoc21 FNE LRMisation Repenser le SI de l’Abes - Marianne Giloux 54
  53. 2011-2018 2019 2020 2021… Vers la LRMisation des données Sudoc21 FNE LRMisation Repenser le SI de l’Abes - Marianne Giloux 55
  54. Vers la LRMisation des données Pourquoi transformer nos données? SudocFrBr + Sudoc21  « La LRMisation en masse des données est La première étape indispensable au nouveau système de métadonnées » Comment faire ? 1) La correction des données pour faciliter la LRMisation 2) La LRMisation en masse des données 3) Un nouveau système de gestion de métadonnées 4) Une transition douce des applications vers ce nouveau système Repenser le SI de l’Abes – Stéphane Gully 56
  55. Vers la LRMisation des données Etape 1 : La corrections des données pour faciliter la LRMisation • L’expérimentation Sudoc FrBr a identifié des points clés à améliorer pour LRM dans les données existantes. • Exemple : complétude des notices • Octobre 2021 : Création d’une équipeAbes « Qualité/Corrections LRM » • Constituée d’experts métadonnées Abes • Coordination et priorisation des modifications en masse, puis mise en œuvre en interne Abes et/ou avec les réseaux Repenser le SI de l’Abes – Stéphane Gully 57
  56. Vers la LRMisation des données Etape 2 : La LRMisation en masse des données • Stratégie : éclatement des notices en entités O, E, M et I, puis dédoublonnage des entités équivalentes • Masse = semi-automatisation du processus • Vérifications et validations manuelles • Partenariat en cours de définition pour travailler sur cette étape majeure Repenser le SI de l’Abes – Stéphane Gully biblio O E M I 58
  57. Vers la LRMisation des données Etape 3 & 4 : nouveau système + transition • Installer un réceptacle technique implémentant le modèle LRM • Vigilance sur la volumétrie (OEMI = x10 en nombre d’entités !) • Intégration au SI de l’Abes : branchement progressif des applicationsAbes sur le nouveau système Repenser le SI de l’Abes – Stéphane Gully 59
  58. Ce que cela va changer pour vous LRM Nouveau système 60 Ce que cela va changer pour vous Ce que cela va changer pour vous FNE v1 LRMisation totale Repenser le SI de l’Abes – Stéphane Gully
  59. Ce que cela va changer pour vous Pour les entités « autorités » (Sudoc vs FNE v1) • Données • Plus de données • Un réseau étendu de producteurs (avec la BnF) • De nouvelles règles de production, • Une nouvelle gouvernance des données • Outils de production • Non-régression en termes de fonctionnalités • Production des entités FNE : nouvelle version d’IdRef - mode formulaire et/ou expert • Production des notices bibliographiques : WinIBW 61 Repenser le SI de l’Abes – Stéphane Gully
  60. Ce que cela va changer pour vous Après la LRMisation (dit autrement « après la TB ») • Données • 1 ressource  4 entités LRM sans perte de données • Outils • Interfaces de visualisation : améliorer l’expérience utilisateur • Interfaces de catalogage : production d’entités Dans vos systèmes locaux • SGB non évolutif : ça ne changera rien (Unimarc A et B) • SGB évolutif : exploitation des entités LRM 62 Repenser le SI de l’Abes – Stéphane Gully
  61. Merci de votre attention 63 Des questions ?
Publicité