Session coordonnée par Marianne Giloux (Abes).
Cette session aborde les points suivants :
- Un renouvellement conceptuel international
- Un renouvellement technologique nécessaire
- La transition bibliographique de l’Abes : l’expérimentation SudocFRBR, le FNE, le projet Sudoc21 et lme projet "Vers la LRMisation des données"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
1. Repenser le SI de l'Abes
en période de transition(s)
Session coordonnée par Marianne Giloux
responsable du département métadonnées et réseau - Abes
Intervenants :
Benjamin Bober
Michaël Jeulin
Emilie Romand-Monnier
Stéphane Gully
2. Sommaire
• Un renouvellement conceptuel international
• Un renouvellement technologique nécessaire
• La transition bibliographique de l’Abes
• L’expérimentation SudocFRBR
• Le FNE
• Le projet Sudoc21
• Vers la LRMisation des données
Repenser le SI de l’Abes - Marianne Giloux 2
3. Repenser le SI de l’Abes - M. Giloux 3
Signaler moins plus mieux : un
renouvellement conceptuel international
Notice
bibliographique
Trouver
Identifier
Sélectionner
Obtenir
Explorer
5 tâches utilisateur
Œuvre
Expression
Manifestation
Item
Agents
Concepts
Lieux
Temps
8 entités
Notices
autorité
Nouveau modèle pour décrire les documents (IFLA-LRM, 2017)
4. Un renouvellement technologique nécessaire
à l’échelle nationale pour profiter du nouveau
modèle
Formation des
catalogueurs
Nouveaux systèmes
de catalogage
Evolution des SGB
Transformation des
données
Processus de “LRMisation”
par éclatement des notices
Evolution des
formats
UNIMARC, MARC21,
BIBFRAME….
Nouveau code de
catalogage par entités
(application du modèle IFLA-
LRM)
RDA-FR
Repenser le SI de l’Abes - Marianne Giloux 4
5. Repenser le SI de l’Abes - Marianne Giloux 5
La transition bibliographique de l’Abes
6. 6
La TB de l’Abes : Cible
de
Stockage
Repenser le SI de l’Abes - Marianne Giloux
7. 2011-2018 2019 2020 2021…
Projets Status
SudocFrbr + AlgoOclc1 +AlgoOclc2 Terminé
POC’S Sudoc21 Terminé
FNE (POC puis lancement du projet)
En
cours
LRM - Nouveau système de gestion de
métadonnées
En
cours
La TB de l’Abes : feuille de route
SudocFrBr
Sudoc21
FNE
LRMisation
Repenser le SI de l’Abes - Marianne Giloux 7
8. 2011-2018 2019 2020 2021…
L’expérimentation SudocFrBr
SudocFrBr
Sudoc21
FNE
Repenser le SI de l’Abes - Marianne Giloux 8
9. Le Fichier National d’Entités
2011-2018 2019 2020 2021…
Sudoc21
FNE
Repenser le SI de l’Abes - Marianne Giloux 9
10. Le FNE : une définition
“Le projet Fichier national d’entités (FNE), co-réalisé par la BnF
et l’Abes, est un projet de plate-forme centralisée de
production mutualisée des données relatives à plusieurs des
entités nécessaires à la description d'objets documentaires des
bibliothèques, centres de documentation, et potentiellement
archives et institutions culturelles françaises. Cette description
s'appuie principalement sur le modèle conceptuel IFLA LRM.”
Repenser le SI de l’Abes – Benjamin Bober 10
11. Le FNE ce sont donc
• Des données mises en commun
• Un nouveau réseau de production
• Une nouvelle base de production
Repenser le SI de l’Abes – Benjamin Bober 11
12. Les données du FNE
• Choix d’avancer par ensemble d’entités
• Dans un premier temps (V1):
• Agents (personne, famille, collectivité)
• Concepts (RAMEAU et Dewey)
• Lieux
• Temps
• Dans un second temps (V2) :
• Œuvres
• Expressions
Repenser le SI de l’Abes – Benjamin Bober 12
13. Mise en commun des données : Alignements et fusions
Personnes : 3,5 M
Collectivités : 367 000
Lieux : 111 000
Personnes : 4,3 M
Collectivités : 627 000
Lieux : 321 000
Repenser le SI de l’Abes – Benjamin Bober 13
14. Mise en commun des données : Alignements et fusions
Personnes :
1273K
Collectivités :
163K
Lieux: 40K
Personnes :
2227K
Collectivités :
204K
Lieux : 71K
Personnes :
3027K
Collectivités :
464K
Lieux : 281K
(Mais en fait le taux de recouvrement est supérieur)
Repenser le SI de l’Abes – Benjamin Bober 14
15. Mise en commun des données : Alignements et fusions
• Principes retenus :
• Le travail se concentrera sur les nouveaux alignements à faire et sur
les données dites à problème pour la qualité de la base à
l’initialisation
• Utilisation des outils de l’Abes pour les travaux de préparation des
données (dédoublonnage et réduction au maximum des données
problématiques - homonymes indiscernables, etc.) -
• Objectifs pour fin 2021
• Stratégie et méthodologie globale des alignements. En s’appuyant
sur les enseignements tirés du travail sur l’alignement des entités
Personnes courant 2021
• Alignement des données sur les Personnes (nouveaux alignements)
Repenser le SI de l’Abes – Benjamin Bober 15
16. Le FNE et le modèle IFLA-LRM
• Réalisation de scénarios de modélisation - focus entité
Personne/Identité publique en tenant compte :
• des besoins et usages à satisfaire
• des contraintes du système (Wikibase),
• des données source à traduire en format/ontologie FNE et
• des contraintes liées à la production d’une ontologie.
• Objectif pour fin 2021
• Première ossature de l’ontologie sur les Personnes et Identités
publiques
Repenser le SI de l’Abes – Benjamin Bober 16
18. La construction de l’infrastructure et de l’outil
• Installation de l’infrastructure à l’ABES
• Premiers tests concluants sur l’articulation entre une
interface de production, la base du FNE, et le cœur du
SUDOC
• Travaux du groupe métier : analyse des processus
actuels, tantABES que BnF
• Objectif pour fin 2021
• Proposition des contours de FNEV1 en termes de
fonctionnalités
• Affinage de la définition des fonctionnalités requises du FNE et
anticiper l’intégration du FNE dans les SI de la BnF et de l’Abes
Repenser le SI de l’Abes – Benjamin Bober 18
19. Les flux de données dans le FNE
Repenser le SI de l’Abes – Benjamin Bober 19
20. Ce qui va changer avec le FNE v1
Un cap :
la non-régression en termes de fonctionnalités
Repenser le SI de l’Abes – Benjamin Bober 20
21. Ce qui va changer avec le FNE v1
• Données
• Plus de données
• Un réseau étendu de producteurs
• De nouvelles règles de production, une nouvelle gouvernance des
données
Repenser le SI de l’Abes – Benjamin Bober 21
22. Ce qui va changer avec le FNE v1
• Outils de production à l’unité
• Idref comme outil de saisie, en mode formulaire
• Winibw pour produire des notices biblio
• Pas de choix arrêté pour la saisie en mode « expert »
• La BnF produit dans son propre environnement
Repenser le SI de l’Abes – Benjamin Bober 22
23. Ce qui va changer avec le FNE v1
• Outils d’administration des données
• Outils communs avec la BnF
• Périmètre en cours de définition
Repenser le SI de l’Abes – Benjamin Bober 23
24. Pour en savoir plus
• Le site Transition bibliographique
• Repères historiques du projet
• La charte FNE
• Les acteurs du projet
Repenser le SI de l’Abes – Benjamin Bober 24
25. 2011-2018 2019 2020 2021…
Projets Status
SudocFrbr + AlgoOclc1 +AlgoOclc2 Terminé
POC’S Sudoc21 Terminé
FNE (POC puis lancement du projet)
En
cours
LRM - Nouveau système de gestion de
métadonnées
En
cours
La TB de l’Abes : feuille de route
SudocFrBr
Sudoc21
FNE
LRMisation
Repenser le SI de l’Abes - Marianne Giloux 25
26. 2011-2018 2019 2020 2021…
Le projet Sudoc21
Sudoc21
FNE
Repenser le SI de l’Abes - Marianne Giloux 26
27. LE PROJET SUDOC21
Quelques rappels
• Démarrage : avril 2019
• La commande : 3 preuves de concept (POC)
• Equipe : 9 personnes / 40% (4 fonctionnels – 5
informaticiens)
• Méthode agile Scrum
• Terminé en mars 2021
27
Repenser le SI de l’Abes – Michaël Jeulin
28. Les objectifs
• Décompartimenter les différents types de données
• Expérimenter une implémentation du modèle IFLA-LRM
• Explorer plusieurs environnements techniques
■ POC 1 : Graphes de propriétés (Neo4J)
■ POC 2 : Base de données relationnelle (Oracle)
■ POC 3 : Bases RDF (Stardog et GraphDB)
Repenser le SI de l’Abes – Michaël Jeulin 28
29. 29
Méthodologie
Les éléments du problème :
● entrée : des jeux de données natives
● cible : un “pot commun”
● un modèle unique basé sur LRM
Moyen : choix d’un “format pivot” transversal aux trois preuves de concept
Enjeux :
● fournir des données à charger dans chaque base testée
● éprouver la faisabilité et les difficultés de l’unification des données
Repenser le SI de l’Abes – Michaël Jeulin
30. Repenser le SI de l’Abes – M. Jeulin
Les données
Constitution des jeux de données issus de nos différents “silos” :
• notices du Sudoc
• fichiers Kbart de Bacon
• thèses de STAR (xml tef)
• articles de revues et chapitres de
monographies en rdf
dont un sous-ensemble de données à
l’intersection de tout ou partie de ces silos
30
⇒ le “pot commun”
31. 2 méthodes complémentaires :
• Exploitation des regroupements d’oeuvres issus de
l’expérimentation “SudocFrbr” pour le Sudoc
• “Eclatement” des notices
et fichiers = extraction
des informations relevant
de chaque entité OEMI
31
Convertir en LRM > Clusterisation et éclatement
Repenser le SI de l’Abes – Michaël Jeulin
32. 32
Convertir en LRM > Enseignements
• La phase d’éclatement / extraction semble
inévitable
• Corollaire : une prolifération d’entités à réconcilier
ensuite
• Le regroupement d’oeuvres reste néanmoins une
étape utile
Repenser le SI de l’Abes – Michaël Jeulin
33. 33
Convertir en LRM > Limites de l’exercice
Transformer mais pas tout
En raison de la richesse du format Marc, par manque de temps, des choix ont
été opérés pour l’extraction ; ont été modélisées :
● les zones représentatives pour la notion de pot commun
● les zones soulevant des problématiques intéressantes à éprouver (Nomen,
identifiants, les zones de lien entre notices)
● les zones fréquentes (sur la base de statistiques établies par Catmandu)
Des zones ont été écartées :
● pas de nouvelle problématique de modélisation
● informations imbriquées intrinsèques aux formats Marc (ex. ISBD)
⇒ Idée : migrer de façon “brute”pour assurer la réversibilité avec
l’Unimarc (exports)
Repenser le SI de l’Abes – Michaël Jeulin
35. Le choix d’un format “pivot”
Contexte d’expérimentation
• hors cadre normatif ou de “production”
• besoin d’un formalisme indépendant
Choix du XML, pourquoi ?
• maitrisé au sein de l'équipe Sudoc 21 (transformation via des
XSLT)
• données directement disponibles en XML (TEF, RDF/XML) ou
facilement convertibles (Unimarc, Kbart)
• performances des XSLT acceptables à l’échelle des jeux de
données
35
Repenser le SI de l’Abes – Michaël Jeulin
38. Générique : vocabulaire maison + extensible à volonté.
Une recette simplissime : des entités, des relations et des identifiants pour
lier le tout.
Le format “pivot” au microscope
38
39. 39
Démonstration
● Soit un auteur : George C. Levy
- idref : https://www.idref.fr/032540493
- 6 monographies dans Sudoc
- 33 articles et les revues dans lesquelles ils sont publiés
dans scienceplus.abes.fr
(issus des métadonnées Istex pour le corpus “American Chemical Society”)
● les revues appartiennent toutes au corpus “American Chemical Society” :
- dans Bacon : package (bouquet) ACS
- dans le Sudoc leur version imprimée avec des localisations
- des informations sur les abonnements au bouquet ACS injectées
⇒ objectif : où trouver à un des articles
● dans sa version imprimée
● dans sa version électronique
Repenser le SI de l’Abes – Emilie Romand-Monnier
40. Rappel titre présentation - Intervenant 40
Les publications de George C. Levy dans le
Repenser le SI de l’Abes – Emilie Romand-Monnier
42. 42
Un article de George C. Levy issu de la revue Analytical Chemistry
Repenser le SI de l’Abes – Emilie Romand-Monnier
43. 43
La revue Analytical Chemistry : les accès à la version imprimée
Repenser le SI de l’Abes – Emilie Romand-Monnier
44. Rappel titre présentation - Intervenant 44
Package au format KBART :
American Chemical Society
FRANCE_LN-ISTEX-JOURNALS-PFEDITEUR
Le KBART ISTEX “American Chemical Society” dans
51. Pour en savoir plus
53
La trilogie de billets consacrée au projet Sudoc21 sur
Punktokomo (blog technique de l’Abes)
Nom de code Sudoc21
Les données en diptyque
2- 1 Le noyau de la cerise ou la culture du pivot
2- 2 Exercice d’apagogie négative
Retours sur l’exploration des solutions informatiques (billet
technique)
Transformations XSLT permettant de transformer les
métadonnées dans différents langages
https://github.com/abes-esr/abes-format-pivot
Le rapport final du projet (présenté au Conseil Scientifique de
l’Abes en mars 2021)
Repenser le SI de l’Abes – Emilie Romand-Monnier
52. 2011-2018 2019 2020 2021…
Projets Status
SudocFrbr + AlgoOclc1 +AlgoOclc2 Terminé
POC’S Sudoc21 Terminé
FNE (POC puis lancement du projet)
En
cours
LRM - Nouveau système de gestion de
métadonnées
En
cours
La TB de l’Abes : feuille de route
SudocFrBr
Sudoc21
FNE
LRMisation
Repenser le SI de l’Abes - Marianne Giloux 54
53. 2011-2018 2019 2020 2021…
Vers la LRMisation des données
Sudoc21
FNE
LRMisation
Repenser le SI de l’Abes - Marianne Giloux 55
54. Vers la LRMisation des données
Pourquoi transformer nos données?
SudocFrBr + Sudoc21
« La LRMisation en masse des données est La première étape
indispensable au nouveau système de métadonnées »
Comment faire ?
1) La correction des données pour faciliter la LRMisation
2) La LRMisation en masse des données
3) Un nouveau système de gestion de métadonnées
4) Une transition douce des applications vers ce nouveau
système
Repenser le SI de l’Abes – Stéphane Gully 56
55. Vers la LRMisation des données
Etape 1 : La corrections des données pour faciliter la
LRMisation
• L’expérimentation Sudoc FrBr a identifié des points clés à
améliorer pour LRM dans les données existantes.
• Exemple : complétude des notices
• Octobre 2021 : Création d’une équipeAbes
« Qualité/Corrections LRM »
• Constituée d’experts métadonnées Abes
• Coordination et priorisation des modifications en masse, puis mise
en œuvre en interne Abes et/ou avec les réseaux
Repenser le SI de l’Abes – Stéphane Gully 57
56. Vers la LRMisation des données
Etape 2 : La LRMisation en masse des données
• Stratégie : éclatement des notices en entités O, E, M et I, puis
dédoublonnage des entités équivalentes
• Masse = semi-automatisation du processus
• Vérifications et validations manuelles
• Partenariat en cours de définition pour travailler sur cette étape
majeure
Repenser le SI de l’Abes – Stéphane Gully
biblio
O E M I
58
57. Vers la LRMisation des données
Etape 3 & 4 : nouveau système + transition
• Installer un réceptacle technique implémentant le modèle
LRM
• Vigilance sur la volumétrie (OEMI = x10 en nombre d’entités
!)
• Intégration au SI de l’Abes : branchement progressif des
applicationsAbes sur le nouveau système
Repenser le SI de l’Abes – Stéphane Gully 59
58. Ce que cela va changer pour vous
LRM Nouveau système
60
Ce que cela
va changer
pour vous
Ce que cela
va changer
pour vous
FNE v1 LRMisation
totale
Repenser le SI de l’Abes – Stéphane Gully
59. Ce que cela va changer pour vous
Pour les entités « autorités » (Sudoc vs FNE v1)
• Données
• Plus de données
• Un réseau étendu de producteurs (avec la BnF)
• De nouvelles règles de production,
• Une nouvelle gouvernance des données
• Outils de production
• Non-régression en termes de fonctionnalités
• Production des entités FNE : nouvelle version d’IdRef - mode
formulaire et/ou expert
• Production des notices bibliographiques : WinIBW
61
Repenser le SI de l’Abes – Stéphane Gully
60. Ce que cela va changer pour vous
Après la LRMisation (dit autrement « après la TB »)
• Données
• 1 ressource 4 entités LRM sans perte de données
• Outils
• Interfaces de visualisation : améliorer l’expérience
utilisateur
• Interfaces de catalogage : production d’entités
Dans vos systèmes locaux
• SGB non évolutif : ça ne changera rien (Unimarc A et B)
• SGB évolutif : exploitation des entités LRM
62
Repenser le SI de l’Abes – Stéphane Gully