Les dessous de la frbrisation du Sudoc
Olivier Rousseaux - ABES
1Journées ABES 2015
Les dessous de la frbrisation du Sudoc
• Frbrisation du Sudoc : de quoi parle-t-on ?
• Contexte
– Démarche initiale
– Vers...
Frbrisation du Sudoc : de quoi parle-t-on ?
Un néologisme à géométrie variable
 Assumer que si il y a nécessité de "frbri...
Frbrisation du Sudoc : de quoi parle-t on?
Il s'agit de mettre modestement un peu de "relief" FRBR
dans les notices du cat...
Contexte
Novembre 2012 – Rapport d’orientation pour le
Comité stratégique bibliographique
– L’ABES s’engage sur la voie d'...
- rappels et ajustements de règles de catalogage en 2013
• titre original pour une traduction ;
• code fonction des différ...
– Bilan fin 2013 : Démarche jugée insuffisante pour
envisager un effet bénéfique significatif à l'échelle du
Sudoc sans un...
Des limites techniques imposées
– Un seul niveau FRBR généré en lien aux Manifestations (notices
bibliographiques) = Nouv...
Notices bibliographiques
Algorithmes de regroupement
1/3 – Calculs et regroupements
9O. Rousseaux - ABESJournées ABES 2015...
1/3 – Calculs et regroupements
10O. Rousseaux - ABESJournées ABES 2015
Notices d’autorité de Regroupement
générées par programmes
2/3 – Notice bibliographique préférée support de la notice de R...
Notices bibliographiques
Notices d’autorité de regroupement
générées par programmes
3/3 – Liage entre notices bibliographi...
Calendrier
Novembre 2014 - juin 2015
• Novembre 2014
Création d'un environnement CBS de test reprenant
l’intégralité de la...
26 mars 2015
Titre
(Auteur)
Notice de
regroupement
1,5M notices de regroupement générées
pour 4.7M notices bibliographiques
• 26 mars 2015 - 30 juin 2015
Vérification des notices de test + rapports de tests (ABES)
Ajustement / amélioration des al...
Premiers constats (partiels)
• Le fonctionnement des algorithmes de
regroupement est relativement opaque
– Des développeme...
Premiers constats (partiels)
Ça peut marcher...
Premiers regroupements...
17O. Rousseaux - ABESJournées ABES 2015
Notice de Regroupement
Une notice bibliographique de la grappe
008 $aTr2
00A $00
00U utf8
00V $02015-03-26 23:24:11.696
103 ##$a2000
104 ##$ak
106 ##$a0$b#$c#
231 ##$a@Etude de l'extens...
A quelles fins ?
• Pour le catalogueur
– Tendre vers un allègement de la saisie en tirant
bénéfice du lien à l’autorité Œu...
 Là
21O. Rousseaux - ABESJournées ABES 2015
 Requête sur le titre français
22O. Rousseaux - ABESJournées ABES 2015
Sans regroupements, la même requête ne ramène que les 3 romans traduits en français
23O. Rousseaux - ABESJournées ABES 2015
Quelques limites
• Les ressources continues
– Intérêt des regroupements peu probant
• Les œuvres anonymes (ou sans points ...
« - Et les agrégats... ? »
 Plus d’une Œuvre contenue au sein d’une
même Manifestation : œuvres littéraires
complètes ou ...
Déjà conclure ?
• Sur l'expérimentation en cours
– Un grand... « peut-être »
• l’Après?
– Des incertitudes sur l’articulat...
Rendez-vous l’année prochaine, même heure, même
endroit ?
Merci.
La suite reste donc encore grandement à
écrire...
27O. Ro...
Prochain SlideShare
Chargement dans…5
×

JABES 2015 - ABES : les dessous de la FRBRisation du Sudoc / Olivier Rousseaux (ABES)

1 358 vues

Publié le

Compte-rendu des actions entreprises par l'ABES pour parvenir à une « FRBRisation » automatique de ses données.

Publié dans : Formation
0 commentaire
3 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 358
Sur SlideShare
0
Issues des intégrations
0
Intégrations
57
Actions
Partages
0
Téléchargements
17
Commentaires
0
J’aime
3
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • qui n'auraient pas le temps d'être rentabilisés. Durée de vie limitée du CBS (échéances à court terme du projet SGBM)
    traitement des données jugées « clés » pour se rapprocher du modèle FRBR – Publication GM
  • En réponse à une demande du réseau des bibliothèques publiques néerlandaises
  • Quid des agrégats?
  • - Création de clusters (selon paramètres= regroupements de notices décrivant une même œuvre. S'appuie notamment sur les indentifiants d'œuvre OCLC + comparaison de clés numériques auteur titre calculées pour chaque notice bibliographique
  • - Choix d'une notice préférée dans le cluster pour servir de base à une nouvelle notice, d'autorité d'un nouveau type (hybride Œuvre/ Expression = notice dite de regroupement)
    - Alimentation de la notice de regroupement
  • - Lien bibliographique depuis chacune des notices bibliographiques du cluster vers la notice de regroupement

    - Une création initiale de toutes les notices de regroupement + liens biblio (durée :environ 18 heures) + mise à jour quotidienne (recalcule prenant en compte tous les mouvement s de la base  nouveaux clusters / clusters supprimés / clusters modifiés (durée : 2-3 heures)
  • - Beaucoup d'incompréhension à ce stade : * les algorithmes fonctionnent comme des "boites noires" pour l'ABES  il est difficile de mesurer à quel point les spécifications sont respectées / judicieuses / améliorables * Fonctionnement incertain concernant la sélection d'une (seule?) notice préférée dans chaque grappe pour alimenter la notice de regroupement
    Marge de manœuvre incertaine concernant les paramètres de regroupement des notices (limitation des regroupements à certains types de notices)

    Alimentation de la notice de regroupement parcellaire (ex : pas de zones de variantes de titre) ou non conforme (par ex. : données de date, de langues incohérentes)
    Pas encore de prise en compte des spécifications établies pour paramétrer les regroupements possibles ou non
  • Catalogueurs  Premiers pas : Pas de recherche de bénéfice en terme d'économie de saisie (auteur/sujets/résumé) mais facilitation intellectuelle (dans cette première approche) de récupération de cette donnée dans toute description de manifestation qui sera(it) à rattacher à une notice d'œuvre existante [à la recherche d'une évolution allégeant la quantité de travail tout en augmentant la qualité des données : homogéniser ce qui est commun (principe des liens aux autorités)]
    C’est ce qui se fait en partie avec des scripts de création (par ex. monogr. Imprimée  monogr électronique) mais on viose à ne plus dupliquer les informations communes (et les rendre modifiable s à un seul endroit : la notice d’Oeuvre)

    Lecteurs  Regrouper des manifestations relevant d'une même œuvre puis tris possibles par langues notamment (sans développements informatiques lourds sur le catalogue public Sudoc actuel) : donner notamment plus de visibilité à ce qui est peu édité en évitant de le noyer dans ce qui l'est très abondamment
  • - Requête sur le titre français que seules 3 des 10 notices du regroupement connaissent
    - Facettes par langues
  • validation de clusters / enrichissement du contenu des notices de regroupements / enrichissement des notices bibliographiques en liens vers +sieurs notices de regroupement / comportement des algorithmes dans leur ajustements quotidiens / capacité de l'ABES à assurer la maintenance des algorithmes (paramétrages divers)

  • JABES 2015 - ABES : les dessous de la FRBRisation du Sudoc / Olivier Rousseaux (ABES)

    1. 1. Les dessous de la frbrisation du Sudoc Olivier Rousseaux - ABES 1Journées ABES 2015
    2. 2. Les dessous de la frbrisation du Sudoc • Frbrisation du Sudoc : de quoi parle-t-on ? • Contexte – Démarche initiale – Vers une voie nouvelle – Modalités (très) schématiques de mise en œuvre • Calendrier • A quelles fins ? • Premières conclusions 2O. Rousseaux - ABESJournées ABES 2015
    3. 3. Frbrisation du Sudoc : de quoi parle-t-on ? Un néologisme à géométrie variable  Assumer que si il y a nécessité de "frbriser" c'est que la base de données n'est pas totalement compatible avec le modèle cible  Le faire sans dramatiser... 3O. Rousseaux - ABESJournées ABES 2015
    4. 4. Frbrisation du Sudoc : de quoi parle-t on? Il s'agit de mettre modestement un peu de "relief" FRBR dans les notices du catalogue  Regrouper les Manifestations contenant une même Œuvre  Dégager des éléments qui caractérisent l'Œuvre (+ Expressions ?) contenue  Créer une notice d’Œuvre  Lier Manifestations et Œuvre 4O. Rousseaux - ABESJournées ABES 2015
    5. 5. Contexte Novembre 2012 – Rapport d’orientation pour le Comité stratégique bibliographique – L’ABES s’engage sur la voie d'un rapprochement de la production courante de données bibliographiques dans le Sudoc avec le modèle FRBR • « jeu de consignes de catalogage précises, avec pour objectif l’identification systématique des œuvres [...] » • « [adaptations limitées] du paramétrage de la base CBS » • « [...] étude des procédures de traitement automatique rétrospectif [...] » 5O. Rousseaux - ABESJournées ABES 2015
    6. 6. - rappels et ajustements de règles de catalogage en 2013 • titre original pour une traduction ; • code fonction des différents contributeurs ; • identifiants ; • dates ; • abandon des notes textuelles de contenu au profit de point d'accès titre ; • etc. - spécifications CBS de mécanismes d'appariement entre zones d'accès titre et d'accès auteur (non aboutis) 6O. Rousseaux - ABESJournées ABES 2015 Démarche initiale sans développements informatiques majeurs
    7. 7. – Bilan fin 2013 : Démarche jugée insuffisante pour envisager un effet bénéfique significatif à l'échelle du Sudoc sans un support technique conséquent – Dissociation des projets SGBM et Sudoc 2 = augmentation de la durée de vie du Sudoc dans le CBS  Décision au printemps 2014 de mener une expérimentation à partir des algorithmes de regroupements développés par OCLC pour le CBS Vers une voie nouvelle 7O. Rousseaux - ABESJournées ABES 2015
    8. 8. Des limites techniques imposées – Un seul niveau FRBR généré en lien aux Manifestations (notices bibliographiques) = Nouveau type de notice d’autorité avec contenu à la fois de niveau Œuvre et Expression (baptisée « notice de Regroupement » par l’ABES) – Pas de notices de Regroupement pour les notices bibliographiques isolées – Au maximum 1 lien à une notice de Regroupement par Manifestation – Paramètres initiaux = ceux établis pour le projet néerlandais (spécifications détaillées inconnues de l'ABES)  Des spécifications complémentaires pour adaptations au contexte Sudoc Vers une voie nouvelle 8O. Rousseaux - ABESJournées ABES 2015
    9. 9. Notices bibliographiques Algorithmes de regroupement 1/3 – Calculs et regroupements 9O. Rousseaux - ABESJournées ABES 2015 Modalités (très) schématiques de mise en œuvre
    10. 10. 1/3 – Calculs et regroupements 10O. Rousseaux - ABESJournées ABES 2015
    11. 11. Notices d’autorité de Regroupement générées par programmes 2/3 – Notice bibliographique préférée support de la notice de Regroupement Notices bibliographiques 1 notice « préférée » calculée par regroupement Pas de notice de Regroupement pour les notices isolées 11O. Rousseaux - ABESJournées ABES 2015
    12. 12. Notices bibliographiques Notices d’autorité de regroupement générées par programmes 3/3 – Liage entre notices bibliographiques et notice de Regroupement 12O. Rousseaux - ABESJournées ABES 2015
    13. 13. Calendrier Novembre 2014 - juin 2015 • Novembre 2014 Création d'un environnement CBS de test reprenant l’intégralité de la base de production • Novembre 2014 - 15 février 2015 Spécifications (ABES) • 15 février 2015 - 25 Mars 2015 Paramétrage du CBS de test selon les spécifications ABES (OCLC) Etablissement de jeux de notices tests (ABES) 13O. Rousseaux - ABESJournées ABES 2015
    14. 14. 26 mars 2015 Titre (Auteur) Notice de regroupement 1,5M notices de regroupement générées pour 4.7M notices bibliographiques
    15. 15. • 26 mars 2015 - 30 juin 2015 Vérification des notices de test + rapports de tests (ABES) Ajustement / amélioration des algorithmes (OCLC) Au 27 mai 2015 nous en sommes là Jusqu'à 5 ajustements de paramétrages pour optimiser les résultats ... et conclure 15O. Rousseaux - ABESJournées ABES 2015
    16. 16. Premiers constats (partiels) • Le fonctionnement des algorithmes de regroupement est relativement opaque – Des développements ou paramétrages demandés restent à faire (ou sont impossibles ?) – Marge de manœuvre incertaine sur des améliorations envisagées après les premiers tests Discussions en cours avec OCLC - Optimisation des temps de traitement | Perte de qualité - Réduire les cas de notices indûment présentes dans un regroupement (= bruit) sans augmenter les cas de notices non regroupées / ou les regroupements doublons (= silence) 16O. Rousseaux - ABESJournées ABES 2015
    17. 17. Premiers constats (partiels) Ça peut marcher... Premiers regroupements... 17O. Rousseaux - ABESJournées ABES 2015
    18. 18. Notice de Regroupement Une notice bibliographique de la grappe
    19. 19. 008 $aTr2 00A $00 00U utf8 00V $02015-03-26 23:24:11.696 103 ##$a2000 104 ##$ak 106 ##$a0$b#$c# 231 ##$a@Etude de l'extension urbaine autour d'Avignon et de Montpellier de 1936 à 1999 par la simulation de dynamiques spatiales à l'aide de modèles cellulaires d'interaction locale 300 ##$aLes phénomènes d'extension urbaine des régions d'Avignon et de Montpellier entre 1936 et 1999 constituent l'objet de cette thèse. Ces régions ont été choisies en raison de l'ampleur de l'extension urbaine qui les caractérise [...]. Les simulations n'ont pas eu pour but de reproduire le réel, mais d'aider à identifier des mécanismes spatiaux fondamentaux. En cela cette thèse s'inscrit dans une géographie expérimentale 328 #0$bThèse de doctorat$cGéographie$eAvignon$d2000 500 #1$3068881118{{Ellerkamp, Philippe (1967-...)}} 606 ##$3027255034{{Urbanisation}}$3027226794{{France}}$3034681159{{Avignon (Vaucluse ; agglomération)}}$3086305646{{20e siècle}}$3027253139{{Thèses et écrits académiques}}$2rameau 606 ##$3027255034{{Urbanisation}}$3027226794{{France}}$3027252051{{Montpellier (Hérault)}}$3086305646{{20e siècle}}$3027253139{{Thèses et écrits académiques}}$2rameau 606 ##$3031194095{{Périurbanisation}}$3027226794{{France}}$3034681159{{Avignon (Vaucluse ; agglomération)}}$3086305646{{20e siècle}}$3027253139{{Thèses et écrits académiques}}$2rameau 606 ##$3031194095{{Périurbanisation}}$3027226794{{France}}$3027252051{{Montpellier (Hérault)}}$3086305646{{20e siècle}}$3027253139{{Thèses et écrits académiques}}$2rameau 606 ##$3027255247{{Croissance urbaine}}$3027551385{{Modèles mathématiques}}$3027253139{{Thèses et écrits académiques}}$2rameau 686 ##$a910$2TEF Notice de Regroupement (cas optimal) Titre Auteur (créateur) Résumé Accès matière Note de thèse Données codées
    20. 20. A quelles fins ? • Pour le catalogueur – Tendre vers un allègement de la saisie en tirant bénéfice du lien à l’autorité Œuvre (accès auteur/accès matière/résumé/...) • Pour l’usager final – Mise en avant des regroupements de notices avec restrictions par facettes (par langues notamment) – Donner par contraste plus de visibilité aux Œuvres peu éditées 20O. Rousseaux - ABESJournées ABES 2015
    21. 21.  Là 21O. Rousseaux - ABESJournées ABES 2015
    22. 22.  Requête sur le titre français 22O. Rousseaux - ABESJournées ABES 2015
    23. 23. Sans regroupements, la même requête ne ramène que les 3 romans traduits en français 23O. Rousseaux - ABESJournées ABES 2015
    24. 24. Quelques limites • Les ressources continues – Intérêt des regroupements peu probant • Les œuvres anonymes (ou sans points d’accès auteurs) – Risques de regroupements confus (sur titres homonymes) • Les données hétérogènes – Les algorithmes ne peuvent guère pallier aux manques, aux approximations, aux incohérences... 24O. Rousseaux - ABESJournées ABES 2015
    25. 25. « - Et les agrégats... ? »  Plus d’une Œuvre contenue au sein d’une même Manifestation : œuvres littéraires complètes ou choisies, CD musicaux, etc. Wind concertos / Mozart, comp. ; Berliner Philharmoniker, orch. ; Herbert von Karajan, dir. Contient : - Flute concerto n °1 in G major K 313 - Concerto for flute and harp in C major K 299 - Oboe concerto in C major K 314 - Clarinet concerto in A major K 622 - Bassoon concerto in B flat major K 191 - Sinfonia concertante K 297b « - Ben... » Flute and harp concerto K. 299 ; Sinfonia concertante K. 297B / Wolfgang Amadeus Mozart, comp. ; Kenneth Smith, fl. ; Bryn Lewis, hrp ; John Anderson, htb... [et al.] ; Philharmonia Orchestra ; Giuseppe Sinopoli, dir. Contient : - Concerto for flute and harp in C major K 299 - Sinfonia concertante K 297b Au mieux... Regroupement effectué de manière pertinente sur une œuvre (mais sur une seule)  Notice de regroupement par exemple pour Concerto for flute and harp in C major K 299 et Sinfonia concertante K 297b non pris en compte Au pire (?) La notice de Regroupement amalgame tous les titres communs à toutes les notices de la grappe  Notice de regroupement pour Concerto for flute and harp in C major K 299 avec comme « variante de titre » : Sinfonia concertante K 297b
    26. 26. Déjà conclure ? • Sur l'expérimentation en cours – Un grand... « peut-être » • l’Après? – Des incertitudes sur l’articulation technique entre traitements automatiques et traitement manuel – Une maintenance supplémentaire sur le CBS • Mais encore? – Nouvelle version de CBS impérative (début 2016) – Cohabitation / convergence à mener entre les autorités Titres (Titre uniformes / Auteur-Titre) et les notices de Regroupement – Règles de catalogage à établir pour passer des notices de Regroupement à des notices d‘Œuvre (quid des expressions?) – Rapprochements envisagés avec la BnF : vers une base commune de notices d'Œuvres? – ... 26O. Rousseaux - ABESJournées ABES 2015
    27. 27. Rendez-vous l’année prochaine, même heure, même endroit ? Merci. La suite reste donc encore grandement à écrire... 27O. Rousseaux - ABESJournées ABES 2015

    ×