The world’s libraries. Connected.
Les catalogues au défi du Web:
projets et réalisations d‟OCLC en
matière de FRBRisation
...
The world’s libraries. Connected.
OCLC Research
The world’s libraries. Connected.
OCLC Research
•Département de la recherche
(50+ personnes localisées à
Dublin/San Mateo/...
The world’s libraries. Connected.
La croissance de WorldCat
39 41 44 47 50 52 55 61 67
86
108
139
197
236
264
0
50
100
150...
The world’s libraries. Connected.
OCLC Research et FRBR
WorldCat: base de données qui renvoie aux
documents se trouvant da...
The world’s libraries. Connected.
Niveaux des entités FRBR (2002)
Item
Manifestation
Expression
Work The novel
Original Te...
The world’s libraries. Connected.
2004 : premiers résultats
• Analyse de WorldCat: Fouille de données
et développement d‟u...
The world’s libraries. Connected.
2004 : algorithme FRBR
Catégorie problématique: Expressions
• Traductions
• Augmentation...
The world’s libraries. Connected.
The world’s libraries. Connected.
2004 : algorithme FRBR
Spoken
word
Illustrated
edition
Spanish
edition
Abridged
edition
...
The world’s libraries. Connected.
2004 : conclusions
• La capacité à regrouper rétrospectivement
des notices dans une même...
The world’s libraries. Connected.
2004 : statistiques
• Œuvres avec une seule manifestation: 78%
• Œuvres avec une seule e...
The world’s libraries. Connected.
2004 : prototype FictionFinder
• Un prototype où 2.6+ millions de notices
bibliographiqu...
The world’s libraries. Connected.
FictionFinder : affichage
oeuvre/expression & manifestation
The world’s libraries. Connected.
Manifestations
Reproductions
Traductions
Genres
FRBRisation de WorldCat : 2006 Ŕ aujourd...
The world’s libraries. Connected.
Avec la croissance de WorldCat après
2003 : augmentation du nombre de notices
“parallèle...
The world’s libraries. Connected.
• Améliorer les “clusters”
• par le dédoublement des notices
• et le regroupement des no...
The world’s libraries. Connected.
Manifestations
Reproductions
Traductions
Genres
FRBRisation de WorldCat : 2006 Ŕ aujourd...
The world’s libraries. Connected.
• Regrouper le titre original et toutes ses
traductions
• Créer des notices d‟autorité p...
The world’s libraries. Connected.
Manifestations
Reproductions
Traductions
Genres
FRBRisation de WorldCat: 2006 Ŕ aujourd‟...
The world’s libraries. Connected.
The world’s libraries. Connected.
The world’s libraries. Connected.
Used by
permission of
William Denton
The world’s libraries. Connected.
Efforts de recherche à partir de 2011
Fouille de données / machines sémantiques :
extrac...
The world’s libraries. Connected.
Efforts de recherche à partir de 2011
Efforts de modélisation des données liées
• FRBR e...
The world’s libraries. Connected.
The world’s libraries. Connected.
The world’s libraries. Connected.
The world’s libraries. Connected.
• Entités et liens doivent être non-ambigus et
explicités
• Maintenir des notices d‟auto...
The world’s libraries. Connected.
• Objectif : renforcer la présence/visibilité des
bibliothèques sur le Web => les ressou...
The world’s libraries. Connected.
- Codifier les entités importantes
(QUOI, QUI, OÙ, QUAND) dans des notices
d‟autorité
- ...
The world’s libraries. Connected.
MAIS… il faut balancer l‟effort humain.
La possibilité d‟appliquer des techniques
inform...
The world’s libraries. Connected.
Questions?
Titia van der Werf
Titia.vanderwerf@oclc.org
Prochain SlideShare
Chargement dans…5
×

Les Catalogues au Défi du Web: Projets et Réalisations d’OCLC en Matière de FRBRisation

1 610 vues

Publié le

Journée d’information CNFPT, 16 May 2013, Angers, France

Publié dans : Formation
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 610
Sur SlideShare
0
Issues des intégrations
0
Intégrations
6
Actions
Partages
0
Téléchargements
6
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Avec un grand mercià mescollègues de OCLC Research (en particulierJaniferGatenby, Thom Hickey et Jenny Toves) et à FrançoiseLeresche de la BnF (pouravoirrelu et améliorélefrançais).
  • OCLC Research est ledépartement de la recherche à OCLC oùtravaillentunecinquantaine de chercheurs.C’estuneressourcecommunautaire qui travaille pour et avec les bibliothèquesmembres de la cooperative OCLC. Je tiens à le souligner, parceque le caractèrecollaboratifd’OCLC Research esttrèspeuconnu en Europe et ilfaut changer cela: les bibliothèques en Europe peuvent et doivent en profiter plus!
  • Les efforts de regroupementavaient pour but d’améliorer la qualité de la base de donnéesWorldCatdans son ensemble – sans toucher à la qualité des notices individuellesprovenant des bibliothèques. Et en même temps, le regroupementdevaitaussiaméliorerl’expérience de la recherchedansWorldCat. Au lieu d’afficher des centaines et même des milliers de résultats pour un titre, au niveau des exemplaires, ilvalaitmieuxregrouper les exemplaires et afficher les résultats au niveau de l’oeuvre et sesdifférentes expressions et manifestations. Le modèle FRBR étaitvenu au bon moment pour aider à la restructuration des donnéesdans la base WorldCat.
  • Les niveaux desentités FRBR selonTillett, Barbara. 2004. What is FRBR?: A Conceptual Model for the Bibliographic Universe.http://www.loc.gov/cds/downloads/FRBR.PDFTraductionfrançaisedisponible : FRBR, qu'est-ce que c'est ? : un modèle conceptuel pour l'univers bibliographique / Barbara Tillett ; traduction française établie par la BnF.www.loc.gov/catdir/cpso/FRBRFrench.pdf‎
  • En 2004 OCLC Research pouvaitprésenterles premiers résultats de sesexpérimentations :une analyse des données de WorldCatpermettantd’identifier les catégories FRBR et ledéveloppementd’unalgorithme FRBR;2) deux prototypes implémentantl’algorithme FRBRet 3) uneplanificationpourl’implémentation à échelle dans WorldCat.
  • Ledéveloppement de l’algorithme FRBR n’a pas été facile.Surtout la catégorie “Expressions” posait desproblèmes.Toutes les traductions se regroupent au niveau de l’expressionmaiselless’avèrentdifficiles à identifier, parceque lestitressontdifférents – mêmesil’auteurest le même.Pour les révisions: en principe tout peut changer (titre, auteur, nombre de pages, etc.)Et ladémarcation entre une nouvelle expression et une nouvelle oeuvre estsouventfloue : quellescaractéristiques font d’une augmentation une nouvelle oeuvre?
  • Cette illustration du document FRBR montrebien les zones grises entre les catégories FRBR ...
  • Les variations dans la pratique du catalogage et les erreurs ou omissions pendant la transcription et la saisie des données conduit à des regroupements (clusters) faux;Les définitions des catégories FRBR ne sont pas suffisamentclaires. Il vautmieuxpouvoirexpliciter les différencessaillantes (examples: braille et e-books).Le travail empiriquesoutient et informe le travail de modélisation FRBR (Working group on the expression entity)
  • Leschiffresextrapolésmontrent la répartitionsuivante des catégories FRBR dans WorldCat. Ce sont les mesures de 2004.
  • Ledépartement de recherche a aussiconstruit 2 prototypes: FictionFinder – quiregroupe les noticesbibliographiquespour la fictionxISBN – quiregroupetous les ISBNs des manifestationsappartenant à la même categorie d’oeuvre.FictionFinder est intéressantparcequ’on a du prendre des décisionspratiques, làoùl’algorithme FRBR nepermettait pas d’identifier les expressions de manièrefiable.
  • Dans FictionFinder, toutes les expressionssont des traductions. Donc, onpasse de l’oeuvreauxmanifestations à travers un niveau quiregroupetoutes les traductions.Le niveau supérieur est déterminé par les donnéesconcernantl’oeuvre, comme les résumés, les genres de fiction et les sujets. Puis on choisit la langue – danscetexempleil y a un choix entre 4 manifestations de l’oeuvre en anglais.Auniveauinférieur, celui de la manifestation, les éléments de différenciationsont la date de publication, l’éditeur, le numéroiSBN, etc.
  • Voiciunemanière de visualiserla méthode de regroupement FRBR dansWorldCat,tellequ’elles’estdéveloppéedepuis2006.Il s’agitd’uneamélioration continue des algorithmes.En allant du centre à la périphérie : 1) L’ensemble des manifestations contient les examplaires qui représententexactement le même document physique ; 2) Au niveau de l’expression, l’ensemble des reproductions qui sontunecopieexacte du contenumais sous uneautreforme (livre; e-book; HTML; PDF; microforme) ;3) Toujours encore au niveau de l’expression : l’ensemble des traductions ; 4) Au niveau de l’œuvre : l’ensemble des oeuvres qui se distinguent par leur genre(film, musique, pièce de théatre,...)
  • Avant 2004, il y avaitpresqueune relation 1-à-1 entre les identifiants des notices d’OCLC et les manifestations.Mais avec la croissanceexponentielle de WorldCat àpartir de 2003 et le nombre croissant des notices parallèles et des doublons, cette relation a disparu.
  • Le but du projet GLIMIR étaitdonc de regrouper les notices d’unemême manifestation et d’accorder un identifiant à cegroupe.
  • Vousvoyezici à quelniveau la méthode GLIMIR estemployée.
  • Récemment nous avonscommencé un nouveau projet pour regrouper les notices d’un titre et desestraductions – et d’attribuer un identifiant à cegroupe.
  • Etvoicioù se situeceprojetdansla visualisation des ensembles FRBR de WorldCat.
  • Tousces efforts de regroupementconduisent à desstatistiquesintéressantes: par example le nombre de titres publiés par le même auteur, le nombre de traductions, le nombred’exemplaireslocalisésdans les bibliothèques, etc.Cesdonnéespeuventêtreconsultées en cherchantdansWorldCat Identities.Ici, une page sur Baudelaire et son oeuvre.Remarquez les différentsrôles de Beaudelaire (traducteur, créateur, illustrateur, ...) qui dénotent la relation de Beaudelaire avec une publication.
  • Et en déroulant la page, vousvoyez les publications de Baudelaire, et pour chaqueœuvre: le nombred’éditions, de traductions et d’examplaires.
  • Voici un exempled’une notice bibliographique de WorldCat avec sa version en Schema.org.
  • On reconnaît par exemple le champ Schema.org pour l’auteur (schema: author) et vouspouvezvoirqu’unnuméro VIAF a étéremplidansce champs, avec un URI qui renvoie à la page VIAF de Baudelaire.
  • Et voici la page VIAF de Baudelaire, qui rassembletoutes les donnéesfournies par les notices d’autorité des différentesbibliothèquesnationales.Cette page contient à son tour des liens qui renvoientversd’autresressourcessur Baudelaire, comme par exemplel’article Wikipedia.Nous noustrouvons en plein Web de données.
  • Pour réaliserla promesse du Web de données, les entités les plus importantes , commel’auteur et son oeuvre, doiventêtreidentifiées sans ambiguïté et reliéestrèsexplicitement avec des identifiants URI. Les notices d’autoritépeuventdoncjouer un rôleessentieldans le Web de données.
  • Il s’agitdonc de préparer les donnéesbibliographiques et de les exposer sur le Web de manière à cequeleurpotentielpuisseêtreréalisésur le Web. Et OCLC peut et veutjouer un rôle de pivot dans tout ça.
  • Je suisarrivée à la fin de ma présentation – et je voudraisterminer avec quelques observations concernant RDA – le sujet de cettejournée.De ce qui précède, ildécoulequ’ondoitsurtout codifier les donnéesbibliographiques à l’aide de notices d’autorité et qu’ondoitsurtoutéviter les champs en textelibre. Nous avons besoin d'encoder les données de manière à ce qu’elles puissent être réutilisées par des machines, pas seulement en fonction des utilisateurs finaux.
  • MAIS, le message le plus important c’estpeut-êtrebiencelui de ne pas trop vouloir encoder ! Après tout les machines sont plus précises et plus rapides.On a vu qu’ilexiste des possibilitésd’extraire les entitésnommées des millions de notices bibliographiques et de les relier entre-elles.On a vu le rôle de pivot que les grandsagrégateurspeuventjouer pour préparer les donnéesbibliographiques pour le Web de données. La pratique du catalogagedoitdonctirerparti de cesavantages.
  • Les Catalogues au Défi du Web: Projets et Réalisations d’OCLC en Matière de FRBRisation

    1. 1. The world’s libraries. Connected. Les catalogues au défi du Web: projets et réalisations d‟OCLC en matière de FRBRisation Journée d‟information CNFPT Angers, 16 mai 2013 Titia van der Werf Senior Program Officer OCLC
    2. 2. The world’s libraries. Connected. OCLC Research
    3. 3. The world’s libraries. Connected. OCLC Research •Département de la recherche (50+ personnes localisées à Dublin/San Mateo/Leiden); •Ressource communautaire pour et avec les bibliothèques.
    4. 4. The world’s libraries. Connected. La croissance de WorldCat 39 41 44 47 50 52 55 61 67 86 108 139 197 236 264 0 50 100 150 200 250 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 Millions of notices Mesures en April 2012
    5. 5. The world’s libraries. Connected. OCLC Research et FRBR WorldCat: base de données qui renvoie aux documents se trouvant dans les bibliothèques; Croissance et „contamination‟ de la base avec des notices de toutes sortes = plus de richesse - moins d‟uniformité Nécessité d‟afficher les résultats à un niveau d‟entité plus élevé (exemplaire => oeuvre) Utiliser le modèle FRBR
    6. 6. The world’s libraries. Connected. Niveaux des entités FRBR (2002) Item Manifestation Expression Work The novel Original Text Translation Critical Edition Paper Copy 1 Autographed Copy 2 PDF HTML The movie Original Version Based on a graphic in Tillett, Barbara: http://www.iccu.sbn.it/upload/documenti/Tillett.ppt
    7. 7. The world’s libraries. Connected. 2004 : premiers résultats • Analyse de WorldCat: Fouille de données et développement d‟un algorithme FRBR • Prototypes (FictionFinder, xISBN) • Planification pour l‟implémentation de l‟algorithme FRBR dans WorldCat (2004- 2006)
    8. 8. The world’s libraries. Connected. 2004 : algorithme FRBR Catégorie problématique: Expressions • Traductions • Augmentations • Révisions • etc. et la démarcation avec les catégories adjacentes
    9. 9. The world’s libraries. Connected.
    10. 10. The world’s libraries. Connected. 2004 : algorithme FRBR Spoken word Illustrated edition Spanish edition Abridged edition Adaptation Expressions Oeuvre¹ Oeuvre² e¹ e² e³ e¹e4 http://www.loc.gov/cds/downloads/FRBR.PDF
    11. 11. The world’s libraries. Connected. 2004 : conclusions • La capacité à regrouper rétrospectivement des notices dans une même catégorie est limitée par les données bibliographiques disponibles; • Les distinctions entre les catégories FRBR ne sont pas suffisament explicites (zones grises). • Le travail empirique soutient et informe le travail de modélisation FRBR
    12. 12. The world’s libraries. Connected. 2004 : statistiques • Œuvres avec une seule manifestation: 78% • Œuvres avec une seule expression mais plusieurs manifestations: 16% • Œuvres avec plusieurs expressions: 6%
    13. 13. The world’s libraries. Connected. 2004 : prototype FictionFinder • Un prototype où 2.6+ millions de notices bibliographiques pour la fiction ont été regroupées en fonction de l‟algorithme FRBR • En raison de la difficulté d'identifier les expressions de manière fiable, les manifestations sont organisées par la langue d'expression
    14. 14. The world’s libraries. Connected. FictionFinder : affichage oeuvre/expression & manifestation
    15. 15. The world’s libraries. Connected. Manifestations Reproductions Traductions Genres FRBRisation de WorldCat : 2006 Ŕ aujourd‟hui
    16. 16. The world’s libraries. Connected. Avec la croissance de WorldCat après 2003 : augmentation du nombre de notices “parallèles” pour une même manifestation 2009: GLIMIR
    17. 17. The world’s libraries. Connected. • Améliorer les “clusters” • par le dédoublement des notices • et le regroupement des notices de manifestations cataloguées dans des langues différentes et faites en suivant des règles de catalogage différentes • Attribuer un identifiant à chaque groupe de manifestations. 2009: GLIMIR
    18. 18. The world’s libraries. Connected. Manifestations Reproductions Traductions Genres FRBRisation de WorldCat : 2006 Ŕ aujourd‟hui GLIMIR: Regroupe des notices différentes par la langue et les règles de catalogage
    19. 19. The world’s libraries. Connected. • Regrouper le titre original et toutes ses traductions • Créer des notices d‟autorité pour les titres au niveau de l‟œuvre 2011 : Multilingual Bib Structure
    20. 20. The world’s libraries. Connected. Manifestations Reproductions Traductions Genres FRBRisation de WorldCat: 2006 Ŕ aujourd‟hui Multilingual Bib structure : regroupe les notices du titre original + ses traductions.
    21. 21. The world’s libraries. Connected.
    22. 22. The world’s libraries. Connected.
    23. 23. The world’s libraries. Connected. Used by permission of William Denton
    24. 24. The world’s libraries. Connected. Efforts de recherche à partir de 2011 Fouille de données / machines sémantiques : extraction d‟entités nommées et de relations qui se trouvent cachées dans les champs en texte libre des notices bibliographiques
    25. 25. The world’s libraries. Connected. Efforts de recherche à partir de 2011 Efforts de modélisation des données liées • FRBR et Schema.org • W3C Schema Bib Extend Community Group • BIBFRAME (Bibliothèque du Congrès)
    26. 26. The world’s libraries. Connected.
    27. 27. The world’s libraries. Connected.
    28. 28. The world’s libraries. Connected.
    29. 29. The world’s libraries. Connected. • Entités et liens doivent être non-ambigus et explicités • Maintenir des notices d‟autorité pour les entités importantes : personnes, œuvres, etc. (VIAF, work-authorities) • Identifiants URI pour les personnes (ISNI), les œuvres, etc. • Exprimer et codifier les liens entre les entités Pour réaliser la promesse du Web des données
    30. 30. The world’s libraries. Connected. • Objectif : renforcer la présence/visibilité des bibliothèques sur le Web => les ressources bibliographiques ont besoin d‟identifiants URI • Relation entre work-id, manifestation-id et oclc-record-id ? • En tant qu‟agrégateur, OCLC joue un rôle de pivot qui relie les autorités gérées par les bibliothèques. Example : VIAF. A propos des URI
    31. 31. The world’s libraries. Connected. - Codifier les entités importantes (QUOI, QUI, OÙ, QUAND) dans des notices d‟autorité - Gérer les liens entre les éléments de description et les notices d‟autorité par identifiant numérique/URI - Codifier la langue de catalogage, les règles suivies (RDA, Afnor, AACR2, etc.), pas d‟abréviations, moins de texte non-structuré… Quelques observations pour RDA
    32. 32. The world’s libraries. Connected. MAIS… il faut balancer l‟effort humain. La possibilité d‟appliquer des techniques informatiques pour extraire les entités nommées des millions de notices bibliographiques et les relier entre elles est pleine de promesses. Les agrégateurs de métadonnées comme OCLC et l‟ABES ont un rôle à jouer pour transformer les notices en triplets et un rôle de pivot pour relier les entités avec les autorités. Quelques observations pour RDA
    33. 33. The world’s libraries. Connected. Questions? Titia van der Werf Titia.vanderwerf@oclc.org

    ×