Vers un nouveau Sudoc
Les données au cœur des projets de valorisation
Journées ABES 2015
Plan
 (introduction) Cette présentation traite la valorisation des données mise
en œuvre à des fins de qualité et d’utili...
Grandes lignes
C’est quoi un « nouveau » Sudoc ?
 Une réalité déjà quotidienne à travers des pratiques professionnelles
a...
LA VALORISATION DES DONNÉES
DES PÉRIODIQUES ET DES LIVRES
ÉLECTRONIQUES
Journées ABES 2015
4
Valorisation des données
 La valorisation consiste à améliorer un matériau dégradé
 Pour les métadonnées de référence su...
BACON
2 June 2015Journées ABES 2015
6
BACON
2 June 2015Journées ABES 2015
7
BACON
2 June 2015Journées ABES 2015
8
BACON
2 June 2015Journées ABES 2015
9
BACON
2 June 2015Journées ABES 2015
10
BACON
2 June 2015Journées ABES 2015
11
Label
ABES
BACON
2 June 2015Journées ABES 2015
12
BACON
2 June 2015Journées ABES 2015
13
BACON
La suite …
 S’étendre au corpus et aux données ISTEX
 S’adosser à des bases externes supplémentaires
 Se connecte...
BACON
2 June 2015
Journées ABES 2015
15
Hub de métadonnées
 Le hub est un ensemble de méthodes et d’outils internes
pour récupérer et partager des données fiable...
XSLT
Web de
données
Corpus de
métadonnées
Analyser / Modéliser Convertir / Fournir
RDF
VIAF®
Corriger / Enrichir
XSLT
Enri...
Hub de métadonnées
 Exposition des données
Dilemme : exhaustivité versus accessibilité
 L’avenir du Hub
Elargissement au...
CERCLES
 Articulation traitement interne (avec le Hub) et traitement manuel par le
réseau (CERCLES).
 L’ABES donne ses p...
CERCLES
 Voici un exemple de traitement
2 June 2015Journées ABES 2015
20
CERCLES
2 June 2015Journées ABES 2015
21
LA VALORISATION DES DONNÉES
BIBLIOGRAPHIQUES ET
D’AUTORITÉ
Journées ABES 2015
22
Un bel ouvrage de catalogueur (1 / 3)
2 June 2015
23
Journées ABES 2015
Un bel ouvrage de catalogueur (2 / 3)
c’est une considérable quantité d’informations très qualifiées transformées en
donné...
Un bel ouvrage de catalogueur (3 / 3)
2 June 2015
25
Journées ABES 2015
Un bel ouvrage de cata…linkeur (1 / 3)
2 June 2015
26
URL pérenne de la
ressource
Journées ABES 2015
Un bel ouvrage de cata…linkeur (2 / 3)
2 June 2015
27
Mots-clés normalisés
cliquables
Journées ABES 2015
Un bel ouvrage de cata…linkeur (3 / 3)
2 June 2015
28
Liens aux acteurs
Journées ABES 2015
Ricochets et rebonds (1 / 3)
2 June 2015
29
Identifiant et page
personnels
Journées ABES 2015
Ricochets et rebonds (2 / 3)
2 June 2015
30
Identifiant
=
pivot
=
autorité
Journées ABES 2015
Ricochets et rebonds (3 / 3)
31
2 June 2015
autorité
=
interopérabilité
Journées ABES 2015
Le projet IdRef (1 / 4)
2 June 2015
32
Journées ABES 2015
Le projet IdRef (2 / 4)
33
Conditor AO
Journées ABES 2015
Le projet IdRef (3 / 4)
 2 500 000 notices d’autorités Personne dans IdRef & 10 000 nouvelles par
mois
 250 000 notices ...
Le projet IdRef (4 / 4)
 a
 Hiérarchiser les Ressources donc les Métadonnées à produire
 Construire des coopérations ag...
S’enrichir mutuellement (1 / 4)
2 June 2015
36
URL pérenne de la ressource
&
paramètre de recherche
Journées ABES 2015
S’enrichir mutuellement (2 / 4)
2 June 2015
37
Références
issues de bases distinctes
Journées ABES 2015
S’enrichir mutuellement (3 / 4)
2 June 2015
38
Un référentiel IST ?
Journées ABES 2015
Via Conditor ?
Ouvert aux auteurs ?...
S’enrichir mutuellement (4 / 4)
Vers un référentiel national ?
2 June 2015
39
Journées ABES 2015
39
Avec la BnF et ouvert ...
 Entrez dans les CERCLES
 Identifiez les acteurs scientifiques de votre établissement
 Soignez vos thèses
 Boostez le ...
Merci de votre attention,
place à vos remarques, à vos questions.
2 June 2015
41
Journées ABES 2015
• Images
La bulle montrant Cetotaumatix se plaignant de la fraicheur de la
marchandise d’Ordralphabétix est extraite du do...
43
Journées ABES 2015
Prochain SlideShare
Chargement dans…5
×

JABES 2015 - Vers un nouveau Sudoc / Stéphane Rey, François Mistral (ABES)

1 986 vues

Publié le

Depuis sa création en 2000, le Sudoc n’a cessé d’évoluer afin de s’adapter aux changements fondamentaux survenus tels que la multiplication des sources de données, une exposition croissante de ces données sur le web, de plus en plus de types de données à traiter, une granularité toujours plus fine. Des orientations ont été prises tels que l’autonomie des données vis à vis des outils, la recherche de la qualité en opposition à la recherche de l’exhaustivité, l’enrichissement et le liage des données entre elles et avec d’autres sources...
Poursuivant ces objectifs, plusieurs projets sont en cours à l’ABES : Bacon, le référentiel des autorités,
le hub de métadonnées, le SGBm, l’expérimentation CERCLES auxquels s’ajoutent d’autres études et expérimentations lancées depuis le début de l’année... En quoi et comment ces projets, études et expérimentations font évoluer le Sudoc pour le transformer à terme en un “Sudoc 2” ?

Publié dans : Formation
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 986
Sur SlideShare
0
Issues des intégrations
0
Intégrations
392
Actions
Partages
0
Téléchargements
27
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Bonjour à tous et merci d’assister à cette présentation.

    Stéphane et moi-même interviendrons successivement au cours de cette présentation intitulée « Vers un nouveau Sudoc », titre un tantinet ambitieux ;-)), pour laquelle nous proposons plus modestement un voyage à dos de métadonnées au pays du signalement.

    L’angle choisi n’est donc pas celui des systèmes d’informations mais bien celui des données. Et comme l’indique le sous-titre « Les données au cœur des projets de valorisation », nous retiendrons ici les projets qui ont pour finalité commune de « valoriser » les données de nos catalogues, c’est-à-dire qui mettent en œuvre un ensemble de procédés par lesquels sont transformées des données brutes ou appauvries en données de qualité et d'utilité supérieures.

    En dépit des différences de procédés ou de méthodologie, des projets aussi différents que IdRef, Bacon, Hub, CERCLES, ont bien un point commun réel et précieux : disposer des meilleures données possibles, des données valorisées pour optimiser leurs exploitations.

    Ce faisant, nous espérons dessiner un paysage-cible composés de données, d’applications, de services, qui vous donnera envie de réagir en connaissance de cause sur cette orientation à tracer qui nous emmène « vers une nouveau Sudoc ».
  • Nous le verrons dans cette présentation, un nouveau Sudoc c’est :





    Stéphane va maintenant nous présenter la valorisation des données des périodiques et des livres électroniques.

    Puis je reviendrai pour la partie sur la valorisation des données bibliographiques et d’autorités.
  • En introduction, nous vous avons dit que « La valorisation consiste à améliorer un matériau dégradé ».

    Ceci est particulièrement vrai dans le cadre des données fournies directement par les éditeurs.
    Que ce soit des données décrivant les offres commerciales des éditeurs, les masterlist, les packages , fournies dans un format KBART ou « pseudo » KBART,
    c’est à dire les Métadonnées de référence sur les Périodiques et livres électroniques.

    Ou bien les métadonnées bibliographiques, souvent fournies au format MARC.

    Tout cela pour un meilleur signalement.

    Il est bien évident que l’ABES ne peut pas améliorer toutes les données du Sudoc. Mais nous pouvons viser l’excellence sur certains type de données.

    C’est ce que cherche à faire BACON en visant, non pas l’exhaustivité, mais une qualité élevée des données pour les bouquets de titres francophones et les bouquets francophones commercialisés pour le marché académique français.
  • BACON est donc un intermédiaire entre les éditeurs et les établissements.

    BACON :
    1/ favorise la production des fichiers KBART
    2/ les collecte
    3/ les évalue, voire les labellise
    4/ les expose, les rend disponibles auprès de qui veut.


  • Concrètement, de quel constat est parti le projet BACON ?

    Les bases de connaissances disposent de données qui ne sont pas toujours fiables et qui ne correspondent pas aux packages fournis par les éditeurs pour le marché français.

    Un exemple précis, avec PERSEE.

    Comme nous le voyons sur cette diapositive, SFX propose 185 titres
  • SerialSolution propose 281 titres
  • Et enfin, comme on le voit ici sur une capture d’écran de l’outil OpenRefine, BACON trouve 250 titres

    Concernant les données reçues de PERSEE, elles n’étaient pas parfaites.
    Comme il se doit, BACON les a analysé et a proposé un certains nombre de corrections à l’éditeur.

  • Prenons un exemple concret : la revue de l’OFCE éditée entre 1982 et 2000 dont nous voyons ici les données au format KBART.

    BACON a analysé les données grâce à différents processus, certains manuels grâce à l’outil OpenRefine, d’autres plus automatisés, qui réalisent des vérifications « bibliographiques » à l’aide de traitements réalisés dans le cadre du Hub de métadonnées :
    On peut citer
    l’identification des titres éditeurs,
    la vérification du registre ISSN
    les liens titre / auteur
    l’utilisation du webservice Metarevue : 1 « titre » éditeur peut correspondre à X titres dans le SUDOC (c’est-à-dire plusieurs PPN)
    la correspondance des périodes couvertes (états de collections), années, volumes, numéros…

    Grâce à ces vérifications, BACON a pu indiquer précisément les corrections à apporter aux données, ce qui pour cette notice correspond à ceci

  • Le titre initial a été découpé en 2 titres distincts, correspondant à des titres de publication différents, à une couverture différente, à des identifiants (ISSN) différents.
    Un fois les données corrigées chez l’éditeur, comme cela a été le cas pour PERSEE, ces données pourront être labellisées dans BACON.

    Mais le travail n’est pas encore terminé :
    Pour que le travail réalisé dans BACON soit utile au réseau, il convient que les bases de connaissances que vous utilisez dans vos établissement se mettent à jour avec cette information de qualité.

    Ce qui n’est pas encore toujours le cas…
  • A ce jour, les données que l’on trouve dans SFX ne sont pas encore à jour pour la package PERSEE, on trouve toujours un titre au lieu de 2
  • Même constat pour SérialSolution.

    L’équipe BACON espère que l’entrée en production officielle de BACON dans les prochaines semaines et la communication autour de la labellisation des données va clore ce cercle vertueux et que les données de BACON vont redescendre dans les bases de connaissances et donc dans vos établissements.
  • La suite

    S’étendre au corpus et aux données ISTEX
    L’équipe du hub produit des fichiers conformes à la recommandation KBART qui permettent de décrire le contenu des bouquets de ressources électroniques acquis en licence nationale.
    On y précise la liste des ressources contenues dans le bouquet (identifiants, titres), les dates de couverture et les URLs d’accès.
    D’ici quelques mois, ces fichiers KBART seront centralisés dans Bacon


    S’adosser à des bases externes supplémentaires pour une meilleure analyse et correction des données.
    Parmi ces bases, on peut citer WorldCat, en utilisant les webservices disponibles sur cette base.


    Se connecter à la base Sudoc (ceci dans le cadre du Sudoc 2) :
    Pour identifier facilement à quel package une ressource du Sudoc appartient. 1 bouquet KBART comporte N titres qui correspondent à K notices du Sudoc.
    Pour établir « le plus automatiquement possible » la cartographie de la documentation électronique
    Améliorer les liens entre documentation papier et électronique. Aujourd’hui cela existe dans le Sudoc par le biais de liens réciproques. C’est d’ailleurs exploité dans l’interface publique du Sudoc
  • Le hub est un ensemble de méthodes et d’outils internes pour récupérer et partager des données fiables

    But :
    Contribuer à un espace public de métadonnées ouvertes, à l’échelle du web
    Que chacun intègre ces données ouvertes dans ses propres outils (dont le Sudoc)

    Aujourd’hui :
    Pas d’outil « hub » proposé à l’extérieur
    Collaboration avec le réseau Sudoc
  • Voici rapidement comment fonctionne le Hub de métadonnées :
    Il ingères des métadonnées issues des éditeurs, aujourd’hui ISTEX et licences nationales

    Il les transforme dans un modèle de données ABES en RDF, en utilisant des vocabulaires standards.
    Depuis 1 an, le travail de modélisation pour les données de périodiques a permis de définir un modèle cible parfaitement opérationnel pour les données de périodiques. Ce type de modèle sont la préfiguration d’un futur Sudoc.
    Nous verrons les principes de cette modélisation dans la diapositive suivante.
    Vous pourrez noter que cette modélisation descend au niveau de l’article.

    Il les enrichis grâce à diverses sources externes, aujourd’hui le Sudoc et surtout IdRef pour identifier les auteurs ISTEX et établir les liens entre les métadonnées des éditeurs et notre référentiel d’autorité.
    Quels enrichissements ?
    Ajout ou suggestion de liens IdRef (SudocAD)
    Ajouts de sujets (Rameau), d’indices Dewey, par croisement ou alignements avec des sources externes
    Reconnaissance de langage (résumés)
    Préfiguration du Sudoc 2
    Traiter de la documentation à tous les niveaux. Le hub de métadonnées permet de réintégrer dans les métadonnées décrivant les articles les ISSN correspondants. Aujourd’hui, cette information ne sort pas du Hub.
    La détection des ISSN correct correspondant au titre est lui de la responsabilité du réseau. C’est là que l’expérimentation CERCLES entre en jeu.


    Mais le hub de métadonnées a également besoin du réseau.
    Par exemple, la création d’une zone 309 pour coordonner le travail collectif sur la qualité des données Sudoc
    Certains traitements automatiques du Hub ont permis d’enrichir les données, notamment en ajoutant des liens aux autorités auteur. Quand le programme n’a pas su identifier la bonne autorité, une zone 309 a été injectée dans la notice bibliographique concernée, pour inciter les catalogueurs à poursuivre le travail et les guider.

    Le Hub redistribue ensuite les données nettoyées et enrichies vers :
    - Bacon (au format KBART) pour les données ISTEX
    - le Sudoc puis bien entendu vers vos SIGB
    - L’INIST pour la plateforme ISTEX
    - et bien d’autres encore


  • Les établissements donnent les leurs et leur périmètre d’action : corpus ou partie de corpus, types de liens, calendrier prévisionnel (particuliers pour les périodiques avec demandes de numérotation issn)
  • 4XX : traités en un peu plus d’un mois 408 liens créés 20 liens / heure = 20,5 h (3 jours ETP)
    6XX et 7XX plus chronophages…
    Insertion de zones 301 en accord avec le CR 26

    pouvoir rapatrier des données enrichies en toute connaissance de causes dans son système local (avec ou sans KB)
    aider à la construction des outils de demain (Hub, Bacon, Qualinca) qui à leur tour faciliteront le travail de contrôle qualité et d’amélioration des données en amont mais qui ne pourront pas totalement remplacer l’œil humain
     
    Continuer à tisser une toile cohérente aux motifs structurés répondant aux besoins de la doc électronique dont la volumétrie nous oblige à adapter nos pratiques/méthodes, faire évoluer nos outils
    Passer moins de temps à la création de notice mais plus à l’amélioration des données : corrections et enrichissements.

  • <Introduction de la seconde partie>
  • Passons maintenant aux données bibliographiques et aux données d’autorité.

    Vous vous souvenez qu’à l’origine du Sudoc, il y a la décision de faire un catalogue sous autorités.

    De plus, à l’origine d’une notice d’autorité, il y a une notice biblio donc une ressource documentaire en train d’être décrite.

    Les notices biblio sont le substrat vivant des notices d’autorités.

    Alors commençons par le commencement : il était une fois un document catalogué !
  • Ceci est la notice d’une thèse soutenue en 2013, c’est une visualisation avec le Sudoc pro.

    Cette notice a été créée intégralement par un catalogueur dans l’outil de production de métadonnées STAR.

    Ce n’est pas n’importe quelle thèse vous l’aurez noté, c’est une belle thèse !

    Cette notice se caractérise par son équilibre, son ordre, sa sérénité (qui émanent d’elle dans une pure esthétique apollinienne.)

    Caractères rares et touches de bleu dans un agencement typographique à dominante noire sur fond jaune pâle : prenons quelques instants pour contempler ce bel ouvrage de catalogueur.

    (Une thèse est évidemment un fort bon exemple car on sait que nous devons apporter un soin jaloux à leur signalement. Les thèses, dont la production et la visibilité sont très importantes, ouvrent aux autorités les portes de l’Enseignement Supérieur et de la Recherche, acteurs, collectivités et sujets.
    Il me semble que l’on pourrait en dire autant (sinon plus) d’un fichier EAD décrivant un manuscrit.)
  • Un bel ouvrage de catalogueur, c’est une considérable


    Où l’on va retrouver par zone ou par bloc.

    Notez tout de même qu’un autre formalisme est possible : le RDF, va exprimer ce qui est ici codé par des chiffres avec les relations qualifiées selon un schéma élémentaire sujet-verbe-complément.

    La production est une action de transformation.
  • C’est ce travail qui permet d’obtenir une élégante page de thèses.fr, complète, liée, « parfaite » !
  • Un bel ouvrage de catalogueur c’est aussi déjà un bel ouvrage de catalinkeur.

    Les pratiques évoluent, ont évoluées, le formalisme unimarc s’adapte, s’est adapté : les technologies du web de données ont été intégrées par les catalogueurs et sont déjà visibles.

    L’identifiant pérenne de la notice « htpp://www.thèses.fr/2013LYO20067 » est inscrit dans la zone dédiée 033 de la notice.

    Et celui-ci devient une adresse pérenne sur le web : il est construit avec l’intitulé de la base (thèses.fr) et le NNT de la thèse.
  • Un bel ouvrage de catalinkeur, c’est aussi une richesse de mots-clés d’indexation de la ressource avec du vocabulaire contrôlé Rameau (il pourrait aussi y avoir du FMeSH)

    En bleu, les identifiants (des PPN) du référentiel Nom commun d’IdRef.

    Et en 610 une sélection de termes « libres » concertés avec le doctorant. Le catalogueur maîtrise donc aussi le langage naturel, qu’il manie aisément avec les personnes qui viennent le voir.

    Ces mots-clés, même libres, sont normalisés et, par un jeu de clic, nous mènent aux autres références indexées respectivement avec ces termes.
  • Enfin, un bel ouvrage de catalinkeur, ce sont ces autres zones, les 7XX où l’on indique les vedettes de responsabilités intellectuelles.

    Ces sont les zones de liens aux autorités Personne & Collectivité, acteurs très importants pour nous car appartenant à la sphère ESR !

    On remarque que les noms & prénoms sont précédés d’un identifiant, PPN encore, puis suivis d’un code de fonction.
    Ex : 956 = président du jury

    Ces informations sont rassemblées dans 3 blocs de thèses.fr livrant une information complète sur les intervenants et leurs rôles respectifs.
  • Ces éléments vont permettre de naviguer par ricochets et par rebonds.

    Voici que notre attention est attirée par le président du jury.

    Un clic sur le lien amène à la page de cette personne dans thèses.fr qui rassemble les thèses auxquelles elle est associée et cela en précisant les rôles qu’elle a joués dans leur encadrement : directeur, président, membre du jury.

    On trouve aussi les mots-clés qui composent son champ de spécialisation scientifique : Didactique, Sémantique, Français, etc.

    Au passage, notons que la page de cette personne dans thèses.fr est construite avec l’identifiant de sa notice d’autorité 026743434.
  • Cette autorité là voici : son adresse pérenne est là encore construite avec l’intitulé de la base, le référentiel IdRef, et avec l’identifiant de la personne, identifiant, qui identifie de façon unique et pérenne !

    Cet identifiant est donc le vecteur d’interopérabilité entre 2 silos de données : thèses.fr et IdRef.

    Mais d’IdRef, on peut en un clic se rendre sur l’interface de recherche du Sudoc où sont rassemblées les 98 publications de Danielle Leeman référencées dans ce catalogue.

    Cet identifiant est donc le vecteur d’interopérabilité entre 3 silos de données.
  • Et de 4, avec Persée !

    Cette interopérabilité est en pleine croissance : ailleurs sur le web dans une base bibliographique exogène à l’ABES et ses réseaux, voici qu’on retrouve notre identifiant et que l’autorité joue un rôle de pivot.

    Ceci est le résultat du travail commun et en cours avec Persée. Initié depuis quelques mois, ce sont pas moins de 10 000 identifiants IdRef que Persée possède dans son système. A terme, ce sont 80 000 auteurs alignés que nous visons.



    Alors, toutes les passerelles ne sont pas en place, ou ne sont pas réciproques pour l’instant. Mais il y a une ligne directrice, c’est le projet IdRef.

    Ce travail en cours de partage d’autorités communes, dont les bénéfices sont manifestes, illustre le cœur du projet IdRef, identifiant et référentiel pour l’Enseignement Supérieur et la Recherche.
  • Originellement fichier d’autorités du Sudoc, ce dont le logo garde encore la trace, constitué par chargement de la BnF et d’ailleurs, les jeux de données d’autorités ont été continuellement enrichis depuis 20 ans par les catalogueurs du réseau Sudoc.

    Depuis 2010, le projet IdRef propulse ces données d’autorités au-delà :
    Il y eut d’abord Calames, puis STAR, STEP et thèses.fr

    Cela passe par une technologie dédiée nativement à l’interconnexion dans toute application tierce (toutes configurations possibles) : que l’application serve à produire des métadonnées ou à les exposer !

    IdRef est donc à la fois les données et le véhicule qui permet le partage de ces données avec des bases bibliographiques diversifiées : archives et manuscrits, écrits académiques, etc. ; et ce malgré des formats, des modèles de données eux aussi diversifiés.
  • A ce jour, la vocation d’IdRef à interagir peut s’illustrer comme suit :

    Premièrement ce sont des applications tierces branchées ou en cours de branchement qui engendrent des corrections, enrichissements et contributions au référentiel commun.

    Notons que le signalement des thèses, qui se fait avec différents outils, ce signalement est en train de se fédérer autour d’un même jeu d’autorités.

    2) Des applications tierces qui disséminent les identifiants du référentiel

    3) Des applications cibles avec lesquelles une coopération serait des plus fructueuses, et des échanges plus ou moins avancés en fonction des partenaires.

    Les AO sont des cibles particulièrement importantes qu’il n’est pas aisée d’atteindre, nous accueillerions chaleureusement leurs sollicitations.
  • (Poursuivons le raisonnement avec les autorités Personne)

    Le projet IdRef consiste dans un même temps à rendre justice au travail réalisé par tous les catalogueurs de nos bibliothèques depuis 20 ans.

    Aujourd’hui nous sommes en mesure de le faire et cela peut rendre service bien au-delà de la sphère strictement documentaire.

    Projets :
    VIAF, ISNI
    Conditor
    Chantiers et projets ciblés : FRBNF ou ArchéoRef des Ecoles françaises
    Croisements d’envergure avec d’autre bases bibliographiques : Persée, ADUM, etc.
    Identification des auteurs français du corpus ISTEX par le Hub
    Expérimentation FRBR
    Crowdsourcing
    Etc.





  • Mais cela nécessite des données de toute première qualité, de première fraicheur !

    D’où la nécessité d’apporter un soin jaloux au fait de lier TOUTES les personnes, TOUTES les collectivités, TOUS les Mots-clés, etc. dans les notices bibliographiques car il n’y a rien de plus sûr qu’une biblio pour établir et s’assurer d’une autorité : en effet, il y a des centaines de Jean Martin, mais il n’y a qu’un Jean Martin auteur en 1957 d’un vibrant « Hommage au président Edouard Herriot ».

    D’où la nécessité de hiérarchiser, comme l’a exposé Stéphane. Ex : mieux vaut lier à des autorités tous les membres du jury de toutes les thèses françaises, plutôt que de créer des autorités pour les auteurs Springer ! C’est plus raisonnable comme politique documentaire.

    D’où aussi la nécessité de nous répartir de façon plus agile les différents pans d’activité : Production : contrôle à la production et aide à la production & Détection-Correction d’anomalies.

    Un exemple : depuis longtemps, les catalogueurs signalent au guichet d’assistance, les doublons d’autorité qu’ils rencontrent au gré du catalogage. Mais depuis peu, VIAF nous a permis de détecter un stock de 10 000 paires de doublons. Entre le réseau et VIAF, l’équipe autorités de l’ABES ne peut suivre. Il faut donc maintenant imaginer des manières de transférer directement à des interlocuteurs identifiés lors de chantiers ciblés ces lots de données. Et imaginer aussi le suivi qui va avec !

    Cela passe assurément par les correspondants dans vos établissements dédiés aux autorités travaillant avec les professionnels impliqués dans les thèses et avec ceux qui sont au contact des services de valorisation de la recherche.
    Correspondant autorités c’est une fonction traditionnelle qui avait tendance à passer inaperçu ; aujourd’hui avec le rôle des identifiants et des autorités pour l’interopérabilité des bases et pour le web de données, cette fonction traditionnelle cristallise les enjeux les plus à la page.
    Répondre à ces nécessités est la meilleure façon de se préparer à l’avenir qui a déjà débuté !

  • Le jeu en vaut la chandelle, vous ne croyez pas.

    Une manière de valorisation prochaine : avec l’équipe Calames, on aurait voulu vous présenter cela en production, mais ce n’est pour l’instant qu’en phase de test : IdRef va prochainement être capable de remonter les références Calames dans son interface !

    La démonstration du rôle de pivot entre bases que peut jouer les autorités est ici évidente.
  • Et pourquoi s’arrêter là :

    On peut remonter les références de Persée, de thèses.fr, d’ISTEX, etc….
  • L’enrichissement mutuel dans la sphère ESR passe par cette question, que les éléments du moment invitent à décliner en questions connexes :

    Quel rôle de Conditor, s’il voit le jour comme nous l’espérons
    Quel rôle des auteurs eux-mêmes, des producteurs comme pour le dépôt dans HAL
    Quel rôle des autres identifiants de la recherche, ORCID, RID, Scopus ID, IdHal, etc.
    Quel rôles des CRIS, ou d’un CRIS national, et donc rôle de l’AMUE et du CNRS

    Alors à quand cette convergence pour les bénéfices immenses que l’on peut aisément escompter.

  • L’enrichissement mutuel passe aussi par un rapprochement avec les institutions de la Culture, le fameux franchissement du « Yalta ».

    Cette question est aujourd’hui posée de façon très claire entre la BnF et l’ABES. C’est un des dossiers moteur de la coopération ouverte et féconde.

    A partir de l’’existant : Un rapprochement normatif + Des alignements déjà faits entre la BnF et l’ABES (FRBNF, VIAF, ISNI) + des Outils nationaux de production (EAD)

    Comment aboutir à un référentiel national de production de données d’autorités ?

    Une première étape est sûrement le rapprochement BnF-ABES-autres partenaires (DILA, SGDL, Archives nationales…)
    Cette étape comprend aussi la candidature portée à deux ABES-BnF à un appel d’offre des Investissements d’avenir visant à l’élaboration du prototype d’une plateforme de co-production d’autorités personnes et collectivités.
  • Pour conclure, 4 recommandations très pratiques à emporter avec vous dans vos établissements.


    Enfin, je souhaite partager avec vous les récentes, réconfortantes et sages paroles d’une collègue, assorties d’un clin d’œil naturellement !
  • JABES 2015 - Vers un nouveau Sudoc / Stéphane Rey, François Mistral (ABES)

    1. 1. Vers un nouveau Sudoc Les données au cœur des projets de valorisation Journées ABES 2015
    2. 2. Plan  (introduction) Cette présentation traite la valorisation des données mise en œuvre à des fins de qualité et d’utilité.  (Partie 1) Il est d’abord question des données de périodiques électroniques et d’ebooks valorisées par les projets BACON, HUB et CERCLES ;  (Partie 2) Puis des données d’autorités et des données bibliographiques valorisées par le référentiel d’autorités IdRef.  (conclusion) Enfin, la valorisation met en évidence des données et des chantiers prioritaires sur lesquels nous devons maintenant nous engager collectivement. 2 June 2015 2 Journées ABES 2015
    3. 3. Grandes lignes C’est quoi un « nouveau » Sudoc ?  Une réalité déjà quotidienne à travers des pratiques professionnelles ayant cours  Un réseau producteur-utilisateur-réutilisateur au sein d’acteurs semblables  La production de métadonnées très qualifiées pour des ressources prioritaires  La consolidation croisée des métadonnées pour leur qualité optimale  Des données fiables librement exploitables sur le web 2 June 2015 3 Journées ABES 2015
    4. 4. LA VALORISATION DES DONNÉES DES PÉRIODIQUES ET DES LIVRES ÉLECTRONIQUES Journées ABES 2015 4
    5. 5. Valorisation des données  La valorisation consiste à améliorer un matériau dégradé  Pour les métadonnées de référence sur les périodiques et livres électroniques => BACON  Pour les métadonnées bibliographiques sur les périodiques et livres électroniques => HUB et CERCLES  Pour un meilleur signalement 2 June 2015Journées ABES 2015 5
    6. 6. BACON 2 June 2015Journées ABES 2015 6
    7. 7. BACON 2 June 2015Journées ABES 2015 7
    8. 8. BACON 2 June 2015Journées ABES 2015 8
    9. 9. BACON 2 June 2015Journées ABES 2015 9
    10. 10. BACON 2 June 2015Journées ABES 2015 10
    11. 11. BACON 2 June 2015Journées ABES 2015 11 Label ABES
    12. 12. BACON 2 June 2015Journées ABES 2015 12
    13. 13. BACON 2 June 2015Journées ABES 2015 13
    14. 14. BACON La suite …  S’étendre au corpus et aux données ISTEX  S’adosser à des bases externes supplémentaires  Se connecter à la base Sudoc : – Visualiser dans quel package se trouve une ressource – Établir la cartographie de la documentation électronique – Améliorer les liens entre documentation « papier » et documentation électronique 2 June 2015 14
    15. 15. BACON 2 June 2015 Journées ABES 2015 15
    16. 16. Hub de métadonnées  Le hub est un ensemble de méthodes et d’outils internes pour récupérer et partager des données fiables  Objectifs : – Contribuer à un espace public de métadonnées ouvertes, à l’échelle du web – Que chacun intègre ces données ouvertes dans ses propres outils (dont le Sudoc) 2 June 2015Journées ABES 2015 16
    17. 17. XSLT Web de données Corpus de métadonnées Analyser / Modéliser Convertir / Fournir RDF VIAF® Corriger / Enrichir XSLT Enrichissements Aide au catalogage : note zone Sudoc 309 CERCLES Bases de connaissances Un ensemble d’outils et de procédures
    18. 18. Hub de métadonnées  Exposition des données Dilemme : exhaustivité versus accessibilité  L’avenir du Hub Elargissement aux imports courants Exposition du RDF sur le web de données  Sparql endpoint : on y travaille Interopérabilité Sudoc/Hub, BnF…  Produire en RDF ?  Aujourd’hui : – Pas d’outil « hub » proposé à l’extérieur – Collaboration avec le réseau Sudoc 2 June 2015Journées ABES 2015 18
    19. 19. CERCLES  Articulation traitement interne (avec le Hub) et traitement manuel par le réseau (CERCLES).  L’ABES donne ses priorités : établir les liens entre notices, enrichir les autorités, etc.  Les établissements donnent les leurs et leur périmètre d’action : corpus ou partie de corpus, types de liens, calendrier prévisionnel  De la vraie mutualisation, la force d’un réseau 2 June 2015Journées ABES 2015 19
    20. 20. CERCLES  Voici un exemple de traitement 2 June 2015Journées ABES 2015 20
    21. 21. CERCLES 2 June 2015Journées ABES 2015 21
    22. 22. LA VALORISATION DES DONNÉES BIBLIOGRAPHIQUES ET D’AUTORITÉ Journées ABES 2015 22
    23. 23. Un bel ouvrage de catalogueur (1 / 3) 2 June 2015 23 Journées ABES 2015
    24. 24. Un bel ouvrage de catalogueur (2 / 3) c’est une considérable quantité d’informations très qualifiées transformées en données :  001 Identifiant système PPN  002 Identifiant système STAR  029 NNT (numéro national de thèse)  033 URL pérenne thèses.fr  1XX Données codées générales, de langues, de pays associé, de monographies  200 Titre et mentions de responsabilité (541 traduction en anglais)  3XX Note générale, sur la confidentialité et l’autorisation de reproduction délivrée par le jury, sur la bibliographie et l'index, de thèse  330 Résumés français et anglais  45X Liens avec d'autres notices (frbrisation)  600–607 Indexation matière  686 Indice de classification (Code domaine TEF)  7XX Vedettes de responsabilités intellectuelles 2 June 2015 24 Journées ABES 2015
    25. 25. Un bel ouvrage de catalogueur (3 / 3) 2 June 2015 25 Journées ABES 2015
    26. 26. Un bel ouvrage de cata…linkeur (1 / 3) 2 June 2015 26 URL pérenne de la ressource Journées ABES 2015
    27. 27. Un bel ouvrage de cata…linkeur (2 / 3) 2 June 2015 27 Mots-clés normalisés cliquables Journées ABES 2015
    28. 28. Un bel ouvrage de cata…linkeur (3 / 3) 2 June 2015 28 Liens aux acteurs Journées ABES 2015
    29. 29. Ricochets et rebonds (1 / 3) 2 June 2015 29 Identifiant et page personnels Journées ABES 2015
    30. 30. Ricochets et rebonds (2 / 3) 2 June 2015 30 Identifiant = pivot = autorité Journées ABES 2015
    31. 31. Ricochets et rebonds (3 / 3) 31 2 June 2015 autorité = interopérabilité Journées ABES 2015
    32. 32. Le projet IdRef (1 / 4) 2 June 2015 32 Journées ABES 2015
    33. 33. Le projet IdRef (2 / 4) 33 Conditor AO Journées ABES 2015
    34. 34. Le projet IdRef (3 / 4)  2 500 000 notices d’autorités Personne dans IdRef & 10 000 nouvelles par mois  250 000 notices liées dans thèses.fr & 50 000 dans Calames  700 000 notices alignées avec la BnF  1 800 000 identifiants ISNI attribués ou provisoires  2 500 000 notices présentes dans VIAF  Implication des données d’autorités dans de nombreux projets : – VIAF, ISNI, Conditor, expérimentation FRBR, rapprochement avec Persée, ADUM, etc. 2 June 2015 34 Journées ABES 2015
    35. 35. Le projet IdRef (4 / 4)  a  Hiérarchiser les Ressources donc les Métadonnées à produire  Construire des coopérations agiles entre l’ABES et les réseaux sur les aspects Production & Détection-Correction 2 June 2015 35 Journées ABES 2015
    36. 36. S’enrichir mutuellement (1 / 4) 2 June 2015 36 URL pérenne de la ressource & paramètre de recherche Journées ABES 2015
    37. 37. S’enrichir mutuellement (2 / 4) 2 June 2015 37 Références issues de bases distinctes Journées ABES 2015
    38. 38. S’enrichir mutuellement (3 / 4) 2 June 2015 38 Un référentiel IST ? Journées ABES 2015 Via Conditor ? Ouvert aux auteurs ? Alignement avec ORCID ? Via des CRIS ?
    39. 39. S’enrichir mutuellement (4 / 4) Vers un référentiel national ? 2 June 2015 39 Journées ABES 2015 39 Avec la BnF et ouvert à tous Via ISNI Archives et Manuscrits en tête
    40. 40.  Entrez dans les CERCLES  Identifiez les acteurs scientifiques de votre établissement  Soignez vos thèses  Boostez le poste Correspondant Autorités « Avec tous ces croisements, outre l'intérêt pour les utilisateurs de nos outils respectifs, on devrait avoir les données les plus propres du web » Source : Viviane B., Persée Et maintenant ? 2 June 2015 40 Journées ABES 2015
    41. 41. Merci de votre attention, place à vos remarques, à vos questions. 2 June 2015 41 Journées ABES 2015
    42. 42. • Images La bulle montrant Cetotaumatix se plaignant de la fraicheur de la marchandise d’Ordralphabétix est extraite du domaine des Dieux. Le portrait d’Edouard Herriot est extrait de Wikipédia : http://fr.wikipedia.org/wiki/%C3%89douard_Herriot#/media/File:%C3%89 douard_Herriot_01.jpg 2 June 2015 42
    43. 43. 43 Journées ABES 2015

    ×