3. Extension du service OAI-PMH
au format EAD
Octobre 2010 : export en Dublin Core XML des niveaux descriptifs
publiés dans Calames
• Un standard très générique mais….
• Au prix d’un appauvrissement des métadonnées
• Et surtout perte de l'héritage et de la contextualisation des informations
• « Acculturation » progressive des systèmes à l’EAD
Octobre 2017 : extension du service au format natif XML/EAD
• pour chaque instrument de recherche publié
• dans son état de publication le plus récent
• règles de moissonnage différentes du Dublin Core
Plus d’informations sur le Manuel Calames pour les développeurs
Point d'actus : focus sur l'exposition des données
5. Un fichier KBART global
• Exhaustif
• Actualisé
• Réutilisable par les outils de
découverte
Licences nationales dans Bacon
Point d'actus : focus sur l'exposition des données
6. Correspondance KBART-Sudoc
« meilleur PPN » proposé
• Dans les fichiers json
• Dans les webservices :
– Packages2kbart
– Id2kbart
– sorties JSON et XML
• PPN le plus récent
Sinon correspondance avec l’imprimé le plus récent
Sudoc
• ⚠︎ Mais absent des fichiers tabulés : KBART
Point d'actus : focus sur l'exposition des données
8. Evolution de l’accès Z39.50 public
Notices intégrales
Profil public : une exposition plus complète
Demandes récurrentes de bibliothèques de lecture publique françaises et
étrangères, d’éditeurs de logiciels
Toutes les zones désormais exportables
• Comme pour le profil professionnel
• Notamment les sujets, auteurs et contributeurs (zones 6XX et 7XX )
• Maintien du filtre sur les notices provenant du registre ISSN
Point d'actus : focus sur l'exposition des données
9. Evolution de l’accès Z39.50
nouveaux index
Contexte : une demande du CCFR
• Signalement des attributions aux bibliothèques de biens spoliés
2nde Guerre Mondiale
• Harmonisation des signalements de la Bnf, du Sudoc et des
bibliothèques
Ajout des index
• Reliure-provenance-conservation
• Note de livre ancien
Point d'actus : focus sur l'exposition des données
10. Le Sudoc en Unimarc/XML
L’intégralité du format en XML
• http://www.sudoc.fr/ppn.xml
• Une vue de la base miroir du Sudoc
• Restriction sur les notices ISSN
<datafield tag="200" ind1="1" ind2=" ">
<subfield code="a">H2G2</subfield>
<subfield code="h">III</subfield>
<subfield code="i">La vie, l'univers et le reste</subfield>
<subfield code="f">Douglas Adams</subfield>
<subfield code="g">traduit de l'anglais par Jean Bonnefoy</subfield>
</datafield>
Point d'actus : focus sur l'exposition des données
12. OAI-PMH
« interrogation à la seconde »
Moissonnage à l’heure/minute/seconde
• Solution choisie pour les environnements SGBm
• Permet des chargements plus fréquents
Exemples
• Notices Collectivités ajoutées ou mises à jour quotidiennement à
heure fixe (8h):
http://www.idref.fr/OAI/oai.jsp?verb=ListRecords&from=2017-03-
01T08:00:00Z&until=2017-03-02T08:00:00Z&metadataPrefix=marc-xml&set=b
• Notices Personnes ajoutées ou mises à jour aujourd’hui entre 16h
et 17h :
https://www.idref.fr/OAI/oai.jsp?verb=ListRecords&from=2018-05-
23T16:00:00Z&until=2018-05-23T17:00:00Z&metadataPrefix=marc-xml&set=a
Point d'actus : focus sur l'exposition des données
13. AlgoDoublons
Un webservice sur les autorités IdRef…
• Pour le contrôle des doublons
• Générant des rapports de doublons potentiels
… qui s’appuie sur les données de VIAF
• Extraction mensuelle des « clusters » de VIAF
• Croisement avec les données d’IdRef
• Plus d’un identifiant IdRef = doublon potentiel.
Point d'actus : focus sur l'exposition des données
14. AlgoDoublons : fonctionnement
Filtres d’interrogation
• établissement : ILN ou RCR
• date de création
• Type d’autorité
Exemples
• http:// www.idref.fr/AlgoDoublons?iln=4
• http:// www.idref.fr/AlgoDoublons?rcr=693872301&date=20160501
• http:// www.idref.fr/AlgoDoublons?typaut=b&iln=96
Point d'actus : focus sur l'exposition des données
15. ScanR et IdRef
un exemple de réutilisation du référentiel
Alignements de trois jeux de données de
ScanR/OpenData avec IdRef:
• Lauréats du trophée « Les étoiles de l’Europe » 39 sur 48 chercheurs identifiés (85%)
• Finalistes et lauréats du concours « Ma thèse en 180 secondes » 24 doctorants sur 71
(33,3%)
• Membres de l’Institut Universitaire de France :
100 % de membres identifiés (1 700 chercheurs depuis 1991 )
IdRef, un référentiel pivot pour l’ESR français
• Les identifiants IdRef désormais disponibles pour ces jeux de données
• De l’importance accrue du contrôle de la qualité des données
Point d'actus : focus sur l'exposition des données
On a choisi de vous proposer cette année, dans ce point d’actualité, un tour d’horizon rapide des nouveautés relatives à l’exposition des données de l’Abes, dans l’acception la plus large du terme et sous ses diverses modalités, application par application.
Sans plus tarder, commençons par Calames
Le service OAI-PMH de Calames permet depuis 2010 de récupérer des métadonnées des éléments publiés. Toutefois, jusqu’ici il ne permettait que l’export en Dublin Core.
L’avantage de ce standard est d’être générique, mais son inconvénient est d’appauvrir les métadonnées, et en particulier de faire perdre l’héritage et la contextualisation des éléments décrits (l’arborescence de l’EAD).
Afin de poursuivre les efforts d’interopérabilité de Calames déjà engagés, on a donc choisi de miser davantage sur l’adaptation progressive des systèmes à l’EAD, rejoignant en cela des initiatives similaires (Archives Nationales, Archives hub…)
C’est pourquoi, depuis octobre dernier, le service a été étendu et enrichi.
Il permet désormais de récupérer au format XML/EAD natif et intégral (à l’exception des commentaires XML), chaque instrument de recherche encodé, dans son état de publication le plus récent.
On notera enfin que les règles de moissonnage sont différentes, car l’interrogation n’est possible, pour l’EAD natif, que sur des éléments de haut niveau.
En ce qui concerne la base de connaissance BACON deux nouveautés sont à signaler.
Tout d’abord, depuis juillet 2017, est disponible au téléchargement un nouveau fichier au format KBART, qui rassemble l’ensemble des métadonnées des licences nationales Istex.
Ce fichier permet pour les bénéficiaires des Licences Nationales d’obtenir en une seule fois des données actualisées, exhaustives, et directement réutilisables par les outils de découverte.
Bien entendu, les fichiers restent également disponibles corpus par corpus.
L’autre nouveauté a été déjà évoquée ce matin : Bacon propose désormais un rapprochement entre chaque ligne d’un fichier KBART et une notice du Sudoc. Cette information est présente dans les fichiers au format JSON, ainsi que dans les résultats de deux des trois webservices de Bacon :
package2kbart qui permet de remonter l’ensemble des lignes d’un fichier KBART donné.
id2kbart qui permet de connaître l’ensemble des bouquets où figure un périodique ou un livre en fonction d’un ISSN ou ISBN, et remonte les informations correspondantes.
Dans les deux cas, les sorties XML et JSON comportent à présent en plus des champs KBART un champ « bestppn »
Ce PPN correspond à la notice la plus récente de la ressource électronique, ou à défaut au PPN de la notice la plus récente d’une version imprimée.
Par ailleurs la structure des sorties XML et JSON a été légèrement modifiée. La documentation en ligne sera très prochainement mise à jour.
En revanche, les fichiers tabulés ne changent pas, afin de rester conformes à la recommandation KBART.
Il y a également du nouveau du coté du Sudoc.
Voici tout d’abord deux évolutions concernant l’accès public aux données du Sudoc via le protocole Z39.50.
L’ouverture des données était demandée de façon récurrente par des bibliothèques françaises de lecture publique, des éditeurs de solutions logicielles ou encore des bibliothèques étrangères.
Auparavant, le contenu des notices récupérées était limité. Depuis décembre dernier, il est possible de récupérer l’intégralité des zones des notices bibliographiques, comme c’était déjà le cas pour le profil d’accès professionnel : notamment les accès aux sujets, auteurs et contributeurs (zones des blocs 6XX et 7XX).
En revanche, le filtre sur les notices en provenance du registre ISSN pour lesquelles l’ABES ne possède pas les droits de réutilisation est (pour l’instant) toujours appliqué.
L’autre évolution est plus spécifique et concerne à la fois les profils public et professionnel.
Elle résulte d’une demande du Catalogue collectif de France dans le contexte de travaux de signalement des attributions aux bibliothèques des biens spoliés durant la seconde guerre mondiale.
Il s’agit notamment de faire converger les signalements BnF, enseignement supérieur, et autres bibliothèques.
Afin de repérer le signalement des documents qui entrent dans le cadre de ces travaux, le CCFr a demandé qu’il soit possible d’interroger le Sudoc avec les index : Reliure-Provenance-Conservation et Note de livre ancien via Z39.50. Deux index par ailleurs disponibles dans l’interface publique du Sudoc.
Ces index sont désormais disponibles à la recherche pour tous les profils.
En complément de l’accès Z39.50, et à l’instar d’IdRef, les notices bibliographiques du Sudoc sont désormais disponibles (ou le seront d’ici quelques jours) via internet intégralement en Unimarc/XML.
Il s’agit d’une vue de la base miroir du Sudoc, sur laquelle s’appuient notamment les webservices.
Toutefois, comme pour l’accès Z39.50, cette exposition exclut (pour le moment) les notices en provenance du registre ISSN.
Les données sont récupérables à partir de l’identifiant de la notice, basé sur son ppn, et suivi de l’extension xml.
Vous avez ici un aperçu partiel d’une notice.
Je n’entre pas dans les détails, la documentation sera mise en ligne prochainement.
Ce service permettra notamment à des programmes ou des scripts, de récupérer facilement tout ou partie des données d’une notice, en s’appuyant notamment sur d’autres webservices comme isbn2ppn par exemple, ou encore sur les ppns des fichiers kbart de Bacon..
Voici, pour finir, les nouveautés concernant IdRef.
On signalera en premier lieu une évolution du service de moissonnage OAI-PMH d’IdRef qui permet de récupérer les notices d’autorité en Unimarc/XML.
C’est ce service qui a été choisi pour le travail sur les autorités dans les environnements SGBm. Or, jusqu’ici la sélection des intervalles de création ou mises à jour des autorités ne pouvait se faire qu’à la journée. Afin de permettre un moissonnage plus fréquent, l’interrogation peut désormais se faire sur des intervalles avec une granularité à l’heure, la minute, ou la seconde.
Le premier exemple permet de récupérer, à heure fixe, les notices Collectivités ajoutées ou mises à jour au cours des 24 heures précédentes, à une heure donnée (ici 8 heures).
Le deuxième exemple permettra de récupérer les notices de personnes ajoutées ou mises à jour aujourd’hui même entre 16 et 17 heures.
Du côté des webservices : après AlgoLiens présenté l’année dernière, à la rentrée 2017 a été ouvert un webservice d’aide à la détection de doublons.
Il s’appuie sur l’extraction mensuelle des clusters de VIAF, c’est-à-dire les regroupement faits par les algorithmes de VIAF de notices de provenances multiples et concernant (en principe) une même entité.
La présence de plus d’un identifiant IdRef dans un de ces clusters est donc une anomalie signalant un doublon potentiel (ou d’autres anomalies plus sérieuses comme de mauvais liens entre autorité et notices bibliographiques).
AlgoDoublons croise ces doublons avec la base IdRef pour générer un rapport complet directement utilisable dans WinIBW.
Quelques mots sur son fonctionnement.
AlgoDoublons permet l’utilisation de trois filtres : par établissement créateur ou dernier modificateur la notice, par date de création ou par type d’autorité.
Le premier exemple lance un rapport sur les notices de l’ILN 4
Le second croise une date et un RCR.
Le troisième demande un rapport sur les notices de collectivités créées ou modifiées par l’ILN 96
Dans la pratique, ce sont surtout les critères ILN et RCR qui seront utiles.
Ce service est en effet tout particulièrement destiné aux correspondants autorités aider au contrôle qualité des autorités créées ou modifiées par leur établissement.
Pour terminer, voici un exemple de réutilisation et de réexposition des données d’IdRef.
Il s’agit de ScanR, le moteur de la Recherche et de l’Innovation, qui propose sous licence ouverte des jeux de données de l'Enseignement supérieur et de la recherche, également accessibles via la plateforme OpenData ES et synchronisées avec data.gouv.fr, la plateforme des données publiques françaises.
Dans cette logique d'ouverture des données, une collaboration entre l'Abes et ScanR a consisté à lier trois jeux de données de ScanR avec les identifiants d'auteurs présents dans IdRef, en faisant tourner les algorithmes d'identification de personnes développés par l’Abes
L'opération portait sur trois corpus de données :
- les lauréat du trophée « Les Étoiles de l’Europe »
48 entrées, dont 40, soit 85% ont été identifiées de façon certaine
- les finalistes et lauréats du concours « Ma Thèse en 180 secondes »
Sur 71 entrées, seulement 24 (soit 33, 3%) ont été identifiés en tant que « thèses soutenues ». Ce faible taux s’explique cependant par le délai important de signalement des thèses (près d’un an).
- Membres de l’Institut Universitaire de France (IUF)
Il s'agit du corpus le plus conséquent : il correspond à 1 700 personnes distinctes, qui ont toutes été identifiées!
L’opération s’est donc révélée concluante.
Les identifiants IdRef ont été depuis ajoutés à ces trois jeux de données dans ScanR et OpenData, et ce n'est qu'un début.
Ces travaux contribuent à faire d'IdRef un référentiel pivot pour l'ESR en France et l’identifiant le plus exhaustif sur les chercheurs français .
Mais ceci implique également une responsabilité plus grande dans le contrôle de la qualité des autorités. D'où l'importance d'outils comme AlgoDoublons mentionné précédemment (et AlgoLiens pour lequel une présentation aura lieu demain matin).
D'autres exemples de collaborations et de réutilisations des données d'IdRef sont justement le thème de la table ronde qui suit.