L'échange de données pour les institutions culturelles : le protocole OAI-PMH, le format Dublin Core, les portails de ressources culturelles et patrimoniales
Support 4 (web de données) des journées de formation sur l'évolution des catalogues organisées par MédiaLille et le groupe technique sur l'adoption de RDA en France.
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Gautier Poupeau
Diaporama de la présentation effectuée au séminaire INRIA IST "Le document à l'heure du Web de données" (Carnac 1er-5 octobre 2012) en compagnie d'Emmanuelle Bermès (aka figoblog)
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Gautier Poupeau
Diaporama de la présentation effectuée au séminaire INRIA IST "Le document à l'heure du Web de données" (Carnac 1er-5 octobre 2012) en compagnie d'Emmanuelle Bermès (aka figoblog)
Informatique documentaire - Cours Licence pro bib 2013Sylvain Machefert
Première journée d'une série de deux sur l'informatique documentaire, médiation numérique ...
Dans cette première journée : formats, outils, rappels méthode projet
Support 4 (web de données) des journées de formation sur l'évolution des catalogues organisées par MédiaLille et le groupe technique sur l'adoption de RDA en France.
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Gautier Poupeau
Diaporama de la présentation effectuée au séminaire INRIA IST "Le document à l'heure du Web de données" (Carnac 1er-5 octobre 2012) en compagnie d'Emmanuelle Bermès (aka figoblog)
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Gautier Poupeau
Diaporama de la présentation effectuée au séminaire INRIA IST "Le document à l'heure du Web de données" (Carnac 1er-5 octobre 2012) en compagnie d'Emmanuelle Bermès (aka figoblog)
Informatique documentaire - Cours Licence pro bib 2013Sylvain Machefert
Première journée d'une série de deux sur l'informatique documentaire, médiation numérique ...
Dans cette première journée : formats, outils, rappels méthode projet
Atelier JDEV2017 : initiation à SPARQL avec Wikidata
Cet atelier a pour objectif de vous montrer comment dans l’avenir un étudiant et un chercheur (et demain les machines) vont naviguer dans le Linked Data (Web des données) à l’aide du langage SPARQL. Nous utiliserons un outil d'auto-complétion qui facilitera la création de votre première requête. Nous utiliserons le logiciel http://LinkedWiki.com afin d’écrire et partager les requêtes des participants de l’atelier ou bien https://io.datascience-paris-saclay.fr/map.php si le participant est membre de cette université.
Introduction au web des données (Linked Data)BorderCloud
L'Open Data, le Big Data, le Web des données, le Web sémantique, les ontologies, le NoSql et le SPARQL sont autant de notions qu'il faut comprendre pour ne pas rater la prochaine rupture technologique du Web.
Cette présentation est l'introduction de la formation sur le Web sémantique que donne la société BorderCloud pour prendre un peu de recule sur les buzzwords du moment et savoir si vous avez besoin de faire du Big Data ou bien du Linked Data.
Slides de l'atelier JDEV2017 : SPARQL, avancé
Vous saurez après cet atelier : lire un document RDF écrit en Turtle, découvrir une ontologie au travers d’un service SPARQL et lire la documentation officielle de SPARQL.
Mettre nos données en réseau (données de l'IST en France)Y. Nicolas
Intervention lors de la journée d'étude 2009 de l'ADBU : Quelle économie de l’IST en France ? et pour quelle politique ?
Je fais une intro ultra light au Web des données pour un public de décideurs des bibliothèques universitaires françaises.
J'annonce les futurs services de l'ABES autour des autorités Sudoc.
Ecouter les enquêtes de terrain : analyse, numérisation, valorisation des arc...Phonothèque MMSH
Intervention le 3 octobre 2010 à Alger de Véronique Ginouvès dans le cadre de deux journées de rencontre internationale autour des sciences du patrimoine immatériel organisées par le CNRPAH (Centre National de Recherches Préhistoriques, Anthropologiques et Historiques), sous l’égide du Ministère de la culture. Ces deux journées seront l’occasion de dresser un bilan des actions de sauvegarde et de mise à dispositions des fonds ethnomusicologiques et de proposer des bonnes pratiques dans le domaine. http://phonotheque.hypotheses.org/3883
Atelier JDEV2017 : initiation à SPARQL avec Wikidata
Cet atelier a pour objectif de vous montrer comment dans l’avenir un étudiant et un chercheur (et demain les machines) vont naviguer dans le Linked Data (Web des données) à l’aide du langage SPARQL. Nous utiliserons un outil d'auto-complétion qui facilitera la création de votre première requête. Nous utiliserons le logiciel http://LinkedWiki.com afin d’écrire et partager les requêtes des participants de l’atelier ou bien https://io.datascience-paris-saclay.fr/map.php si le participant est membre de cette université.
Introduction au web des données (Linked Data)BorderCloud
L'Open Data, le Big Data, le Web des données, le Web sémantique, les ontologies, le NoSql et le SPARQL sont autant de notions qu'il faut comprendre pour ne pas rater la prochaine rupture technologique du Web.
Cette présentation est l'introduction de la formation sur le Web sémantique que donne la société BorderCloud pour prendre un peu de recule sur les buzzwords du moment et savoir si vous avez besoin de faire du Big Data ou bien du Linked Data.
Slides de l'atelier JDEV2017 : SPARQL, avancé
Vous saurez après cet atelier : lire un document RDF écrit en Turtle, découvrir une ontologie au travers d’un service SPARQL et lire la documentation officielle de SPARQL.
Mettre nos données en réseau (données de l'IST en France)Y. Nicolas
Intervention lors de la journée d'étude 2009 de l'ADBU : Quelle économie de l’IST en France ? et pour quelle politique ?
Je fais une intro ultra light au Web des données pour un public de décideurs des bibliothèques universitaires françaises.
J'annonce les futurs services de l'ABES autour des autorités Sudoc.
Ecouter les enquêtes de terrain : analyse, numérisation, valorisation des arc...Phonothèque MMSH
Intervention le 3 octobre 2010 à Alger de Véronique Ginouvès dans le cadre de deux journées de rencontre internationale autour des sciences du patrimoine immatériel organisées par le CNRPAH (Centre National de Recherches Préhistoriques, Anthropologiques et Historiques), sous l’égide du Ministère de la culture. Ces deux journées seront l’occasion de dresser un bilan des actions de sauvegarde et de mise à dispositions des fonds ethnomusicologiques et de proposer des bonnes pratiques dans le domaine. http://phonotheque.hypotheses.org/3883
Sessions Printemps de formation organisés par le CNUDST en collaboration avec Thomson reuters du 11 au 14 Avril 2016 en faveur de la communautés des chercheurs tunisien
eGov 2.0 Les clés du succès livre blanc Juin2009etienneveyret
Gemalto’s white paper on “eGov 2.0 : the keys to success” released today
Jul 1, 2009 - How and why has e-Gov become a central component in governmental modernization?
Why does it change the relationship between citizen and government? Most importantly, how can governments decide on the most effective method of approaching this modernization process?
Following the success of the e-Government 2.0 white paper- a study on the essentials of e-Government and e-ID- Gemalto has released a new report designed to serve as a guideline for public authorities wishing to devise successful citizen- centric e-Government programs.
Gemalto presents established and proven strategies by demonstrating a variety of supporting case studies and expert opinions.
e-Gov 2.0: The Keys to Success expands on the basic concepts of e-Government, analyzes citizen’s expectations, and creates a global architecture for a national e-Government 2.0 program.
The study: unparalleled by competition
No study has ever been focused on eID and key success factors in a “citizen-centric” e-Government initiative in such detailed level:
17 top eGov specialists interviewed
7 key areas/business cases selected where to set up new e-applications
Citizen’s expectations revealed
A powerful methodology suggested.
Support 5 de la journée d'études du 09 déc. 2013 sur l'évolution des catalogues et du catalogage organisée par le CRFCB de Marseille avec les formateurs du groupe technique sur l'adoption de RDA en France.
Séminaire Inria IST - Référentiels et interoperabilité (1)Antoine Isaac
2nde partie : http://www.slideshare.net/antoineisaac/sminaire-inria-ist-rfrentiels-et-interoperabilit-2
Présentation pour le Séminaire IST organisé par Inria
http://www.inria.fr/actualite/agenda/document-numerique
CRFCB AMU evolutions_catalogage_091213_web de donnéesnonue12
Support 3 de la journée d'études du 09 déc. 2013 sur l'évolution des catalogues et du catalogage organisée par le CRFCB de Marseille et le sous-groupe formations du groupe technique sur l'adoption de RDA en France.
Informatique documentaire - Cours Licence pro bib 2013 (journée 2)Sylvain Machefert
Deuxième journée d'une série de deux sur l'informatique documentaire, médiation numérique ...
Dans cette seconde journée : la mise en ligne de contenus, les nouvelles formes de médiation numérique ...
Cette présentation a été conçue pour les journées d'études 2009 de Medial Nancy dont le thème était : "Les catalogues de bibliothèques de nouvelle génération".
Support 2 de la journée d'études du 09 déc. 2013 sur l'évolution des catalogues et du catalogage organisée par le CRFCB de Marseille et les formateurs du groupe technique RDA en France.
Sites internet de services d'archives : comment faire connaître son site ?Julie Scheffer
Intervention donnée dans le cadre de la formation de l'Association des Archivistes Français (AAF), " Concevoir un site internet pour un service d'archive " : quelle stratégie, quels outils, quelles contraintes ?
Avec l'aimable autorisation de sa créatrice, Pauline Moirez (BnF, http://fr.slideshare.net/archivesmasala)
Une petite présentation de certains services "Web 2.0" pour les professionnels de l'info-doc. ADBS Champagne-Ardenne 2006, Montpelier 2007. Format Open Office (odp).
Présentation par Régis Robineau lors de la journée d’études HIMANIS “Reconnaissance par ordinateur des écritures anciennes : le projet HIMANIS” (Archives nationales, Paris - 29 mai 2018)
Archives participatives... parce que nous le valons bien !Pauline Moirez
Intervention au Forum des Archivistes (Angers, 22 mars 2013) #Angers2013
Indexation collaborative, identification de photographies, transcription de manuscrits, les exemples ne manquent pas… Les services d’archives mettent en place, en France et un peu partout dans le monde, des projets innovants et ambitieux de coopération numérique avec leurs usagers, pour enrichir la description de leurs fonds, pour en améliorer et faciliter l’accès. S’emparant des potentialités du web social et participatif, et s’intégrant dans l’écosystème vertueux du web fondé sur les interactions avec et entre les internautes, les Archives vont bien au-delà d’échanges superficiels avec leurs usagers, et développent des projets fondés sur l’apport de connaissances et de compétences par les internautes.
Conférence pour la journée des conservateurs du ministère de la Défense (27 nov. 2012, durée : 1 h).
Présentation des enjeux stratégiques de la médiation numérique pour les institutions culturelles (archives, bibliothèques, musées).
Les bibliothèques sur le web : enjeux et outilsPauline Moirez
Support du stage CNFPT Biblioquest - Saison 3 : Les bibliothèques sur le web : enjeux et outils. Présentation des grandes tendances du web et des conséquences pour la présence en ligne des bibliothèques.
Interopérabilité et échanges de données pour les archives
1. AAF - Archives et Internet : les nouveaux enjeux
INTEROPERABILITÉ ET
ÉCHANGES DE DONNÉES
CC BY-NC-SA Vicky&Chuck Rogers, Flickr
Pauline Moirez – BnF – 26 juin 2012
2. CC BY-NC-ND J Mark Dodds, Flickr
Mais qu’est-ce que c’est que
ces gros mots…?!?
4. INTEROPERABILITE = Permettre
l'échange de données entre
systèmes d'information
CC BY-NC-ND Josh Fassbind, Flickr
Pouvoir se parler Se comprendre
(transport des (sens des données
données) échangées)
5. La recette de l’interopérabilité
de Grand-Maman
CC BY-NC-SA Joana Hard, Flickr
6. Des ingrédients de qualité
Des données hétérogènes…
mais propres
CC BY-NC-SA Joana Hard, Flickr
7. Des protocoles de pro
Du matériel d’échange
normalisés
CC BY-NC Captain Blaubeere, Flickr
13. Le contexte administratif et
technique : le référentiel
général d’interopérabilité
(RGI)
Publié par la DGME en 2009
« détermine notamment les
répertoires de données, les normes et
les standards qui doivent être utilisés
par les autorités administratives »
14. Les niveaux
d’interopérabilité du RGI
Ex. modélisation, ontologies, mais aussi SEDA
Ex. formats d’images, de documents multimédia,
formats bureautiques, langage XML
Ex. protocoles et langages Web et messagerie,
téléphonie, annuaires LDAP
15. Pour parler la même langue :
normaliser !
Thesaurus
EAD W
Normes et
standards Référentiels
archivistiques Rameau
EAC
Dublin Langues
Core ISO 639
Formats de Schémas
métadonnées d’encodage
Pays
METS ISO 3166
16. Où es-tu ?
Des identifiants
pour les
ressources
numériques
Uniques
Pérennes
CC BY-NC-ND xcode, Flickr
Citables
17. ARK : un format
d’identification
pérenne
CC BY-NC-ND Friday Flets, Flickr
19. Le système ARK : structure
et organisation
http://gallica.bnf.fr/ark:/12148/bpt6k5809503p/f2.image
type
protocole d’identifiant nom ARK
autorité qualifieurs
numéro (facultatif)
d’adressage
d’autorité
(NMAH)
nommante
(NAAN)
Et dans la vraie vie…
23. Le fournisseur Le fournisseur
de données de services
(entrepôt) (moissonneur)
CC BY-NC-ND Gerry Balding, Flickr
Les acteurs de l’OAI-PMH
24. The place to be ?
L’OAI-PMH en 2012, c’est :
CC BY-NC-ND vallygirl_tka, Flickr
1740 entrepôts enregistrés
Plus de 25 millions
d’enregistrements moissonnables
25. Les concepts documentaires
de l’OAI-PMH
RESSOURCE
Objet physique ou ITEM
numérique Notice informatique
(URL + métadonnées)
ENREGISTREMENT
Unité documentaire LOT / SET
dans un entrepôt OAI Ensemble
d’enregistrements
27. Qu’y a-t-il dans un
enregistrement OAI-PMH ?
•Un en-tête : header
- identifier (obligatoire, non répétable)
- datestamp (obligatoire, non répétable)
- setSpec (facultatif, répétable)
- attribut de statut pour les items
supprimés
28.
29. Qu’y a-t-il dans un
enregistrement OAI-PMH ?
•Des métadonnées : metadata
- métadonnées encodées en XML avec leur
élément racine et leur espace de nom
- les entrepôts doivent fournir leurs
métadonnées en Dublin Core simple ; ils
peuvent proposer en plus d’autres formats
34. OAI-PMH at o uts
L es
Il s'appuie sur les standards du Web, le
moissonnage est simple à mettre en
œuvre.
Les contenus ne sont pas dupliqués.
Les métadonnées collectées sont mises
à jour simplement et
automatiquement (moissonnage
différentiel/incrémental).
Il s’adapte à des besoins
transdisciplinaires sans interdire des
besoins plus spécialisés.
35. OAI-PMH i mi tes
Le sl
Problèmes de granularité et de
hiérarchisation
Pas d’interrogation fine
Pas de liens simples avec les ressources
extérieures
Limité à la communauté des chercheurs
et bibliothécaires
37. Dublin Core
À protocole d’échange
générique… format de
métadonnées générique !
CC BY-NC-ND s.red, Flickr
38. 15 éléments de
description,
facultatifs et
répétables
CC BY-NC-SA David Sherret, Flickr
39. CC BY-NC-SA David Sky, source
Améliorer la recherche de ressources
sur le web, en définissant un ensemble
de métadonnées communes
40. Les 15 éléments
du Dublin Core simple
Contenu Propriété Instanciation
intellectuelle
Title Creator Date
Subject Contributor Type
Description Publisher Format
Source Rights Identifier
Language
Relation Tous fa cultatifs
s
pétable
Tous ré
Coverage
41.
42.
43. Mais comment je fais du Dublin
Core avec mes données à moi ?
CC BY-SA tangi_bertin, Flickr
55. Dublin Core at o uts
L es
Généricité : permet de décrire des
ressources numériques ou physiques,
utilisable par de nombreuses
communautés
Simplicité
Grande souplesse
Utilisation internationale
56. Dublin Core
i mi tes
Le sl
Simplification des métadonnées
Libertés d’interprétation qui limitent
l’interopérabilité sémantique
Valeurs des éléments non normalisées
Faiblesse des informations
techniques
57. CC BY-ND cursething, Flickr
OAI-PMH est simple
Dublin Core est simple
Ce n’est pas une
raison pour faire
n’importe quoi !
64. Une dynamique est lancée...
Les portails culturels locaux se multiplient
GeoCulture en
Banque numérique des savoirs aquitains
(BnsA) Limousin
Manioc,
bibliothèque
numérique des
Caraïbes
65. Mais aussi...
Isidore, plateforme de
recherche pour les
sciences humaines et
sociales (SHS)
Gallica et ses 41
bibliothèques
partenaires
67. Pour aller plus loin…
Interopérabilité
Interopérabilité : faire des choix, échanger, gérer le temps (S. Pouyllau, 2010)
Voir EAD et interopérabilité :
comment permettre le moissonnage de
métadonnées normalisées par des portails (L. Grand, F. Rolland, 2010)
Identifiants pérennes
Identifiants pérennes (E. Bermès, 2009)
Des identifiants pérennes pour les ressources numériques - L’expérience
de la BnF (E. Bermès, 2006)
ARK, qu’est-ce que c’est ? (2012).
OAI-PMH
Site officiel de l’Open archive initiative
Le protocole OAI et ses usages en bibliothèque (MCC, 2005)
Guide d'interopérabilité OAI-PMH pour un référencement des documents
numériques dans Gallica (2010)
Le Guide des Bonnes Pratiques Numériques - Entrepôt OAI-PMH (TGE Adonis,
2010)
Dublin Core
Site officiel de la Dublin Core Metadata initiative
68. Merci de votre attention
pauline.moirez@bnf.fr
CC BY-NC Go Esewhere, flickr
Notes de l'éditeur
Participer à des portails communs, à des projets collaboratifs, se faire connaître en participant à des projets plus vastes Permettre et susciter les réutilisations Améliorer son référencement par les moteurs de recherche en multipliant les liens entrants Augmenter la fréquentation de nos sites et la consultation de nos ressources numériques
Échanger avec d’autres domaines (culturels, patrimoniaux, scientifiques) Proposer un accès unique pour les usagers S’intégrer dans un écosystème d’usages de recherche centralisé
Seulement les métadonnées, et seulement dans un format appauvri : pas de duplication des contenus. Éviter les doublons, éviter de perdre la main sur les contenus numérisés
Objectifs : Améliorer la qualité des services aux administrés Réduire les délais de mise en ligne des services Maîtriser les coûts (développement et maintenance) Favoriser l'interopérabilité en respectant l’autonomie Contribuer à l’ouverture des systèmes d’information Adopter un langage et une sémantique communs Converger vers un cadre d’interopérabilité européen Guider les administrations dans leurs choix Garantir la neutralité de l’administration Favoriser la standardisation et l’innovation
Unique : L'identifiant a la même signification partout. L’identifiant désigne une seule et unique ressource. Pérenne : L’identifiant ne doit pas dépendre de l’emplacement physique de la ressource (URL) . La pérennité est garantie par l’institution qui attribue les identifiants (« autorité nommante »).
Archival Resource Key Mis en place par la California Digital Library Qui l’utilise en France ? (institutions figurant sur le registre de la CDL) Institutions versées dans la préservation des données numériques : CINES, CNES Bibliothèques : BnF, BM Toulouse, BIU Cujas, Archives : ANOM, AD Somme, Doubs, Belfort, Allier, Côte-d'Or, AM Pontivy, Collectivités territoriales : Ville de Besançon, CG Martinique
ARK (Archival Resource Key) est un système d'identifiants mis en place par la California Digital Library (CDL), et qui a vocation à identifier des objets de manière pérenne. Il peut s'agir d'objets de tous types, physiques (table, livre), numériques (livre numérisé…) ou même immatériels (concepts, …). Les qualifieurs sont des suffixes permettant de préciser sa demande sur un document et sont de deux types : - Les qualifieurs de granularité, commençant par un "/", permettent de demander l'accès à une partie de l'objet (ex. : page d'un document). Ils suivent immédiatement le nom ARK ; - Les qualifieurs de service, commençant par un ".", permettent de demander l'accès à une variante particulière d'un document et/ou à un service particulier sur celui-ci (type de dissémination particulier d'un document, version n°1 du document…).
Protocole Règles régissant les échanges d’information dans les télécommunications. On distingue les protocoles de correction d’erreurs, de compression, de transfert, de transmission et de communication, [etc.] Spécification d'un dialogue entre plusieurs ordinateurs qui s'échangent des données Les protocoles donnent les moyens techniques permettant à plusieurs applications de dialoguer entre elles Ex. Protocole de transfert (HTTP) Protocole de transmission et de communication : TCP/IP
Conçu lors de la convention de Santa Fé, 1999. Version actuelle date de 2002. Rendre interrogeables des bases de données hétérogènes Collecter massivement les métadonnées et les stocker
Les fournisseurs de données, qui déposent leurs métadonnées sur un serveur Web appelé « entrepôt ». Les fournisseurs de service (moissonneurs) qui collectent ces données pour les intégrer à leur index et permettent à l'utilisateur final de faire des recherches.
Il est possible de créer des ensembles par thèmes , ou bien par types de documents (livres, photographies, documents d'archives, périodiques etc.), ou encore par fonds ou collections .
= 6 verbes ! Le protocole OAI-PMH définit 6 types de requêtes HTTP auxquelles est associé un flux XML de réponses.
Dublin Core OBLIGATOIRE dans les entrepôts OAI
Créé en 1995 à Dublin, Ohio par OCLC et NCSA (National Center for Supercomputing Applications) Norme ISO 15836:2003, révisée en 2009 Maintenue par la Dublin Core Metadata Initiative Schéma de métadonnées généraliste, définit un noyau minimal de métadonnées Un format utile pour franchir les frontières entre spécialités, … mais qui n’est pas sans problème Faiblesse descriptive Besoin de normalisation et de bonnes pratiques Granularité et hiérarchie Dublin Core simple, mais aussi Dublin Core qualifié : 18 éléments + des qualificatifs, définition de profils pour des communautés particulières
suffisamment simples pour que des non-spécialistes puissent les créer à n’importe quel point du cycle de vie de la ressource mais suffisamment structurées pour qu’elles puissent rendre les moteurs de recherche plus performants
Quel format pour quelle interopérabilité ?
Conversion d’un format fortement hiérarchisé à un format à plat comment ne pas perdre les informations de contexte ? la gestion de l’héritage en EAD ?
Hiérarchie des éléments
Granularité : le niveau de pertinence pour réaliser l’extraction est donc le niveau de <c/> où est signalée la ressource numérique (élément <c> à l’intérieur duquel se trouve la balise <dao> avec l’attribut href pointant vers une URL contenant un identifiant ARK)
Comment constituer le contenu des éléments DC Ne pas chercher forcément à faire entrer l’ensemble des données sources de force dans le format d’arrivée !
Le respect des normes est le gage de l’interopérabilité La qualité des métadonnées est essentielle Sinon : des pratiques hétérogènes d’un fournisseur de données à l’autre qui nuisent à l’interopérabilité et rendent plus difficile l’élaboration de services
Ex de recherche : napoleon Atouts : Recherche fédérée Fonctionnalités de recherche Exposition des données