SlideShare une entreprise Scribd logo
1  sur  20
Télécharger pour lire hors ligne
Le Matterhorn RDF Data Model:
Description archivistique et Linked Open
Data. Vers quelle convergence?
Alain Dubois, Tobias Wildi
Saint-Etienne, 5 avril 2019
1
Depuis 10 ans, deux axes de réflexion
 Le cœur de la réflexion porte sur la question de la
préservation numérique (garantie de la qualité de
l’information durant tout son cycle de vie, notamment
en termes de contextualisation)
 Le réflexion est conduite en se fondant sur les
normes et standards internationaux
2
La pérennisation des données
 Modèle de référence OAIS
Prise en compte du modèle d’information global
(contenu d’information, information de pérennisation,
information de description)
3
Une description archivistique contextualisée
 Normes de description du CIA
4
Matterhorn METS Profile
5
Matterhorn METS Profile
 Première concrétisation des modèles conceptuels
pérennisation / contextualisation
 Une boîte à outils composée
 d’une Metadata-Map
 du Matterhorn METS Profile
 d’outils open source (docuteam packer / Octave, docuteam
feeder)
6
Matterhorn METS Profile: la Metadata-Map
7
Matterhorn METS Profile
 Le Matterhorn METS Profile
enregistré en 2012 auprès de la Bibliothèque du Congrès
(Washington) comme un profil générique pouvant être utilisé par
des institution de conservation du patrimoine gérant des fonds
d’archives (archives, bibliothèques et musées)
 Des outils open source (docuteam packer, docuteam
feeder), utilisé dans 20 services d’archives environ
 Utilisation du XML pour la sérialisation
8
Limites du XML
 Structure du XML (EAD et Premis) rend les fichiers
de métadonnées trop lourds
 Absence d’identifiants uniques sur les ressources
 Impossibilité de modéliser des relations entre les
descriptions à l’interne du fichier
 Impossibilité de modéliser des relations avec des
ressources externes (Wikidata, Viaf, GND...)
9
Vers un modèle générique
 Choix de standards utilisables pour pérenniser
l’information, quelle que soit l’institution qui la gère
(archives, bibliothèques, musées, centres de
recherche, centres de documentation…)
 Concept d’entité intellectuelle (par exemple, une
œuvre littéraire, un jeu de données scientifiques, un
dossier d’affaire, un record)
10
Deux approches possibles
 Approche spécifique de l’EGAD: développer un standard
RDF spécifique aux Archives, mais avec des passerelles vers
les standards des bibliothèques et musées
 Approche généraliste du Matterhorn RDF Data Model: se
fonder sur des standards RDF existants et répandus au niveau
international, qui permettent de modéliser le Records in
Contexts
 Contrairement à l’approche de l’EGAD, le Matterhorn RDF Data
Model se fonde sur des ontologies déjà existantes. Il suit ainsi
les W3C Best Practices: «It is best practice to use or extend
an existing vocabulary before creating a new vocabulary.»
11
Matterhorn RDF Data Model
12
Matterhorn RDF: modèle conceptuel
13
Matterhorn RDF: contenu d’information
14
Matterhorn RDF: exemple d’un contrat
15
Matterhorn RDF Data Model
16
Une grande partie des attributs (properties) utilisés
dans le Matterhorn RDF Data Model est tirée des
standards RDA (Resource Description and Access) et
Premis
Name Prefix URI
Dublin Core DC http://purl.org/dc/elements/1.1/
DC Terms DCT http://purl.org/dc/terms/
Provenance-Family
PROV
prov http://www.w3.org/ns/prov#
Premis premis http://id.loc.gov/vocabulary/
preservation
RDA Unconstrained
properties
rdau http://rdaregistry.info/Elements/u/
RDA Class hierarchies rdac http://rdaregistry.info/Elements/c/
Comment concrétiser ce modèle?

Formalisation par l’intermédiaire de “SHACL Shapes” au lieu d’une
ontologie spécifique

SHACL est un langage pour la validation de triples
sh:property [
sh:path dc:title ;
rdfs:label "Title"@en ;
rdfs:label "Titel"@de ;
rdfs:label "Titre"@fr ;
rdfs:comment "ISAD 1.2" ;
owl:sameAs rico:title ;
sh:datatype xsd:string ;
sh:minCount 1 ;
sh:maxCount 1 ;
sh:nodeKind sh:Literal ;
] .
Exemple

shacl.org
 SHACL Shapes
 Exemple de triples de deux dossiers
Liens vers nos ressources

Ressources générales sur les outils Matterhorn METS et RDF:
http://matterhorn.tools/?lang=fr

Wiki avec modèle conceptuel et technique
https://wiki.docuteam.ch/doku.php?id=docuteam:matterhornrdf

Repository Git:
https://bitbucket.org/docuteam/matterhorn
19
Merci de votre attention
Archives de l’Etat du VS
Alain Dubois
Archiviste cantonal
Rue de Lausanne 45
1950 Sion
+41 27 606 46 05
alain.dubois@admin.vs.ch
Docuteam Sàrl
Tobias Wildi
Im Langacker 16
5405 Baden-Dättwil
+41 56 470 03 37
t.wildi@docuteam.ch

Contenu connexe

Similaire à Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivistique et Linked Open Data. Vers quelle convergence? Présentation au “Forum des Archivistes” 5 avril 2019, Saint-Etienne.

Modèles de données et langages de description ouverts 5 - 2021-2022
Modèles de données et langages de description ouverts   5 - 2021-2022Modèles de données et langages de description ouverts   5 - 2021-2022
Modèles de données et langages de description ouverts 5 - 2021-2022François-Xavier Boffy
 
Modèles de données et langages de description ouverts 4 - 2021-2022
Modèles de données et langages de description ouverts   4 - 2021-2022Modèles de données et langages de description ouverts   4 - 2021-2022
Modèles de données et langages de description ouverts 4 - 2021-2022François-Xavier Boffy
 
Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...Desconnets Jean-Christophe
 
Les catalogues sur le Web
Les catalogues sur le WebLes catalogues sur le Web
Les catalogues sur le WebFigoblog
 
CRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDACRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDAnonue12
 
RDA : le nouveau paradigme du catalogage (2). Qu'est-ce que le RDA ?
RDA : le nouveau paradigme du catalogage (2). Qu'est-ce que le RDA ? RDA : le nouveau paradigme du catalogage (2). Qu'est-ce que le RDA ?
RDA : le nouveau paradigme du catalogage (2). Qu'est-ce que le RDA ? ADBS
 
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...infoclio.ch
 
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'informationMasterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'informationAntidot
 
Les éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EADLes éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EADDanis Habib
 
ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)ABES
 
Du web sémantique à tous les étages
Du web sémantique à tous les étagesDu web sémantique à tous les étages
Du web sémantique à tous les étagesSemWebPro
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationcatherine roussey
 
Les bases pour utiliser SPARQL
Les bases pour utiliser SPARQLLes bases pour utiliser SPARQL
Les bases pour utiliser SPARQLBorderCloud
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
 

Similaire à Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivistique et Linked Open Data. Vers quelle convergence? Présentation au “Forum des Archivistes” 5 avril 2019, Saint-Etienne. (20)

Modèles de données et langages de description ouverts 5 - 2021-2022
Modèles de données et langages de description ouverts   5 - 2021-2022Modèles de données et langages de description ouverts   5 - 2021-2022
Modèles de données et langages de description ouverts 5 - 2021-2022
 
Modèles de données et langages de description ouverts 4 - 2021-2022
Modèles de données et langages de description ouverts   4 - 2021-2022Modèles de données et langages de description ouverts   4 - 2021-2022
Modèles de données et langages de description ouverts 4 - 2021-2022
 
Évolution de la normalisation - Catherine Coppolani
Évolution de la normalisation - Catherine CoppolaniÉvolution de la normalisation - Catherine Coppolani
Évolution de la normalisation - Catherine Coppolani
 
Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...
 
Les catalogues sur le Web
Les catalogues sur le WebLes catalogues sur le Web
Les catalogues sur le Web
 
CRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDACRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDA
 
RDA : le nouveau paradigme du catalogage (2). Qu'est-ce que le RDA ?
RDA : le nouveau paradigme du catalogage (2). Qu'est-ce que le RDA ? RDA : le nouveau paradigme du catalogage (2). Qu'est-ce que le RDA ?
RDA : le nouveau paradigme du catalogage (2). Qu'est-ce que le RDA ?
 
Semantic web introduction
Semantic web introductionSemantic web introduction
Semantic web introduction
 
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
 
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'informationMasterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
 
Les éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EADLes éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EAD
 
ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)
 
Du web sémantique à tous les étages
Du web sémantique à tous les étagesDu web sémantique à tous les étages
Du web sémantique à tous les étages
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
 
Web sémantique
Web sémantique Web sémantique
Web sémantique
 
Metadonnees et SID
Metadonnees et SIDMetadonnees et SID
Metadonnees et SID
 
RDF en quelques slides
RDF en quelques slidesRDF en quelques slides
RDF en quelques slides
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
 
Les bases pour utiliser SPARQL
Les bases pour utiliser SPARQLLes bases pour utiliser SPARQL
Les bases pour utiliser SPARQL
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 

Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivistique et Linked Open Data. Vers quelle convergence? Présentation au “Forum des Archivistes” 5 avril 2019, Saint-Etienne.

  • 1. Le Matterhorn RDF Data Model: Description archivistique et Linked Open Data. Vers quelle convergence? Alain Dubois, Tobias Wildi Saint-Etienne, 5 avril 2019 1
  • 2. Depuis 10 ans, deux axes de réflexion  Le cœur de la réflexion porte sur la question de la préservation numérique (garantie de la qualité de l’information durant tout son cycle de vie, notamment en termes de contextualisation)  Le réflexion est conduite en se fondant sur les normes et standards internationaux 2
  • 3. La pérennisation des données  Modèle de référence OAIS Prise en compte du modèle d’information global (contenu d’information, information de pérennisation, information de description) 3
  • 4. Une description archivistique contextualisée  Normes de description du CIA 4
  • 6. Matterhorn METS Profile  Première concrétisation des modèles conceptuels pérennisation / contextualisation  Une boîte à outils composée  d’une Metadata-Map  du Matterhorn METS Profile  d’outils open source (docuteam packer / Octave, docuteam feeder) 6
  • 7. Matterhorn METS Profile: la Metadata-Map 7
  • 8. Matterhorn METS Profile  Le Matterhorn METS Profile enregistré en 2012 auprès de la Bibliothèque du Congrès (Washington) comme un profil générique pouvant être utilisé par des institution de conservation du patrimoine gérant des fonds d’archives (archives, bibliothèques et musées)  Des outils open source (docuteam packer, docuteam feeder), utilisé dans 20 services d’archives environ  Utilisation du XML pour la sérialisation 8
  • 9. Limites du XML  Structure du XML (EAD et Premis) rend les fichiers de métadonnées trop lourds  Absence d’identifiants uniques sur les ressources  Impossibilité de modéliser des relations entre les descriptions à l’interne du fichier  Impossibilité de modéliser des relations avec des ressources externes (Wikidata, Viaf, GND...) 9
  • 10. Vers un modèle générique  Choix de standards utilisables pour pérenniser l’information, quelle que soit l’institution qui la gère (archives, bibliothèques, musées, centres de recherche, centres de documentation…)  Concept d’entité intellectuelle (par exemple, une œuvre littéraire, un jeu de données scientifiques, un dossier d’affaire, un record) 10
  • 11. Deux approches possibles  Approche spécifique de l’EGAD: développer un standard RDF spécifique aux Archives, mais avec des passerelles vers les standards des bibliothèques et musées  Approche généraliste du Matterhorn RDF Data Model: se fonder sur des standards RDF existants et répandus au niveau international, qui permettent de modéliser le Records in Contexts  Contrairement à l’approche de l’EGAD, le Matterhorn RDF Data Model se fonde sur des ontologies déjà existantes. Il suit ainsi les W3C Best Practices: «It is best practice to use or extend an existing vocabulary before creating a new vocabulary.» 11
  • 13. Matterhorn RDF: modèle conceptuel 13
  • 14. Matterhorn RDF: contenu d’information 14
  • 15. Matterhorn RDF: exemple d’un contrat 15
  • 16. Matterhorn RDF Data Model 16 Une grande partie des attributs (properties) utilisés dans le Matterhorn RDF Data Model est tirée des standards RDA (Resource Description and Access) et Premis Name Prefix URI Dublin Core DC http://purl.org/dc/elements/1.1/ DC Terms DCT http://purl.org/dc/terms/ Provenance-Family PROV prov http://www.w3.org/ns/prov# Premis premis http://id.loc.gov/vocabulary/ preservation RDA Unconstrained properties rdau http://rdaregistry.info/Elements/u/ RDA Class hierarchies rdac http://rdaregistry.info/Elements/c/
  • 17. Comment concrétiser ce modèle?  Formalisation par l’intermédiaire de “SHACL Shapes” au lieu d’une ontologie spécifique  SHACL est un langage pour la validation de triples sh:property [ sh:path dc:title ; rdfs:label "Title"@en ; rdfs:label "Titel"@de ; rdfs:label "Titre"@fr ; rdfs:comment "ISAD 1.2" ; owl:sameAs rico:title ; sh:datatype xsd:string ; sh:minCount 1 ; sh:maxCount 1 ; sh:nodeKind sh:Literal ; ] .
  • 18. Exemple  shacl.org  SHACL Shapes  Exemple de triples de deux dossiers
  • 19. Liens vers nos ressources  Ressources générales sur les outils Matterhorn METS et RDF: http://matterhorn.tools/?lang=fr  Wiki avec modèle conceptuel et technique https://wiki.docuteam.ch/doku.php?id=docuteam:matterhornrdf  Repository Git: https://bitbucket.org/docuteam/matterhorn 19
  • 20. Merci de votre attention Archives de l’Etat du VS Alain Dubois Archiviste cantonal Rue de Lausanne 45 1950 Sion +41 27 606 46 05 alain.dubois@admin.vs.ch Docuteam Sàrl Tobias Wildi Im Langacker 16 5405 Baden-Dättwil +41 56 470 03 37 t.wildi@docuteam.ch