SlideShare une entreprise Scribd logo
Formation
19-23 Novembre 2013
Pérennisation et communication
de l'information numérique
Pascal Romain
Ingénieur documentaire
Département général de la Gironde

Les métadonnées de pérennisation et l’accès aux objets
Sommaire
• Introduction sur les métadonnées
définition, aspect théorique, processus de production
• Le modèle d’information de l’OAIS: place des métadonnées dans le modèle
• Quelles métadonnées pour la pérennisation ?
• encoder et lier les métadonnées
• L’accès à l’information grâce aux métadonnées
Introduction sur les métadonnées : enjeux

Comment sécuriser et
diffuser l’information
au sein d’un même
processus ?
Introduction sur les métadonnées : définition
Une métadonnée est une donnée
servant à définir ou décrire une autre
donnée. Porteuse d'information sur le

contexte, le sens et la finalité de la
ressource informationnelle portée par la
donnée brute.

μετά:
préfixe grec indiquant
l'auto-référence
Introduction sur les métadonnées : cas pratique

titre

+
indexation lieu
indexation sujet

=

contexte temporel

producteur

contexte spatial
Introduction sur les métadonnées : théorie

Des dispositifs
d’encodage, de lecture
et de transmission
conditionnent
notre accès aux données

Dans le contexte numérique, des dispositifs
de médiation sont nécessaires à
l’appréhension de la donnée.
Plusieurs communautés d’utilisateurs
impliquent différents types de métadonnées
Une métadonnée doit avoir une finalité et
une utilité immédiate

Attention : l’abus de métadonnées est dangereux pour la santé
Des dispositifs de stockage, de sécurisation
et de surveillance sont nécessaires à la
conservation des données
Introduction sur les métadonnées : enjeux
La structuration de
l’information est
la clé qui assure la versatilité
des usages qui peuvent être
capitalisés à partir d’un

processus de description
Introduction sur les métadonnées : structuration

Conservation des informations
sur le processus de création
et de transformation

Traçabilité des échanges
et des habilitations

métadonnées
administratives

métadonnées
techniques

Intelligibilité du contexte

métadonnées
descriptives

métadonnées
de structure
Pérennisation et interopérabilité
Introduction sur les métadonnées: typologie
On distingue généralement 4 grands types de métadonnées :
métadonnées techniques:

décrivent les outils utilisés pour créer la donnée ainsi que le processus de création lui-même.
essentielles à l'intelligibilité de la donnée dans un contexte d'intermédiation numérique ainsi qu'à la qualité de la donnée dans
une perspective de conservation sur le long terme.
elles doivent suivre le cycle de vie de la donnée et permettre de garantir son intégrité

métadonnées administratives

utilisées pour définir les contrôles d'accès à la donnée
décrivent les évènements et les agents qui interviennent sur la donnée ainsi que les conditions d'utilisation
permettent de gérer la donnée et les liens qui peuvent exister entre ses éventuelles différentes représentations

métadonnées descriptives

utilisées pour préciser le contenu informatif de la donnée
structurent les informations dont la donnée est porteuse en la reliant à des concepts ou à d'autres données
permettent d'expliciter, de décrire, de contextualiser ou de hiérarchiser l'information

métadonnées de structure

enveloppes qui permettent de relier plusieurs types de métadonnée
permettent de disposer d'un cadre de description commun favorisant l'interopérabilité de l'information
Introduction sur les métadonnées : enjeux de production

Comment produire
des métadonnées à
moindre coût ?
Introduction sur les métadonnées: production
La production de métadonnées peut
s'envisager à différentes

étapes

du cycle de vie du document
porteur d'information :
saisie à la création
saisies au cours d'une étape de traitement de
l'information
extraction à posteriori : transformation, diffusion,
récupération




Sommaire
• Introduction sur les métadonnées
définition, aspect théorique, processus de production
• Le modèle d’information de l’OAIS: place des métadonnées dans le modèle
• Quelles métadonnées pour la pérennisation ?
• encoder et lier les métadonnées
• L’accès à l’information grâce aux métadonnées
OAIS

Système d’information ouvert d’archivage
Modèle conceptuel organisé autour de 6 entités gérant les échanges
d’informations au sein du système d’information
Le modèle d’information de l’OAIS: les paquets d’information

Le modèle conceptuel nous
aide à considérer
l’objet information dans un
cycle de vie non-linéaire
Le modèle d’information de l’OAIS: les paquets d’information
Dans le contexte de la pérennisation, les informations peuvent prendre 3 formes
successives ou simultanées:

•le paquet d’information à soumettre : SIP (Submission Information Package)
le paquet d’information à archiver: AIP (Archival Information Package).
Il peut exister sous 2 formes au sein de l’archive OAIS
Le paquet d’information à diffuser : DIP (Diffusion Information Package)
•Les entités administration et planification sont chargés de gérer ces états en fonction des besoins
Le modèle d’information de l’OAIS: les paquets d’information
Paquet

Objet

Information
Le modèle d’information de l’OAIS:
les paquets d’information: l’information
l’Objet Information est composé
d’un objet données

(physique ou numérique)
et de l’information de
représentation qui
permettent d’interpréter
les données
sous la forme d’une
information
compréhensible.
Le modèle d’information de l’OAIS:
les paquets d’information: la représentation
•Information de structure
types de données courants en
informatique, comme des caractères, des
nombres, des pixels, des tableaux
•Information sémantique
informations complémentaires associées
aux éléments de structure, telles que la
langue dans laquelle l’objet est exprimé, les
opérations réalisables sur chaque type de
données et leurs relations, etc.
•Autres
Identifiants d’autres standards comme la
référence à la norme ASCII
basé sur le principe de la récursivité
Le modèle d’information de l’OAIS:
les paquets d’information: la pérennisation
Information de provenance
Décrit l’origine du contenu d’information, qui en a la charge, et
quel est l’historique de ses modifications
•Information de contexte
•Décrit comment le contenu d’information s’articule avec
d’autres informations à l’extérieur du paquet
•Information d’identification
•Fournit un ou plusieurs identifiants ou systèmes
d’identification
•Information d’intégrité
•Protège le contenu d’information contre les altérations non
documentées
Le modèle d’information de l’OAIS:
les relations
Une information est toujours produite dans un contexte.
Elle résulte de l’action d’un ou plusieurs agents.
Son cycle de vie est une suite d’événements qui opèrent sur
des objets entre lesquels il existe souvent des relations
Le modèle d’information de l’OAIS:
le contexte du versement
Le versement d’un document ou d’une archive
dans une perspective de pérennisation implique la
description de plusieurs éléments de contexte
(l’environnement technique, la description du
producteur, la description du contenu, les droits
d’accès).

Il mets en relation un agent versant et un
agent recevant autour d’un versement
comprenant des objets en relation
Le modèle d’information de l’OAIS:
le contexte de la gestion (ou archivage)
La gestion et le stockage impliquent
la description d’évènements
(l’analyse, l’enrichissement, le
stockage, la migration) dont la
responsabilité incombe à différentes
entités OAIS.
Ces processus sont complexes et
nécessitent la description
des objets à conserver et à diffuser
Le modèle d’information de l’OAIS:
le contexte d’administration
L’administration dans le temps de l’objet
archive nécessite le suivi et la
conservation des événements qui
affectent l’information.
Une veille technologique est nécessaire
pour garantir l’accès des agents habilités
au cours du cycle de vie des objets
informationnels et la conservation du
capital informationnel.
Le modèle d’information de l’OAIS:
le contexte de l’accès
L’accès aux informations nécessite
l’enrichissement et la mise en relation des
objets avec d’autres sources
d’explicitation .
Les communautés d’agents expriment des
besoins qui doivent être pris en compte
sans compromettre l’intégrité de l’entité
OAIS.
Le modèle d’information de l’OAIS:
la structuration des méta-données
L’entité OAIS utilise les
métadonnées pour
normaliser et structurer les
échanges d’informations avec
les acteurs externes et
internes
L’objectif est de conserver la
richesse de l’information et
sa traçabilité
Sommaire
• Introduction sur les métadonnées
définition, aspect théorique, processus de production
• Le modèle d’information de l’OAIS: place des métadonnées dans le modèle
• Quelles métadonnées pour la pérennisation ?
• encoder et lier les métadonnées
• L’accès à l’information grâce aux métadonnées
Quelle métadonnées pour la pérennisation ?
Les informations techniques
Les métadonnées répondent à une triple finalité
qualité

intelligibilité

intégrité

qui correspond aux étapes
production

conservation

diffusion

inhérentes au cycle de vie de l’information
Quelle métadonnées pour la pérennisation ?
Les informations administratives
Les métadonnées répondent à une logique de structuration
agents

événements

objets

des différents contextes
création

conservation

diffusion

inhérentes au cycle de vie de l’information
Quelle métadonnées pour la pérennisation ?
Les informations descriptives
Les métadonnées répondent à une logique de recherche et
d’accès
acteurs

contexte

objets

en fonction de la communauté d’utilisateurs
identité

référentiel

granularité

et des impératifs de citabilité et d’interopérabilité
Quelle métadonnées pour la pérennisation ?
Les informations de structure
Les métadonnées de structure sont des enveloppes qui relient
objets

événements

agents

et permettent de disposer d'un cadre de description commun
identité

représentation

pérennité

favorisant l'interopérabilité et la structuration de l'information
Sommaire
• Introduction sur les métadonnées
définition, aspect théorique, processus de production
• Le modèle d’information de l’OAIS: place des métadonnées dans le modèle
• Quelles métadonnées pour la pérennisation ?
• Encoder et lier les métadonnées
• L’accès à l’information grâce aux métadonnées
Encoder et lier les métadonnées: pratique

Du concept à
l’application pratique.
L’ivresse du choix
Encoder et lier les métadonnées: pratique

Quelle structuration ?
Quelles finalités ?
Encoder et lier les métadonnées :
modèles conceptuels

Les schémas de
métadonnées servent à
contrôler la saisie et
développer la

sémantique des
informations
Encoder et lier les métadonnées :
le web de données: ontologies et vocabulaires

Ontologie: défini de manière formelle, pour un domaine de connaissance, les concepts qui permettront
de décrire les « choses » de façon non ambiguë, et les règles contraignant ces descriptions
Cette norme comprend les éléments suivants :
- les types de choses : classes
Ex : Document, Livre, Personne

- les propriétés ou attributs des choses
Ex : auteur, date de publication
- les contraintes éventuelles qui relient celles-ci à celles-là
Ex : Un livre est un document, un livre a au moins un auteur, une personne n'est pas un document
URI (Uniform Resource Identifier): l’économie
durable de la connaissance
Syntaxe :
<scheme:chaîne/de.caractère>
<http://monsite.com/dossier/fichier.html#ancre>
<http://mondomaine.org/ressource/1234>

Les URI sont des identifiants Web.
Les URL sont des URI qui identifient la
ressource par le moyen d'y accéder.
Les URL peuvent être pérennes.

•un préfixe qui indique le contexte dans lequel l’identifiant est attribué
(par ex. http:,ftp:, urn:, etc.)
•un élément qui permet de désigner l’autorité nommante qui a attribué
l’identifiant au sein de ce système
•le « nom » lui-même, c'est-à-dire une chaîne de caractères qui identifie
la ressource de manière unique, au sein de ce système et pour cette
autorité.

http://fr.wikipedia.org/wiki/Universal_Unique_Identifier
Encoder et lier les métadonnées
RDF: la structuration de l’accès aux ressources
sujet

objet
prédicat

Le sujet est toujours une URI.
Toute “chose” sur laquelle on veut faire des assertions
(sujet) doit avoir une URI.
Les “choses” ont toujours un type : une CLASSE.
Le prédicat est toujours une URI.
Il permet d'exprimer les propriétés des
“choses”, ou les relations des “choses” entre elles
L‘objet peut être un texte (littéral) ou une URI.

Les classes et les propriétés sont déclarées dans des vocabulaires pour être réutilisées
Encoder et lier les métadonnées
RDF: le hub de données
•Le modèle RDF permet de décloisonner les silos de données.
•Les référentiels permettent alors de les relier
L’Ecume des jours est un roman de Boris Vian publié en 1947 avec pour thèmes centraux
l’amour, la maladie, la mort
L’Ecume des jours est un roman
L’Ecume des jours a pour auteur Boris Vian
L’Ecume des jours est paru en 1947
L’Ecume des jours a pour thèmes l’amour, la maladie, la mort
J’irais cracher sur vos tombes a pour auteur Vernon Sullivan

RDF n'est pas lié à une syntaxe
particulière mais c'est en XML que
sont publiés la plupart des
vocabulaires standard (RDFS, FOAF,
SKOS, OWL) qui utilisent le modèle
de données en graphe.

L’ Ecume des jours– type - roman
L’ Ecume des jours– auteur - Boris Vian
L’ Ecume des jours– année de parution – 1947
L’ Ecume des jours - thème – amour
http://dbpedia.org/page/Froth_on_the_Daydream
http://data.bnf.fr/13091689/boris_vian/
dbpedia:Froth_on_the_Daydream rdf:type yago:Novel106367879
dbpedia:Froth_on_the_Daydream dcterms:creator dbpedia:Boris_Vian
dbpedia:Froth_on_the_Daydream dcterms:date "1947"
dbpedia:Froth_on_the_Daydream skos:subject dbpedia:Love
dbpedia-owl:wikiPageRedirects dcterms:creator dbpedia:Vernon_Sullivan
Encoder et lier les métadonnées
SKOS (Simple Knowledge Organisation System): le thésaurus à l’heure
du web
•SKOS est construit sur la base du langage RDF, et son principal
objectif est de permettre la publication facile de vocabulaires
structurés pour leur utilisation dans le cadre du Web de
données.
• SKOS est actuellement développé dans le cadre du W3C et
cherche à être au maximum compatible avec les standards qui
définissent les thésaurus.
•SKOS est un vocabulaire écrit en RDFS où la classe générique
est skos:Concept
•les propriétés de mise en correspondance proposées dans
SKOS permettent d'exprimer des correspondances entre
concepts provenant de schémas différents
skos:exactMatch ou skos:closeMatch
skos:broadMatch, skos:narrowMatch, skos:relatedMatch
skos:semanticRelation
XML (Extensible Markup Language): la lingua franca
de l’encodage d’information
<xml version="1.0" encoding="UTF-8"?>
<ex:collection xml:lang="fr"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns=http://www.w3.org/1999/xhtml
xmlns:ex="http://exemple.org">
<ex:vehicule>
<dc:title>Mon super vélo</dc:title>
<velo id="2">
<taille>76</taille>
<marque>cool bike</marque>
<modele>speeder</modele>
</ex:velo>
<ex:velo taille="76" marque="coolbike"
modele="speeder" id="2" />

•langage à balises permettant de structurer et de décrire
un ensemble d’objet au sein d’espace de noms
•langage hiérarchique permettant de décrire des
relations
•langage de transport d’information permettant de
standardiser les échanges de données
•peut être décrit par un schéma ou une DTD
•peut servir au stockage des données mais également à
leur interrogation
Encoder et lier les métadonnées: carte d’identité technique

Les en-têtes des fichiers
numériques sont porteurs

d’information
d’identification et de

provenance
Encoder et lier les métadonnées
L’exemple du schéma de données MIX
Encoder et lier les métadonnées
L’exemple du schéma de données MIX
Encoder et lier les métadonnées
3 normes complémentaires pour l’information technique des images fixes

EXIF (Exchangeable image file format): permet de décrire le contexte (quand), l'outil (comment),
la localisation (où) et l'auteur (qui) de la production. Les données Exif sont incorporées au fichier
d’image lui-même. Elles peuvent être modifiées mais reflètent normalement les conditions de
production d'une image numérique.
Le format en version 2.2 (2003) n'est pas maintenu [http://exif.org/Exif2-2.PDF]
XMP (Extensible Metadata Platform): permet de décrire sous forme d'un document XML intégré
au fichier des informations relatives à ses caractéristiques. Il permet d'intégrer des métadonnées
EXIF ou Dublin Core et supporte l'unicode.
Ce format est maintenu par Adobe. [http://www.adobe.com/products/xmp/]
MIX (Metadata Image XML): permet de décrire sous forme d'un document XML externe
l'ensemble des éléments définis dans la norme ISO 39.87. Le format en version 2 est maintenu par
la bibliothèque du congrès américain. [http://www.loc.gov/standards/mix/]
Encoder et lier les métadonnées
3 normes complémentaires pour l’information technique des contenus
multimédias
MPEG-7 (Moving Picture Experts Group) : une norme de description dont le but est de faciliter
l'indexation et la recherche de documents multimédia. Il permet d'utiliser des descripteurs pour
caractériser des données audio ou visuelles mais également de décrire le contenu de ces données
ainsi que les relations sémantiques qui les lient entre elles. Standard ISO/IEC 15938 il est assez peu
utilisé en raison de sa complexité.[http://mpeg.chiariglione.org/standards/mpeg-7/mpeg-7.htm]

PBCore (Public Broadcasting Metadata Dictionary) : initialement utilisé par les diffuseurs radio, il
s'appuie sur le standard Dublin Core pour décrire le contenu intellectuel des ressources, les
mentions de droits ainsi que l'ensemble des informations techniques sur le document numérique
audio.
Il existe sous forme de format XML. [http://pbcore.org/2.0/]
VIDEOMD (Video Technical Metadata Extension Schema) : permet de décrire sous forme d'un
document XML externe les métadonnées techniques qui décrivent un objet numérique vidéo. Il est
utilisé en lien avec METS. [http://lcweb2.loc.gov/mets/Schemas/VMD.xsd]
Encoder et lier les métadonnées: la description du contexte

Il est souvent nécessaire
d’expliciter l’information en
décrivant son contexte et
ses relations
Encoder et lier les métadonnées
MODS (Metadata Object Description Schema )
schéma d’interopérabilité bibliographique
•norme bibliographique largement utilisée dans
le contexte anglo-saxon et maintenu par la
librairie du congrès.
[http://www.loc.gov/standards/mods/].
•autorise la description hiérarchique ou simple
•permet de conserver quasiment l'ensemble des
informations d'une notice MARC tout en
simplifiant la lecture et le traitement
Encoder et lier les métadonnées
EAD/EAC (Encoded Archival Description/Context):
description hiérarchique des fonds d’archives
le schéma EAD est basé sur ISAD-G(). Il permet de décrire
un fonds d'archives ou d'ouvrages de manière hiérarchique
du général au particulier, d'indexer les notices descriptives
et de lier ces descriptions à des substituts numériques et à
des notices de producteurs(EAC: Encoded Archival
Context)
•le schéma EAC vise à décrire les producteurs pour retracer
l'historique d'une entité administrative ou morale
d'archives en se basant sur la norme ISAAR-CPF
[http://eac.staatsbibliothek-berlin.de/].
•Il permet une redéfinition de la notion de contexte de
production et d’utilisation des archives. Il se concentre
seulement sur la description des collectivités, des
personnes et des familles.
Encoder et lier les métadonnées
construction d’une ontologie

Au départ le monde
selon EAD
Encoder et lier les métadonnées :
identifier les concepts

Les objets à
modéliser
http://archiveshub.ac.uk/locah/
Encoder et lier les métadonnées :
identifier les relations

Les relations entre
concepts
Encoder et lier les métadonnées :
en route pour les usages

Et hop une ontologie !
http://data.archiveshub.ac.uk/
Réutilisant des vocabulaires existants
RDF Schema (RDFS): http://www.w3.org/2000/01/rdf-schema#
Dublin Core Terms: http://purl.org/dc/terms/
Friend of a Friend (FOAF): http://xmlns.com/foaf/0.1/
Simple Knowledge Organisation System (SKOS):
http://www.w3.org/2004/02/skos/core#
Object Reuse & Exchange (ORE):
http://www.openarchives.org/ore/terms/
Vocabulaire biographique : http://purl.org/vocab/bio/0.1/
Event Ontologie: http://purl.org/NET/c4dm/event.owl#
Linked Open Data Events vocabulary (LODE):
http://linkedevents.org/ontology/
Timeline Ontologie: http://purl.org/NET/c4dm/timeline.owl#
Encoder et lier les métadonnées
METS: la structuration de la description des ressources
Le schéma METS vise à fournir un méta-modèle pour l'encapsulation d'autres
formats de métadonnées.
Ce schéma XML composé de 7 sections est extrêmement flexible.
Il permet notamment de représenter l'information sous forme de carte de
structure et s'implémenter le modèle conceptuel OAIS.
Il constitue un format pivot entre la logique de diffusion et celle de conservation de
l'information.
Encoder et lier les métadonnées
METS: la structuration de la description des ressources
L’utilisation de METS passe par la mise en forme
d’un profil d’utilisation
Celui-ci permet de définir les règles de
description et de permettre une automatisation
des processus de validation et de contrôle.
Il permet de multiplier les formats de description
et les modes de consultation des objets à
conserver ou à diffuser.
Il utilise un système de pointeur basé sur
l’identification de toutes les unités de description
Encoder et lier les métadonnées
3 modèles pour la structuration des objets d’information
PREMIS (Preservation Metadata: Implementation Strategies) : le modèle de données de PREMIS est composé
de 5 entités reliées entre elles par des identifiants: Entité intellectuelle, Objet, Evénement, Agent, et Droits. Ce
schéma répond notamment au besoin de pérennisation de l'information numérique et de conservation du cycle
de vie des données (import dans un entrepôt de donnée, migration, gestion d'intégrité, liens entre différentes
représentations d'un même document). [http://www.loc.gov/standards/premis]
LIDO (Lightweight Information Describing Objects) : cette norme vise à décrire les objets patrimoniaux en
référence au modèle conceptuel international CIDOC-CRM((ISO 21127). Il permet de décrire l'objet en terme de
contenu mais également de cycle de vie et est fortement orienté vers l'interopérabilité et la mise en réseau.
[http://www.lido-schema.org]

FRBR (Functionnal Requirements for Bibliographic Records) et FRAD (Functional Requirements for Authority
Data) sont des normes qui organisent les différentes composantes de la description bibliographique. Ils
organisent les différentes composantes de la description bibliographique.
et fournissent un modèle conceptuel permettant l'amélioration des notices de catalogue (un produit), l'action de
cataloguer (un processus) et la conception des catalogues (une technologie)
Encoder et lier les métadonnées
LIDO: un cadre conceptuel et technique
basé sur le modèle conceptuel CIDOC-CRM
(ISO 21127:2006) : conseil international des
musées-modèle conceptuel de référence
constitue une « ontologie » de
l'information relative au patrimoine
culturel
La présentation en est basée sur l'approche «
orientée objet »
la création, la collection ou l'utilisation d'un
objet sont définies comme des événements
qui ont des entités associées comme des
dates, des lieux ou des acteurs.
Encoder et lier les métadonnées
FRBR: le modèle conceptuel de référence
•Un modèle ternaire :
une entité est un être, ou une « chose doté d'une existence
distincte »
un attribut est une qualité, quelque chose qui décrit cette entité
une relation est le lien entre différentes entités
•3 groupes d'entités:
groupe 1: les produits abstraits ou concrets (travail, expression,
manifestation et exemplaire)
groupe 2: les individus ou institutions
groupe 3: les sujets (concepts, des objets, des évènements, des
lieux)

Les attributs sont des caractéristiques ou des propriétés.
Ils permettent aux utilisateurs de trouver les entités dont ils ont besoin.

attributs inhérents (caractéristiques et spécificités)
attributs externes (identification et contexte)
Encoder et lier les métadonnées
PREMIS : les métadonnées du cycle de vie
Encoder et lier les métadonnées
PREMIS : les métadonnées du cycle de vie
•les schémas OBJET, EVENT et AGENT les plus usités sont
reliés par un mécanisme d'identifiant.
des listes d'autorités peuvent être utilisées en vue d'optimiser
les opérations de gestion, de contrôle ou de transformation
(eventType, agentType, format, objectCategory, storageMedium,
copyrightStatus, and RightsBasis).
•PREMIS est couramment utilisé en lien avec METS:
Exemple :
http://www.gpo.gov/fdsys/pkg/USCOURTS-mied-1_09-cv-12267/premis.xml
http://lcweb2.loc.gov/diglib/ihas/loc.natlib.gottlieb.09601/default.html

premis:event dans digiProvMD
premis:rights dans rightsMD
premis:object dans techMD dans digiProvMD
premis:agent dans digiProvMD ou rightsMD

•Des choix d’implémentations s’imposent en lien avec
l’utilisation de METS (redondance de données, mécanisme
d’identification, répartition des informations)
Encoder et lier les métadonnées
PREMIS : les métadonnées du cycle de vie
Encoder et lier les métadonnées
PREMIS : les métadonnées du cycle de vie
Encoder et lier les métadonnées
PREMIS : les métadonnées du cycle de vie
Encoder et lier les métadonnées
PREMIS : les métadonnées du cycle de vie
Encoder et lier les métadonnées
PREMIS : les métadonnées du cycle de vie des objets
Entité Objet
Classe Fichier : une séquence de bits nommée et ordonnée connu d'un système d'exploitation
Un fichier peut avoir 0 ou n bits et est caractérisé par un format, des droits d'accès, et des caractéristiques
permettant de le décrire au sein d'un système de fichiers telles que la taille ou la date de dernière modification.

Classe train de bits : un train de bits représente des données contiguës ou non à l'intérieur d'un fichier qui partagent
des propriétés communes significatives et présentent un intérêt patrimonial.
Un train de bits ne peut pas être transformé en fichier sans l'ajout d'information de structure (comme par
exemple un en-tête) et/ou sans modification du train de bits pour être conforme aux exigences
d'un format de fichier donné.
Classe représentation : une représentation est un ensemble de fichiers, incluant des métadonnées de structure,
nécessaire à la compréhension d'une entité intellectuelle. Par exemple, un article de journal peut être complet à
l'intérieur d'un fichier PDF ; ce fichier unique constitue la représentation. Un autre article de journal peut consister
en un fichier SGML et 2 fichiers images ; ces 3 fichiers constituent la représentation. Un troisième article peut
être représenté par une image TIFF pour chacune de ses 12 pages plus un fichier XML contenant les métadonnées
de structuration exprimant l'ordre de ces pages ; ces 13 fichiers constituent la représentation.
Une représentation correspond donc a une instance numérique unique d'une entité intellectuelle
conservée dans un entrepôt de conservation.
Encoder et lier les métadonnées
PREMIS : les métadonnées du cycle de vie des objets
Encoder et lier les métadonnées
PREMIS : les métadonnées du cycle de vie des objets
Les identifiants sont utilisés pour relier
les entités ensemble

Site web

Entité intellectuelle

- linkingIntellectualEntityIdentifier
- linkingRightsStatementIdentifier

Relation entre différents types d’entités

- linkingEventIdentifier
- linkingAgentIdentifier
html

- linkingObjectIdentifier

Par exemple, un objet peut être relié à une ou
plusieurs entités intellectuelles, expressions de
droits et événements au travers de liens vers
des unités sémantiques

index.html

chapitre01.pdf

représentations

chapitre02.pdf

pdf

siteWeb.pdf
Encoder et lier les métadonnées
SEDA: Schéma d’Échange des Données d'Archivage
•Le schéma SEDA permet de décrire les relations entre les
acteurs au cours des échanges (transfert, de communication, de
modification, d'élimination ou de restitution d’archives).
•Il permet d'automatiser les procédures d'échange
d'information en décrivant les règles contractuelles qui
régissent le versement et la prise en charge d'un paquet
d'information.
•Les messages SEDA décrivent les contraintes (format,
support, identification) et fournissent un historique des
opérations effectuées (transfert, réception, destruction, etc..)
•La grammaire XML permet de définir des règles formelles
vérifiables par les machines (est égal à, ne peut pas être différent
de, n'existe qu'en un seul exemplaire, provient de, etc...)
Encoder et lier les métadonnées
MEDONA: structurer les métadonnées des documents d’activité
• Le schéma MEDONA Z 44-022 permet de structurer les
métadonnées générées par les acteurs au cours des
échanges (transfert, de communication, de modification,
d'élimination ou de restitution d’archives).
Il doit permettre de modéliser les échanges de données
pour l‘archivage et d'automatiser les procédures
d'échange d'information en décrivant les règles
contractuelles qui régissent le versement et la prise en
charge d'un paquet d'information.
• Les messages MEDONA décrivent les contraintes
(format, support, identification) et fournissent un
historique des opérations effectuées (transfert,
réception, destruction, etc..)
• La grammaire XML permet de définir des règles
formelles vérifiables par les machines (est égal à, ne peut
pas être différent de, n'existe qu'en un seul exemplaire,
provient de, etc...)
Encoder et lier les métadonnées
MEDONA: structurer les métadonnées des documents d’activité
•La classe ManagementMetadata regroupe l'ensemble
des informations nécessaires à la gestion de l'échange
d'un paquet de données. Les informations apportées par
cette classe concernent tous les Objets de données du
paquet.
Ces informations sont :
• l'accord de service (ArchivalAgreement),
• le profil d'archivage (ArchivalProfile),
• le niveau de service (ServiceLevel),
• la règle d'accessibilité (AccessRule)
• la règle pour le calcul du sort final (AppraisalRule).
Toutes ces informations sont facultatives.
Encoder et lier les métadonnées
MEDONA: structurer les métadonnées des échanges
Tous les messages partagent des propriétés communes
définies dans la classe Message.
Ces propriétés sont :
• une date (Date) qui correspond à la date d'émission
du message
• un identifiant du message (MessageIdentifier) ;
• éventuellement des commentaires (Comment) qui
permettent en particulier d'expliquer la raison du
message (par exemple pour une réponse négative,
ces commentaires peuvent expliquer la raison du
refus et ce qu'il convient de faire pour reformuler la
demande)
• éventuellement une signature du message lui-même
(Signature).
Le message d'accusé de réception (Ackwowledgement)
hérite des propriétés de la classe Message auxquelles il
faut ajouter l'identifiant du message dont il accuse la
réception.
Encoder et lier les métadonnées
MEDONA: extension aux besoins d’une communauté
<xsd:schema targetNamespace="org:afnor:www:medona:v1.0"
xmlns:xsd="http://www.w3.org/2001/XMLSchema"
xmlns:medona="org:afnor:www:medona:v1.0"
xmlns:xlink="http://www.w3.org/1999/xlink"
xmlns:eac="urn:isbn:1-931666-33-4">
<xsd:import namespace="urn:isbn:1-931666-33-4" schemaLocation="cpf.xsd"/>
<xsd:import namespace="http://www.w3.org/1999/xlink" schemaLocation="xlink.xsd"/>
<xsd:redefine schemaLocation="MEDONA.xsd">
<xsd:complexType name="OrganizationDescriptiveMetadataType">
<xsd:complexContent>
<xsd:restriction base="medona:OrganizationDescriptiveMetadataType">
<xsd:sequence>
<xsd:element ref="eac:cpfDescription"/>
</xsd:sequence>
<xsd:attribute ref="xlink:href" use="prohibited"/>
</xsd:restriction>
</xsd:complexContent>
</xsd:complexType>
</xsd:redefine>
</xsd:schema>

Une communauté peut créer son propre schéma XML
dérivé celui de la norme sans avoir à intervenir sur le
schéma de la norme en incluant le schéma de la norme
dans le sien tout en redéfinissant sous forme de
restriction les types laissés ouverts:
DescriptiveMetadataType,
OrganizationDescriptiveMetadataType
SignatureType
AccessRuleType)
Par exemple, si cette communauté souhaite utiliser le
modèle EAC-CPF 19) pour décrire les acteurs (Service
versant, Service producteur, etc.), elle donnera une
autre définition du type
OrganizationDescriptiveMetadataType dans son
schéma dérivé. De cette manière les messages qui
respectent ce nouveau schéma respectent forcément le
schéma de la norme.
Encoder et lier les métadonnées
Dublin Core: PPDC et interopérabilité

• permet l'interopérabilité entre des données d'un
domaine ou entre des domaines hétérogènes (Plus
Petit Dénominateur Commun)
• 15 éléments optionnels répétables et qualifiables
• profils d’implémentation permettant d’échanger
facilement des données entre différents domaine
• permet de s’intégrer dans des portails
documentaires transversaux
• permet de gérer les descriptions hétérogènes au
sein d’une archive OAIS
Sommaire
• Introduction sur les métadonnées
définition, aspect théorique, processus de production
• Le modèle d’information de l’OAIS: place des métadonnées dans le modèle
• Quelles métadonnées pour la pérennisation ?
• Encoder et lier les métadonnées
• L’accès à l’information grâce aux métadonnées
L’accès à l’information par les métadonnées
OAI-PMH: un protocole d’échange ouvert
agrégateur

entrepôts

moissonneurs

portail

Notice d'identité Notice descriptive humain

objet numérique

Contenu culturel

6 verbes pour un échange de données
normalisé
Qui?: la carte d'identité de l'entrepôt
Quand?: Les dates de modification
Comment?:
les standards de métadonnées XML
les collection de données
Combien?:
La liste des identifiants uniques
La liste des fiches descriptives
Quoi?: Le contenu de la fiche
descriptive
L’accès à l’information par les métadonnées
SPARQL: le couteau suisse du web sémantique

Du monde des Documents → objets statiques
reliés entre eux par des liens hypertextes
Au monde des ressources adressables → toute
chose ou entité susceptible d'être identifiée,
nommée, manipulée à travers ses représentations
dans n'importe quel système utilisant les
technologies du web

•Le web de données ou semantic Web doit permettre aux
machines de comprendre le contenu des notices
documentaires et d'offrir à terme des agents intelligents
autorisant des nouveaux usages des données
•Le web de données est basé sur l'utilisation de standards:
•une représentation sous forme de graphe : RDF
•Un schéma de définition de règles : RDFS ou OWL
•Un langage de requête permettant de lier des données de
référence : SPARQL
•Un langage d'ontologie permettant de décrire des règles
formelles: OWL
•Un langage de vocabulaire permettant de publier des
thésaurus sur le Web: SKOS
•L'utilisation d'identifiants pérennes: CURI « cool uri don't
change »
L’accès à l’information par les métadonnées
Usage: le projet LOCAH: http://data.archiveshub.ac.uk/

Le projet LOCAH fournit des pistes d’utilisation
de la modélisation en graphe pour les archives

•Le web de données ou semantic Web doit permettre
aux machines de comprendre le contenu des notices
documentaires et d'offrir à terme des agents
intelligents autorisant des nouveaux usages des
données
•Le web de données est basé sur l'utilisation de
standards:
•une représentation sous forme de graphe : RDF
•Un schéma de définition de règles : RDFS ou OWL
•Un langage de requête permettant de lier des données
de référence : SPARQL
•Un langage d'ontologie permettant de décrire des
règles formelles: OWL
•Un langage de vocabulaire permettant de publier des
thésaurus sur le Web: SKOS
•L'utilisation d'identifiants pérennes: CURI « cool uri
don't change »
L’accès à l’information par les métadonnées
SPARQL: le couteau suisse de l’accès aux données
Comme SQL, SPARQL sélectionne les données retournées par la requête en
utilisant la déclaration SELECT pour déterminer quel sous-ensemble de donnés doit
être retourné
SPARQL utilise également la clause WHERE pour définir les modèles de graphes
pour trouver une réponse au sein du jeu de réponse.
UN modèle de graphe dans la clause SPARQL WHERE consiste dans un triplet
sujet, propriété objet pour trouver une réponse dans les données
La requête SELECT requiert de retourner la variable ?type.
En SPARQL, les noms des variables sont préfixées par le symbole point
d'interrogation("?") .
Dans un modèle de requête de graphe , elle correspondent à n'importe quel noeud –
une ressource ou un litéral
L’accès à l’information par les métadonnées
SPARQL: le couteau suisse de l’accès aux données
SPARQL permet d'interroger la structure du graphe sémantique pour sélectionner
les ressources répondant à une certaine structure de graphe.
Par exemple trouver tous les romans de Boris Vian sur Dbpedia
PREFIX dbpedia: <http://dbpedia.org/resource/>
PREFIX yago: <http://dbpedia.org/yago/>
PREFIX p: <http://dbpedia.org/property/>
SELECT DISTINCT ?x
WHERE
{
?x
rdf:type yago:Novel106367879.
?x
p:author dbpedia:Boris_Vian.
}
L’accès à l’information par les métadonnées
A quoi ça sert ? Construire un espace global d’information
Merci de votre attention

Pascal Romain
p.romain@cg33.fr
@keronos
références
Publications:
Carlyle, A (2006). Understanding FRBR as a conceptual model: FRBR and the bibliographic universe. Library Resources and Technical Services, 50(4), 264-273
Coyle, Karen, Understanding the Semantic Web: Bibliographic Data and Metadata. Library Technology Reports, Janvier 2010
Séminaire INRIA, Métadonnées: mutations et perspectives, ADBS, 2008
Crédits:
Aurélien Couraux, Gautier Poupeau, Emmanuelle Bermès, Ivan Herman, Fabien Gandron : présentations sur le web
illustrations: jlmaral, widdowquinn, wiccked, Fenng(dbanotes), LaChan, Laughing Squid, LZdR, woicik CC BY-NC 2.0
Liens :
FRBR http://www.ifla.org/en/publications/functional-requirements-for-bibliographic-records
SEDA: http://www.archivesdefrance.culture.gouv.fr/seda/
MODS http://www.loc.gov/standards/mods/
Dublin Core http://dublincore.org/
SKOS http://www.w3.org/TR/skos-reference/
METS http://loc.gov/METS
RDF http://www.W3C.org/RDF
OWL2 http://www.W3C/OWL2
ARK https://confluence.ucop.edu/display/Curation/ARK
OAI-PMH http://www.openarchives.org/OAI/openarchivesprotocol.html
Contact: p.romain@cg33.fr twitter: @keronos
références
outils:
http://library.harvard.edu/preservation/digital-preservation_tools.html
http://www.nationalarchives.gov.uk/information-management/projects-and-work/droid.htm
http://meta-extractor.sourceforge.net/
https://code.google.com/p/fits/
articles
http://www.dcc.ac.uk/resources/external/tools-services/archiving-and-preserving-information
http://www.metadataaustralia2010.com/presentations.html
http://digitalpreservation.nl/seeds/
Ressources musées
http://www.oldman.me.uk/blog/the-british-museum-cidoc-crm-and-the-shaping-of-knowledge/#comment-4
http://collection.britishmuseum.org/
http://www.cidoc-crm.org/
ressources bibliothèques
http://litablog.org/2010/07/mods-and-mads-current-implementations-and-future-directions/
références
Ressources archives
http://archiveshub.ac.uk/locah/
https://www.nationalarchives.gov.uk/documents/information-management/xml-london-tna-rw.pdf
http://e-records.chrisprom.com/plato-digital-preservation-planning-software-review/
http://data.semanticweb.org/conference/iswc/2008/paper/poster_demo/14/html
Ressources record management
http://id.loc.gov/ontologies/premis.html
http://www.loc.gov/standards/premis/tools.html
http://timbusproject.net/resources

Contenu connexe

Tendances

Gerer vos documents au quotidien
Gerer vos documents au quotidienGerer vos documents au quotidien
Gerer vos documents au quotidien
Université Cheikh Anta Diop de Dakar
 
La mise en œuvre de l’archivage numérique courant et intermédiaire au CD 34 :...
La mise en œuvre de l’archivage numérique courant et intermédiaire au CD 34 :...La mise en œuvre de l’archivage numérique courant et intermédiaire au CD 34 :...
La mise en œuvre de l’archivage numérique courant et intermédiaire au CD 34 :...
AssociationAF
 
La GED 3 secrets pour réussir
La GED 3 secrets pour réussirLa GED 3 secrets pour réussir
La GED 3 secrets pour réussir
Sollan France
 
Veille- ERP
Veille- ERPVeille- ERP
Veille- ERP
dihiaselma
 
Présentation Gestion Electronique de Documents (Alfresco)
Présentation Gestion Electronique de Documents (Alfresco)Présentation Gestion Electronique de Documents (Alfresco)
Présentation Gestion Electronique de Documents (Alfresco)
Jibril Touzi
 
Description archivistique
Description archivistiqueDescription archivistique
Description archivistique
Danis Habib
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
Lilia Sfaxi
 
Conduire un projet de GED: Concepts de base, points de repère pour la mise en...
Conduire un projet de GED: Concepts de base, points de repère pour la mise en...Conduire un projet de GED: Concepts de base, points de repère pour la mise en...
Conduire un projet de GED: Concepts de base, points de repère pour la mise en...
Baba Kourouma
 
Alphorm.com Formation ETL Talend Open Studio (1/2) - Les fondamentaux
Alphorm.com Formation ETL Talend Open Studio (1/2) - Les fondamentauxAlphorm.com Formation ETL Talend Open Studio (1/2) - Les fondamentaux
Alphorm.com Formation ETL Talend Open Studio (1/2) - Les fondamentaux
Alphorm
 
Presentation de projet Tableau de gestion des archives
Presentation de projet  Tableau de gestion des archivesPresentation de projet  Tableau de gestion des archives
Presentation de projet Tableau de gestion des archives
Ets GeneralArchive
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
Lilia Sfaxi
 
Formation analyse de processus et workflow
Formation analyse de processus et workflowFormation analyse de processus et workflow
Formation analyse de processus et workflow
Echecs et Stratégie
 
Cours Base de données relationnelles
Cours Base de données relationnellesCours Base de données relationnelles
Cours Base de données relationnelles
Aymen Kasmi
 
Compétitic - Gestion électronique de documents - numérique en entreprise
Compétitic - Gestion électronique de documents - numérique en entrepriseCompétitic - Gestion électronique de documents - numérique en entreprise
Compétitic - Gestion électronique de documents - numérique en entreprise
COMPETITIC
 
Classement et analyse archivistique
Classement et analyse archivistiqueClassement et analyse archivistique
Classement et analyse archivistiqueVanessa GENDRIN
 
Obtenga una visión unificada de los datos de su organización (MDM)
Obtenga una visión unificada de los datos de su organización (MDM)Obtenga una visión unificada de los datos de su organización (MDM)
Obtenga una visión unificada de los datos de su organización (MDM)PowerData
 
Concepts de sauvegarde et de récupération
Concepts de sauvegarde et de récupérationConcepts de sauvegarde et de récupération
Concepts de sauvegarde et de récupération
Soukaina Boujadi
 

Tendances (20)

Gerer vos documents au quotidien
Gerer vos documents au quotidienGerer vos documents au quotidien
Gerer vos documents au quotidien
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
La mise en œuvre de l’archivage numérique courant et intermédiaire au CD 34 :...
La mise en œuvre de l’archivage numérique courant et intermédiaire au CD 34 :...La mise en œuvre de l’archivage numérique courant et intermédiaire au CD 34 :...
La mise en œuvre de l’archivage numérique courant et intermédiaire au CD 34 :...
 
La GED 3 secrets pour réussir
La GED 3 secrets pour réussirLa GED 3 secrets pour réussir
La GED 3 secrets pour réussir
 
Veille- ERP
Veille- ERPVeille- ERP
Veille- ERP
 
Présentation Gestion Electronique de Documents (Alfresco)
Présentation Gestion Electronique de Documents (Alfresco)Présentation Gestion Electronique de Documents (Alfresco)
Présentation Gestion Electronique de Documents (Alfresco)
 
Description archivistique
Description archivistiqueDescription archivistique
Description archivistique
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
Conduire un projet de GED: Concepts de base, points de repère pour la mise en...
Conduire un projet de GED: Concepts de base, points de repère pour la mise en...Conduire un projet de GED: Concepts de base, points de repère pour la mise en...
Conduire un projet de GED: Concepts de base, points de repère pour la mise en...
 
Alphorm.com Formation ETL Talend Open Studio (1/2) - Les fondamentaux
Alphorm.com Formation ETL Talend Open Studio (1/2) - Les fondamentauxAlphorm.com Formation ETL Talend Open Studio (1/2) - Les fondamentaux
Alphorm.com Formation ETL Talend Open Studio (1/2) - Les fondamentaux
 
Presentation de projet Tableau de gestion des archives
Presentation de projet  Tableau de gestion des archivesPresentation de projet  Tableau de gestion des archives
Presentation de projet Tableau de gestion des archives
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Resume de BI
Resume de BIResume de BI
Resume de BI
 
Formation analyse de processus et workflow
Formation analyse de processus et workflowFormation analyse de processus et workflow
Formation analyse de processus et workflow
 
Cours Base de données relationnelles
Cours Base de données relationnellesCours Base de données relationnelles
Cours Base de données relationnelles
 
Compétitic - Gestion électronique de documents - numérique en entreprise
Compétitic - Gestion électronique de documents - numérique en entrepriseCompétitic - Gestion électronique de documents - numérique en entreprise
Compétitic - Gestion électronique de documents - numérique en entreprise
 
Classement et analyse archivistique
Classement et analyse archivistiqueClassement et analyse archivistique
Classement et analyse archivistique
 
Bi
BiBi
Bi
 
Obtenga una visión unificada de los datos de su organización (MDM)
Obtenga una visión unificada de los datos de su organización (MDM)Obtenga una visión unificada de los datos de su organización (MDM)
Obtenga una visión unificada de los datos de su organización (MDM)
 
Concepts de sauvegarde et de récupération
Concepts de sauvegarde et de récupérationConcepts de sauvegarde et de récupération
Concepts de sauvegarde et de récupération
 

Similaire à structuration des métadonnées de pérennisation

Presentation PIN 2011
Presentation PIN 2011Presentation PIN 2011
Presentation PIN 2011
Pascal Romain
 
préservation de l'information numérique formation 2015
préservation de l'information numérique formation 2015préservation de l'information numérique formation 2015
préservation de l'information numérique formation 2015
Pascal Romain
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Gautier Poupeau
 
Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...
Gautier Poupeau
 
Cours BDD.pptx
Cours BDD.pptxCours BDD.pptx
Cours BDD.pptx
IbrahimaBarry49
 
Introduction à la gestion des métadonnées
Introduction à la gestion des métadonnéesIntroduction à la gestion des métadonnées
Introduction à la gestion des métadonnéesOpen Data Support
 
Catalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiativesCatalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiatives
Desconnets Jean-Christophe
 
Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheFiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
Agropolis International
 
Le Web sémantique pour la formation et la gestion des connaissances dans les ...
Le Web sémantique pour la formation et la gestion des connaissances dans les ...Le Web sémantique pour la formation et la gestion des connaissances dans les ...
Le Web sémantique pour la formation et la gestion des connaissances dans les ...
Gilbert Paquette
 
presentationcoursbd.pdf
presentationcoursbd.pdfpresentationcoursbd.pdf
presentationcoursbd.pdf
AabidiHafid
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Denodo
 
Portails d'information
Portails d'informationPortails d'information
Portails d'informationSKennel
 
Système d'aide à l’indexation et à la recherche d’information sur le web
Système d'aide à l’indexation et à la recherche d’information sur le webSystème d'aide à l’indexation et à la recherche d’information sur le web
Système d'aide à l’indexation et à la recherche d’information sur le web
espenel
 
Les entrepôts de données ou comment rendre les données trouvables accessibles...
Les entrepôts de données ou comment rendre les données trouvables accessibles...Les entrepôts de données ou comment rendre les données trouvables accessibles...
Les entrepôts de données ou comment rendre les données trouvables accessibles...
Desconnets Jean-Christophe
 
Bid CE Workshop 1 session 06 - Data quality during digitization
Bid CE Workshop 1   session 06 - Data quality during digitizationBid CE Workshop 1   session 06 - Data quality during digitization
Bid CE Workshop 1 session 06 - Data quality during digitization
Alberto González-Talaván
 
Visite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonVisite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizon
Gautier Poupeau
 
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
IST IRD - Service IST de l'Institut de Recherche pour le Développement
 
Les Services du savoir
Les Services du savoirLes Services du savoir
Les Services du savoir
Albert Simard
 
infrastructure de données spatiales: notions et enjeux
infrastructure de données spatiales: notions et enjeuxinfrastructure de données spatiales: notions et enjeux
infrastructure de données spatiales: notions et enjeux
Desconnets Jean-Christophe
 

Similaire à structuration des métadonnées de pérennisation (20)

Presentation PIN 2011
Presentation PIN 2011Presentation PIN 2011
Presentation PIN 2011
 
préservation de l'information numérique formation 2015
préservation de l'information numérique formation 2015préservation de l'information numérique formation 2015
préservation de l'information numérique formation 2015
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...
 
Cours BDD.pptx
Cours BDD.pptxCours BDD.pptx
Cours BDD.pptx
 
Introduction à la gestion des métadonnées
Introduction à la gestion des métadonnéesIntroduction à la gestion des métadonnées
Introduction à la gestion des métadonnées
 
Catalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiativesCatalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiatives
 
Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheFiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
 
Le Web sémantique pour la formation et la gestion des connaissances dans les ...
Le Web sémantique pour la formation et la gestion des connaissances dans les ...Le Web sémantique pour la formation et la gestion des connaissances dans les ...
Le Web sémantique pour la formation et la gestion des connaissances dans les ...
 
presentationcoursbd.pdf
presentationcoursbd.pdfpresentationcoursbd.pdf
presentationcoursbd.pdf
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
 
Portails d'information
Portails d'informationPortails d'information
Portails d'information
 
Système d'aide à l’indexation et à la recherche d’information sur le web
Système d'aide à l’indexation et à la recherche d’information sur le webSystème d'aide à l’indexation et à la recherche d’information sur le web
Système d'aide à l’indexation et à la recherche d’information sur le web
 
Les entrepôts de données ou comment rendre les données trouvables accessibles...
Les entrepôts de données ou comment rendre les données trouvables accessibles...Les entrepôts de données ou comment rendre les données trouvables accessibles...
Les entrepôts de données ou comment rendre les données trouvables accessibles...
 
Bid CE Workshop 1 session 06 - Data quality during digitization
Bid CE Workshop 1   session 06 - Data quality during digitizationBid CE Workshop 1   session 06 - Data quality during digitization
Bid CE Workshop 1 session 06 - Data quality during digitization
 
Visite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonVisite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizon
 
ANTIDOT - Cas client ISIDORE
ANTIDOT - Cas client ISIDOREANTIDOT - Cas client ISIDORE
ANTIDOT - Cas client ISIDORE
 
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
 
Les Services du savoir
Les Services du savoirLes Services du savoir
Les Services du savoir
 
infrastructure de données spatiales: notions et enjeux
infrastructure de données spatiales: notions et enjeuxinfrastructure de données spatiales: notions et enjeux
infrastructure de données spatiales: notions et enjeux
 

structuration des métadonnées de pérennisation

  • 1. Formation 19-23 Novembre 2013 Pérennisation et communication de l'information numérique Pascal Romain Ingénieur documentaire Département général de la Gironde Les métadonnées de pérennisation et l’accès aux objets
  • 2. Sommaire • Introduction sur les métadonnées définition, aspect théorique, processus de production • Le modèle d’information de l’OAIS: place des métadonnées dans le modèle • Quelles métadonnées pour la pérennisation ? • encoder et lier les métadonnées • L’accès à l’information grâce aux métadonnées
  • 3. Introduction sur les métadonnées : enjeux Comment sécuriser et diffuser l’information au sein d’un même processus ?
  • 4. Introduction sur les métadonnées : définition Une métadonnée est une donnée servant à définir ou décrire une autre donnée. Porteuse d'information sur le contexte, le sens et la finalité de la ressource informationnelle portée par la donnée brute. μετά: préfixe grec indiquant l'auto-référence
  • 5. Introduction sur les métadonnées : cas pratique titre + indexation lieu indexation sujet = contexte temporel producteur contexte spatial
  • 6. Introduction sur les métadonnées : théorie Des dispositifs d’encodage, de lecture et de transmission conditionnent notre accès aux données Dans le contexte numérique, des dispositifs de médiation sont nécessaires à l’appréhension de la donnée. Plusieurs communautés d’utilisateurs impliquent différents types de métadonnées Une métadonnée doit avoir une finalité et une utilité immédiate Attention : l’abus de métadonnées est dangereux pour la santé Des dispositifs de stockage, de sécurisation et de surveillance sont nécessaires à la conservation des données
  • 7. Introduction sur les métadonnées : enjeux La structuration de l’information est la clé qui assure la versatilité des usages qui peuvent être capitalisés à partir d’un processus de description
  • 8. Introduction sur les métadonnées : structuration Conservation des informations sur le processus de création et de transformation Traçabilité des échanges et des habilitations métadonnées administratives métadonnées techniques Intelligibilité du contexte métadonnées descriptives métadonnées de structure Pérennisation et interopérabilité
  • 9. Introduction sur les métadonnées: typologie On distingue généralement 4 grands types de métadonnées : métadonnées techniques: décrivent les outils utilisés pour créer la donnée ainsi que le processus de création lui-même. essentielles à l'intelligibilité de la donnée dans un contexte d'intermédiation numérique ainsi qu'à la qualité de la donnée dans une perspective de conservation sur le long terme. elles doivent suivre le cycle de vie de la donnée et permettre de garantir son intégrité métadonnées administratives utilisées pour définir les contrôles d'accès à la donnée décrivent les évènements et les agents qui interviennent sur la donnée ainsi que les conditions d'utilisation permettent de gérer la donnée et les liens qui peuvent exister entre ses éventuelles différentes représentations métadonnées descriptives utilisées pour préciser le contenu informatif de la donnée structurent les informations dont la donnée est porteuse en la reliant à des concepts ou à d'autres données permettent d'expliciter, de décrire, de contextualiser ou de hiérarchiser l'information métadonnées de structure enveloppes qui permettent de relier plusieurs types de métadonnée permettent de disposer d'un cadre de description commun favorisant l'interopérabilité de l'information
  • 10. Introduction sur les métadonnées : enjeux de production Comment produire des métadonnées à moindre coût ?
  • 11. Introduction sur les métadonnées: production La production de métadonnées peut s'envisager à différentes étapes du cycle de vie du document porteur d'information : saisie à la création saisies au cours d'une étape de traitement de l'information extraction à posteriori : transformation, diffusion, récupération   
  • 12. Sommaire • Introduction sur les métadonnées définition, aspect théorique, processus de production • Le modèle d’information de l’OAIS: place des métadonnées dans le modèle • Quelles métadonnées pour la pérennisation ? • encoder et lier les métadonnées • L’accès à l’information grâce aux métadonnées
  • 13. OAIS Système d’information ouvert d’archivage Modèle conceptuel organisé autour de 6 entités gérant les échanges d’informations au sein du système d’information
  • 14. Le modèle d’information de l’OAIS: les paquets d’information Le modèle conceptuel nous aide à considérer l’objet information dans un cycle de vie non-linéaire
  • 15. Le modèle d’information de l’OAIS: les paquets d’information Dans le contexte de la pérennisation, les informations peuvent prendre 3 formes successives ou simultanées: •le paquet d’information à soumettre : SIP (Submission Information Package) le paquet d’information à archiver: AIP (Archival Information Package). Il peut exister sous 2 formes au sein de l’archive OAIS Le paquet d’information à diffuser : DIP (Diffusion Information Package) •Les entités administration et planification sont chargés de gérer ces états en fonction des besoins
  • 16. Le modèle d’information de l’OAIS: les paquets d’information Paquet Objet Information
  • 17. Le modèle d’information de l’OAIS: les paquets d’information: l’information l’Objet Information est composé d’un objet données (physique ou numérique) et de l’information de représentation qui permettent d’interpréter les données sous la forme d’une information compréhensible.
  • 18. Le modèle d’information de l’OAIS: les paquets d’information: la représentation •Information de structure types de données courants en informatique, comme des caractères, des nombres, des pixels, des tableaux •Information sémantique informations complémentaires associées aux éléments de structure, telles que la langue dans laquelle l’objet est exprimé, les opérations réalisables sur chaque type de données et leurs relations, etc. •Autres Identifiants d’autres standards comme la référence à la norme ASCII basé sur le principe de la récursivité
  • 19. Le modèle d’information de l’OAIS: les paquets d’information: la pérennisation Information de provenance Décrit l’origine du contenu d’information, qui en a la charge, et quel est l’historique de ses modifications •Information de contexte •Décrit comment le contenu d’information s’articule avec d’autres informations à l’extérieur du paquet •Information d’identification •Fournit un ou plusieurs identifiants ou systèmes d’identification •Information d’intégrité •Protège le contenu d’information contre les altérations non documentées
  • 20. Le modèle d’information de l’OAIS: les relations Une information est toujours produite dans un contexte. Elle résulte de l’action d’un ou plusieurs agents. Son cycle de vie est une suite d’événements qui opèrent sur des objets entre lesquels il existe souvent des relations
  • 21. Le modèle d’information de l’OAIS: le contexte du versement Le versement d’un document ou d’une archive dans une perspective de pérennisation implique la description de plusieurs éléments de contexte (l’environnement technique, la description du producteur, la description du contenu, les droits d’accès). Il mets en relation un agent versant et un agent recevant autour d’un versement comprenant des objets en relation
  • 22. Le modèle d’information de l’OAIS: le contexte de la gestion (ou archivage) La gestion et le stockage impliquent la description d’évènements (l’analyse, l’enrichissement, le stockage, la migration) dont la responsabilité incombe à différentes entités OAIS. Ces processus sont complexes et nécessitent la description des objets à conserver et à diffuser
  • 23. Le modèle d’information de l’OAIS: le contexte d’administration L’administration dans le temps de l’objet archive nécessite le suivi et la conservation des événements qui affectent l’information. Une veille technologique est nécessaire pour garantir l’accès des agents habilités au cours du cycle de vie des objets informationnels et la conservation du capital informationnel.
  • 24. Le modèle d’information de l’OAIS: le contexte de l’accès L’accès aux informations nécessite l’enrichissement et la mise en relation des objets avec d’autres sources d’explicitation . Les communautés d’agents expriment des besoins qui doivent être pris en compte sans compromettre l’intégrité de l’entité OAIS.
  • 25. Le modèle d’information de l’OAIS: la structuration des méta-données L’entité OAIS utilise les métadonnées pour normaliser et structurer les échanges d’informations avec les acteurs externes et internes L’objectif est de conserver la richesse de l’information et sa traçabilité
  • 26. Sommaire • Introduction sur les métadonnées définition, aspect théorique, processus de production • Le modèle d’information de l’OAIS: place des métadonnées dans le modèle • Quelles métadonnées pour la pérennisation ? • encoder et lier les métadonnées • L’accès à l’information grâce aux métadonnées
  • 27. Quelle métadonnées pour la pérennisation ? Les informations techniques Les métadonnées répondent à une triple finalité qualité intelligibilité intégrité qui correspond aux étapes production conservation diffusion inhérentes au cycle de vie de l’information
  • 28. Quelle métadonnées pour la pérennisation ? Les informations administratives Les métadonnées répondent à une logique de structuration agents événements objets des différents contextes création conservation diffusion inhérentes au cycle de vie de l’information
  • 29. Quelle métadonnées pour la pérennisation ? Les informations descriptives Les métadonnées répondent à une logique de recherche et d’accès acteurs contexte objets en fonction de la communauté d’utilisateurs identité référentiel granularité et des impératifs de citabilité et d’interopérabilité
  • 30. Quelle métadonnées pour la pérennisation ? Les informations de structure Les métadonnées de structure sont des enveloppes qui relient objets événements agents et permettent de disposer d'un cadre de description commun identité représentation pérennité favorisant l'interopérabilité et la structuration de l'information
  • 31. Sommaire • Introduction sur les métadonnées définition, aspect théorique, processus de production • Le modèle d’information de l’OAIS: place des métadonnées dans le modèle • Quelles métadonnées pour la pérennisation ? • Encoder et lier les métadonnées • L’accès à l’information grâce aux métadonnées
  • 32. Encoder et lier les métadonnées: pratique Du concept à l’application pratique. L’ivresse du choix
  • 33. Encoder et lier les métadonnées: pratique Quelle structuration ? Quelles finalités ?
  • 34. Encoder et lier les métadonnées : modèles conceptuels Les schémas de métadonnées servent à contrôler la saisie et développer la sémantique des informations
  • 35. Encoder et lier les métadonnées : le web de données: ontologies et vocabulaires Ontologie: défini de manière formelle, pour un domaine de connaissance, les concepts qui permettront de décrire les « choses » de façon non ambiguë, et les règles contraignant ces descriptions Cette norme comprend les éléments suivants : - les types de choses : classes Ex : Document, Livre, Personne - les propriétés ou attributs des choses Ex : auteur, date de publication - les contraintes éventuelles qui relient celles-ci à celles-là Ex : Un livre est un document, un livre a au moins un auteur, une personne n'est pas un document
  • 36. URI (Uniform Resource Identifier): l’économie durable de la connaissance Syntaxe : <scheme:chaîne/de.caractère> <http://monsite.com/dossier/fichier.html#ancre> <http://mondomaine.org/ressource/1234> Les URI sont des identifiants Web. Les URL sont des URI qui identifient la ressource par le moyen d'y accéder. Les URL peuvent être pérennes. •un préfixe qui indique le contexte dans lequel l’identifiant est attribué (par ex. http:,ftp:, urn:, etc.) •un élément qui permet de désigner l’autorité nommante qui a attribué l’identifiant au sein de ce système •le « nom » lui-même, c'est-à-dire une chaîne de caractères qui identifie la ressource de manière unique, au sein de ce système et pour cette autorité. http://fr.wikipedia.org/wiki/Universal_Unique_Identifier
  • 37. Encoder et lier les métadonnées RDF: la structuration de l’accès aux ressources sujet objet prédicat Le sujet est toujours une URI. Toute “chose” sur laquelle on veut faire des assertions (sujet) doit avoir une URI. Les “choses” ont toujours un type : une CLASSE. Le prédicat est toujours une URI. Il permet d'exprimer les propriétés des “choses”, ou les relations des “choses” entre elles L‘objet peut être un texte (littéral) ou une URI. Les classes et les propriétés sont déclarées dans des vocabulaires pour être réutilisées
  • 38. Encoder et lier les métadonnées RDF: le hub de données •Le modèle RDF permet de décloisonner les silos de données. •Les référentiels permettent alors de les relier L’Ecume des jours est un roman de Boris Vian publié en 1947 avec pour thèmes centraux l’amour, la maladie, la mort L’Ecume des jours est un roman L’Ecume des jours a pour auteur Boris Vian L’Ecume des jours est paru en 1947 L’Ecume des jours a pour thèmes l’amour, la maladie, la mort J’irais cracher sur vos tombes a pour auteur Vernon Sullivan RDF n'est pas lié à une syntaxe particulière mais c'est en XML que sont publiés la plupart des vocabulaires standard (RDFS, FOAF, SKOS, OWL) qui utilisent le modèle de données en graphe. L’ Ecume des jours– type - roman L’ Ecume des jours– auteur - Boris Vian L’ Ecume des jours– année de parution – 1947 L’ Ecume des jours - thème – amour http://dbpedia.org/page/Froth_on_the_Daydream http://data.bnf.fr/13091689/boris_vian/ dbpedia:Froth_on_the_Daydream rdf:type yago:Novel106367879 dbpedia:Froth_on_the_Daydream dcterms:creator dbpedia:Boris_Vian dbpedia:Froth_on_the_Daydream dcterms:date "1947" dbpedia:Froth_on_the_Daydream skos:subject dbpedia:Love dbpedia-owl:wikiPageRedirects dcterms:creator dbpedia:Vernon_Sullivan
  • 39. Encoder et lier les métadonnées SKOS (Simple Knowledge Organisation System): le thésaurus à l’heure du web •SKOS est construit sur la base du langage RDF, et son principal objectif est de permettre la publication facile de vocabulaires structurés pour leur utilisation dans le cadre du Web de données. • SKOS est actuellement développé dans le cadre du W3C et cherche à être au maximum compatible avec les standards qui définissent les thésaurus. •SKOS est un vocabulaire écrit en RDFS où la classe générique est skos:Concept •les propriétés de mise en correspondance proposées dans SKOS permettent d'exprimer des correspondances entre concepts provenant de schémas différents skos:exactMatch ou skos:closeMatch skos:broadMatch, skos:narrowMatch, skos:relatedMatch skos:semanticRelation
  • 40. XML (Extensible Markup Language): la lingua franca de l’encodage d’information <xml version="1.0" encoding="UTF-8"?> <ex:collection xml:lang="fr" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns=http://www.w3.org/1999/xhtml xmlns:ex="http://exemple.org"> <ex:vehicule> <dc:title>Mon super vélo</dc:title> <velo id="2"> <taille>76</taille> <marque>cool bike</marque> <modele>speeder</modele> </ex:velo> <ex:velo taille="76" marque="coolbike" modele="speeder" id="2" /> •langage à balises permettant de structurer et de décrire un ensemble d’objet au sein d’espace de noms •langage hiérarchique permettant de décrire des relations •langage de transport d’information permettant de standardiser les échanges de données •peut être décrit par un schéma ou une DTD •peut servir au stockage des données mais également à leur interrogation
  • 41. Encoder et lier les métadonnées: carte d’identité technique Les en-têtes des fichiers numériques sont porteurs d’information d’identification et de provenance
  • 42. Encoder et lier les métadonnées L’exemple du schéma de données MIX
  • 43. Encoder et lier les métadonnées L’exemple du schéma de données MIX
  • 44. Encoder et lier les métadonnées 3 normes complémentaires pour l’information technique des images fixes EXIF (Exchangeable image file format): permet de décrire le contexte (quand), l'outil (comment), la localisation (où) et l'auteur (qui) de la production. Les données Exif sont incorporées au fichier d’image lui-même. Elles peuvent être modifiées mais reflètent normalement les conditions de production d'une image numérique. Le format en version 2.2 (2003) n'est pas maintenu [http://exif.org/Exif2-2.PDF] XMP (Extensible Metadata Platform): permet de décrire sous forme d'un document XML intégré au fichier des informations relatives à ses caractéristiques. Il permet d'intégrer des métadonnées EXIF ou Dublin Core et supporte l'unicode. Ce format est maintenu par Adobe. [http://www.adobe.com/products/xmp/] MIX (Metadata Image XML): permet de décrire sous forme d'un document XML externe l'ensemble des éléments définis dans la norme ISO 39.87. Le format en version 2 est maintenu par la bibliothèque du congrès américain. [http://www.loc.gov/standards/mix/]
  • 45. Encoder et lier les métadonnées 3 normes complémentaires pour l’information technique des contenus multimédias MPEG-7 (Moving Picture Experts Group) : une norme de description dont le but est de faciliter l'indexation et la recherche de documents multimédia. Il permet d'utiliser des descripteurs pour caractériser des données audio ou visuelles mais également de décrire le contenu de ces données ainsi que les relations sémantiques qui les lient entre elles. Standard ISO/IEC 15938 il est assez peu utilisé en raison de sa complexité.[http://mpeg.chiariglione.org/standards/mpeg-7/mpeg-7.htm] PBCore (Public Broadcasting Metadata Dictionary) : initialement utilisé par les diffuseurs radio, il s'appuie sur le standard Dublin Core pour décrire le contenu intellectuel des ressources, les mentions de droits ainsi que l'ensemble des informations techniques sur le document numérique audio. Il existe sous forme de format XML. [http://pbcore.org/2.0/] VIDEOMD (Video Technical Metadata Extension Schema) : permet de décrire sous forme d'un document XML externe les métadonnées techniques qui décrivent un objet numérique vidéo. Il est utilisé en lien avec METS. [http://lcweb2.loc.gov/mets/Schemas/VMD.xsd]
  • 46. Encoder et lier les métadonnées: la description du contexte Il est souvent nécessaire d’expliciter l’information en décrivant son contexte et ses relations
  • 47. Encoder et lier les métadonnées MODS (Metadata Object Description Schema ) schéma d’interopérabilité bibliographique •norme bibliographique largement utilisée dans le contexte anglo-saxon et maintenu par la librairie du congrès. [http://www.loc.gov/standards/mods/]. •autorise la description hiérarchique ou simple •permet de conserver quasiment l'ensemble des informations d'une notice MARC tout en simplifiant la lecture et le traitement
  • 48. Encoder et lier les métadonnées EAD/EAC (Encoded Archival Description/Context): description hiérarchique des fonds d’archives le schéma EAD est basé sur ISAD-G(). Il permet de décrire un fonds d'archives ou d'ouvrages de manière hiérarchique du général au particulier, d'indexer les notices descriptives et de lier ces descriptions à des substituts numériques et à des notices de producteurs(EAC: Encoded Archival Context) •le schéma EAC vise à décrire les producteurs pour retracer l'historique d'une entité administrative ou morale d'archives en se basant sur la norme ISAAR-CPF [http://eac.staatsbibliothek-berlin.de/]. •Il permet une redéfinition de la notion de contexte de production et d’utilisation des archives. Il se concentre seulement sur la description des collectivités, des personnes et des familles.
  • 49. Encoder et lier les métadonnées construction d’une ontologie Au départ le monde selon EAD
  • 50. Encoder et lier les métadonnées : identifier les concepts Les objets à modéliser http://archiveshub.ac.uk/locah/
  • 51. Encoder et lier les métadonnées : identifier les relations Les relations entre concepts
  • 52. Encoder et lier les métadonnées : en route pour les usages Et hop une ontologie ! http://data.archiveshub.ac.uk/ Réutilisant des vocabulaires existants RDF Schema (RDFS): http://www.w3.org/2000/01/rdf-schema# Dublin Core Terms: http://purl.org/dc/terms/ Friend of a Friend (FOAF): http://xmlns.com/foaf/0.1/ Simple Knowledge Organisation System (SKOS): http://www.w3.org/2004/02/skos/core# Object Reuse & Exchange (ORE): http://www.openarchives.org/ore/terms/ Vocabulaire biographique : http://purl.org/vocab/bio/0.1/ Event Ontologie: http://purl.org/NET/c4dm/event.owl# Linked Open Data Events vocabulary (LODE): http://linkedevents.org/ontology/ Timeline Ontologie: http://purl.org/NET/c4dm/timeline.owl#
  • 53. Encoder et lier les métadonnées METS: la structuration de la description des ressources Le schéma METS vise à fournir un méta-modèle pour l'encapsulation d'autres formats de métadonnées. Ce schéma XML composé de 7 sections est extrêmement flexible. Il permet notamment de représenter l'information sous forme de carte de structure et s'implémenter le modèle conceptuel OAIS. Il constitue un format pivot entre la logique de diffusion et celle de conservation de l'information.
  • 54. Encoder et lier les métadonnées METS: la structuration de la description des ressources L’utilisation de METS passe par la mise en forme d’un profil d’utilisation Celui-ci permet de définir les règles de description et de permettre une automatisation des processus de validation et de contrôle. Il permet de multiplier les formats de description et les modes de consultation des objets à conserver ou à diffuser. Il utilise un système de pointeur basé sur l’identification de toutes les unités de description
  • 55. Encoder et lier les métadonnées 3 modèles pour la structuration des objets d’information PREMIS (Preservation Metadata: Implementation Strategies) : le modèle de données de PREMIS est composé de 5 entités reliées entre elles par des identifiants: Entité intellectuelle, Objet, Evénement, Agent, et Droits. Ce schéma répond notamment au besoin de pérennisation de l'information numérique et de conservation du cycle de vie des données (import dans un entrepôt de donnée, migration, gestion d'intégrité, liens entre différentes représentations d'un même document). [http://www.loc.gov/standards/premis] LIDO (Lightweight Information Describing Objects) : cette norme vise à décrire les objets patrimoniaux en référence au modèle conceptuel international CIDOC-CRM((ISO 21127). Il permet de décrire l'objet en terme de contenu mais également de cycle de vie et est fortement orienté vers l'interopérabilité et la mise en réseau. [http://www.lido-schema.org] FRBR (Functionnal Requirements for Bibliographic Records) et FRAD (Functional Requirements for Authority Data) sont des normes qui organisent les différentes composantes de la description bibliographique. Ils organisent les différentes composantes de la description bibliographique. et fournissent un modèle conceptuel permettant l'amélioration des notices de catalogue (un produit), l'action de cataloguer (un processus) et la conception des catalogues (une technologie)
  • 56. Encoder et lier les métadonnées LIDO: un cadre conceptuel et technique basé sur le modèle conceptuel CIDOC-CRM (ISO 21127:2006) : conseil international des musées-modèle conceptuel de référence constitue une « ontologie » de l'information relative au patrimoine culturel La présentation en est basée sur l'approche « orientée objet » la création, la collection ou l'utilisation d'un objet sont définies comme des événements qui ont des entités associées comme des dates, des lieux ou des acteurs.
  • 57. Encoder et lier les métadonnées FRBR: le modèle conceptuel de référence •Un modèle ternaire : une entité est un être, ou une « chose doté d'une existence distincte » un attribut est une qualité, quelque chose qui décrit cette entité une relation est le lien entre différentes entités •3 groupes d'entités: groupe 1: les produits abstraits ou concrets (travail, expression, manifestation et exemplaire) groupe 2: les individus ou institutions groupe 3: les sujets (concepts, des objets, des évènements, des lieux) Les attributs sont des caractéristiques ou des propriétés. Ils permettent aux utilisateurs de trouver les entités dont ils ont besoin. attributs inhérents (caractéristiques et spécificités) attributs externes (identification et contexte)
  • 58. Encoder et lier les métadonnées PREMIS : les métadonnées du cycle de vie
  • 59. Encoder et lier les métadonnées PREMIS : les métadonnées du cycle de vie •les schémas OBJET, EVENT et AGENT les plus usités sont reliés par un mécanisme d'identifiant. des listes d'autorités peuvent être utilisées en vue d'optimiser les opérations de gestion, de contrôle ou de transformation (eventType, agentType, format, objectCategory, storageMedium, copyrightStatus, and RightsBasis). •PREMIS est couramment utilisé en lien avec METS: Exemple : http://www.gpo.gov/fdsys/pkg/USCOURTS-mied-1_09-cv-12267/premis.xml http://lcweb2.loc.gov/diglib/ihas/loc.natlib.gottlieb.09601/default.html premis:event dans digiProvMD premis:rights dans rightsMD premis:object dans techMD dans digiProvMD premis:agent dans digiProvMD ou rightsMD •Des choix d’implémentations s’imposent en lien avec l’utilisation de METS (redondance de données, mécanisme d’identification, répartition des informations)
  • 60. Encoder et lier les métadonnées PREMIS : les métadonnées du cycle de vie
  • 61. Encoder et lier les métadonnées PREMIS : les métadonnées du cycle de vie
  • 62. Encoder et lier les métadonnées PREMIS : les métadonnées du cycle de vie
  • 63. Encoder et lier les métadonnées PREMIS : les métadonnées du cycle de vie
  • 64. Encoder et lier les métadonnées PREMIS : les métadonnées du cycle de vie des objets Entité Objet Classe Fichier : une séquence de bits nommée et ordonnée connu d'un système d'exploitation Un fichier peut avoir 0 ou n bits et est caractérisé par un format, des droits d'accès, et des caractéristiques permettant de le décrire au sein d'un système de fichiers telles que la taille ou la date de dernière modification. Classe train de bits : un train de bits représente des données contiguës ou non à l'intérieur d'un fichier qui partagent des propriétés communes significatives et présentent un intérêt patrimonial. Un train de bits ne peut pas être transformé en fichier sans l'ajout d'information de structure (comme par exemple un en-tête) et/ou sans modification du train de bits pour être conforme aux exigences d'un format de fichier donné. Classe représentation : une représentation est un ensemble de fichiers, incluant des métadonnées de structure, nécessaire à la compréhension d'une entité intellectuelle. Par exemple, un article de journal peut être complet à l'intérieur d'un fichier PDF ; ce fichier unique constitue la représentation. Un autre article de journal peut consister en un fichier SGML et 2 fichiers images ; ces 3 fichiers constituent la représentation. Un troisième article peut être représenté par une image TIFF pour chacune de ses 12 pages plus un fichier XML contenant les métadonnées de structuration exprimant l'ordre de ces pages ; ces 13 fichiers constituent la représentation. Une représentation correspond donc a une instance numérique unique d'une entité intellectuelle conservée dans un entrepôt de conservation.
  • 65. Encoder et lier les métadonnées PREMIS : les métadonnées du cycle de vie des objets
  • 66. Encoder et lier les métadonnées PREMIS : les métadonnées du cycle de vie des objets Les identifiants sont utilisés pour relier les entités ensemble Site web Entité intellectuelle - linkingIntellectualEntityIdentifier - linkingRightsStatementIdentifier Relation entre différents types d’entités - linkingEventIdentifier - linkingAgentIdentifier html - linkingObjectIdentifier Par exemple, un objet peut être relié à une ou plusieurs entités intellectuelles, expressions de droits et événements au travers de liens vers des unités sémantiques index.html chapitre01.pdf représentations chapitre02.pdf pdf siteWeb.pdf
  • 67. Encoder et lier les métadonnées SEDA: Schéma d’Échange des Données d'Archivage •Le schéma SEDA permet de décrire les relations entre les acteurs au cours des échanges (transfert, de communication, de modification, d'élimination ou de restitution d’archives). •Il permet d'automatiser les procédures d'échange d'information en décrivant les règles contractuelles qui régissent le versement et la prise en charge d'un paquet d'information. •Les messages SEDA décrivent les contraintes (format, support, identification) et fournissent un historique des opérations effectuées (transfert, réception, destruction, etc..) •La grammaire XML permet de définir des règles formelles vérifiables par les machines (est égal à, ne peut pas être différent de, n'existe qu'en un seul exemplaire, provient de, etc...)
  • 68. Encoder et lier les métadonnées MEDONA: structurer les métadonnées des documents d’activité • Le schéma MEDONA Z 44-022 permet de structurer les métadonnées générées par les acteurs au cours des échanges (transfert, de communication, de modification, d'élimination ou de restitution d’archives). Il doit permettre de modéliser les échanges de données pour l‘archivage et d'automatiser les procédures d'échange d'information en décrivant les règles contractuelles qui régissent le versement et la prise en charge d'un paquet d'information. • Les messages MEDONA décrivent les contraintes (format, support, identification) et fournissent un historique des opérations effectuées (transfert, réception, destruction, etc..) • La grammaire XML permet de définir des règles formelles vérifiables par les machines (est égal à, ne peut pas être différent de, n'existe qu'en un seul exemplaire, provient de, etc...)
  • 69. Encoder et lier les métadonnées MEDONA: structurer les métadonnées des documents d’activité •La classe ManagementMetadata regroupe l'ensemble des informations nécessaires à la gestion de l'échange d'un paquet de données. Les informations apportées par cette classe concernent tous les Objets de données du paquet. Ces informations sont : • l'accord de service (ArchivalAgreement), • le profil d'archivage (ArchivalProfile), • le niveau de service (ServiceLevel), • la règle d'accessibilité (AccessRule) • la règle pour le calcul du sort final (AppraisalRule). Toutes ces informations sont facultatives.
  • 70. Encoder et lier les métadonnées MEDONA: structurer les métadonnées des échanges Tous les messages partagent des propriétés communes définies dans la classe Message. Ces propriétés sont : • une date (Date) qui correspond à la date d'émission du message • un identifiant du message (MessageIdentifier) ; • éventuellement des commentaires (Comment) qui permettent en particulier d'expliquer la raison du message (par exemple pour une réponse négative, ces commentaires peuvent expliquer la raison du refus et ce qu'il convient de faire pour reformuler la demande) • éventuellement une signature du message lui-même (Signature). Le message d'accusé de réception (Ackwowledgement) hérite des propriétés de la classe Message auxquelles il faut ajouter l'identifiant du message dont il accuse la réception.
  • 71. Encoder et lier les métadonnées MEDONA: extension aux besoins d’une communauté <xsd:schema targetNamespace="org:afnor:www:medona:v1.0" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:medona="org:afnor:www:medona:v1.0" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:eac="urn:isbn:1-931666-33-4"> <xsd:import namespace="urn:isbn:1-931666-33-4" schemaLocation="cpf.xsd"/> <xsd:import namespace="http://www.w3.org/1999/xlink" schemaLocation="xlink.xsd"/> <xsd:redefine schemaLocation="MEDONA.xsd"> <xsd:complexType name="OrganizationDescriptiveMetadataType"> <xsd:complexContent> <xsd:restriction base="medona:OrganizationDescriptiveMetadataType"> <xsd:sequence> <xsd:element ref="eac:cpfDescription"/> </xsd:sequence> <xsd:attribute ref="xlink:href" use="prohibited"/> </xsd:restriction> </xsd:complexContent> </xsd:complexType> </xsd:redefine> </xsd:schema> Une communauté peut créer son propre schéma XML dérivé celui de la norme sans avoir à intervenir sur le schéma de la norme en incluant le schéma de la norme dans le sien tout en redéfinissant sous forme de restriction les types laissés ouverts: DescriptiveMetadataType, OrganizationDescriptiveMetadataType SignatureType AccessRuleType) Par exemple, si cette communauté souhaite utiliser le modèle EAC-CPF 19) pour décrire les acteurs (Service versant, Service producteur, etc.), elle donnera une autre définition du type OrganizationDescriptiveMetadataType dans son schéma dérivé. De cette manière les messages qui respectent ce nouveau schéma respectent forcément le schéma de la norme.
  • 72. Encoder et lier les métadonnées Dublin Core: PPDC et interopérabilité • permet l'interopérabilité entre des données d'un domaine ou entre des domaines hétérogènes (Plus Petit Dénominateur Commun) • 15 éléments optionnels répétables et qualifiables • profils d’implémentation permettant d’échanger facilement des données entre différents domaine • permet de s’intégrer dans des portails documentaires transversaux • permet de gérer les descriptions hétérogènes au sein d’une archive OAIS
  • 73. Sommaire • Introduction sur les métadonnées définition, aspect théorique, processus de production • Le modèle d’information de l’OAIS: place des métadonnées dans le modèle • Quelles métadonnées pour la pérennisation ? • Encoder et lier les métadonnées • L’accès à l’information grâce aux métadonnées
  • 74. L’accès à l’information par les métadonnées OAI-PMH: un protocole d’échange ouvert agrégateur entrepôts moissonneurs portail Notice d'identité Notice descriptive humain objet numérique Contenu culturel 6 verbes pour un échange de données normalisé Qui?: la carte d'identité de l'entrepôt Quand?: Les dates de modification Comment?: les standards de métadonnées XML les collection de données Combien?: La liste des identifiants uniques La liste des fiches descriptives Quoi?: Le contenu de la fiche descriptive
  • 75. L’accès à l’information par les métadonnées SPARQL: le couteau suisse du web sémantique Du monde des Documents → objets statiques reliés entre eux par des liens hypertextes Au monde des ressources adressables → toute chose ou entité susceptible d'être identifiée, nommée, manipulée à travers ses représentations dans n'importe quel système utilisant les technologies du web •Le web de données ou semantic Web doit permettre aux machines de comprendre le contenu des notices documentaires et d'offrir à terme des agents intelligents autorisant des nouveaux usages des données •Le web de données est basé sur l'utilisation de standards: •une représentation sous forme de graphe : RDF •Un schéma de définition de règles : RDFS ou OWL •Un langage de requête permettant de lier des données de référence : SPARQL •Un langage d'ontologie permettant de décrire des règles formelles: OWL •Un langage de vocabulaire permettant de publier des thésaurus sur le Web: SKOS •L'utilisation d'identifiants pérennes: CURI « cool uri don't change »
  • 76. L’accès à l’information par les métadonnées Usage: le projet LOCAH: http://data.archiveshub.ac.uk/ Le projet LOCAH fournit des pistes d’utilisation de la modélisation en graphe pour les archives •Le web de données ou semantic Web doit permettre aux machines de comprendre le contenu des notices documentaires et d'offrir à terme des agents intelligents autorisant des nouveaux usages des données •Le web de données est basé sur l'utilisation de standards: •une représentation sous forme de graphe : RDF •Un schéma de définition de règles : RDFS ou OWL •Un langage de requête permettant de lier des données de référence : SPARQL •Un langage d'ontologie permettant de décrire des règles formelles: OWL •Un langage de vocabulaire permettant de publier des thésaurus sur le Web: SKOS •L'utilisation d'identifiants pérennes: CURI « cool uri don't change »
  • 77. L’accès à l’information par les métadonnées SPARQL: le couteau suisse de l’accès aux données Comme SQL, SPARQL sélectionne les données retournées par la requête en utilisant la déclaration SELECT pour déterminer quel sous-ensemble de donnés doit être retourné SPARQL utilise également la clause WHERE pour définir les modèles de graphes pour trouver une réponse au sein du jeu de réponse. UN modèle de graphe dans la clause SPARQL WHERE consiste dans un triplet sujet, propriété objet pour trouver une réponse dans les données La requête SELECT requiert de retourner la variable ?type. En SPARQL, les noms des variables sont préfixées par le symbole point d'interrogation("?") . Dans un modèle de requête de graphe , elle correspondent à n'importe quel noeud – une ressource ou un litéral
  • 78. L’accès à l’information par les métadonnées SPARQL: le couteau suisse de l’accès aux données SPARQL permet d'interroger la structure du graphe sémantique pour sélectionner les ressources répondant à une certaine structure de graphe. Par exemple trouver tous les romans de Boris Vian sur Dbpedia PREFIX dbpedia: <http://dbpedia.org/resource/> PREFIX yago: <http://dbpedia.org/yago/> PREFIX p: <http://dbpedia.org/property/> SELECT DISTINCT ?x WHERE { ?x rdf:type yago:Novel106367879. ?x p:author dbpedia:Boris_Vian. }
  • 79. L’accès à l’information par les métadonnées A quoi ça sert ? Construire un espace global d’information
  • 80. Merci de votre attention Pascal Romain p.romain@cg33.fr @keronos
  • 81. références Publications: Carlyle, A (2006). Understanding FRBR as a conceptual model: FRBR and the bibliographic universe. Library Resources and Technical Services, 50(4), 264-273 Coyle, Karen, Understanding the Semantic Web: Bibliographic Data and Metadata. Library Technology Reports, Janvier 2010 Séminaire INRIA, Métadonnées: mutations et perspectives, ADBS, 2008 Crédits: Aurélien Couraux, Gautier Poupeau, Emmanuelle Bermès, Ivan Herman, Fabien Gandron : présentations sur le web illustrations: jlmaral, widdowquinn, wiccked, Fenng(dbanotes), LaChan, Laughing Squid, LZdR, woicik CC BY-NC 2.0 Liens : FRBR http://www.ifla.org/en/publications/functional-requirements-for-bibliographic-records SEDA: http://www.archivesdefrance.culture.gouv.fr/seda/ MODS http://www.loc.gov/standards/mods/ Dublin Core http://dublincore.org/ SKOS http://www.w3.org/TR/skos-reference/ METS http://loc.gov/METS RDF http://www.W3C.org/RDF OWL2 http://www.W3C/OWL2 ARK https://confluence.ucop.edu/display/Curation/ARK OAI-PMH http://www.openarchives.org/OAI/openarchivesprotocol.html Contact: p.romain@cg33.fr twitter: @keronos