Similaire à Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicabilité au patrimoine culturel, INHA-InVisu, 13 octobre 2014 (20)
Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicabilité au patrimoine culturel, INHA-InVisu, 13 octobre 2014
1. 1/56
Des métadonnées pour les images numériques
du patrimoine culturel
Lundi 13 octobre 2014, matinée d'étude INHA
Le standard de métadonnées XMP
[Extensible Metadata Platform]
et son applicabilité au patrimoine culturel
http://culturevisuelle.org/dejavu
Patrick Peccatte
Informaticien
Chercheur associé au Laboratoire d'histoire visuelle contemporaine
(Lhivic/EHESS)
peccatte@softexperience.com
Twitter: @ppeccatte
Facebook: patrick.peccatte
Google+: Patrick Peccatte
Flickr: patrickpeccatte et photosnormandie
Tumblr: dubruitausignal.tumblr.com
2. 2/56
XMP et son applicabilité
au domaine culturel - objectifs
Décrire la technologie XMP, ses avantages et limitations
Ce n'est pas l'exposé d'une implémentation particulière de
XMP dans le domaine patrimonial...
... mais plutôt quelques remarques sur la perspective d'une
(éventuelle) future implémentation de ce genre
Montrer que XMP ne doit pas être oublié dans le "paysage"
des métadonnées appliquées au patrimoine culturel
3. 3/56
XMP et son applicabilité
au domaine culturel - Sommaire
Rappel sur les métadonnées internes et les métadonnées
externes
Rappel sur les métadonnées Exif (+ géolocalisation) et les
métadonnées IPTC/IIM
Rappel sur RDF et XMP
La transition du standard IPTC/IIM vers XMP
(IPTC Core et IPTC Extension)
Vocabulaires contrôlés
Applicabilité au patrimoine culturel
(CIDOC CRM et VRA Core)
Interface utilisateur (custom panels)
4. 4/56
wenzday01/Flickr
Creative Commons
Il était une fois...
L'album de photos
Métadonnées
des images:
une histoire
ancienne
et bien connue
8. 8/56
Mario Groleau/Flickr
Creative Commons
Permettait au photographe
d’ajouter des informations
écrites sur le film
Un ancêtre des
métadonnées internes:
le système Autographic
de Kodak (vers 1930)
9. 9/56
Mario Groleau/Flickr
Creative Commons
Photo légendée selon le procédé
Autographic (Nico Redlich, 1931).
Trois-Rivières, Canada
10. 10/56
Où sont les métadonnées ?
Dans une base de données ou un fichier indépendant associé
aux données (sidecar file).
Les métadonnées sont externes aux ressources.
Fichier El Greco.jpg Fichier El Greco.doc
Titre principal: El Greco, Begräbnis des Conde de
Orgaz
Description: El Greco, Domenikos Theotokopoulos,
dit ; 1541-1614. .- 'L'Enterrement du comte d'Orgaz',
v. 1586. (Saint Augustin et saint Etienne enterrent Don
Gonzalo Ruyz de Toledo, Conde de Orgáz, mort en
1327). Huile sur toile, H. 4,60 ; L. 3,60. Tolède, église
Santo Tomé. Année de l'évènement: 1586. Année de
l'oeuvre: 1586.
Mots-clés: 16E SIECLE; AME; ANGE; ART; ART
ESPAGNOL; CHRIST; ENTERREMENT;
ESPAGNE; GRECO, LE; HUILE SUR TOILE;
INHUMATION; MANIERISME; MORT; ORGAZ,
DON GONZALO RUYZ; PEINTURE; PERSONNE;
ROYAUME DES CIEUX; SAINT AUGUSTIN
D'HIPPONE; SAINT ETIENNE; SAINT JEAN-BAPTISTE;
TABLEAU; TOLEDE; VIERGE
MARIE; DEESIS, vertical
11. 11/56
Où sont les métadonnées ?
Dans les données elles-mêmes.
Les métadonnées sont internes, "embarquées"
dans les ressources numériques.
Les informations EXIF (et GPS) et IPTC/IIM des
images numériques sont des métadonnées
internes
Les métadonnées XMP peuvent être
soit internes, soit externes
12. 12/56
Où sont les métadonnées ?
Fichier image numérique
Exif IPTC/IIM
GPS
Autres informations...
XMP XMP
Vignette
intégrée
informations
externes
explicites
exploitation
copie externe
contexte de
publication
(sans métadonnées)
13. 13/56
Où sont les métadonnées ? (suite)
Avantage des métadonnées internes :
l'échange est facilité; la ressource numérique
transporte avec elle ses propres métadonnées
lorsqu'elle est téléchargée, copiée, renommée,
compactée, etc.
Inconvénient des métadonnées internes :
il est nécessaire de copier les métadonnées
dans une base de données pour exploiter une
grande collection de ressources numériques.
14. 14/56
Lire les métadonnées internes des images
Pour lire les métadonnées internes des images, pas besoin
d'outils onéreux ou compliqués
● En local : il existe des outils gratuits, par exemple
XnView
● Sur le Web, il n'est même pas nécessaire de
télécharger l'image, utiliser Jeffrey's Exif Viewer
http://regex.info/exif.cgi
Exemple: Image de Wikimedia Commons
http://commons.wikimedia.org/wiki/File:Statue_Berthold-Brecht-Platz_(Mitte)_Berthold_Brecht.jpg
17. 17/56
Une métadonnée n'est pas obligatoirement textuelle
Métadonnées textuelles
Vignette
intégrée
Une vignette intégrée peut (parfois)
fournir beaucoup d'informations.
C'est une métadonnée...
18. 18/56
Métadonnées et images – EXIF
EXIF est une abréviation de EXchangeable Image File. Ce format définit les
informations d'ordre technique contenues dans les fichiers des images.
Ce sont donc des métadonnées de type interne.
Le format EXIF a été développé en octobre 1995 par le JEIDA
(Japan Electronic Industry Development Association).
La version 2.0 date de novembre 1997, la révision 2.1 de juin 1998 et la révision 2.2
d'avril 2002.
Ce n'est pas un standard, mais il est supporté par tous les fabricants d'APN
(avec des variantes propriétaires)
Les informations EXIF concernent les paramètres de prise de vue et les
réglages de l'appareil au moment de la capture numérique :
✔ fabricant et modèle de l'appareil
✔ hauteur et largeur de l'image
✔ date et heure de la prise de vue
✔ orientation
✔ résolution, temps d'exposition, ouverture
✔ présence d'un flash
✔ coordonnées GPS
✔ etc. [30 éléments environ]
19. 19/56
Métadonnées et images – IPTC/IIM
L'IPTC (International Press and Telecommunications Council) est
une organisation internationale créée en 1965 pour développer et
promouvoir des standards d'échange de données à destination de
la presse.
En association avec la NAA (Newspaper Association of America),
l'IPTC a défini en 1991 un modèle global de données appelé IIM
(Information Interchange Model), dont la dernière version (4.1)
date de Juillet 1999.
Ce modèle a servi de base à la société Adobe pour définir dans
son logiciel Photoshop les informations associées à une image, ce
qui est communément appelé métadonnées IPTC (ou champs ou
informations ou en-têtes [headers] IPTC).
L'IPTC/IIM est constitué de 33 métadonnées de type interne,
c'est-à-dire enregistrées à l'intérieur des fichiers images.
20. 20/56
RDF – Resource Description Framework
RDF est un moyen d'encoder, échanger et réutiliser des
métadonnées structurées
Développé par le W3C
(Recommandation en 1999)
RDF peut s'exprimer à l'aide d'un langage XML
RDF ne précise pas la sémantique des
ressources décrites par les différentes
communautés d'utilisateurs de métadonnées
✔ RDF est un cadre [framework] de description des
ressources pour n'importe quel domaine d'application
RDF est un langage extensible
21. 21/56
XMP – Extensible Metadata Platform
Créé par Adobe (septembre 2001)
Utilise une version simple de RDF
(Resource Description Framework)
Standard ISO depuis mars 2012: ISO 16684-1:2012
(ce n'est donc plus une technologie spécifiquement
Adobe)
22. 22/56
XMP – Extensible Metadata Platform
Comme RDF, XMP est un cadre de description
XMP utilise le schéma Dublin Core comme fondation
(préfixe de l'espace de noms XML: dc:)
dc est étendu par d'autres schémas
✔ Core Schema
✔ PDF
✔ Photoshop
✔ Media Management Schema
✔ Rights Management Schema
23. 23/56
XMP – Extensible Metadata Platform
Les espaces de noms XMP sont des conteneurs
Les champs appartiennent à des espaces de noms
Source: Fotoware
24. 24/56
XMP – Extensible Metadata Platform
Les espaces de noms permettent d'éviter les collisions
Source: Fotoware
25. 25/56
XMP – Extensible Metadata Platform
Un mécanisme d'aliasing permet de mettre en
correspondance des métadonnées
définies dans plusieurs schémas indépendants
(référencés par des espaces de noms XML
différents)
✔ Par exemple, pdf:Author et dc:Creator sont équivalents.
La métadonnée correspondante est stockée une seule fois.
XMP est extensible - l'utilisateur peut définir
ses propres schémas de métadonnées
26. 26/56
XMP – Extensible Metadata Platform
Types de données XMP
Les valeurs possibles pour les métadonnées XMP peuvent être :
✔ Une valeur booléenne
✔ Une chaîne de caractères
✔ Une date
✔ Un entier
✔ Un nombre réel
✔ Une valeur choisie parmi un vocabulaire de valeurs possibles (un choix)
✔ Une valeur choisi parmi plusieurs vocabulaires (un choix étendu)
Les valeurs peuvent aussi être structurées
✔ Une séquence de valeurs ordonnées (container rdf:seq)
✔ Une séquence de valeurs non ordonnées (container rdf:bag)
✔ Un ensemble de valeurs alternatives (container rdf:alt)
✔ Une structure de champs nommés, chacun d'entre eux pouvant être une propriété
27. 27/56
XMP – Extensible Metadata Platform
XMP définit un mécanisme appelé XMP Packet
permettant d'encapsuler les métadonnées XMP
dans les fichiers des applications.
Les métadonnées XMP sont alors internes.
La technique XMP Packet est définie pour les
formats suivants:
JPEG, TIFF, GIF, PNG, HTML, PDF, XML/SVG,
PDF, AI, EPS
Un fichier JPEG - par exemple - contenant un XMP
Packet doit pouvoir être traité sans changement
par les applications ne supportant pas XMP
28. 28/56
XMP – Extensible Metadata Platform
XMP Packet permet d'accéder aux métadonnées
en lecture et écriture même en l'absence
d'applications capables de comprendre le format
de fichier
Lorsque ce n'est pas possible d'implémenter
XMP Packet dans un format de fichier
propriétaire, les métadonnées XMP peuvent être
stockées dans un fichier séparé (sidecar file).
Les métadonnées XMP sont alors externes.
29. 29/56
Perspectives ouvertes par XMP
En quoi XMP est-il plus performant que l'IPTC/IIM ?
IPTC/IIM XMP
Binaire (non facilement lisible) Lisible (XML)
Statique Extensible et évolutif
Adapté aux légendes
multilingues
Inadapté aux légendes
multilingues
Extensibilité documentée
(Namespaces)
Extensibilité non documentée
(champs non standards)
Types de données et types
structurés
Pas de types de données
Pas de problèmes d'accents
(codage Unicode)
Problèmes d'accents
30. 30/56
Bien connaître les outils utilisés
dans les workflows complexes
Ne pas utiliser des outils non XMP
après avoir travaillé avec des outils XMP
IPTC n°120: Chatons
XMP dc:description: Chatons
Indexation avec un outil XMP
IPTC n°120: Deux chatons
XMP dc:description: Chatons
Modification à l'aide d'un outil
uniquement IPTC/IIM (non XMP)
IPTC n°120: Deux chatons
XMP dc:description: Chatons
Retour à un outil XMP
31. La transition du standard IPTC/IIM vers XMP
31/56
IPTC Photo Metadata
IPTC Photo Metadata est une initiative de
l'IPTC qui regroupe deux schémas XMP :
IPTC Core (1.2, juin 2014)
IPTC Extension (1.1, juin 2009)
But définir des éléments de métadonnées dans
le but de proposer une correspondance non
ambiguë et une transition en douceur depuis
les métadonnées IPTC/IIM (dit legacy) vers
une technologie XMP
32. 32/56
Autres schémas XMP dans le domaine de
l'image numérique
IPTC Photo Metadata est l'une des initiatives les plus marquantes utilisant
XMP. Mais il en existe d'autres, voir aussi:
PACA [Picture Archive Council of America] metadata standarts for
distributors
BAPLA [British Association of Picture Librairies and Agencies]
Metadata panel
Useplus
Initiative pour standardiser la description des droits d'usage
Astronomy Visualization Metadata Standard
Description des objets astronomiques
Darwin Core
Nomenclature pour la description de la biodiversité
DICOM [Digital Imaging and Communications in Medicine]
VRA Core [Visual Resources Association]
33. La transition du standard IPTC/IIM vers XMP
33/56
IPTC Photo Metadata
IPTC Core reprend sous forme XMP la plupart des
métadonnées de l'IIM (mais pas toutes)
✔ IIM Contact n'est pas repris tel quel
IPTC Core comporte aussi des métadonnées
supplémentaires par rapport à l'IIM :
✔ Structure Contact : nom, adresse, téléphone, etc.
✔ Localisation (seuls Pays, Code Pays, Ville existent en IIM)
✔ NewsCodes : sujet, scène, genre
34. La transition du standard IPTC/IIM vers XMP
34/56
IPTC Photo Metadata
Les NewsCodes
Code sujet : spécifie un ou plusieurs Sujets de la taxonomie
« Subject-News Codes » IPTC pour catégoriser le contenu.
Chaque Sujet est représenté par une chaîne de 8 caractères
dans une liste non triée.
Code scène : décrit la scène d’un contenu photographique.
Spécifie une ou plusieurs expressions de « Scene-NewsCodes »
d’IPTC. Chaque Scène est représentée par une chaîne de 6
caractères dans une liste non triée.
Code genre : décrit le genre intellectuel de la photographie
(analyse, opinion, interview, résumé, etc).
Chaque genre est représenté par une chaîne de caractères en
anglais.
35. La transition du standard IPTC/IIM vers XMP
35/56
NewsCodes – exemple: Subject Code
Taxonomies, vocabulaires contrôlés
Pas aussi évolué que des ontologies
37. La transition du standard IPTC/IIM vers XMP
37/56
IPTC Photo Metadata
IPTC Extension
Structuration XMP plus complexe
Distingue entre la Localisation de la prise de vue et la
Localisation du sujet photographié
Gestion des droits :
Copyright Owner, Copyright Owner Name, etc.
Informations concernant le modèle photographié :
Model Age, Minor Model Age Disclosure, etc.
Informations concernant la propriété des "contenus"
photographiés
Informations concernant l'oeuvre ou l'objet figurant sur
l'image :
Artwork or Object in the Image
38. La transition du standard IPTC/IIM vers XMP
38/56
Exemple d'interface utilisateur
Photometadata Toolkit (custom panels)
V. Manso/Flickr
Creative Commons
39. La transition du standard IPTC/IIM vers XMP
39/56
Photometadata Toolkit (custom panels)
Développement
en Adobe Flex
(Framework Flash)
40. La transition du standard IPTC/IIM vers XMP
40/56
Photometadata Toolkit (custom panels - suite)
42. 42/56
Parallèle XMP et CIDOC CRM
● XMP est un cadre d'expression de métadonnées, CIDOC CRM est un modèle
sémantique [Conceptual Reference Model du CIDOC (ICOM's International
Committee for Documentation), ICOM= International Council of Museums]
● CIDOC CRM définit la sémantique de base de l'information dans le domaine du
patrimoine culturel en termes d'ontologies formelles
● Comme XMP, CIDOC CRM ne précise pas de terminologie apparaissant
généralement sous forme de données dans les structures de données
● Le CRM Core définit les relations caractéristiques pour l'utilisation d'une terminologie
contrôlée selon les entrées de vocabulaires contrôlés. Cela n'existe pas en XMP.
● Comme en XMP, il est important que les associations de vocabulaires de domaine
soient traitées par les identificateurs du vocabulaire plutôt que de simplement utiliser
des dénominations en texte libre
● Dans le domaine du patrimoine culturel plusieurs vocabulaires de domaine sont
largement utilisés, comme COMPRIS AAT, English Heritage, ICI, ICONCLASS et
SHIC.
● En dehors du domaine du patrimoine culturel, il existe une grande variété de
vocabulaires qui peuvent être utilisés, tels les IPTC NewsCodes
44. 44/56
CIDOC CRM – Exemple 1
fragment de code 1 (CRM Core pas XMP)
45. 45/56
CIDOC CRM – Exemple 1
fragment de code 2 (CRM Core pas XMP)
- structures complexes
- usage intensif de vocabulaires contrôlés
Difficile à exprimer en XMP
sans simplifications drastiques
47. 47/56
CIDOC CRM – Exemple 2
fragment de code (CRM Core pas XMP)
- structuration plus simple
- utilisation de IPTC NewsCodes
Semblable à IPTC Extension (XMP)
48. 48/56
VRA Core (Visual Resources Association)
● VRA est une association multidisciplinaire dont l'objectif est la
gestion des images dans les domaines de l'éducation, du
patrimoine et des entreprises.
Elle produit des programmes éducatifs et des standards:
Cataloguing Cultural Objects (CCO) en association avec la
Fondation Getty, VRA Core.
● Les membres de la VRA sont principalement des institutions
américaines et canadiennes.
● Le VRA Core est un standard de données permettant à la fois
la description des oeuvres de la culture visuelle et des images
qui documentent ces oeuvres
● Le standard est hébergé par le Network Development and
MARC Standards Office de la Library of Congress (LC) en
partenariat avec la Visual Resources Association.
● http://www.loc.gov/standards/vracore/
49. 49/56
VRA Core - Exemple
description d'un objet et de sa photo
50. 50/56
VRA Core - Exemple
fragment de code XML
Structures...
51. 51/56
VRA Core – custom panel
Principes (1)
Il est théoriquement possible d'inclure des métadonnées VRA
Core dans une structure IPTC Extension Artwork
Mais la plupart des logiciels ignorent cette possibilité de XMP
et suppriment le code VRA Core d'extension lors des mises à
jour de métadonnées
D'où la nécessité de développer une implémentation de VRA
Core en XMP en dehors du code IPTC Extension
52. 52/56
VRA Core – custom panel
Principes (2)
● Transposition du code VRA/XML en code RDF/XMP
● "Aplatissement" des structures
55. 55/56
XMP et patrimoine culturel
Le codage RDF/XMP spécifique aux objets ou images du
patrimoine culturel ne doit pas être inclus dans un codage IPTC
Extension Artwork
Ce codage RDF/XMP doit être "aplati"
(pas de structures autres que les structures XMP de base)
Définir les vocabulaires contrôlés utilisés à partir des ontologies
Définir des interfaces utilisateurs aussi simples que possibles:
- custom panels Adobe (sans possibilité d'utiliser les
vocabulaires contrôlés)
- autres outils (exemple : Camera Bits Photo Mechanic)
- mais aussi frontal ExifTool et autres outils open source
Mais surtout:
constituer un groupe, une communauté, une association