Le document numérique
« Dans son acception courante un document est
généralement défini comme le support physique d'une
information. Plus précisément on peut le définir comme
un ensemble de données informatives présentes sur
un support, sous une forme permanente et lisible par
l’homme ou par une machine (permanent par opposition
à volatil). »
http://fr.wikipedia.org/wiki/Document
Généralités 4
Le document numérique
Le document numérique peut être compris dans un sens
plus large, comme étant un ensemble de données
informatives sous forme de chiffres (= numérique)
lisible par un dispositif informatique restituant les
informations.
Généralités 5
Identifiants
● Différents types d'identifiants : ensemble numérique ou
alpha-numérique
● Pour des unités d'information qui peuvent concerner :
– une entité physique
– une entité logique (article, contribution dans un périodique,
un livre, voir une partie dans un article : différents niveaux
de granularité)
Identifiants 10
Identifier l'unité physique
● Numéro international normalisé du livre imprimé : ISBN
978-2-7654-0954-0
● Numéro international normalisé des publications en série : ISSN
0335-1793
● Numéro international normalisé de la musique imprimée : ISMN
M-060-11561-5
Identifiants 11
Identifier l'unité physique
● Code international normalisé des enregistrements musicaux
(sonore et audiovisuel) : ISRC
FR-AB5-07-12345
● Numéro international normalisé d’œuvre audiovisuelle : ISAN
ISAN : 0000-0002-29D9-0098-U-0000-0000-L
● Code international normalisé des textes : ISTC
ISTC A02-2009-000004BE-A
● Serial Item and Contribution Identifier : SICI
0002-8231(199412)45:10<737:TIODIM>2.3.TX;2-M
Identifiants 12
Identifier en ligne
● Enjeu important
● Dépasse le cadre des identifiants « physiques »
● Principe générique des URI : ensemble des technologies et
moyens permettant de
– Nommer,
– Adresser,
– Jusqu'à un certain point, décrire les ressources du Web
Identifiants 13
URN
● Uniform Resource Name
● Identifie la ressource indépendamment de son
emplacement
→ nécessite un mécanisme capable de faire le lien entre
l'identifiant et l'emplacement de la ressource
● Repose sur un répertoire de correspondance
urn:isbn:0-395-36341-1
Identifiants 14
URL
● Uniform Resource Locator
● Utilisé par le protocole HTTP pour
la localisation des pages Web
● Très lié à l'institution hébergeante
→ Non pérenne
http://fr.wikipedia.org/wiki/URL
protocole sous-domaine nom de domaine de 2nd niveau nom de domaine de 1er niveau nom de la ressource
Identifiants 15
Pérennité, lisibilité des URL
● Nécessité pour un accès direct
● Facilite la citation
● Indexation dans les moteurs de recherche
● Moissonnage OAI
Identifiants 16
ARK
● Archival Resource Key
● Créé et maintenu par la California Digital Library
● Faciliter la citabilité et le référencement de document
numériques
● Mis en place par la BnF pour Gallica et BN Opale Plus
● Différents niveau de granularité :
– Page précise d'un document
– Une image dans un lot d'images
Identifiants 17
ARK
http://catalogue.bnf.fr/
ark:/12148/bpt6k103226k/f263.pagination
http://gallica.bnf.fr/
adresse du résolveur (optionnel) espace de nom institution Identifiant unique niveau plus fin
Identifiants 18
DOI
● Digital Object Identifier (1998)
● Sous-partie d'un élément plus important : handle
● Gérés par Crossref pour le domaine de la recherche
● Fin 2009 : 43 millions d'enregistrements
http://dx.doi.org/
doi:10.1045/may2006-apps
http://hdl.handle.net/
résolveur espace de nom code handle du DOI organisme gestionnaire identifiant de l'objet
Identifiants 19
HTML
● Langage de structuration des pages web (1989)
● Langage de présentation (peu de sémantique)
● Support varié
Structuration 21
CSS
● Feuille de style en cascade (~1995)
● Structure // Présentation
main.css
Structuration 22
XML
● eXtensible Markup Language (1998)
● Recommandation du W3C
● Lié aux technologies du web
● Structure arborescente
● Format générique de balisage décliné en schémas
Structuration 23
Validation - DTD
● Document Type Definition
● Description des éléments du XML
– Noms des éléments <?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE annuaire SYSTEM "annuaire.dtd">
<annuaire>
– Contenus <personne>
<nom>Stéphane Dupond</nom>
– Attributs <sexe>Masculin</sexe>
<date_naiss>1er janv. 82</date_naiss>
</personne>
● Peut être décrit en XML </annuaire>
● Pas de typage XML Valide
<!ELEMENT annuaire (personne*)>
<!ELEMENT personne (nom, sexe?,
date_naiss?)>
DTD
Structuration 24
XSL
● Extensible stylesheet language
CC-BY-SA // Ripounet // Wikimedia Commons
● Feuilles de styles associées au XML
– XSLT : transformation
– XPath : navigation dans le document
– XSL-FO : mise en forme
//personne[@prenom='david']
Chemin XPath Transformation XSL
Structuration 26
XML - Applications
● TEI : Text Encoding Initiative
Structuration de textes électroniques en Sciences Humaines
et Sociales
● EAD : Encoded Archival Description
Encodage des instruments de recherches archivistiques
(utilisé dans Calames)
● TEF : Thèses Électroniques Françaises
Regroupe la description et les informations de gestion
● METS : Metadata Encoding and Transmission Standard
Description de collections d'objets numériques
Structuration 27
Application émergente : EPUB
● Format ouvert (1997) pour les livres électroniques : .epub
● Archive de XHTML, CSS, images
CC-BY // Dan Taylor // Flickr
Structuration 28
Généralités
● Plusieurs types
– Métadonnées descriptives
– Métadonnées techniques
– Métadonnées juridiques
● Importance des choix de format
● Suivre une norme pour ne pas s'isoler
● Stockage des métadonnées
– Dans la ressource
– Dans une base associée
Les métadonnées 30
Description vs Stockage
Format de description
Dublin Core, MARC, Onix
≠
Format de stockage
Iso2709, XML, Format binaire
Les métadonnées 31
Description – Formats MARC
● Depuis 1965
● Par et pour les bibliothécaires
● Arborescence à deux niveaux
● Variations nationales (Unimarc, marc-21 ...)
● Principaux formats en bibliothèques
Les métadonnées 32
Description – ONIX
● Première version en 2000
● Initié par les acteurs commerciaux (éditeurs, libraires)
● Plus de 200 champs différents (~30 constituant la base)
● Passerelles vers les formats MARC pour les bibliothèques
● Données enrichies :
– Résumés
– Image de couverture
– Prix, disponibilité
Les métadonnées 33
Description – Dublin Core
● Plus récent (1995), plus connu
● Dublin Core Element Sets : 15 éléments de base
– Contenu : titre, type, sujet ...
– Propriété intellectuelle : créateur, éditeur ...
– Instanciation : date, identifiant, format
● Étendus par le Dublin Core qualifié
Les métadonnées 34
Description – RDF
● Resource Description Framework
● Description des ressources du Web et leurs Métadonnées
● Définition à l'aide de triplets : Sujet – Prédicat – Objet
– <Écrivain> <Auteur_de> <Livre>
– <Écrivain> <Date_de_Naissance> <Année>
● Relations définies dans des vocabulaires
– FOAF : pour la description des personnes et leurs relations
– SKOS : relations de types thésaurus et classification
Le linked Data
Exemples d'utilisation dans DBPedia
Les métadonnées 35
Stockage : OÙ ?
● Dans le document :
– Métadonnées exif, xmp pour les photos
– RDF sur une page web
● Dans une base associée, lien par un identifiant
– Notice associée par un code barre
– Notice associée par un DOI
Les métadonnées 36
Stockage - XML
● Utilisation d'un format lisible
● Nombreux formats définis (ou adaptations)
Les métadonnées 37
Stockage - iso2709
● Lié aux formats MARC
● Spécification ouverte
● Format très spécifiques aux bibliothèques
Les métadonnées 38
Stockage – format binaire
● Solution utilisée par certains éditeurs pour stocker leurs
données en base.
● Nécessite le programme de l'éditeur pour décoder
● Être sûr que l'on a les outils associés
Les métadonnées 39
Choix du format
● Importance de la normalisation par rapport au domaine
● Qui peut le plus peut le moins
Les métadonnées 40
Échanger ses données pour ...
● Être présent sur le web
● Limiter les opérations de saisie déjà faites ailleurs
● Faciliter l'intégration au sein du SI
● Faciliter la vie des usagers
● Permettre de faire vivre le système
Échanges & Interopérabilité 42
OAI - PMH
● Format d'échange basé sur XML
● Fourniture des données en Dublin Core
● Protocole très simple
– Informations sur un serveur
– Liste des enregistrements
● Nécessite d'avoir des urls pérennes
Échanges & Interopérabilité 43
Web services (usagers divers)
● Technologies web
● Échange de données entre applications web
● Pour faciliter :
– l'intégration avec d'autres outils
– Les possibilités de développements annexes (mash-up)
● AJAX : Asynchronous JavaScript and XML
exemple : Disponibilité dans les B.U.
Échanges & Interopérabilité 44
Z39.50 (Interrogation)
● Norme historique des bibliothèques (1970)
● Protocole client-serveur
● Possibilités très étendues, implantation variable
● Utilisé pour
– Dériver des notices
– Faire des moteurs de recherche fédérée
Échanges & Interopérabilité 45
SRU / SRW (Recherche)
● Interrogation de base de données via CQL
● Technologies du web, exemple de Web Services
● Réponse en XML
● Trois services de base
http://copac.ac.uk:3000/copac?operation=searchRetrieve&version=1.1&query=dc.title
%3d%22bordeaux%22&maximumRecords=10&recordSchema=mods
Échanges & Interopérabilité 46
OpenURL
● Lier les métadonnées à la ressource qu'elles décrivent en
fonction des accès dont dispose l'utilisateur
● « résolveur de lien » pour fournir ce lien et/ou d'autres
services
Échanges & Interopérabilité 47
OpenURL
Notice
repérée
Recherche
au catalogue
Site de Texte
l’éditeur intégral
Échanges & Interopérabilité 48
OpenURL
Notice
repérée
Recherche
au catalogue
Site de Texte
l’éditeur intégral
Échanges & Interopérabilité 49
COinS
● Cacher des métadonnées dans une page web
<span class="Z3988"
title="ctx_ver=Z39.88-2004&
ft_val_fmt=info:ofi/fmt:kev:mtx:journal&
rft.issn=1045-4438"/>
● Exemple sur un article de wikipédia : OpenURL
● De plus en plus présents
– Copac
– Sudoc depuis l'année dernière
– ...
Échanges & Interopérabilité 51
RSS
● Really Simple Syndication / Rich Site Summary
● S'abonner aux mises à jour d'un site
● Centraliser les alertes sur ces mises à jour
Échanges & Interopérabilité 52
Aller plus loin
Décembre 2005 Septembre 2007
ISBN : 2-7654-0915-3 ISBN : 978-2-7654-0953-3
Échanges & Interopérabilité 53
Support mis à disposition
sous licence
Creative Commons BY SA
smachefert @ u-bordeaux3.fr
MERCI
symac
Inspiré du support de
cours d'Anita Largouet
SCD Bordeaux 3