Une présentation élaborée par un groupe de travail sur la DTD-EAD que j'avais récupéré pour une formation sur l'indexation : quels sont les éléments d'indexation utilisés dans la DTD-EAD?
1. Les éléments d'indexation dans la
DTD-EAD
(le standard d’encodage pour
les descriptions archivistiques)
2. Qu’est-ce que l’EAD ?
• EAD: Encoded Archival Description
• En français, Description Archivistique
Encodée
• Pour créer, publier, conserver, diffuser
sur internet, des instruments de
recherche (inventaires, catalogues…) en
version électronique
3. Normes : objectifs
• Rédaction de descriptions pertinentes,
explicites et compatibles
• Recherche et échange d’informations
• Partage d’autorités communes
• Intégration de fonds conservés dans
différents établissements
4. La description archivistique
• repose sur le respect des fonds et la
structuration en fonction de la logique de
production (à chaque niveau de classement
correspond un niveau de description)
• peut avoir un grand nombre de niveaux (sans
redondance des informations d’un niveau à
l’autre)
• se fait du général au particulier en situant
l’unité décrite dans sa hiérarchie
5. A cela s’ajoute la nécessité :
• de pérennisation des instruments de
recherche électroniques qui
maintiennent l’accès aux données
(migration des données, traçabilité des
mises à jour les plus importantes)
• de création partagée des descriptions
• d’aide plus efficace au public
6. Les outils électroniques
traditionnels pour les archives
• Traitement de texte Word ou assimilés, souvent
sans feuille de style (pas de possibilité d’échange,
de pérennisation, pas de traitement des données, pas
de création partagée)
• PDF (forme figée, pas de traitement des données,
pas de création partagée)
• Bases de données dont relationnelles (difficile
d’appliquer les principes de contextualisation et de
description à plusieurs niveaux d’ISAD(G), lourdes
programmations et maintenances)
7. Nouvel environnement
• Contexte de développement de l’Internet,
du Web sémantique, des réseaux, etc.
• Volonté de publier en ligne, rendre
accessibles, partager les instruments de
recherche
• Nécessité d'indexer les termes pour les
portails, nécessité de faire le lien avec les
documents originaux numérisés, etc.
8. EAD : historique
• Créée en 1995, par un groupe de travail
indépendant puis rattaché à la SAA
(Société des Archivistes Américains)
• 1998: 1re
version officielle : EAD 1.0
• 2002 : première mise à jour : EAD 2002
(prend mieux en compte ISAD(G))
• 2014 ? : EAD 3 ? (prendra mieux en compte les
schémas)
9. XML
(Extensible Markup Language)
• Langage de balisage étendu
• Langage développé par le W3C destiné à
succéder au HTML sur le Web
• Comme HTML, c’est un langage de balisage
(markup)=langage qui présente l’information
encadrée par des balises
10. D’un texte classique
à un texte encodé
Situées à Paris dans le Marais, les Archives
nationales conservent et communiquent les
archives de la France depuis les
Mérovingiens jusqu'en 1958.
Extrait de la page de présentation du site des
Archives nationales - site de Paris
11. Identifier et distinguer
les données essentielles
Situées à Paris dans le Marais, les
Archives nationales conservent et
communiquent les archives de la
France depuis les Mérovingiens
jusqu'en 1958.
12. Le code HTML
Situées à <font color="#FF0000">Paris</font>
dans le <font color="#FF0000">Marais</font>,
les <font color="#990000">Archives
nationales</font> conservent et communiquent les
archives de la France <font
color="#99CC00">depuis les Mérovingiens
jusqu'en 1958</font>
Le langage HTML (hypertext markup language) se
caractérise par l’utilisation de balises ou éléments
qui définissent la mise en forme du document
13. Les éléments
Situées à <ville>Paris</ville> dans le
<quartier>Marais</quartier>,les <organisme>
Archives nationales</organisme> conservent et
communiquent les archives de la France
<dates_extremes> depuis les Mérovingiens
jusqu'en 1958</dates_extremes>
Dans le langage XML, les éléments ne
définissent plus la mise en forme mais un
contenu sémantique
14. Les éléments englobants
Situées à <adresse><ville>Paris</ville> dans le
<quartier>Marais</quartier></adresse>, le
<organisme>Archives nationales</organisme>
<mission><objet>conservent et communiquent les
archives de la France</objet> <dates_extremes> depuis
les Mérovingiens jusqu'en 1958
</dates_extremes></mission>
Les éléments peuvent contenir d’autres
éléments. Il est ainsi possible de regrouper des
informations de même nature
15. Du texte aux données
<adresse>
<ville>Paris</ville>
<quartier>Marais</quartier>
</adresse>
<organisme>les Archives nationales</organisme>
<mission>
<objet>conservent et communiquent les archives de la
France </objet>
<dates_extremes> depuis les Mérovingiens jusqu ’en
1958</dates_extremes>
</mission>
17. Un document bien formé
<?xml version="1.0" encoding="utf-8"?>
<institution>
<adresse>
<ville>Paris</ville>
<quartier>Marais</quartier>
</adresse>
<organisme>les Archives nationales</organisme>
<mission>
<objet>conservent et communiquent les archives
de la France </objet>
<dates_extremes siecle="7e/20e">
depuis les Mérovingiens jusqu ’en
1958</dates_extremes>
</mission>
</institution>
18. Synthèse
• L’auteur peut créer ses propres balises
• Il inclut à l’intérieur d’une balise de
l’information textuelle
• Chaque balise caractérise l’information
• On ne tient pas compte de la mise en
forme mais du contenu
19. Mise en forme
• Contrairement à HTML, XML ne prend
pas en compte la présentation graphique
du document mais seulement la structure
• Cela nécessite des outils : feuilles de style
(CSS) ou programmes de transformation
(XSL-T)
20. L’intérêt du XML
La mise en commun de données
• Le XML n’est lié ni à une plate-
forme, ni à un système d’exploitation,
ni à une famille de logiciels.
• En théorie il faciliterait l’échange des
données…
• Mais comment échanger des données
si la création des balises est libre ?
21. La solution : les DTD
DTD : Document Type Definition
ou Définition de Type de Document
Exemples :
- Docbook (documentation technique ; http://www.docbook.org/),
- Text Encoding Initiative (http://www.tei-c.org/ ; ouvrages littéraires,
sciences humaines, sciences sociales),
- DTD Biblio-ML développée pour les catalogues bibliographiques (http
://90plan.ovh.net/~adnx/biblioml/doku.php?id=fr:introduction)
- DTD des dossiers de l’inventaire développée pour la Direction de
l’Architecture et du Patrimoine
- MathML (http://www.w3.org/Math/ ; formules mathématiques)
La DTD des archivistes est la
DTD EAD ou EAD
22. Objectifs d’une DTD
• Définir les éléments permis dans les
documents
• Définir la hiérarchie des éléments
• Définir des attributs pouvant être
associés à des éléments
• Définir quelles sont les valeurs
permises pour les attributs
23. Conclusion
• La structure hiérarchisée d’un
document XML convient bien à la
description des documents d’archives
• La DTD de la communauté des
archivistes est l’EAD
• Elle est utilisée pour certains fonds
dans les bibliothèques
25. Caractéristiques essentielles(1)
• L’EAD est conçue pour être utilisée avec
des normes de description, en particulier
ISAD(G)
• L’EAD facilite l’échange et la portabilité
des instruments de recherche : il est
possible d’utiliser le même document
encodé pour des restitutions multiples
26. Caractéristiques essentielles(2)
• Il est possible de choisir la finesse de
l’encodage en fonction des besoins et
des moyens
• L’EAD comprend 146 éléments,
dont un tout petit nombre
obligatoires (en-tête EAD,
description du fonds, niveaux
hiérarchiques)
27. L’EAD : 146 éléments
• Éléments génériques de texte et sa mise en
forme : 41
• Éléments de métadonnées : 23
• Éléments de structure : 18
• Éléments d’information spécifiques : 36
• Éléments points d’accès (d'indexation) : 12
• Éléments de lien : 16
Seulement 8 éléments obligatoires pour avoir
un document valide du point de vue XML
28. Les attributs
• Ils permettent de qualifier les éléments
• Ils sont pour la plupart facultatifs
• Deux attributs importants :
– LEVEL dans <archdesc> et <c> : il permet de
définir le niveau de description
– NORMAL dans plusieurs éléments : il permet de
saisir des formes normalisées pour l’indexation
29. Les trois éléments principaux
d’un instrument de recherche EAD
Sous l’élément racine
<ead> :
<eadheader>
<frontmatter>
<archdesc>
en-tête EAD (description
bibliographique de l'IR)
(obligatoire)
préliminaires (page de titre,
introduction, préface…)
description archivistique
(obligatoire)
30. Description archivistique <archdesc>
• Correspond à l’instrument de recherche
lui-même
• Dans <archdesc>, on trouve les
informations globales, concernant toute
l'unité à décrire (fonds, groupe de documents,
dossiers, etc.).
31. La description archivistique
contenu de <archdesc>
• Des éléments d’identification
• La présentation du contenu
• Des éléments de contexte
• Des éléments de gestion
• Les sources complémentaires
• Des éléments d’indexation
• Des éléments de lien
• Tous ces éléments sont classés
dans l’élément <archdesc>
<archdesc>
</archdesc>
32. Les éléments d’identification
• Ces éléments permettent
d’identifier et de décrire le
fonds aussi bien d’un point
de vue intellectuel que
matériel et se trouvent dans
un élément <did>
Description et identification
• Le fonds est identifié par sa
cote (<unitid>), un intitulé
(<unittitle>), ses dates
extrêmes (<unitdate>)
<archdesc>
</archdesc>
<did>
<unitid/>
<unittitle/>
<unitdate/>
</did>
33. Les éléments d’identification
La description physique - nature,
taille - se trouve dans
l’élément <physdesc> qui peut
être ou non structurés en
d’autres éléments
<archdesc>
</archdesc>
<did>
<unitid/>
<unittitle/>
<unitdate/>
</did>
<physdesc/>
34. La présentation du contenu
Se fait dans l’élément
<scopecontent> situé
directement sous <archdesc>
<archdesc>
</archdesc>
<did>
<unitid/>
<unittitle/>
<unitdate/>
</did>
<physdesc/>
<scopecontent/>
35. Les éléments de contexte
Directement sous <archdesc>
nous saisirons les éléments
concernant:
-l’histoire de la personne
physique ou morale à
l’origine du fonds
<bioghist>,
-l’historique de la
conservation <custodhist>
-les modalités d’acquisition
<acqinfo>
<archdesc>
</archdesc>
<did>
<unitid/>
<unittitle/>
<unitdate/>
</did>
<physdesc/>
<custodhist/>
<bioghist/>
<scopecontent>
<acqinfo/>
36. Les éléments de gestion
• Les restrictions d’accès
<accessrestrict> ou
d’utilisation
<userestrict>
• Ils sont situés
directement sous
<archdesc>
<archdesc>
</archdesc>
<did>
<unitid/>
<unittitle/>
<unitdate/>
</did>
<physdesc/>
<custodhist/>
<bioghist/>
<scopecontent/>
<accessrestrict/>
<userestrict/>
<acqinfo/>
37. Les sources complémentaires
• Ces éléments permettent de
signaler l’existence de
documents apportant des
informations complémentaires
• Il peut s’agir de documents
classés dans d’autres fonds
<relatedmaterial>
• Ou de documents qui ont fait
partie de ce fonds mais qui pour
une raison quelconque en on été
séparés <separatedmaterial>
<archdesc>
</archdesc>
<did>
<unitid/>
<unittitle/>
<unitdate/>
</did>
<physdesc/>
<custodhist/>
<bioghist/>
<scopecontent/>
<acqinfo/>
<accessrestrict/>
<userestrict/>
<relatedmaterial/>
<separatedmaterial/>
38. Les éléments d’indexation (1)
Permettent d’indexer
- les collectivités <corpname>
- les fonctions <occupation>
- les noms géographiques
<geogname>
- les noms de personnes
<persname>
- les mot-matières <subject>
<archdesc>
</archdesc
<did>
<unitid/>
<unittitle/>
<unitdate/>
</did>
<physdesc/>
<custodhist/>
<bioghist/>
<scopecontent/>
<acqinfo/>
<accessrestrict/>
<userestrict/>
<relatedmaterial/>
<separatedmaterial/>
39. Les éléments d’indexation (2)
Les éléments d’indexation
peuvent être englobés
dans un élément
<controlaccess>…
…ou dans le corps du
texte
<archdesc>
</archdesc>
<did>
<unitid/>
<unittitle/>
<unitdate/>
</did>
<physdesc/>
<custodhist/>
<bioghist/>
<scopecontent/>
<acqinfo/>
<accessrestrict/>
<userestrict/>
<relatedmaterial/>
<separatedmaterial/>
<controlaccess>
<subject/>
<persname/>
</controlaccess>
40. L’EAD et ISAD(G)
• Développée ultérieurement, au départ sans
lien avec le groupe d’experts du CIA puis en
collaboration avec lui, l’EAD est totalement
compatible avec ISAD(G)
• L’EAD est fondée sur le même principe de
description par niveaux
• A chaque élément défini dans ISAD(G)
correspond un élément (ou un attribut) dans
l’EAD