Le Thésaurus pour l'indexation des
archives locales et le Web de
données
INHA
9 février 2015
Alice Motte (Service intermin...
Sommaire de l'intervention
Rappel sur la pratique et les enjeux de l'indexation des
instruments de recherche des fonds d'a...
Première partie
Rappel sur la pratique et les enjeux de l'indexation des
instruments de recherche des fonds d'archives
L’indexation : quelques définitions (1/3)
→ Fait partie intégrante de la description archivistique.
La description archivi...
L’indexation : quelques définitions (2/3)
Opération destinée à représenter par les éléments d’un langage
documentaire ou n...
L’indexation : quelques définitions (3/3)
→ Un ensemble de choix archivistiques à faire selon leur
pertinence !
Le choix d...
Un encadrement réglementaire progressif
→ Textes publiés par la Direction des Archives de France.
Circulaire AD 63-31 du 2...
Les enjeux de l'indexation
Une place renouvelée dans le contexte de leur exploitation
informatique ;
→ Les termes d'indexa...
AD Lozère
Recherche dans les
listes de termes
d'indexation :
présentation
alphabétique,
moteur de
recherche interne
AD Val d'Oise
Recherche dans les listes de termes
d'indexation :
présentation arborescente, moteur
de recherche interne, f...
AD Var
Utilisation de l'indexation
géographique pour créer un mode
de sélection cartographique des
critères de recherche
AD Hautes-
Pyrénées
Construction d'un
moteur de
recherche à
facettes à partir de
l'indexation →
Mode de
recherche par
affi...
Portail Grand Mémorial
Convergence des indexations de
plusieurs services d'archives pour
alimenter un moteur de recherche
...
Un historique du Thésaurus du SIAF (1/2)
Thésaurus W. Vocabulaires normalisés pour la description et
l'indexation des arch...
Un historique du Thésaurus du SIAF (2/2)
→ Importante refonte en 2008-2009 : actualisation et
conception d'un thésaurus di...
Qu'est-ce qu'un thésaurus ?
Liste de concepts représentés par des termes normalisés
(descripteurs), reliés par des relatio...
Quels types de relations trouve-t-on dans un
thésaurus ?Hiérarchie :
Termes génériques (TG) = concepts principaux en référ...
Indexation des matières
Utilisation du Thésaurus pour la
description et l'indexation des
archives locales anciennes, moder...
Présentation du Thésaurus matière du SIAF
2509 termes préférentiels et non préférentiels ;
Thésaurus monolingue et mono-hi...
Extrait du Thésaurus : les relations entre les
termes
1. ADMINISTRATION
1.5. POLICE
MAINTIEN DE L’ORDRE18
EP ordre public
...
Seconde partie
Nouveaux enjeux de la diffusion numérique : la transposition
du Thésaurus du SIAF pour le web sémantique.
Le thésaurus jusqu'en 2008
Les limites
●
Absence de formalisme directement exploitable par une machine
– Le formalisme uti...
Édition thématique PDF du thésaurus-
matières
Les besoins
Faciliter la mise en œuvre du thésaurus pour les tâches
d'indexation
Faciliter la mise en œuvre du thésaurus p...
Choix d'un formalisme
Exprimer toutes les notions déjà présentes (termes, relations,
annotations, etc.)
Apporter une aide ...
Présentation synthétique de SKOS (1/2)
Simple Knowledge Organization System
●
Pour décrire des vocabulaires simples de typ...
Présentation synthétique de SKOS (2/2)
Les ressources du thésaurus sont des concepts identifiables par
des URI que l'on so...
La phase de reprise des données : conversion du
Thésaurus en SKOS
Les termes distincts font l'objet de définition de conce...
Méthode de travail et outils utilisés
La dernière révision du Thésaurus s'est notamment faite dans
le format SKOS :
●
Char...
Édition avec ThManager
Édition avec oXygen
La conception d'un outil de publication
Commande en 2010 (http://data.culture.fr/thesaurus/)
●
D'un outil de publication d...
Consultation d'un concept du Thésaurus (accès
« opérateur humain »)
Consultation
d'un concept du
Thésaurus
(accès
« opérateur
informatique »,
code SKOS-
XML)
Exemple du module Thésaurus du logiciel Arkhéïa
Exemple d'un autre outil logiciel : solution Ligéo
L'intégration de l'outil du SIAF dans un contexte
plus large : le programme HADOC du MCC
Mise en ligne de l'outil de publi...
La réflexion de HADOC sur l'ensemble des
vocabulaires du MCC
Souhait de mettre en œuvre un environnement logiciel de
gesti...
L'outil de production de vocabulaires GINCO
Les évolutions de l'outil de consultation dans le
cadre de HADOC
Évolutions de l’outil de consultation
●
Aménagement en vu...
Fonctionnalité de recherche simple
Expérimentation sur les alignements (1/3)
DBPedia est un référentiel qui bouge beaucoup, souvent et qui
est le produit de ...
Expérimentation sur les alignements (2/3)
des identifiants qui n'existent pas (ou n'existent plus)
des identifiants qui n'...
Expérimentation sur les alignements (3/3)
Conclusions
●
L'alignement demande à être réexaminé régulièrement ;
●
L'extracti...
Perspectives
L'usage initial est un thésaurus pour l'indexation ;
Le projet était destiné au départ à répondre à un besoin...
Exemples de nouveaux usages
Possibilité de s’appuyer sur le thésaurus pour qualifier des
données tiers et donc construire ...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INHA, 9 février 2015
Prochain SlideShare
Chargement dans…5
×

Le Thésaurus pour l'indexation des archives locales et le Web de données, INHA, 9 février 2015

1 189 vues

Publié le

Le Thésaurus pour l'indexation des archives locales et le Web de données, INHA, 9 février 2015

Publié dans : Formation
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 189
Sur SlideShare
0
Issues des intégrations
0
Intégrations
228
Actions
Partages
0
Téléchargements
23
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Le Thésaurus pour l'indexation des archives locales et le Web de données, INHA, 9 février 2015

  1. 1. Le Thésaurus pour l'indexation des archives locales et le Web de données INHA 9 février 2015 Alice Motte (Service interministériel des Archives de France)
  2. 2. Sommaire de l'intervention Rappel sur la pratique et les enjeux de l'indexation des instruments de recherche des fonds d'archives ; Nouveaux enjeux de la diffusion numérique : la transposition du Thésaurus du SIAF pour le web sémantique Structuration informatique ; Évolutions ; Perspectives.
  3. 3. Première partie Rappel sur la pratique et les enjeux de l'indexation des instruments de recherche des fonds d'archives
  4. 4. L’indexation : quelques définitions (1/3) → Fait partie intégrante de la description archivistique. La description archivistique correspond au travail d’analyse des documents d'archives et d’élaboration des instruments de recherche (papier ou électroniques). Elle se compose de trois éléments : description du producteur et des éléments de contexte nécessaires à la compréhension du fonds ; identification des unités documentaires, décrites et classées selon un plan de classement ; indexation des unités documentaires.
  5. 5. L’indexation : quelques définitions (2/3) Opération destinée à représenter par les éléments d’un langage documentaire ou naturel des données résultant de l’analyse du contenu d’un document ou du document lui-même. Clefs d'accès et de connaissance complémentaires des fonds décrits dans les instruments de recherche. Une grande diversité possible de types d'indexation. → Exemple des index imprimés en fin de volume : entrées thématiques, géographiques, etc. permettant une utilisation différente de l'instrument de recherche.
  6. 6. L’indexation : quelques définitions (3/3) → Un ensemble de choix archivistiques à faire selon leur pertinence ! Le choix du type ou des types d'indexation à pratiquer ; Le choix d'un vocabulaire : un vocabulaire normalisé est indispensable à la cohérence de l’indexation (référentiels SIAF, normes AFNOR) ; Le choix du degré de finesse et du niveau de précision ; Rapport coût/bénéfice de l’indexation manuelle ! Raisonnement instrument de recherche / fonds dans leur globalité.
  7. 7. Un encadrement réglementaire progressif → Textes publiés par la Direction des Archives de France. Circulaire AD 63-31 du 22 juillet 1963. Les index alphabétiques des fonds d’archives et de leurs inventaires. Circulaire AD 94-8 du 5 septembre 1994. Traitement des archives contemporaines. Indexation. Instruments de recherche. Instruction DITN/RES/2005/006 du 30 septembre 2005. Publication électronique des instruments de recherche. ** Note d'information DITN/RES/2007/008 du 30 juillet 2007. Indexation, état de la question.
  8. 8. Les enjeux de l'indexation Une place renouvelée dans le contexte de leur exploitation informatique ; → Les termes d'indexation deviennent des clefs d'accès à l'information, utilisés dans des moteurs de recherche avancée. Mise en place de fonctionnalités de recherches dans les instruments de recherche et les images numérisées : ciblage des recherches (listes, filtres, rebonds), autocomplétion... Logique de décloisonnement des fonds ; Les termes d'indexation constituent aussi des métadonnées exploitables dans le cadre du web sémantique.
  9. 9. AD Lozère Recherche dans les listes de termes d'indexation : présentation alphabétique, moteur de recherche interne
  10. 10. AD Val d'Oise Recherche dans les listes de termes d'indexation : présentation arborescente, moteur de recherche interne, filtres
  11. 11. AD Var Utilisation de l'indexation géographique pour créer un mode de sélection cartographique des critères de recherche
  12. 12. AD Hautes- Pyrénées Construction d'un moteur de recherche à facettes à partir de l'indexation → Mode de recherche par affinage progressif des critères
  13. 13. Portail Grand Mémorial Convergence des indexations de plusieurs services d'archives pour alimenter un moteur de recherche unique dans les registres matricules. → Interopérabilité et partage des termes d'indexation
  14. 14. Un historique du Thésaurus du SIAF (1/2) Thésaurus W. Vocabulaires normalisés pour la description et l'indexation des archives administratives locales contemporaines : 1re éd. 1987, refontes en 1989 et 1997, mise à jour des listes « Actions administratives » et « Typologies » en 2000 Utilisation obligatoire pour tous les services d’archives territoriaux : Circulaire AD 76-6 du 31 décembre 1979 Circulaire AD 94-8 du 5 septembre 1994. Traitement des archives contemporaines. Indexation. Instruments de recherche
  15. 15. Un historique du Thésaurus du SIAF (2/2) → Importante refonte en 2008-2009 : actualisation et conception d'un thésaurus diachronique. Janvier 2008 : constitution d’un groupe de travail chargé de refondre les différentes adaptations du Thésaurus W élaborés par des services d’archives ; Novembre 2008-février 2009 : appel à commentaires auprès du réseau ; Mars-juin 2009 : prise en compte des commentaires ; Juin 2009 : publication par l'instruction DITN/RES/2009/006 du Thésaurus pour la description et l'indexation des archives locales anciennes, modernes et contemporaines.
  16. 16. Qu'est-ce qu'un thésaurus ? Liste de concepts représentés par des termes normalisés (descripteurs), reliés par des relations sémantiques hiérarchiques, associatives ou d’équivalence Langage artificiel, cherche à lever toute ambiguïté Sert à réduire la variabilité des notions exprimées en langage naturel Les relations aident à s’assurer du sens du concept et de son adéquation pour l’énoncé d’un sujet → Structure arborescente. Termes autorisés (préférentiels) et termes non autorisés (« termes interdits », non préférentiels).
  17. 17. Quels types de relations trouve-t-on dans un thésaurus ?Hiérarchie : Termes génériques (TG) = concepts principaux en référence aux autres termes et au domaine considéré Termes spécifiques (TS) = concepts particuliers à l'intérieur du champ sémantique d'un terme générique Association : Termes associés (TA) Équivalence : Termes équivalents (EP / EM) = variantes des termes spécifiques, et non descripteurs = termes non retenus pour représenter une notion, renvoie à un ou plusieurs descripteurs (synonymie)
  18. 18. Indexation des matières Utilisation du Thésaurus pour la description et l'indexation des archives locales anciennes, modernes et contemporaines, 2009, édité et maintenu par les Archives de France. Couvre tous les domaines d'intervention des producteurs d'archives.
  19. 19. Présentation du Thésaurus matière du SIAF 2509 termes préférentiels et non préférentiels ; Thésaurus monolingue et mono-hiérarchique ; 4 niveaux de hiérarchisation : les descripteurs sont des termes génériques (TG) aux trois premiers niveaux et des termes spécifiques (TS) au quatrième. « Cinquième niveau » ; Relations hiérarchiques (TG et TS), relations d’association (TA), relations par synonymie (EP, EM) ; S'accompagne de trois listes d'autorité (contexte, actions, typologie).
  20. 20. Extrait du Thésaurus : les relations entre les termes 1. ADMINISTRATION 1.5. POLICE MAINTIEN DE L’ORDRE18 EP ordre public EP rétablissement de l ’ordre TA CEREMONIE PUBLIQUE (9.4) ; MANIFESTATION DE PROTESTATION (9.4) ; MANIFESTATION SPORTIVE (11.2) ; REUNION PUBLIQUE (9.4) ; VISITE OFFICIELLE (9.4) 18 Il s’agit ici du maintien et du rétablissement de l’ordre. 18 Il s’agit ici du maintien et du rétablissement de l’ordre.
  21. 21. Seconde partie Nouveaux enjeux de la diffusion numérique : la transposition du Thésaurus du SIAF pour le web sémantique.
  22. 22. Le thésaurus jusqu'en 2008 Les limites ● Absence de formalisme directement exploitable par une machine – Le formalisme utilisé (fichiers doc, pdf) a pour seule vocation d'être lu par un opérateur humain qui doit mettre en œuvre le thésaurus pour des tâches d'indexation. ● La tâche d'indexation étant assistée par un logiciel, des ressaisies du thésaurus sont nécessaires – Comment éviter des saisies directes avec risques de divergences ? – Comment réduire les coût des ressaisies ? Le mécanisme d'ingestion dans les outils n'est pas forcément le même d'un outil à l'autre et les mises à jour sont elles aussi délicates et coûteuses.
  23. 23. Édition thématique PDF du thésaurus- matières
  24. 24. Les besoins Faciliter la mise en œuvre du thésaurus pour les tâches d'indexation Faciliter la mise en œuvre du thésaurus pour les tâches de recherche Garantir la permanence des indexations alors même que le thésaurus évolue Faciliter la gestion du thésaurus ● Évolutions (propositions, versions, mises à jour...) ● Accès / Requêtes / Publications
  25. 25. Choix d'un formalisme Exprimer toutes les notions déjà présentes (termes, relations, annotations, etc.) Apporter une aide à l'édition et la publication Outils normatifs ● Norme ISO 2788:1986 « Principes directeurs pour l'établissement et le développement de thésaurus monolingues » – Pose les concepts de terme, relations sémantiques, etc. mais ne propose pas de formalisme d'expression pour sa mise en œuvre. – En 2008 : en cours de révision ● SKOS « Simple Knowledge Organization System » – Au début du travail fin 2008, SKOS n'était encore qu'à l'état de Working Draft au
  26. 26. Présentation synthétique de SKOS (1/2) Simple Knowledge Organization System ● Pour décrire des vocabulaires simples de type thésaurus, classifications, listes, taxonomies. ● SKOS permet de décrire des organisations de concepts pour former des vocabulaires. Cette description est faite avec le langage RDF, format fondamental du web sémantique, qui va permettre d'associer aux concepts des propriétés (dont le terme) – RDF définit un graphe à base de triplets (sujet → prédicat → objet) ● Le sujet représente la ressource à décrire ; ● Le prédicat représente un type de propriété de la ressource ; ● L'objet représente la valeur de la propriété.
  27. 27. Présentation synthétique de SKOS (2/2) Les ressources du thésaurus sont des concepts identifiables par des URI que l'on souhaite durables et traçables. Les propriétés principales des concepts sont : ● Les termes ou labels (propriétés prefLabel, altLabel) ● Les relations entre concepts : – Relations hiérarchiques (spécifique vs. Générique, skos:narrower/skos:broader) – Relations d'association (relatedTerm) – Les annotations (définitions, notes) ● Les relations d'alignement avec d'autres vocabulaires (exactMatch, closeMatch)
  28. 28. La phase de reprise des données : conversion du Thésaurus en SKOS Les termes distincts font l'objet de définition de concepts : ● Identifiés dans un premier temps par des URL ; ● Puis dans un deuxième temps par des ARK. Les termes préférentiels deviennent des « prefLabel » et les termes non préférentiels des « altLabel » ; Les domaines et rubriques donnent naissance à des relations bijectives entre concepts (spécifique / générique) ; Les associations sémantiques d'un terme à des termes d'une autre branche deviennent des relations d'association ; Les définitions et autres notes deviennent des annotations.
  29. 29. Méthode de travail et outils utilisés La dernière révision du Thésaurus s'est notamment faite dans le format SKOS : ● Chargé dans l'application ThManager (mais ancienne version de SKOS) ; ● Chargé dans l'application Protege (mais peu conviviale et/ou peu maîtrisée) ; ● Manipulation directes dans un éditeur XML (oXygen, peu convivial mais plus maîtrisé) ; ● Utilisation de scripts pour vérifier la cohérence du thésaurus ; ● Transformations XSL pour produire les anciens états publiés (classement thématique, classement alphabétique).
  30. 30. Édition avec ThManager
  31. 31. Édition avec oXygen
  32. 32. La conception d'un outil de publication Commande en 2010 (http://data.culture.fr/thesaurus/) ● D'un outil de publication du référentiel – Pour tirer le meilleur parti du modèle « web de données » ● Des URI de concepts déréférençables. Négociation de contenu pour délivrer – soit une page web présentant le concept (en HTML pour un client humain) – soit une définition formelle du concept (en RDF/XML pour un client machine). ● Les triplets sont stockés dans une base de données (tripleStore RDF Sesame) ● Une interrogation de ces données est possible par des requêtes SPARQL
  33. 33. Consultation d'un concept du Thésaurus (accès « opérateur humain »)
  34. 34. Consultation d'un concept du Thésaurus (accès « opérateur informatique », code SKOS- XML)
  35. 35. Exemple du module Thésaurus du logiciel Arkhéïa
  36. 36. Exemple d'un autre outil logiciel : solution Ligéo
  37. 37. L'intégration de l'outil du SIAF dans un contexte plus large : le programme HADOC du MCC Mise en ligne de l'outil de publication : - Dans un premier temps sur le portail archivesdefrance ; - Après l'inscription dans le programme HADOC du MCC (« Harmonisation de la production des DOnnées Culturelles »), élargissement du périmètre de l'outil du SIAF à tous les vocabulaires du MCC ; Les objectifs, plus larges, du programme HADOC : → Harmoniser la production de données culturelles, selon 3 axes de travail : harmoniser les données (définition de modèles de description et de référentiels communs), promouvoir les normes et standards, harmoniser les processus de production (notamment en mettant en pratique des outils logiciels communs).
  38. 38. La réflexion de HADOC sur l'ensemble des vocabulaires du MCC Souhait de mettre en œuvre un environnement logiciel de gestion commun des vocabulaires scientifiques et techniques ● « L’objectif est de passer d'une approche où les vocabulaires contrôlés des différents métiers restent avant tout au service de la production de ressources documentaires dans un domaine ou une application, à la création d'un Référentiel terminologique unifié permettant d'offrir aux usagers un accès unique et cohérent aux ressources terminologiques produites par le Ministère et d'en démultiplier les usages » (Katell Briatte, chef du programme HADOC)
  39. 39. L'outil de production de vocabulaires GINCO
  40. 40. Les évolutions de l'outil de consultation dans le cadre de HADOC Évolutions de l’outil de consultation ● Aménagement en vue de l’intégration d’autres vocabulaires contrôlés du MCC (services du patrimoine et de l’architecture) ; ● Affichage d’informations spécifiques sur la page de présentation de chaque référentiel ; ● Affichage des concepts (propriétés SKOS, langues) ; ● Affichage des alignements avec d’autres vocabulaires ; ● Transformation des identifiants de concepts en identifiants pérennes de type ARK ; ● Ajout d’une fonction de recherche simple.
  41. 41. Fonctionnalité de recherche simple
  42. 42. Expérimentation sur les alignements (1/3) DBPedia est un référentiel qui bouge beaucoup, souvent et qui est le produit de la réflexion d'une communauté ● Pour la publication, quelques triplets concernant les concepts alignés avaient été extraits pour alimenter notre propre triple-store (les propriétés : terme, description, pageWeb) – permet l'indépendance et enrichit la description. ● Avec le temps on observe des décalages entre les informations extraites et celles présentes dans DBPedia ; on peut : – soit passer à des interrogations dynamiques – soit mettre à jour régulièrement.
  43. 43. Expérimentation sur les alignements (2/3) des identifiants qui n'existent pas (ou n'existent plus) des identifiants qui n'ont plus d'autre propriété qu'une redirection vers un autre concept (wikiPageRedirects) dont la mise en oeuvre est transparente pour l'utilisateur humain. des propriétés ambiguës ou peu fiables. Concepts à plusieurs termes ● "Avortement" et "Interruption volontaire de grossesse" ● "Siècle des lumières" "Aufklärung"ou "Travail" et "Work". Dans le rdf de dbpedia les valeurs "Aufklärung " et "Work" sont indiquées comme exprimées en français. ● "Cirque" et "La famille Morallès"
  44. 44. Expérimentation sur les alignements (3/3) Conclusions ● L'alignement demande à être réexaminé régulièrement ; ● L'extraction d'informations est difficilement automatisable ; ● Demande une relecture par un expert métier.
  45. 45. Perspectives L'usage initial est un thésaurus pour l'indexation ; Le projet était destiné au départ à répondre à un besoin spécifique (fournir aux services le thésaurus dans une forme structurée réutilisable), mais a permis d'aller plus loin ; Le travail d'explicitation des relations sémantiques, d'exposition des données en RDF permet d'envisager d'autres réutilisations du Thésaurus par d'autres communautés ; Cette évolution va peut être susciter d'autres usages hors du domaine de l'indexation des descriptions archivistiques.
  46. 46. Exemples de nouveaux usages Possibilité de s’appuyer sur le thésaurus pour qualifier des données tiers et donc construire des applications web riches : Projet ISIDORE : utilisation de la liste « Contexte historique » pour accrocher les notices ISIDORE à des périodes historiques ; Enrichissement par la TGIR Humanum de la liste « Contexte historique » avec des termes en anglais et en espagnol. L'utilisation partagée de vocabulaires communs crée de l'interopérabilité sans développement supplémentaire : Le Thésaurus archives étant aligné sur RAMEAU, il serait possible de relier une ressource archivistique et un livre de bibliothèque à travers les deux référentiels et les liens qu'ils partagent.

×