Le Thésaurus pour l'indexation des
archives locales et le Web de
données
INHA
9 février 2015
Alice Motte (Service interministériel des Archives de France)
Sommaire de l'intervention
Rappel sur la pratique et les enjeux de l'indexation des
instruments de recherche des fonds d'archives ;
Nouveaux enjeux de la diffusion numérique : la transposition
du Thésaurus du SIAF pour le web sémantique
Structuration informatique ;
Évolutions ;
Perspectives.
Première partie
Rappel sur la pratique et les enjeux de l'indexation des
instruments de recherche des fonds d'archives
L’indexation : quelques définitions (1/3)
→ Fait partie intégrante de la description archivistique.
La description archivistique correspond au travail d’analyse des
documents d'archives et d’élaboration des instruments de
recherche (papier ou électroniques).
Elle se compose de trois éléments :
description du producteur et des éléments de contexte nécessaires à la
compréhension du fonds ;
identification des unités documentaires, décrites et classées selon un
plan de classement ;
indexation des unités documentaires.
L’indexation : quelques définitions (2/3)
Opération destinée à représenter par les éléments d’un langage
documentaire ou naturel des données résultant de l’analyse du
contenu d’un document ou du document lui-même.
Clefs d'accès et de connaissance complémentaires des fonds
décrits dans les instruments de recherche.
Une grande diversité possible de types d'indexation.
→ Exemple des index imprimés en fin de volume : entrées
thématiques, géographiques, etc. permettant une utilisation
différente de l'instrument de recherche.
L’indexation : quelques définitions (3/3)
→ Un ensemble de choix archivistiques à faire selon leur
pertinence !
Le choix du type ou des types d'indexation à pratiquer ;
Le choix d'un vocabulaire : un vocabulaire normalisé est
indispensable à la cohérence de l’indexation (référentiels
SIAF, normes AFNOR) ;
Le choix du degré de finesse et du niveau de précision ;
Rapport coût/bénéfice de l’indexation manuelle !
Raisonnement instrument de recherche / fonds dans leur
globalité.
Un encadrement réglementaire progressif
→ Textes publiés par la Direction des Archives de France.
Circulaire AD 63-31 du 22 juillet 1963. Les index alphabétiques des
fonds d’archives et de leurs inventaires.
Circulaire AD 94-8 du 5 septembre 1994. Traitement des archives
contemporaines. Indexation. Instruments de recherche.
Instruction DITN/RES/2005/006 du 30 septembre 2005.
Publication électronique des instruments de recherche.
** Note d'information DITN/RES/2007/008 du 30 juillet
2007. Indexation, état de la question.
Les enjeux de l'indexation
Une place renouvelée dans le contexte de leur exploitation
informatique ;
→ Les termes d'indexation deviennent des clefs d'accès à
l'information, utilisés dans des moteurs de recherche avancée.
Mise en place de fonctionnalités de recherches dans les
instruments de recherche et les images numérisées : ciblage des
recherches (listes, filtres, rebonds), autocomplétion...
Logique de décloisonnement des fonds ;
Les termes d'indexation constituent aussi des métadonnées
exploitables dans le cadre du web sémantique.
AD Lozère
Recherche dans les
listes de termes
d'indexation :
présentation
alphabétique,
moteur de
recherche interne
AD Val d'Oise
Recherche dans les listes de termes
d'indexation :
présentation arborescente, moteur
de recherche interne, filtres
AD Var
Utilisation de l'indexation
géographique pour créer un mode
de sélection cartographique des
critères de recherche
AD Hautes-
Pyrénées
Construction d'un
moteur de
recherche à
facettes à partir de
l'indexation →
Mode de
recherche par
affinage progressif
des critères
Portail Grand Mémorial
Convergence des indexations de
plusieurs services d'archives pour
alimenter un moteur de recherche
unique dans les registres matricules.
→ Interopérabilité et partage des
termes d'indexation
Un historique du Thésaurus du SIAF (1/2)
Thésaurus W. Vocabulaires normalisés pour la description et
l'indexation des archives administratives locales
contemporaines :
1re éd. 1987, refontes en 1989 et 1997, mise à jour des listes
« Actions administratives » et « Typologies » en 2000
Utilisation obligatoire pour tous les services d’archives
territoriaux :
Circulaire AD 76-6 du 31 décembre 1979
Circulaire AD 94-8 du 5 septembre 1994. Traitement des archives
contemporaines. Indexation. Instruments de recherche
Un historique du Thésaurus du SIAF (2/2)
→ Importante refonte en 2008-2009 : actualisation et
conception d'un thésaurus diachronique.
Janvier 2008 : constitution d’un groupe de travail chargé de
refondre les différentes adaptations du Thésaurus W élaborés
par des services d’archives ;
Novembre 2008-février 2009 : appel à commentaires auprès du
réseau ;
Mars-juin 2009 : prise en compte des commentaires ;
Juin 2009 : publication par l'instruction DITN/RES/2009/006
du Thésaurus pour la description et l'indexation des archives locales
anciennes, modernes et contemporaines.
Qu'est-ce qu'un thésaurus ?
Liste de concepts représentés par des termes normalisés
(descripteurs), reliés par des relations sémantiques
hiérarchiques, associatives ou d’équivalence
Langage artificiel, cherche à lever toute ambiguïté
Sert à réduire la variabilité des notions exprimées en langage naturel
Les relations aident à s’assurer du sens du concept et de son adéquation pour l’énoncé
d’un sujet
→ Structure arborescente.
Termes autorisés (préférentiels) et termes non autorisés
(« termes interdits », non préférentiels).
Quels types de relations trouve-t-on dans un
thésaurus ?Hiérarchie :
Termes génériques (TG) = concepts principaux en référence aux autres termes
et au domaine considéré
Termes spécifiques (TS) = concepts particuliers à l'intérieur du champ
sémantique d'un terme générique
Association :
Termes associés (TA)
Équivalence :
Termes équivalents (EP / EM) = variantes des termes spécifiques, et non
descripteurs = termes non retenus pour représenter une notion, renvoie à un
ou plusieurs descripteurs (synonymie)
Indexation des matières
Utilisation du Thésaurus pour la
description et l'indexation des
archives locales anciennes, modernes
et contemporaines, 2009, édité et
maintenu par les Archives de
France.
Couvre tous les domaines
d'intervention des producteurs
d'archives.
Présentation du Thésaurus matière du SIAF
2509 termes préférentiels et non préférentiels ;
Thésaurus monolingue et mono-hiérarchique ;
4 niveaux de hiérarchisation : les descripteurs sont des termes
génériques (TG) aux trois premiers niveaux et des termes
spécifiques (TS) au quatrième. « Cinquième niveau » ;
Relations hiérarchiques (TG et TS), relations d’association
(TA), relations par synonymie (EP, EM) ;
S'accompagne de trois listes d'autorité (contexte, actions,
typologie).
Extrait du Thésaurus : les relations entre les
termes
1. ADMINISTRATION
1.5. POLICE
MAINTIEN DE L’ORDRE18
EP ordre public
EP rétablissement de l ’ordre
TA CEREMONIE PUBLIQUE (9.4) ; MANIFESTATION DE
PROTESTATION (9.4) ; MANIFESTATION SPORTIVE (11.2) ;
REUNION PUBLIQUE (9.4) ; VISITE OFFICIELLE (9.4)
18
Il s’agit ici du maintien et du rétablissement de l’ordre.
18
Il s’agit ici du maintien et du rétablissement de l’ordre.
Seconde partie
Nouveaux enjeux de la diffusion numérique : la transposition
du Thésaurus du SIAF pour le web sémantique.
Le thésaurus jusqu'en 2008
Les limites
●
Absence de formalisme directement exploitable par une machine
– Le formalisme utilisé (fichiers doc, pdf) a pour seule vocation d'être lu par
un opérateur humain qui doit mettre en œuvre le thésaurus pour des
tâches d'indexation.
●
La tâche d'indexation étant assistée par un logiciel, des ressaisies du thésaurus sont
nécessaires
– Comment éviter des saisies directes avec risques de divergences ?
– Comment réduire les coût des ressaisies ? Le mécanisme d'ingestion dans
les outils n'est pas forcément le même d'un outil à l'autre et les mises à
jour sont elles aussi délicates et coûteuses.
Édition thématique PDF du thésaurus-
matières
Les besoins
Faciliter la mise en œuvre du thésaurus pour les tâches
d'indexation
Faciliter la mise en œuvre du thésaurus pour les tâches de
recherche
Garantir la permanence des indexations alors même que le
thésaurus évolue
Faciliter la gestion du thésaurus
●
Évolutions (propositions, versions, mises à jour...)
●
Accès / Requêtes / Publications
Choix d'un formalisme
Exprimer toutes les notions déjà présentes (termes, relations,
annotations, etc.)
Apporter une aide à l'édition et la publication
Outils normatifs
●
Norme ISO 2788:1986 « Principes directeurs pour l'établissement et le
développement de thésaurus monolingues »
– Pose les concepts de terme, relations sémantiques, etc. mais ne propose pas de
formalisme d'expression pour sa mise en œuvre.
– En 2008 : en cours de révision
●
SKOS « Simple Knowledge Organization System »
– Au début du travail fin 2008, SKOS n'était encore qu'à l'état de Working Draft au
Présentation synthétique de SKOS (1/2)
Simple Knowledge Organization System
●
Pour décrire des vocabulaires simples de type thésaurus, classifications, listes,
taxonomies.
●
SKOS permet de décrire des organisations de concepts pour former des vocabulaires.
Cette description est faite avec le langage RDF, format fondamental du web
sémantique, qui va permettre d'associer aux concepts des propriétés (dont le terme)
– RDF définit un graphe à base de triplets (sujet → prédicat → objet)
●
Le sujet représente la ressource à décrire ;
●
Le prédicat représente un type de propriété de la ressource ;
●
L'objet représente la valeur de la propriété.
Présentation synthétique de SKOS (2/2)
Les ressources du thésaurus sont des concepts identifiables par
des URI que l'on souhaite durables et traçables.
Les propriétés principales des concepts sont :
●
Les termes ou labels (propriétés prefLabel, altLabel)
●
Les relations entre concepts :
– Relations hiérarchiques (spécifique vs. Générique, skos:narrower/skos:broader)
– Relations d'association (relatedTerm)
– Les annotations (définitions, notes)
●
Les relations d'alignement avec d'autres vocabulaires (exactMatch, closeMatch)
La phase de reprise des données : conversion du
Thésaurus en SKOS
Les termes distincts font l'objet de définition de concepts :
●
Identifiés dans un premier temps par des URL ;
●
Puis dans un deuxième temps par des ARK.
Les termes préférentiels deviennent des « prefLabel » et les termes
non préférentiels des « altLabel » ;
Les domaines et rubriques donnent naissance à des relations
bijectives entre concepts (spécifique / générique) ;
Les associations sémantiques d'un terme à des termes d'une autre
branche deviennent des relations d'association ;
Les définitions et autres notes deviennent des annotations.
Méthode de travail et outils utilisés
La dernière révision du Thésaurus s'est notamment faite dans
le format SKOS :
●
Chargé dans l'application ThManager (mais ancienne version de
SKOS) ;
●
Chargé dans l'application Protege (mais peu conviviale et/ou peu
maîtrisée) ;
●
Manipulation directes dans un éditeur XML (oXygen, peu convivial
mais plus maîtrisé) ;
●
Utilisation de scripts pour vérifier la cohérence du thésaurus ;
●
Transformations XSL pour produire les anciens états publiés
(classement thématique, classement alphabétique).
Édition avec ThManager
Édition avec oXygen
La conception d'un outil de publication
Commande en 2010 (http://data.culture.fr/thesaurus/)
●
D'un outil de publication du référentiel
– Pour tirer le meilleur parti du modèle « web de données »
●
Des URI de concepts déréférençables. Négociation de contenu pour
délivrer
– soit une page web présentant le concept (en HTML pour
un client humain)
– soit une définition formelle du concept (en RDF/XML
pour un client machine).
●
Les triplets sont stockés dans une base de données (tripleStore RDF
Sesame)
●
Une interrogation de ces données est possible par des requêtes SPARQL
Consultation d'un concept du Thésaurus (accès
« opérateur humain »)
Consultation
d'un concept du
Thésaurus
(accès
« opérateur
informatique »,
code SKOS-
XML)
Exemple du module Thésaurus du logiciel Arkhéïa
Exemple d'un autre outil logiciel : solution Ligéo
L'intégration de l'outil du SIAF dans un contexte
plus large : le programme HADOC du MCC
Mise en ligne de l'outil de publication :
- Dans un premier temps sur le portail archivesdefrance ;
- Après l'inscription dans le programme HADOC du MCC
(« Harmonisation de la production des DOnnées Culturelles »),
élargissement du périmètre de l'outil du SIAF à tous les vocabulaires du
MCC ;
Les objectifs, plus larges, du programme HADOC :
→ Harmoniser la production de données culturelles, selon 3 axes de
travail : harmoniser les données (définition de modèles de description et
de référentiels communs), promouvoir les normes et standards,
harmoniser les processus de production (notamment en mettant en
pratique des outils logiciels communs).
La réflexion de HADOC sur l'ensemble des
vocabulaires du MCC
Souhait de mettre en œuvre un environnement logiciel de
gestion commun des vocabulaires scientifiques et techniques
●
« L’objectif est de passer d'une approche où les vocabulaires contrôlés des
différents métiers restent avant tout au service de la production de ressources
documentaires dans un domaine ou une application, à la création d'un Référentiel
terminologique unifié permettant d'offrir aux usagers un accès unique et cohérent
aux ressources terminologiques produites par le Ministère et d'en démultiplier les
usages » (Katell Briatte, chef du programme HADOC)
L'outil de production de vocabulaires GINCO
Les évolutions de l'outil de consultation dans le
cadre de HADOC
Évolutions de l’outil de consultation
●
Aménagement en vue de l’intégration d’autres vocabulaires contrôlés du
MCC (services du patrimoine et de l’architecture) ;
●
Affichage d’informations spécifiques sur la page de présentation de
chaque référentiel ;
●
Affichage des concepts (propriétés SKOS, langues) ;
●
Affichage des alignements avec d’autres vocabulaires ;
●
Transformation des identifiants de concepts en identifiants pérennes de
type ARK ;
●
Ajout d’une fonction de recherche simple.
Fonctionnalité de recherche simple
Expérimentation sur les alignements (1/3)
DBPedia est un référentiel qui bouge beaucoup, souvent et qui
est le produit de la réflexion d'une communauté
●
Pour la publication, quelques triplets concernant les concepts alignés
avaient été extraits pour alimenter notre propre triple-store (les
propriétés : terme, description, pageWeb)
– permet l'indépendance et enrichit la description.
●
Avec le temps on observe des décalages entre les informations extraites
et celles présentes dans DBPedia ; on peut :
– soit passer à des interrogations dynamiques
– soit mettre à jour régulièrement.
Expérimentation sur les alignements (2/3)
des identifiants qui n'existent pas (ou n'existent plus)
des identifiants qui n'ont plus d'autre propriété qu'une
redirection vers un autre concept (wikiPageRedirects) dont la
mise en oeuvre est transparente pour l'utilisateur humain.
des propriétés ambiguës ou peu fiables. Concepts à plusieurs
termes
●
"Avortement" et "Interruption volontaire de grossesse"
●
"Siècle des lumières" "Aufklärung"ou "Travail" et "Work". Dans le rdf de
dbpedia les valeurs "Aufklärung " et "Work" sont indiquées comme exprimées en
français.
●
"Cirque" et "La famille Morallès"
Expérimentation sur les alignements (3/3)
Conclusions
●
L'alignement demande à être réexaminé régulièrement ;
●
L'extraction d'informations est difficilement automatisable ;
●
Demande une relecture par un expert métier.
Perspectives
L'usage initial est un thésaurus pour l'indexation ;
Le projet était destiné au départ à répondre à un besoin
spécifique (fournir aux services le thésaurus dans une forme
structurée réutilisable), mais a permis d'aller plus loin ;
Le travail d'explicitation des relations sémantiques,
d'exposition des données en RDF permet d'envisager d'autres
réutilisations du Thésaurus par d'autres communautés ;
Cette évolution va peut être susciter d'autres usages hors du
domaine de l'indexation des descriptions archivistiques.
Exemples de nouveaux usages
Possibilité de s’appuyer sur le thésaurus pour qualifier des
données tiers et donc construire des applications web riches :
Projet ISIDORE : utilisation de la liste « Contexte historique » pour
accrocher les notices ISIDORE à des périodes historiques ;
Enrichissement par la TGIR Humanum de la liste « Contexte
historique » avec des termes en anglais et en espagnol.
L'utilisation partagée de vocabulaires communs crée de
l'interopérabilité sans développement supplémentaire :
Le Thésaurus archives étant aligné sur RAMEAU, il serait possible de
relier une ressource archivistique et un livre de bibliothèque à travers
les deux référentiels et les liens qu'ils partagent.

Le Thésaurus pour l'indexation des archives locales et le Web de données, INHA, 9 février 2015

  • 1.
    Le Thésaurus pourl'indexation des archives locales et le Web de données INHA 9 février 2015 Alice Motte (Service interministériel des Archives de France)
  • 2.
    Sommaire de l'intervention Rappelsur la pratique et les enjeux de l'indexation des instruments de recherche des fonds d'archives ; Nouveaux enjeux de la diffusion numérique : la transposition du Thésaurus du SIAF pour le web sémantique Structuration informatique ; Évolutions ; Perspectives.
  • 3.
    Première partie Rappel surla pratique et les enjeux de l'indexation des instruments de recherche des fonds d'archives
  • 4.
    L’indexation : quelques définitions(1/3) → Fait partie intégrante de la description archivistique. La description archivistique correspond au travail d’analyse des documents d'archives et d’élaboration des instruments de recherche (papier ou électroniques). Elle se compose de trois éléments : description du producteur et des éléments de contexte nécessaires à la compréhension du fonds ; identification des unités documentaires, décrites et classées selon un plan de classement ; indexation des unités documentaires.
  • 5.
    L’indexation : quelques définitions(2/3) Opération destinée à représenter par les éléments d’un langage documentaire ou naturel des données résultant de l’analyse du contenu d’un document ou du document lui-même. Clefs d'accès et de connaissance complémentaires des fonds décrits dans les instruments de recherche. Une grande diversité possible de types d'indexation. → Exemple des index imprimés en fin de volume : entrées thématiques, géographiques, etc. permettant une utilisation différente de l'instrument de recherche.
  • 6.
    L’indexation : quelques définitions(3/3) → Un ensemble de choix archivistiques à faire selon leur pertinence ! Le choix du type ou des types d'indexation à pratiquer ; Le choix d'un vocabulaire : un vocabulaire normalisé est indispensable à la cohérence de l’indexation (référentiels SIAF, normes AFNOR) ; Le choix du degré de finesse et du niveau de précision ; Rapport coût/bénéfice de l’indexation manuelle ! Raisonnement instrument de recherche / fonds dans leur globalité.
  • 7.
    Un encadrement réglementaireprogressif → Textes publiés par la Direction des Archives de France. Circulaire AD 63-31 du 22 juillet 1963. Les index alphabétiques des fonds d’archives et de leurs inventaires. Circulaire AD 94-8 du 5 septembre 1994. Traitement des archives contemporaines. Indexation. Instruments de recherche. Instruction DITN/RES/2005/006 du 30 septembre 2005. Publication électronique des instruments de recherche. ** Note d'information DITN/RES/2007/008 du 30 juillet 2007. Indexation, état de la question.
  • 8.
    Les enjeux del'indexation Une place renouvelée dans le contexte de leur exploitation informatique ; → Les termes d'indexation deviennent des clefs d'accès à l'information, utilisés dans des moteurs de recherche avancée. Mise en place de fonctionnalités de recherches dans les instruments de recherche et les images numérisées : ciblage des recherches (listes, filtres, rebonds), autocomplétion... Logique de décloisonnement des fonds ; Les termes d'indexation constituent aussi des métadonnées exploitables dans le cadre du web sémantique.
  • 9.
    AD Lozère Recherche dansles listes de termes d'indexation : présentation alphabétique, moteur de recherche interne
  • 10.
    AD Val d'Oise Recherchedans les listes de termes d'indexation : présentation arborescente, moteur de recherche interne, filtres
  • 11.
    AD Var Utilisation del'indexation géographique pour créer un mode de sélection cartographique des critères de recherche
  • 12.
    AD Hautes- Pyrénées Construction d'un moteurde recherche à facettes à partir de l'indexation → Mode de recherche par affinage progressif des critères
  • 13.
    Portail Grand Mémorial Convergencedes indexations de plusieurs services d'archives pour alimenter un moteur de recherche unique dans les registres matricules. → Interopérabilité et partage des termes d'indexation
  • 14.
    Un historique duThésaurus du SIAF (1/2) Thésaurus W. Vocabulaires normalisés pour la description et l'indexation des archives administratives locales contemporaines : 1re éd. 1987, refontes en 1989 et 1997, mise à jour des listes « Actions administratives » et « Typologies » en 2000 Utilisation obligatoire pour tous les services d’archives territoriaux : Circulaire AD 76-6 du 31 décembre 1979 Circulaire AD 94-8 du 5 septembre 1994. Traitement des archives contemporaines. Indexation. Instruments de recherche
  • 15.
    Un historique duThésaurus du SIAF (2/2) → Importante refonte en 2008-2009 : actualisation et conception d'un thésaurus diachronique. Janvier 2008 : constitution d’un groupe de travail chargé de refondre les différentes adaptations du Thésaurus W élaborés par des services d’archives ; Novembre 2008-février 2009 : appel à commentaires auprès du réseau ; Mars-juin 2009 : prise en compte des commentaires ; Juin 2009 : publication par l'instruction DITN/RES/2009/006 du Thésaurus pour la description et l'indexation des archives locales anciennes, modernes et contemporaines.
  • 16.
    Qu'est-ce qu'un thésaurus ? Listede concepts représentés par des termes normalisés (descripteurs), reliés par des relations sémantiques hiérarchiques, associatives ou d’équivalence Langage artificiel, cherche à lever toute ambiguïté Sert à réduire la variabilité des notions exprimées en langage naturel Les relations aident à s’assurer du sens du concept et de son adéquation pour l’énoncé d’un sujet → Structure arborescente. Termes autorisés (préférentiels) et termes non autorisés (« termes interdits », non préférentiels).
  • 17.
    Quels types derelations trouve-t-on dans un thésaurus ?Hiérarchie : Termes génériques (TG) = concepts principaux en référence aux autres termes et au domaine considéré Termes spécifiques (TS) = concepts particuliers à l'intérieur du champ sémantique d'un terme générique Association : Termes associés (TA) Équivalence : Termes équivalents (EP / EM) = variantes des termes spécifiques, et non descripteurs = termes non retenus pour représenter une notion, renvoie à un ou plusieurs descripteurs (synonymie)
  • 18.
    Indexation des matières Utilisationdu Thésaurus pour la description et l'indexation des archives locales anciennes, modernes et contemporaines, 2009, édité et maintenu par les Archives de France. Couvre tous les domaines d'intervention des producteurs d'archives.
  • 19.
    Présentation du Thésaurusmatière du SIAF 2509 termes préférentiels et non préférentiels ; Thésaurus monolingue et mono-hiérarchique ; 4 niveaux de hiérarchisation : les descripteurs sont des termes génériques (TG) aux trois premiers niveaux et des termes spécifiques (TS) au quatrième. « Cinquième niveau » ; Relations hiérarchiques (TG et TS), relations d’association (TA), relations par synonymie (EP, EM) ; S'accompagne de trois listes d'autorité (contexte, actions, typologie).
  • 20.
    Extrait du Thésaurus :les relations entre les termes 1. ADMINISTRATION 1.5. POLICE MAINTIEN DE L’ORDRE18 EP ordre public EP rétablissement de l ’ordre TA CEREMONIE PUBLIQUE (9.4) ; MANIFESTATION DE PROTESTATION (9.4) ; MANIFESTATION SPORTIVE (11.2) ; REUNION PUBLIQUE (9.4) ; VISITE OFFICIELLE (9.4) 18 Il s’agit ici du maintien et du rétablissement de l’ordre. 18 Il s’agit ici du maintien et du rétablissement de l’ordre.
  • 21.
    Seconde partie Nouveaux enjeuxde la diffusion numérique : la transposition du Thésaurus du SIAF pour le web sémantique.
  • 22.
    Le thésaurus jusqu'en2008 Les limites ● Absence de formalisme directement exploitable par une machine – Le formalisme utilisé (fichiers doc, pdf) a pour seule vocation d'être lu par un opérateur humain qui doit mettre en œuvre le thésaurus pour des tâches d'indexation. ● La tâche d'indexation étant assistée par un logiciel, des ressaisies du thésaurus sont nécessaires – Comment éviter des saisies directes avec risques de divergences ? – Comment réduire les coût des ressaisies ? Le mécanisme d'ingestion dans les outils n'est pas forcément le même d'un outil à l'autre et les mises à jour sont elles aussi délicates et coûteuses.
  • 23.
    Édition thématique PDFdu thésaurus- matières
  • 24.
    Les besoins Faciliter lamise en œuvre du thésaurus pour les tâches d'indexation Faciliter la mise en œuvre du thésaurus pour les tâches de recherche Garantir la permanence des indexations alors même que le thésaurus évolue Faciliter la gestion du thésaurus ● Évolutions (propositions, versions, mises à jour...) ● Accès / Requêtes / Publications
  • 25.
    Choix d'un formalisme Exprimertoutes les notions déjà présentes (termes, relations, annotations, etc.) Apporter une aide à l'édition et la publication Outils normatifs ● Norme ISO 2788:1986 « Principes directeurs pour l'établissement et le développement de thésaurus monolingues » – Pose les concepts de terme, relations sémantiques, etc. mais ne propose pas de formalisme d'expression pour sa mise en œuvre. – En 2008 : en cours de révision ● SKOS « Simple Knowledge Organization System » – Au début du travail fin 2008, SKOS n'était encore qu'à l'état de Working Draft au
  • 26.
    Présentation synthétique deSKOS (1/2) Simple Knowledge Organization System ● Pour décrire des vocabulaires simples de type thésaurus, classifications, listes, taxonomies. ● SKOS permet de décrire des organisations de concepts pour former des vocabulaires. Cette description est faite avec le langage RDF, format fondamental du web sémantique, qui va permettre d'associer aux concepts des propriétés (dont le terme) – RDF définit un graphe à base de triplets (sujet → prédicat → objet) ● Le sujet représente la ressource à décrire ; ● Le prédicat représente un type de propriété de la ressource ; ● L'objet représente la valeur de la propriété.
  • 27.
    Présentation synthétique deSKOS (2/2) Les ressources du thésaurus sont des concepts identifiables par des URI que l'on souhaite durables et traçables. Les propriétés principales des concepts sont : ● Les termes ou labels (propriétés prefLabel, altLabel) ● Les relations entre concepts : – Relations hiérarchiques (spécifique vs. Générique, skos:narrower/skos:broader) – Relations d'association (relatedTerm) – Les annotations (définitions, notes) ● Les relations d'alignement avec d'autres vocabulaires (exactMatch, closeMatch)
  • 28.
    La phase dereprise des données : conversion du Thésaurus en SKOS Les termes distincts font l'objet de définition de concepts : ● Identifiés dans un premier temps par des URL ; ● Puis dans un deuxième temps par des ARK. Les termes préférentiels deviennent des « prefLabel » et les termes non préférentiels des « altLabel » ; Les domaines et rubriques donnent naissance à des relations bijectives entre concepts (spécifique / générique) ; Les associations sémantiques d'un terme à des termes d'une autre branche deviennent des relations d'association ; Les définitions et autres notes deviennent des annotations.
  • 29.
    Méthode de travailet outils utilisés La dernière révision du Thésaurus s'est notamment faite dans le format SKOS : ● Chargé dans l'application ThManager (mais ancienne version de SKOS) ; ● Chargé dans l'application Protege (mais peu conviviale et/ou peu maîtrisée) ; ● Manipulation directes dans un éditeur XML (oXygen, peu convivial mais plus maîtrisé) ; ● Utilisation de scripts pour vérifier la cohérence du thésaurus ; ● Transformations XSL pour produire les anciens états publiés (classement thématique, classement alphabétique).
  • 30.
  • 31.
  • 32.
    La conception d'unoutil de publication Commande en 2010 (http://data.culture.fr/thesaurus/) ● D'un outil de publication du référentiel – Pour tirer le meilleur parti du modèle « web de données » ● Des URI de concepts déréférençables. Négociation de contenu pour délivrer – soit une page web présentant le concept (en HTML pour un client humain) – soit une définition formelle du concept (en RDF/XML pour un client machine). ● Les triplets sont stockés dans une base de données (tripleStore RDF Sesame) ● Une interrogation de ces données est possible par des requêtes SPARQL
  • 33.
    Consultation d'un conceptdu Thésaurus (accès « opérateur humain »)
  • 34.
  • 35.
    Exemple du moduleThésaurus du logiciel Arkhéïa
  • 37.
    Exemple d'un autreoutil logiciel : solution Ligéo
  • 38.
    L'intégration de l'outildu SIAF dans un contexte plus large : le programme HADOC du MCC Mise en ligne de l'outil de publication : - Dans un premier temps sur le portail archivesdefrance ; - Après l'inscription dans le programme HADOC du MCC (« Harmonisation de la production des DOnnées Culturelles »), élargissement du périmètre de l'outil du SIAF à tous les vocabulaires du MCC ; Les objectifs, plus larges, du programme HADOC : → Harmoniser la production de données culturelles, selon 3 axes de travail : harmoniser les données (définition de modèles de description et de référentiels communs), promouvoir les normes et standards, harmoniser les processus de production (notamment en mettant en pratique des outils logiciels communs).
  • 39.
    La réflexion deHADOC sur l'ensemble des vocabulaires du MCC Souhait de mettre en œuvre un environnement logiciel de gestion commun des vocabulaires scientifiques et techniques ● « L’objectif est de passer d'une approche où les vocabulaires contrôlés des différents métiers restent avant tout au service de la production de ressources documentaires dans un domaine ou une application, à la création d'un Référentiel terminologique unifié permettant d'offrir aux usagers un accès unique et cohérent aux ressources terminologiques produites par le Ministère et d'en démultiplier les usages » (Katell Briatte, chef du programme HADOC)
  • 40.
    L'outil de productionde vocabulaires GINCO
  • 41.
    Les évolutions del'outil de consultation dans le cadre de HADOC Évolutions de l’outil de consultation ● Aménagement en vue de l’intégration d’autres vocabulaires contrôlés du MCC (services du patrimoine et de l’architecture) ; ● Affichage d’informations spécifiques sur la page de présentation de chaque référentiel ; ● Affichage des concepts (propriétés SKOS, langues) ; ● Affichage des alignements avec d’autres vocabulaires ; ● Transformation des identifiants de concepts en identifiants pérennes de type ARK ; ● Ajout d’une fonction de recherche simple.
  • 42.
  • 43.
    Expérimentation sur lesalignements (1/3) DBPedia est un référentiel qui bouge beaucoup, souvent et qui est le produit de la réflexion d'une communauté ● Pour la publication, quelques triplets concernant les concepts alignés avaient été extraits pour alimenter notre propre triple-store (les propriétés : terme, description, pageWeb) – permet l'indépendance et enrichit la description. ● Avec le temps on observe des décalages entre les informations extraites et celles présentes dans DBPedia ; on peut : – soit passer à des interrogations dynamiques – soit mettre à jour régulièrement.
  • 44.
    Expérimentation sur lesalignements (2/3) des identifiants qui n'existent pas (ou n'existent plus) des identifiants qui n'ont plus d'autre propriété qu'une redirection vers un autre concept (wikiPageRedirects) dont la mise en oeuvre est transparente pour l'utilisateur humain. des propriétés ambiguës ou peu fiables. Concepts à plusieurs termes ● "Avortement" et "Interruption volontaire de grossesse" ● "Siècle des lumières" "Aufklärung"ou "Travail" et "Work". Dans le rdf de dbpedia les valeurs "Aufklärung " et "Work" sont indiquées comme exprimées en français. ● "Cirque" et "La famille Morallès"
  • 45.
    Expérimentation sur lesalignements (3/3) Conclusions ● L'alignement demande à être réexaminé régulièrement ; ● L'extraction d'informations est difficilement automatisable ; ● Demande une relecture par un expert métier.
  • 46.
    Perspectives L'usage initial estun thésaurus pour l'indexation ; Le projet était destiné au départ à répondre à un besoin spécifique (fournir aux services le thésaurus dans une forme structurée réutilisable), mais a permis d'aller plus loin ; Le travail d'explicitation des relations sémantiques, d'exposition des données en RDF permet d'envisager d'autres réutilisations du Thésaurus par d'autres communautés ; Cette évolution va peut être susciter d'autres usages hors du domaine de l'indexation des descriptions archivistiques.
  • 47.
    Exemples de nouveauxusages Possibilité de s’appuyer sur le thésaurus pour qualifier des données tiers et donc construire des applications web riches : Projet ISIDORE : utilisation de la liste « Contexte historique » pour accrocher les notices ISIDORE à des périodes historiques ; Enrichissement par la TGIR Humanum de la liste « Contexte historique » avec des termes en anglais et en espagnol. L'utilisation partagée de vocabulaires communs crée de l'interopérabilité sans développement supplémentaire : Le Thésaurus archives étant aligné sur RAMEAU, il serait possible de relier une ressource archivistique et un livre de bibliothèque à travers les deux référentiels et les liens qu'ils partagent.