Le thésaurus pour l'indexation desLe thésaurus pour l'indexation des
archives locales dans le Webarchives locales dans le Web
de donnéesde données
Claire SIBILLE-DE GRIMOÜARD & Michel JACOBSON
Archives de France
Forum AAF « Les archives aujourd’hui et demain », Angers, 22 mars
PLANPLAN
 Le thésaurus pour l'indexation des archives locales
 Historique
 La révision (les limites du modèle, les besoins d'évolution)
 Les évolutions
 Les perspectives
Historique (1/2)Historique (1/2)
 Thésaurus W. Vocabulaires normalisés pour la description
et l’indexation des archives administratives locales
contemporaines
 1re édition 1987, révisions en 1989, 1997, 2000 (partielle), 2009,
2012
 Depuis 2009, est devenu Thésaurus pour la description et
l'indexation des archives locales anciennes, modernes et
contemporaines (outil diachronique, générique, peut s'appliquer à
toutes les ressources conservées par les services d'archives)
 Mises à jour : groupes de travail, appels à commentaires
Historique (2/2)Historique (2/2)
 Utilisation obligatoire pour les services d’archives
territoriaux
 Instructions DAF/SIAF 1994, 2009, 2011, 2012
 Essais de structuration informatique
 2002 : tests de conversion XML (par un prestataire)
 2008 : transformation (quick&dirty) des tableaux Excel qui
servaient à la révision en fichiers RDF/XML conformes à SKOS
Structure (1/2)Structure (1/2)
 Le thésaurus inclut un thésaurus-matières et 3 listes
d’autorité :
 actions administratives (71 descripteurs et 44 non-descripteurs)
 types de documents (238 descripteurs et 66 non-descripteurs)
 contexte historique (131 descripteurs)
 Les descripteurs des listes d’autorité ne sont pas des
termes d’indexation, mais ils peuvent être combinés avec
un (ou plusieurs) descripteur(s) du thésaurus-matières
Structure (2/2)Structure (2/2)
 Les 1498 descripteurs et 1011 non-descripteurs du
thésaurus sont regroupés en 11 classes représentant les
termes de haut niveau autour desquels les concepts sont
organisés selon 4 niveaux hiérarchiques
 Thésaurus monolingue, mono-hiérarchique
 Relations hiérarchiques, d’équivalence, d’association
 Notes de contenu
Le thé saurus jusqu'en 2008Le thé saurus jusqu'en 2008
 Les limites
 Absence de formalisme directement exploitable par une machine
 Le formalisme utilisé (fichiers doc, pdf..) a pour seule vocation d'être lu par un
opérateur humain qui doit mettre en œuvre le thésaurus pour des tâches d'indexation.
 La tâche d'indexation étant assistée par un logiciel, des ressaisies
du thésaurus sont nécessaires
 Comment éviter des saisies directes avec risques de divergences ?
 Comment réduire les coût des ressaisies ? Le mécanisme d'ingestion dans les outils
n'est pas forcément le même d'un outil à l'autre et les mises à jour sont elles aussi
délicates et coûteuses.
Edition thé matique du thé saurus-Edition thé matique du thé saurus-
matiè resmatiè res
Les besoinsLes besoins
 Faciliter la mise en œuvre du thésaurus pour les tâches
d'indexation.
 Faciliter la mise en œuvre du thésaurus pour les tâches de
recherche.
 Garantir la permanence des indexations alors même que
le thésaurus évolue.
 Faciliter la gestion du thésaurus
 É volutions (propositions, versions, mises à jour...)
 Accès / Requêtes / Publications
Choix d'un formalismeChoix d'un formalisme
 Exprimer toutes les notions déjà présentes (termes,
relations, annotations, etc.)
 Apporter une aide à l'édition et la publication
 Outils normatifs
 Norme ISO 2788:1986 « Principes directeurs pour l'établissement
et le développement de thésaurus monolingues »
 Pose les concepts de terme, relation sémantiques, etc. mais ne propose pas de
formalisme d'expression pour sa mise en œuvre.
 En 2008 : en cours de révision
 SKOS « Simple Knowledge Organization System »
 Au début du travail fin 2008, SKOS n'était encore qu'à l'état de Working Draft au
W3C mais aboutit en 2009 à une recommandation.
SKOS (1/2)SKOS (1/2)
 Simple Knowledge Organization System
 Pour décrire des vocabulaires simples de type thésaurus,
classifications, listes, taxonomies.
 SKOS permet de décrire des organisations de concepts pour
former des vocabulaires. Cette description est faite avec le
langage RDF qui va permettre d'associer aux concepts des
propriétés (dont le terme)
 RDF définit un graphe à base de triplets (sujet prédicat objet)→ →
➔ Le sujet représente la ressource à décrire ;
➔ Le prédicat représente un type de propriété de la ressource ;
➔ L'objet représente la valeur de la propriété.
SKOS (2/2)SKOS (2/2)
 Les ressources du thésaurus sont des concepts
identifiables par des URI que l'on souhaite durables et
traçables.
 Les propriétés principales des concepts sont : 
 Les termes ou labels (prefLabel, altLabel)
 Les relations entre concepts :
 Relations hiérarchiques (spécifique vs. générique)
 Relations d'association
 Les annotations (définitions, notes)
 Les relations d'alignement avec d'autres vocabulaires
(exactMatch, closeMatch)
Reprise des donné esReprise des donné es
 Les termes distincts font l'objet de définition de concepts : 
 Identifiés dans un premier temps par des URL ;
 Puis dans un deuxième temps par des ARK.
 Les termes préférentiels deviennent des prefLabel et les
termes non préférentiels des altLabel
 Les domaines et rubriques donnent naissance à des
relations bijectives entre concepts (spécifique / générique)
 Les associations sémantiques d'un terme à des termes
d'une autre branche deviennent des relations
d'association
 Les définitions et autres notes deviennent des annotations
Poursuite de la ré visionPoursuite de la ré vision
 La poursuite de la révision s'est faite dans le format SKOS
 Chargé dans l'application ThManager (mais ancienne version de
skos)
 Chargé dans l'application Protege (mais peu conviviale et/ou peu
maî trisée)
 Manipulation directes dans un éditeur XML (oXygen, peu convivial
mais plus maî trisé)
 Utilisation de scripts pour vérifier la cohérence du thésaurus
 Transformations XSL pour produire les anciens états publiés
(classement thématique, classement alphabétique)
Un outil de publication (1/2)Un outil de publication (1/2)
 Commande en 2010
 D'un outil de publication du référentiel
 Pour tirer le meilleur partie du modèle « web de données »
➔ Des URI de concepts déréférençables. Négociation de contenu pour délivrer
► soit une page web présentant le concept (en HTML pour un client humain)
► soit une définition formelle du concept (en RDF/XML pour un client machine).
➔ Les triplets sont stockés dans une base de données (tripleStore RDF Sesame)
➔ Une interrogation de ces données est possible par des requêtes SPARQL
 Plus un travail expérimental d'alignement sur d'autres thésaurus
 Alignement sur le Thésaurus Rameau (dans sa version skos)
 Alignement sur DBPedia
Un outil de publication (2/2)Un outil de publication (2/2)
 Mise en ligne de l'outil
 Dans un premier temps sur le portail archivesdefrance
 É largissement du domaine couvert par l'outil à la publication
d'autres vocabulaires (projet « Harmonisation de la production des
DOnnées Culturelles (HADOC) »du Ministère de la culture et de
la communication)
 L’harmonisation de la production des données culturelles s’appuie sur trois leviers :
➔ l’harmonisation des données (définition de modèles et partage des référentiels),
➔ le développement de l'usage des normes et des standards,
➔ l’harmonisation des processus de production
HADOCHADOC
 Réflexion en cours sur la mise en œuvre d’un nouvel
environnement de gestion des vocabulaires scientifiques
et techniques
 « L’objectif est de passer d'une approche où les vocabulaires
contrôlés des différents métiers restent avant tout au service
de la production de ressources documentaires dans un
domaine ou une application, à la création d'un Référentiel
terminologique unifié permettant d'offrir aux usagers un
accès unique et cohérent aux ressources terminologiques
produites par le Ministère et d'en démultiplier les usages »
(Katell Briatte)
 HADOC répond à un des besoins qui est de se doter d'un
Outil de gestion en cours deOutil de gestion en cours de
dé veloppementdé veloppement
HADOC et l'outil de consultationHADOC et l'outil de consultation
 Évolutions de l’outil de consultation
 Aménagement en vue de l’intégration d’autres vocabulaires
contrô lés du MCC (services du patrimoine et de l’architecture)
 Affichage d’informations spécifiques sur la page de présentation
de chaque référentiel
 Affichage des concepts (propriétés SKOS, langues)
 Affichage des alignements avec d’autres vocabulaires
 Transformation des identifiants de concepts en identifiants
pérennes de type ARK
 Ajout d’une fonction de recherche simple
Ré sultat d'une rechercheRé sultat d'une recherche
Consultation d'un conceptConsultation d'un concept
Code RDF/XML du conceptCode RDF/XML du concept
Expé rimentation sur les alignementsExpé rimentation sur les alignements
(1/3)(1/3)
 DBPedia est un référentiel qui bouge beaucoup, souvent
et qui est le produit de la réflexion d'une communauté
 Pour la publication, quelques triplets concernant les concepts
alignés avaient été extraits pour alimenter notre propre triple-store
(les propriétés : terme, description, pageWeb)
 permet l'indépendance et enrichit la description.
 Avec le temps on observe des décalages entre les informations
extraites et celles présentes dans DBPedia ; on peut :
 soit passer à des interrogations dynamiques
 soit mettre à jour régulièrement.
Expé rimentation sur les alignementsExpé rimentation sur les alignements
(2/3)(2/3)
 des identifiants qui n'existent pas (ou n'existent plus)
 des identifiants qui n'ont plus d'autre propriété qu'une
redirection vers un autre concept (wikiPageRedirects) dont
la mise en oeuvre est transparente pour l'utilisateur
humain.
 des propriétés ambiguës ou peu fiables. Concepts à
plusieurs termes
 "Avortement" et "Interruption volontaire de grossesse"
 "Siècle des lumières" "Aufklä rung"ou "Travail" et "Work". Dans le
rdf de dbpedia les valeurs "Aufklä rung " et "Work" sont indiquées
comme exprimées en franç ais.
 "Cirque" et "La famille Morallès"
Expé rimentation sur les alignementsExpé rimentation sur les alignements
(3/3)(3/3)
 Conclusions
 L'alignement demande à être réexaminé régulièrement.
 L'extraction d'informations est difficilement automatisable.
 Demande une relecture par un expert métier.
Ré flexions sur la structure du thé saurusRé flexions sur la structure du thé saurus
 Parution de la nouvelle norme ISO 25964-1:2011
Thésaurus et interopérabilité avec d'autres vocabulaires --
Partie 1: Thésaurus pour la recherche documentaire
 Monolingue et multilingue
 Distinction concept / terme
 Meilleures définitions des relations sémantiques (en particulier les
relations hiérarchiques : générique/spécifiques, partitive,
instance)
 Gestion du statut des descripteurs et des mises à jour, ce que ne
permet pas SKOS
PerspectivesPerspectives
 Le Thésaurus pour l’indexation des archives locales relève
plutôt d’une logique classificatoire et le positionnement
des concepts dans la hiérarchie ne permet pas toujours
de désambiguïser les synonymes, d’où un alignement très
partiel avec les concepts représentés dans RAMEAU et
dbpedia.
 L'application de la norme obligerait à revoir nos relations, alors que
l'usage qui est fait du thésaurus ne le nécessite pas.
PerspectivesPerspectives
 Destiné au départ pour répondre à un besoin spécifique
(fournir aux services le thésaurus dans une forme
structurée réutilisable) ce travail d'explicitation des
relations sémantiques, d'exposition des données etc.
permet d'envisager d'autres réutilisations du Thésaurus
par d'autres communautés
 L'usage initial est un thésaurus pour l'indexation
 On est dans une autre logique de structuration qui est
celle des ontologies (concepts représentés par des
termes préférentiels et non préférentiels)
 Cette évolution va peut être susciter d'autres usages hors

Sibille jacobson thesaurus

  • 1.
    Le thésaurus pourl'indexation desLe thésaurus pour l'indexation des archives locales dans le Webarchives locales dans le Web de donnéesde données Claire SIBILLE-DE GRIMOÜARD & Michel JACOBSON Archives de France Forum AAF « Les archives aujourd’hui et demain », Angers, 22 mars
  • 2.
    PLANPLAN  Le thésauruspour l'indexation des archives locales  Historique  La révision (les limites du modèle, les besoins d'évolution)  Les évolutions  Les perspectives
  • 3.
    Historique (1/2)Historique (1/2) Thésaurus W. Vocabulaires normalisés pour la description et l’indexation des archives administratives locales contemporaines  1re édition 1987, révisions en 1989, 1997, 2000 (partielle), 2009, 2012  Depuis 2009, est devenu Thésaurus pour la description et l'indexation des archives locales anciennes, modernes et contemporaines (outil diachronique, générique, peut s'appliquer à toutes les ressources conservées par les services d'archives)  Mises à jour : groupes de travail, appels à commentaires
  • 4.
    Historique (2/2)Historique (2/2) Utilisation obligatoire pour les services d’archives territoriaux  Instructions DAF/SIAF 1994, 2009, 2011, 2012  Essais de structuration informatique  2002 : tests de conversion XML (par un prestataire)  2008 : transformation (quick&dirty) des tableaux Excel qui servaient à la révision en fichiers RDF/XML conformes à SKOS
  • 5.
    Structure (1/2)Structure (1/2) Le thésaurus inclut un thésaurus-matières et 3 listes d’autorité :  actions administratives (71 descripteurs et 44 non-descripteurs)  types de documents (238 descripteurs et 66 non-descripteurs)  contexte historique (131 descripteurs)  Les descripteurs des listes d’autorité ne sont pas des termes d’indexation, mais ils peuvent être combinés avec un (ou plusieurs) descripteur(s) du thésaurus-matières
  • 6.
    Structure (2/2)Structure (2/2) Les 1498 descripteurs et 1011 non-descripteurs du thésaurus sont regroupés en 11 classes représentant les termes de haut niveau autour desquels les concepts sont organisés selon 4 niveaux hiérarchiques  Thésaurus monolingue, mono-hiérarchique  Relations hiérarchiques, d’équivalence, d’association  Notes de contenu
  • 7.
    Le thé saurusjusqu'en 2008Le thé saurus jusqu'en 2008  Les limites  Absence de formalisme directement exploitable par une machine  Le formalisme utilisé (fichiers doc, pdf..) a pour seule vocation d'être lu par un opérateur humain qui doit mettre en œuvre le thésaurus pour des tâches d'indexation.  La tâche d'indexation étant assistée par un logiciel, des ressaisies du thésaurus sont nécessaires  Comment éviter des saisies directes avec risques de divergences ?  Comment réduire les coût des ressaisies ? Le mécanisme d'ingestion dans les outils n'est pas forcément le même d'un outil à l'autre et les mises à jour sont elles aussi délicates et coûteuses.
  • 8.
    Edition thé matiquedu thé saurus-Edition thé matique du thé saurus- matiè resmatiè res
  • 9.
    Les besoinsLes besoins Faciliter la mise en œuvre du thésaurus pour les tâches d'indexation.  Faciliter la mise en œuvre du thésaurus pour les tâches de recherche.  Garantir la permanence des indexations alors même que le thésaurus évolue.  Faciliter la gestion du thésaurus  É volutions (propositions, versions, mises à jour...)  Accès / Requêtes / Publications
  • 10.
    Choix d'un formalismeChoixd'un formalisme  Exprimer toutes les notions déjà présentes (termes, relations, annotations, etc.)  Apporter une aide à l'édition et la publication  Outils normatifs  Norme ISO 2788:1986 « Principes directeurs pour l'établissement et le développement de thésaurus monolingues »  Pose les concepts de terme, relation sémantiques, etc. mais ne propose pas de formalisme d'expression pour sa mise en œuvre.  En 2008 : en cours de révision  SKOS « Simple Knowledge Organization System »  Au début du travail fin 2008, SKOS n'était encore qu'à l'état de Working Draft au W3C mais aboutit en 2009 à une recommandation.
  • 11.
    SKOS (1/2)SKOS (1/2) Simple Knowledge Organization System  Pour décrire des vocabulaires simples de type thésaurus, classifications, listes, taxonomies.  SKOS permet de décrire des organisations de concepts pour former des vocabulaires. Cette description est faite avec le langage RDF qui va permettre d'associer aux concepts des propriétés (dont le terme)  RDF définit un graphe à base de triplets (sujet prédicat objet)→ → ➔ Le sujet représente la ressource à décrire ; ➔ Le prédicat représente un type de propriété de la ressource ; ➔ L'objet représente la valeur de la propriété.
  • 12.
    SKOS (2/2)SKOS (2/2) Les ressources du thésaurus sont des concepts identifiables par des URI que l'on souhaite durables et traçables.  Les propriétés principales des concepts sont :   Les termes ou labels (prefLabel, altLabel)  Les relations entre concepts :  Relations hiérarchiques (spécifique vs. générique)  Relations d'association  Les annotations (définitions, notes)  Les relations d'alignement avec d'autres vocabulaires (exactMatch, closeMatch)
  • 13.
    Reprise des donnéesReprise des donné es  Les termes distincts font l'objet de définition de concepts :   Identifiés dans un premier temps par des URL ;  Puis dans un deuxième temps par des ARK.  Les termes préférentiels deviennent des prefLabel et les termes non préférentiels des altLabel  Les domaines et rubriques donnent naissance à des relations bijectives entre concepts (spécifique / générique)  Les associations sémantiques d'un terme à des termes d'une autre branche deviennent des relations d'association  Les définitions et autres notes deviennent des annotations
  • 14.
    Poursuite de laré visionPoursuite de la ré vision  La poursuite de la révision s'est faite dans le format SKOS  Chargé dans l'application ThManager (mais ancienne version de skos)  Chargé dans l'application Protege (mais peu conviviale et/ou peu maî trisée)  Manipulation directes dans un éditeur XML (oXygen, peu convivial mais plus maî trisé)  Utilisation de scripts pour vérifier la cohérence du thésaurus  Transformations XSL pour produire les anciens états publiés (classement thématique, classement alphabétique)
  • 15.
    Un outil depublication (1/2)Un outil de publication (1/2)  Commande en 2010  D'un outil de publication du référentiel  Pour tirer le meilleur partie du modèle « web de données » ➔ Des URI de concepts déréférençables. Négociation de contenu pour délivrer ► soit une page web présentant le concept (en HTML pour un client humain) ► soit une définition formelle du concept (en RDF/XML pour un client machine). ➔ Les triplets sont stockés dans une base de données (tripleStore RDF Sesame) ➔ Une interrogation de ces données est possible par des requêtes SPARQL  Plus un travail expérimental d'alignement sur d'autres thésaurus  Alignement sur le Thésaurus Rameau (dans sa version skos)  Alignement sur DBPedia
  • 16.
    Un outil depublication (2/2)Un outil de publication (2/2)  Mise en ligne de l'outil  Dans un premier temps sur le portail archivesdefrance  É largissement du domaine couvert par l'outil à la publication d'autres vocabulaires (projet « Harmonisation de la production des DOnnées Culturelles (HADOC) »du Ministère de la culture et de la communication)  L’harmonisation de la production des données culturelles s’appuie sur trois leviers : ➔ l’harmonisation des données (définition de modèles et partage des référentiels), ➔ le développement de l'usage des normes et des standards, ➔ l’harmonisation des processus de production
  • 17.
    HADOCHADOC  Réflexion encours sur la mise en œuvre d’un nouvel environnement de gestion des vocabulaires scientifiques et techniques  « L’objectif est de passer d'une approche où les vocabulaires contrôlés des différents métiers restent avant tout au service de la production de ressources documentaires dans un domaine ou une application, à la création d'un Référentiel terminologique unifié permettant d'offrir aux usagers un accès unique et cohérent aux ressources terminologiques produites par le Ministère et d'en démultiplier les usages » (Katell Briatte)  HADOC répond à un des besoins qui est de se doter d'un
  • 18.
    Outil de gestionen cours deOutil de gestion en cours de dé veloppementdé veloppement
  • 19.
    HADOC et l'outilde consultationHADOC et l'outil de consultation  Évolutions de l’outil de consultation  Aménagement en vue de l’intégration d’autres vocabulaires contrô lés du MCC (services du patrimoine et de l’architecture)  Affichage d’informations spécifiques sur la page de présentation de chaque référentiel  Affichage des concepts (propriétés SKOS, langues)  Affichage des alignements avec d’autres vocabulaires  Transformation des identifiants de concepts en identifiants pérennes de type ARK  Ajout d’une fonction de recherche simple
  • 20.
    Ré sultat d'unerechercheRé sultat d'une recherche
  • 21.
  • 22.
    Code RDF/XML duconceptCode RDF/XML du concept
  • 23.
    Expé rimentation surles alignementsExpé rimentation sur les alignements (1/3)(1/3)  DBPedia est un référentiel qui bouge beaucoup, souvent et qui est le produit de la réflexion d'une communauté  Pour la publication, quelques triplets concernant les concepts alignés avaient été extraits pour alimenter notre propre triple-store (les propriétés : terme, description, pageWeb)  permet l'indépendance et enrichit la description.  Avec le temps on observe des décalages entre les informations extraites et celles présentes dans DBPedia ; on peut :  soit passer à des interrogations dynamiques  soit mettre à jour régulièrement.
  • 24.
    Expé rimentation surles alignementsExpé rimentation sur les alignements (2/3)(2/3)  des identifiants qui n'existent pas (ou n'existent plus)  des identifiants qui n'ont plus d'autre propriété qu'une redirection vers un autre concept (wikiPageRedirects) dont la mise en oeuvre est transparente pour l'utilisateur humain.  des propriétés ambiguës ou peu fiables. Concepts à plusieurs termes  "Avortement" et "Interruption volontaire de grossesse"  "Siècle des lumières" "Aufklä rung"ou "Travail" et "Work". Dans le rdf de dbpedia les valeurs "Aufklä rung " et "Work" sont indiquées comme exprimées en franç ais.  "Cirque" et "La famille Morallès"
  • 25.
    Expé rimentation surles alignementsExpé rimentation sur les alignements (3/3)(3/3)  Conclusions  L'alignement demande à être réexaminé régulièrement.  L'extraction d'informations est difficilement automatisable.  Demande une relecture par un expert métier.
  • 26.
    Ré flexions surla structure du thé saurusRé flexions sur la structure du thé saurus  Parution de la nouvelle norme ISO 25964-1:2011 Thésaurus et interopérabilité avec d'autres vocabulaires -- Partie 1: Thésaurus pour la recherche documentaire  Monolingue et multilingue  Distinction concept / terme  Meilleures définitions des relations sémantiques (en particulier les relations hiérarchiques : générique/spécifiques, partitive, instance)  Gestion du statut des descripteurs et des mises à jour, ce que ne permet pas SKOS
  • 27.
    PerspectivesPerspectives  Le Thésauruspour l’indexation des archives locales relève plutôt d’une logique classificatoire et le positionnement des concepts dans la hiérarchie ne permet pas toujours de désambiguïser les synonymes, d’où un alignement très partiel avec les concepts représentés dans RAMEAU et dbpedia.  L'application de la norme obligerait à revoir nos relations, alors que l'usage qui est fait du thésaurus ne le nécessite pas.
  • 28.
    PerspectivesPerspectives  Destiné audépart pour répondre à un besoin spécifique (fournir aux services le thésaurus dans une forme structurée réutilisable) ce travail d'explicitation des relations sémantiques, d'exposition des données etc. permet d'envisager d'autres réutilisations du Thésaurus par d'autres communautés  L'usage initial est un thésaurus pour l'indexation  On est dans une autre logique de structuration qui est celle des ontologies (concepts représentés par des termes préférentiels et non préférentiels)  Cette évolution va peut être susciter d'autres usages hors