Des autorités aux autorités enrichies : vers une liaison automatique sémantiquement contrôlée aux autorités Sudoc Collaboration Abes/Lirmm dans le cadre du TGE Adonis Jabes 2010
Equipe Projet Equipe de recherche Graphik du LIRMM Equipe de recherche en informatique (UM2, CNRS, INRIA) Domaine : Représentation des connaissances et les raisonnements (branche de l’intelligence artificielle)  Spécificité : approche « réseau sémantique » Collaboration avec l’ABES : Michel Chein, Michel Leclère ABES Christophe Bonnefond Yann Nicolas Olivier Rousseaux
Contexte de la collaboration :  Appel à projets Adonis  : plate-forme d’accès unifié aux données Verrous technologiques et scientifiques Unification des formats des méta-données  =>  utilisation de RDF(S) Unification des vocabulaires de description des méta-données Classes et Propriétés =>  Définition d’ontologies Entités individuelles =>  Pb de l’identification d’entité
Présentation Objectif général : Identifier des co-références à  la même entité individuelle dans deux notices bibliographiques Reconnaître dans différentes notices bibliographiques des réfèrences au même document, même auteur, même sujet… Principe général : Utiliser la base d’autorités du Sudoc comme standard de référencement de ces entités Reconnaître dans une notice des entités référencées dans la base d’autorités du Sudoc pour ajouter dans cette notice l’identifiant Sudoc de cette entité :  la liaison Objectif du projet : définir un  service d’identification d’autorités Autorités Sudoc Entités référencées dans une notice … … Autorités Sudoc
La liaison aux autorités : les différentes approches Liaison manuelle Soit un « terme » et un « type d’autorité », on recherche dans les formes retenues ou rejetées les autorités correspondantes Pour chaque autorité, on propose les informations de la notice d’autorités et des notices biblios liées L’annotateur sélectionne l’autorité « la plus pertinente » ou décide d’en créer une nouvelle Liaison automatique par mesures de proximité Soit quelques attributs (ex. nom, prénom, dates pour les personnes) sur l’autorité recherchée Pour chaque autorité, une mesure de « proximité » aux attributs correspondants de l’autorité est calculée Le système sélectionne l’autorité « la plus proche » (avec seuil minimal)
Approche « Connaissance » Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle Représenter le SUDOC en RDF(S) Construire une base d’autorités enrichies Définir des opérateurs de liaison sémantique aux autorités
Définition d’une ontologie formelle pour les connaissances du Sudoc Fondée sur le modèle FRBRoo  1.0 (2009) Modélisation riche de l’univers bibliographique intégrant les modèles FRBR et CIDOC CRM Formalisée en RDFS Etendue  pour : Représenter des propriétés spécifiques sous-propriétés de propriétés FRBRoo Séparer les  entités conceptuelles  des  données  les référençant Un  titre  vs. une  chaîne de caractères  lue sur la couverture Représenter des propriétés associées aux notices  (date, origine, sources…)  en plus de celles associées aux entités
Transformation des notices Unimarc en annotation RDF :  exemple d’autorité Personne Fiche Sudoc « brute » support à l’indexation 001A $0751062103:02-12-04 001B $0751062103:02-12-04$t11:43:29.000 001D $0751062103:02-12-04 001U $0utf8 001X $00 002@ $0Tp5 003@ $0XXXXXX36 010@ $S##$afre 012C $S##$a0$b1$c0 012E $S##$ab 019@ $S##$aFR 028A $S#1$40y$dChristian$aBernard 037F $S##$aDessinateur de bandes dessinées 047M $S##$aHépatite virale C ; ça craint ! / Dr Léo Py, Christian Bernard, 2003 Fiche Sudoc interprétable par un utilisateur No notice : XXXXXX36 Vedette Nom de personne Forme retenue : Bernard, Christian Forme savante ou à valeur internationale Pays : France Langues : français Notes : Dessinateur de bandes dessinées Sources : Hépatite virale C ; ça craint ! / Dr Léo Py, Christian Bernard, 2003  Annotation sémantique support aux raisonnements (vision simplifiée RDF)   Notice : 36 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr Notes langue «Dessinateur… » «   Hépatite… / Dr. Léo Py, Christian Bernard » Sources Pays : FR pays
Approche « Connaissance » Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle Représenter le SUDOC en RDF Construire une base d’autorités enrichies Explicitant les connaissances présentes dans les notices d’autorité Les enrichissant par des inférences exploitant les liens aux notices bibliographiques Définir des opérateurs de liaison sémantique aux autorités
Les outils de l’enrichissement Règles d’inférences Si  connaissance observée  alors  ajouter nouvelle connaissance Exemple Fusion des entités liées à la même autorité Deux entités de même type repérées par le même identifiant sont identiques Manifestation : Personne:  thématique sujet Matière : responsable
Une notice d’autorité Notice : 36 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue
Explicitation des connaissances internes à un attribut Notice : 36 Personne :  aPropos «   Bernard, Christian » formeRetenueSavante Langue : fr langue
Explicitation des connaissances internes à un attribut Notice : 36 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom
Intégration des connaissances bibliographiques Notice : 36 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43 Manifestation : aPropos Langue : fr langue titre auteur date Personne:  Notice : 15 identifiéPar 2003 Personne:  Notice : 36 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière : Notice : 87 identifiéPar
Fusion des entités Notice : 36 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43 Manifestation : aPropos Langue : fr langue titre auteur date Personne:  Notice : 15 identifiéPar 2003 Personne:  Notice : 36 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière : Notice : 87 identifiéPar
Fusion des entités Notice : 36 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43 Manifestation : aPropos Langue : fr langue titre auteur date Personne:  Notice : 15 identifiéPar 2003 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière : Notice : 87 identifiéPar
Enrichissement par inférences Notice : 36 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43 Manifestation : aPropos Langue : fr langue titre auteur date Personne:  Notice : 15 identifiéPar 2003 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière : Notice : 87 identifiéPar Manifestation  Personne thématique sujet Matière : responsable
Enrichissement par inférences Notice : 36 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43 Manifestation : aPropos Langue : fr langue titre auteur date Personne:  Notice : 15 identifiéPar 2003 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière : Notice : 87 identifiéPar thématique Manifestation  Personne thématique sujet Matière : responsable
Obtention d’un autorité enrichie Notice : 36 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Personne : co-auteur « Léo» nom « Christian» prénom
Approche « Connaissance » Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle Représenter le SUDOC en RDF Construire une base de descripteurs sémantiques des autorités Sudoc Définir des opérateurs de liaison sémantique aux autorités Identification par raisonnement des attributs à comparer Sélection des autorités par requêtage sur la base des descripteurs Contrôle de la cohérence globale du rapprochement des attributs
Outil pour l’identification des attributs à comparer Définition d’un  schéma de sélection  par type d’autorité Partie obligatoire  :  les connaissances pour lesquelles une correspondance forte doit exister avec  l’autorité enrichie La partie obligatoire sélectionne des autorités candidates Partie additionnelle  : les connaissances qui renforceront ou affaibliront les rapprochements aux autorités candidates La partie additionnelle permet d’ordonner les autorités candidates Exemple : schéma pour les personnes Personne :  Langue : langue nom prénom Sujet : Manifestation : rôle thématique forme date Liaison 1
Identification des attributs à comparer Enrichissement  préalable de la nouvelle notice Thèse :  directeur «Modelisation… » titre auteur Personne:  Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom Personne:  Liaison 1 thématique thématique co-auteur
Identification des attributs Thèse :  directeur «Modelisation… » titre auteur Personne:  Personne:  Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique thématique Appariement du schéma de sélection Liaison 1 co-auteur
Requête de sélection obtenue Thèse :  directeur «Modelisation… » titre auteur Personne:  Personne:  Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique thématique Identification des attributs Appariement du schéma de sélection Liaison 1 co-auteur Personne:  « Bernard» nom « Christian» prénom Notice : ? aPropos
Thèse :  directeur «Modelisation… » titre auteur Personne:  Personne:  Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique thématique Identification des attributs Appariement du schéma de sélection Critère de classement obtenu Liaison 1 co-auteur Personne:  directeur « Artificial Intelligence » thématique Matière:  forme Thèse :  Notice : ? aPropos
Recherche des autorités candidates  Recherche des notices qui satisfont la requête de sélection Liaison 2 Personne:  « Bernard» nom « Christian» prénom Notice : ? aPropos
Recherche des autorités candidates  Liaison 2 Notice : 36 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelliigence artificielle» formeRejetée « Machines Intelligentes»
Classement des autorités La partie additionnelle est utilisée comme critère de classement des autorités sélectionnés On mesure le coût de la transformation de l’autorité enrichie  pour qu’elle satisfasse la partie additionnelle L’utilisation de mesures de proximité entre données à apparier permet d’affiner le classement Liaison 2 Notice : ?  aPropos Personne:  directeur « Artificial Intelligence » thématique Matière:  forme Thèse :
Classement des autorités Liaison 2 Notice : 36 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes»
Classement des autorités Liaison 2 Notice : 36 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes»
directeur Thèse :  Liaison 2 Notice : 36 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes»
directeur Thèse :  Le second est privilégié Classement des autorités Liaison 2 Notice : 36 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne :  aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes»
Contrôle de la cohérence des liaisons Utilisation de contraintes sur les relations entre autorités Exemple : deux co-auteurs doivent avoir des dates, des langues… cohérentes Sélection de combinaisons cohérentes d’autorités En fonction des connaissances contenues dans les autorités enrichies sélectionnées Privilégiant les autorités les mieux classées Exemple : Si «Jean Petit», [a11, a41, a35] «Christian Bernard», [a55, a36] (a11,a55) et (a41,a55) et (a41,a36) co-auteurs incohérents Renvoyer («Jean Petit»,«Christian Bernard»),    [(a11, a36),(a35,a55),(a35,a36)] Liaison 3
Travail en cours Poursuite du travail de formalisation et transformation des différentes notices Définition des règles d’enrichissement Définition du schéma pour chaque type d’autorité Expérimentations pour affiner les critères de rapprochement
Perspectives Définition de correspondances avec d’autres ontologies (Dublin Core, Bibo…) pour faciliter l’intégration de notices externes Introduire le service d’identification d’autorité lors du catalogage Extension à des procédures de gestion de la qualité des autorités Suppression des doublons Identification d’erreurs de liaison

Au dela des autorites du Sudoc

  • 1.
    Des autorités auxautorités enrichies : vers une liaison automatique sémantiquement contrôlée aux autorités Sudoc Collaboration Abes/Lirmm dans le cadre du TGE Adonis Jabes 2010
  • 2.
    Equipe Projet Equipede recherche Graphik du LIRMM Equipe de recherche en informatique (UM2, CNRS, INRIA) Domaine : Représentation des connaissances et les raisonnements (branche de l’intelligence artificielle) Spécificité : approche « réseau sémantique » Collaboration avec l’ABES : Michel Chein, Michel Leclère ABES Christophe Bonnefond Yann Nicolas Olivier Rousseaux
  • 3.
    Contexte de lacollaboration : Appel à projets Adonis : plate-forme d’accès unifié aux données Verrous technologiques et scientifiques Unification des formats des méta-données => utilisation de RDF(S) Unification des vocabulaires de description des méta-données Classes et Propriétés => Définition d’ontologies Entités individuelles => Pb de l’identification d’entité
  • 4.
    Présentation Objectif général: Identifier des co-références à la même entité individuelle dans deux notices bibliographiques Reconnaître dans différentes notices bibliographiques des réfèrences au même document, même auteur, même sujet… Principe général : Utiliser la base d’autorités du Sudoc comme standard de référencement de ces entités Reconnaître dans une notice des entités référencées dans la base d’autorités du Sudoc pour ajouter dans cette notice l’identifiant Sudoc de cette entité : la liaison Objectif du projet : définir un service d’identification d’autorités Autorités Sudoc Entités référencées dans une notice … … Autorités Sudoc
  • 5.
    La liaison auxautorités : les différentes approches Liaison manuelle Soit un « terme » et un « type d’autorité », on recherche dans les formes retenues ou rejetées les autorités correspondantes Pour chaque autorité, on propose les informations de la notice d’autorités et des notices biblios liées L’annotateur sélectionne l’autorité « la plus pertinente » ou décide d’en créer une nouvelle Liaison automatique par mesures de proximité Soit quelques attributs (ex. nom, prénom, dates pour les personnes) sur l’autorité recherchée Pour chaque autorité, une mesure de « proximité » aux attributs correspondants de l’autorité est calculée Le système sélectionne l’autorité « la plus proche » (avec seuil minimal)
  • 6.
    Approche « Connaissance » Exploitationdes informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle Représenter le SUDOC en RDF(S) Construire une base d’autorités enrichies Définir des opérateurs de liaison sémantique aux autorités
  • 7.
    Définition d’une ontologieformelle pour les connaissances du Sudoc Fondée sur le modèle FRBRoo 1.0 (2009) Modélisation riche de l’univers bibliographique intégrant les modèles FRBR et CIDOC CRM Formalisée en RDFS Etendue pour : Représenter des propriétés spécifiques sous-propriétés de propriétés FRBRoo Séparer les entités conceptuelles des données les référençant Un titre vs. une chaîne de caractères lue sur la couverture Représenter des propriétés associées aux notices (date, origine, sources…) en plus de celles associées aux entités
  • 8.
    Transformation des noticesUnimarc en annotation RDF : exemple d’autorité Personne Fiche Sudoc « brute » support à l’indexation 001A $0751062103:02-12-04 001B $0751062103:02-12-04$t11:43:29.000 001D $0751062103:02-12-04 001U $0utf8 001X $00 002@ $0Tp5 003@ $0XXXXXX36 010@ $S##$afre 012C $S##$a0$b1$c0 012E $S##$ab 019@ $S##$aFR 028A $S#1$40y$dChristian$aBernard 037F $S##$aDessinateur de bandes dessinées 047M $S##$aHépatite virale C ; ça craint ! / Dr Léo Py, Christian Bernard, 2003 Fiche Sudoc interprétable par un utilisateur No notice : XXXXXX36 Vedette Nom de personne Forme retenue : Bernard, Christian Forme savante ou à valeur internationale Pays : France Langues : français Notes : Dessinateur de bandes dessinées Sources : Hépatite virale C ; ça craint ! / Dr Léo Py, Christian Bernard, 2003  Annotation sémantique support aux raisonnements (vision simplifiée RDF)   Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr Notes langue «Dessinateur… » «  Hépatite… / Dr. Léo Py, Christian Bernard » Sources Pays : FR pays
  • 9.
    Approche « Connaissance » Exploitationdes informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle Représenter le SUDOC en RDF Construire une base d’autorités enrichies Explicitant les connaissances présentes dans les notices d’autorité Les enrichissant par des inférences exploitant les liens aux notices bibliographiques Définir des opérateurs de liaison sémantique aux autorités
  • 10.
    Les outils del’enrichissement Règles d’inférences Si connaissance observée alors ajouter nouvelle connaissance Exemple Fusion des entités liées à la même autorité Deux entités de même type repérées par le même identifiant sont identiques Manifestation : Personne: thématique sujet Matière : responsable
  • 11.
    Une notice d’autoritéNotice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue
  • 12.
    Explicitation des connaissancesinternes à un attribut Notice : 36 Personne : aPropos «   Bernard, Christian » formeRetenueSavante Langue : fr langue
  • 13.
    Explicitation des connaissancesinternes à un attribut Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom
  • 14.
    Intégration des connaissancesbibliographiques Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43 Manifestation : aPropos Langue : fr langue titre auteur date Personne: Notice : 15 identifiéPar 2003 Personne: Notice : 36 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière : Notice : 87 identifiéPar
  • 15.
    Fusion des entitésNotice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43 Manifestation : aPropos Langue : fr langue titre auteur date Personne: Notice : 15 identifiéPar 2003 Personne: Notice : 36 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière : Notice : 87 identifiéPar
  • 16.
    Fusion des entitésNotice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43 Manifestation : aPropos Langue : fr langue titre auteur date Personne: Notice : 15 identifiéPar 2003 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière : Notice : 87 identifiéPar
  • 17.
    Enrichissement par inférencesNotice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43 Manifestation : aPropos Langue : fr langue titre auteur date Personne: Notice : 15 identifiéPar 2003 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière : Notice : 87 identifiéPar Manifestation Personne thématique sujet Matière : responsable
  • 18.
    Enrichissement par inférencesNotice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Notice : 43 Manifestation : aPropos Langue : fr langue titre auteur date Personne: Notice : 15 identifiéPar 2003 identifiéPar illustrateur « Hépatite… / Dr. Léo Py, Christian Bernard» sujet Matière : Notice : 87 identifiéPar thématique Manifestation Personne thématique sujet Matière : responsable
  • 19.
    Obtention d’un autoritéenrichie Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Personne : co-auteur « Léo» nom « Christian» prénom
  • 20.
    Approche « Connaissance » Exploitationdes informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle Représenter le SUDOC en RDF Construire une base de descripteurs sémantiques des autorités Sudoc Définir des opérateurs de liaison sémantique aux autorités Identification par raisonnement des attributs à comparer Sélection des autorités par requêtage sur la base des descripteurs Contrôle de la cohérence globale du rapprochement des attributs
  • 21.
    Outil pour l’identificationdes attributs à comparer Définition d’un schéma de sélection par type d’autorité Partie obligatoire : les connaissances pour lesquelles une correspondance forte doit exister avec l’autorité enrichie La partie obligatoire sélectionne des autorités candidates Partie additionnelle : les connaissances qui renforceront ou affaibliront les rapprochements aux autorités candidates La partie additionnelle permet d’ordonner les autorités candidates Exemple : schéma pour les personnes Personne : Langue : langue nom prénom Sujet : Manifestation : rôle thématique forme date Liaison 1
  • 22.
    Identification des attributsà comparer Enrichissement préalable de la nouvelle notice Thèse : directeur «Modelisation… » titre auteur Personne: Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom Personne: Liaison 1 thématique thématique co-auteur
  • 23.
    Identification des attributsThèse : directeur «Modelisation… » titre auteur Personne: Personne: Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique thématique Appariement du schéma de sélection Liaison 1 co-auteur
  • 24.
    Requête de sélectionobtenue Thèse : directeur «Modelisation… » titre auteur Personne: Personne: Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique thématique Identification des attributs Appariement du schéma de sélection Liaison 1 co-auteur Personne: « Bernard» nom « Christian» prénom Notice : ? aPropos
  • 25.
    Thèse : directeur «Modelisation… » titre auteur Personne: Personne: Matière : sujet «Artificial Intelligence» forme « Petit» nom « Jean» prénom « Bernard» nom « Christian» prénom thématique thématique Identification des attributs Appariement du schéma de sélection Critère de classement obtenu Liaison 1 co-auteur Personne: directeur « Artificial Intelligence » thématique Matière: forme Thèse : Notice : ? aPropos
  • 26.
    Recherche des autoritéscandidates Recherche des notices qui satisfont la requête de sélection Liaison 2 Personne: « Bernard» nom « Christian» prénom Notice : ? aPropos
  • 27.
    Recherche des autoritéscandidates Liaison 2 Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelliigence artificielle» formeRejetée « Machines Intelligentes»
  • 28.
    Classement des autoritésLa partie additionnelle est utilisée comme critère de classement des autorités sélectionnés On mesure le coût de la transformation de l’autorité enrichie pour qu’elle satisfasse la partie additionnelle L’utilisation de mesures de proximité entre données à apparier permet d’affiner le classement Liaison 2 Notice : ? aPropos Personne: directeur « Artificial Intelligence » thématique Matière: forme Thèse :
  • 29.
    Classement des autoritésLiaison 2 Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes»
  • 30.
    Classement des autoritésLiaison 2 Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes»
  • 31.
    directeur Thèse : Liaison 2 Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes»
  • 32.
    directeur Thèse : Le second est privilégié Classement des autorités Liaison 2 Notice : 36 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Manifestation : illustrateur thématique formeRetenue « Hépatites» formeRejetée « Hépatite» « Foie -- Inflammation» formeRejetée Notice : 55 Personne : aPropos « Bernard, Christian » formeRetenueSavante Langue : fr langue « Bernard» nom « Christian» prénom Matière : Thèse : auteur thématique formeRetenue «Intelligence artificielle» formeRejetée « Machines Intelligentes»
  • 33.
    Contrôle de lacohérence des liaisons Utilisation de contraintes sur les relations entre autorités Exemple : deux co-auteurs doivent avoir des dates, des langues… cohérentes Sélection de combinaisons cohérentes d’autorités En fonction des connaissances contenues dans les autorités enrichies sélectionnées Privilégiant les autorités les mieux classées Exemple : Si «Jean Petit», [a11, a41, a35] «Christian Bernard», [a55, a36] (a11,a55) et (a41,a55) et (a41,a36) co-auteurs incohérents Renvoyer («Jean Petit»,«Christian Bernard»), [(a11, a36),(a35,a55),(a35,a36)] Liaison 3
  • 34.
    Travail en coursPoursuite du travail de formalisation et transformation des différentes notices Définition des règles d’enrichissement Définition du schéma pour chaque type d’autorité Expérimentations pour affiner les critères de rapprochement
  • 35.
    Perspectives Définition decorrespondances avec d’autres ontologies (Dublin Core, Bibo…) pour faciliter l’intégration de notices externes Introduire le service d’identification d’autorité lors du catalogage Extension à des procédures de gestion de la qualité des autorités Suppression des doublons Identification d’erreurs de liaison

Notes de l'éditeur

  • #24 Par sélection à partir du descripteur
  • #25 Par sélection à partir du descripteur
  • #26 Par sélection à partir du descripteur
  • #29 Par sélection à partir du descripteur