Jabes 2010 - Session plénière "Des autorités aux autorités enrichies : vers une liaison automatique sémantiquement contrôlée aux autorités Sudoc", Michel Leclère, LIRMM et Yann Nicolas, Abes, dans le cadre des Journées Abes 2010
Similaire à Jabes 2010 - Session plénière "Des autorités aux autorités enrichies : vers une liaison automatique sémantiquement contrôlée aux autorités Sudoc"
Signaler les Ressources continues dans le Sudoc - INHA, 29 janvier 2019ABES
Similaire à Jabes 2010 - Session plénière "Des autorités aux autorités enrichies : vers une liaison automatique sémantiquement contrôlée aux autorités Sudoc" (20)
Jabes 2010 - Session plénière "Des autorités aux autorités enrichies : vers une liaison automatique sémantiquement contrôlée aux autorités Sudoc"
1. Des autorités aux autorités enrichies :
vers une liaison automatique sémantiquement
contrôlée aux autorités Sudoc
Collaboration Abes/Lirmm dans le
cadre du TGE Adonis
Jabes 2010
2. Equipe Projet
• Equipe de recherche Graphik du LIRMM
– Equipe de recherche en informatique (UM2, CNRS, INRIA)
– Domaine : Représentation des connaissances et les raisonnements
(branche de l’intelligence artificielle)
– Spécificité : approche « réseau sémantique »
– Collaboration avec l’ABES : Michel Chein, Michel Leclère
• ABES
– Christophe Bonnefond
– Yann Nicolas
– Olivier Rousseaux
3. Contexte de la collaboration :
• Appel à projets Adonis :
plate-forme d’accès unifié aux données
• Verrous technologiques et scientifiques
– Unification des formats des méta-données
=> utilisation de RDF(S)
– Unification des vocabulaires de description des
méta-données
• Classes et Propriétés => Définition d’ontologies
• Entités individuelles => Pb de l’identification d’entité
4. Présentation
• Objectif général : Identifier des co-références à la même entité individuelle dans
deux notices bibliographiques
• Reconnaître dans différentes notices bibliographiques des réfèrences au même
document, même auteur, même sujet…
• Principe général : Utiliser la base d’autorités du Sudoc comme standard de
référencement de ces entités
– Reconnaître dans une notice des entités référencées dans la base d’autorités du Sudoc
pour ajouter dans cette notice l’identifiant Sudoc de cette entité : la liaison
• Objectif du projet : définir un service d’identification d’autorités
Autorités Sudoc
Entités référencées
dans une notice
…
…
Autorités Sudoc
5. La liaison aux autorités :
les différentes approches
• Liaison manuelle
– Soit un « terme » et un « type d’autorité », on recherche dans les
formes retenues ou rejetées les autorités correspondantes
– Pour chaque autorité, on propose les informations de la notice
d’autorités et des notices biblios liées
– L’annotateur sélectionne l’autorité « la plus pertinente » ou décide
d’en créer une nouvelle
• Liaison automatique par mesures de proximité
– Soit quelques attributs (ex. nom, prénom, dates pour les personnes)
sur l’autorité recherchée
– Pour chaque autorité, une mesure de « proximité » aux attributs
correspondants de l’autorité est calculée
– Le système sélectionne l’autorité « la plus proche » (avec seuil
minimal)
6. Approche « Connaissance »
Exploitation des informations présentes dans les notices
bibliographiques du Sudoc par des méthodes de
raisonnement issues de l’intelligence artificielle
1. Représenter le SUDOC en RDF(S)
2. Construire une base d’autorités enrichies
3. Définir des opérateurs de liaison sémantique aux autorités
7. Définition d’une ontologie formelle
pour les connaissances du Sudoc
• Fondée sur le modèle FRBRoo 1.0 (2009)
- Modélisation riche de l’univers bibliographique intégrant
les modèles FRBR et CIDOC CRM
• Formalisée en RDFS
• Etendue pour :
– Représenter des propriétés spécifiques sous-propriétés de
propriétés FRBRoo
– Séparer les entités conceptuelles des données les
référençant
• Un titre vs. une chaîne de caractères lue sur la couverture
– Représenter des propriétés associées aux notices (date,
origine, sources…) en plus de celles associées aux entités
8. Transformation des notices Unimarc en
annotation RDF : exemple d’autorité Personne
• Fiche Sudoc « brute » support à l’indexation
001A $0751062103:02-12-04
001B $0751062103:02-12-04$t11:43:29.000
001D $0751062103:02-12-04
001U $0utf8
001X $00
002@ $0Tp5
003@ $0XXXXXX36
010@ $S##$afre
012C $S##$a0$b1$c0
012E $S##$ab
019@ $S##$aFR
028A $S#1$40y$dChristian$aBernard
037F $S##$aDessinateur de bandes dessinées
047M $S##$aHépatite virale C ; ça craint ! / Dr Léo Py, Christian Bernard, 2003
• Fiche Sudoc interprétable par un utilisateur
No notice : XXXXXX36 Vedette Nom de personne
Forme retenue : Bernard, Christian Forme savante ou à valeur internationale
Pays : France
Langues : français
Notes : Dessinateur de bandes dessinées
Sources : Hépatite virale C ; ça craint ! / Dr Léo Py, Christian Bernard, 2003
• Annotation sémantique support aux raisonnements
(vision simplifiée RDF)
Notice : 36 Personne :aPropos
« Bernard, Christian »
Langue : fr
«Dessinateur… »
« Hépatite… / Dr. Léo Py,
Christian Bernard»
Pays : FR
9. Approche « Connaissance »
Exploitation des informations présentes dans les notices
bibliographiques du Sudoc par des méthodes de
raisonnement issues de l’intelligence artificielle
1. Représenter le SUDOC en RDF
2. Construire une base d’autorités enrichies
• Explicitant les connaissances présentes dans les notices d’autorité
• Les enrichissant par des inférences exploitant les liens aux notices
bibliographiques
3. Définir des opérateurs de liaison sémantique aux autorités
10. Les outils de l’enrichissement
• Règles d’inférences
Si connaissance observée alors ajouter nouvelle connaissance
– Exemple
• Fusion des entités liées à la même autorité
– Deux entités de même type repérées par le même
identifiant sont identiques
Manifestation :Personne:
thématique
sujet Matière :responsable
14. Intégration des connaissances
bibliographiques
Notice : 36 Personne :aPropos
« Bernard, Christian »
Langue : fr
langue
« Bernard»
« Christian»
Notice : 43 Manifestation :aPropos Langue : frlangue
Personne: Notice : 15
identifiéPar
2003
Personne: Notice : 36
identifiéPar
« Hépatite… / Dr. Léo Py,
Christian Bernard»
Matière : Notice : 87identifiéPar
15. Fusion des entités
Notice : 36 Personne :aPropos
« Bernard, Christian »
Langue : fr
langue
« Bernard»
« Christian»
Notice : 43 Manifestation :aPropos Langue : frlangue
Personne: Notice : 15
identifiéPar
2003
Personne: Notice : 36
identifiéPar
« Hépatite… / Dr. Léo Py,
Christian Bernard»
Matière : Notice : 87identifiéPar
16. Fusion des entités
Notice : 36 Personne :aPropos
« Bernard, Christian »
Langue : fr
langue
« Bernard»
« Christian»
Notice : 43 Manifestation :aPropos Langue : frlangue
Personne: Notice : 15
identifiéPar
2003
identifiéPar
« Hépatite… / Dr. Léo Py,
Christian Bernard»
Matière : Notice : 87identifiéPar
17. Enrichissement par inférences
Notice : 36 Personne :aPropos
« Bernard, Christian »
Langue : fr
langue
« Bernard»
« Christian»
Notice : 43 Manifestation :aPropos Langue : frlangue
Personne: Notice : 15
identifiéPar
2003
identifiéPar
« Hépatite… / Dr. Léo Py,
Christian Bernard»
Matière : Notice : 87identifiéPar
ManifestationPersonne
thématique
sujet Matière :responsable
18. Enrichissement par inférences
Notice : 36 Personne :aPropos
« Bernard, Christian »
Langue : fr
langue
« Bernard»
« Christian»
Notice : 43 Manifestation :aPropos Langue : frlangue
Personne: Notice : 15
identifiéPar
2003
identifiéPar
« Hépatite… / Dr. Léo Py,
Christian Bernard»
Matière : Notice : 87identifiéPar
ManifestationPersonne
thématique
sujet Matière :responsable
19. Obtention d’un autorité enrichie
Notice : 36 Personne :aPropos
« Bernard, Christian »
Langue : fr
langue
« Bernard»
« Christian»
Matière :
Manifestation :
« Hépatites»
« Hépatite»
« Foie -- Inflammation»
Personne :
« Léo» « Christian»
20. Approche « Connaissance »
Exploitation des informations présentes dans les notices
bibliographiques du Sudoc par des méthodes de
raisonnement issues de l’intelligence artificielle
1. Représenter le SUDOC en RDF
2. Construire une base de descripteurs sémantiques des
autorités Sudoc
3. Définir des opérateurs de liaison sémantique aux autorités
1. Identification par raisonnement des attributs à comparer
2. Sélection des autorités par requêtage sur la base des descripteurs
3. Contrôle de la cohérence globale du rapprochement des attributs
21. Outil pour l’identification des
attributs à comparer
• Définition d’un schéma de sélection par type d’autorité
• Partie obligatoire : les connaissances pour lesquelles une
correspondance forte doit exister avec l’autorité enrichie
• La partie obligatoire sélectionne des autorités candidates
• Partie additionnelle : les connaissances qui renforceront ou affaibliront
les rapprochements aux autorités candidates
• La partie additionnelle permet d’ordonner les autorités candidates
• Exemple : schéma pour les personnes
Personne :
Langue :
prénom
Sujet :
Manifestation :rôle
forme
Liaison 1
22. Identification des attributs à
comparer
• Enrichissement préalable de la
nouvelle notice
Thèse :
«Modelisation… »
Personne:
Matière : «Artificial Intelligence»forme
« Petit»
« Jean»
« Bernard»
« Christian»
Personne:
co-auteur
Liaison 1
25. Thèse :
«Modelisation… »
Personne:
Personne:
Matière : «Artificial Intelligence»forme
« Petit»
« Jean»
« Bernard»
« Christian»prénom
co-auteur
Identification des attributs
• Appariement du schéma de sélection
• Critère de classement obtenu
Liaison 1
Personne:
« Artificial Intelligence »Matière: forme
Thèse :
Notice : ? aPropos
26. Recherche des autorités candidates
• Recherche des notices qui satisfont la requête
de sélection
Liaison 2
Personne:
« Bernard»
« Christian»Notice : ?
aPropos
27. Recherche des autorités candidates
Notice : 36 Personne :aPropos
« Bernard, Christian »
Langue : fr
langue
« Bernard»
« Christian»
Matière :
Manifestation :
« Hépatites»
formeRejetée « Hépatite»
« Foie -- Inflammation»
Notice : 55 Personne :aPropos
« Bernard, Christian »
Langue : fr
langue
« Bernard»
« Christian»
Matière :
Thèse :
«Intelliigence artificielle»
formeRejetée « Machines Intelligentes»
Liaison 2
28. Classement des autorités
• La partie additionnelle est utilisée comme critère de
classement des autorités sélectionnés
– On mesure le coût de la transformation de l’autorité
enrichie pour qu’elle satisfasse la partie additionnelle
– L’utilisation de mesures de proximité entre données à
apparier permet d’affiner le classement
Notice : ? aPropos
Personne:
« Artificial Intelligence »Matière: forme
Thèse :
Liaison 2
29. Notice : 36 Personne :aPropos
« Bernard, Christian »
Langue : fr
langue
« Bernard»
« Christian»
Matière :
Manifestation :
« Hépatites»
formeRejetée « Hépatite»
« Foie -- Inflammation»
Notice : 55 Personne :aPropos
« Bernard, Christian »
Langue : fr
langue
« Bernard»
« Christian»
Matière :
Thèse :
«Intelligence artificielle»
formeRejetée « Machines Intelligentes»
Classement des autorités
Liaison 2
30. Notice : 36 Personne :aPropos
« Bernard, Christian »
Langue : fr
langue
« Bernard»
« Christian»
Matière :
Manifestation :
« Hépatites»
formeRejetée « Hépatite»
« Foie -- Inflammation»
Notice : 55 Personne :aPropos
« Bernard, Christian »
Langue : fr
langue
« Bernard»
« Christian»
Matière :
Thèse :
«Intelligence artificielle»
formeRejetée « Machines Intelligentes»
Classement des autorités
Liaison 2
32. Notice : 36 Personne :aPropos
« Bernard, Christian »
Langue : fr
langue
« Bernard»
« Christian»
Matière :
Manifestation :
« Hépatites»
formeRejetée « Hépatite»
« Foie -- Inflammation»
Notice : 55 Personne :aPropos
« Bernard, Christian »
Langue : fr
langue
« Bernard»
« Christian»
Matière :
Thèse :
«Intelligence artificielle»
formeRejetée « Machines Intelligentes»
Thèse :
Le second est privilégié
Classement des autorités
Liaison 2
33. Contrôle de la cohérence des liaisons
• Utilisation de contraintes sur les relations entre autorités
– Exemple : deux co-auteurs doivent avoir des dates, des langues…
cohérentes
• Sélection de combinaisons cohérentes d’autorités
– En fonction des connaissances contenues dans les autorités enrichies
sélectionnées
– Privilégiant les autorités les mieux classées
• Exemple :
– Si
• «Jean Petit», [a11, a41, a35]
• «Christian Bernard», [a55, a36]
• (a11,a55) et (a41,a55) et (a41,a36) co-auteurs incohérents
– Renvoyer («Jean Petit»,«Christian Bernard»),
[(a11, a36),(a35,a55),(a35,a36)]
Liaison 3
34. Travail en cours
• Poursuite du travail de formalisation et
transformation des différentes notices
• Définition des règles d’enrichissement
• Définition du schéma pour chaque type
d’autorité
• Expérimentations pour affiner les critères de
rapprochement
35. Perspectives
• Définition de correspondances avec d’autres
ontologies (Dublin Core, Bibo…) pour faciliter
l’intégration de notices externes
• Introduire le service d’identification d’autorité lors du
catalogage
• Extension à des procédures de gestion de la qualité
des autorités
– Suppression des doublons
– Identification d’erreurs de liaison