Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

JABES 2017 - Aligner, le signalement augmenté

93 vues

Publié le

Aligner, le signalement augmenté
Yann Nicolas
Journées ABES 2017

Publié dans : Formation
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

JABES 2017 - Aligner, le signalement augmenté

  1. 1. ALIGNER Le signalement augmenté
  2. 2. Aligner, en attendant Qualinca… • En attendant la fin (2016) et la concrétisation (2017-2018?) du projet Qualinca… • Solution • Maison • Provisoire • Partielle • Fiable
  3. 3. Données d’entrée à lier Référentiel de personnes - Candidats cibles en lice Nom(s) Nom(s) Nom(s) Elu ? Aligner
  4. 4. « Superautorité » Nom(s) Titre(s) Co-contributeur(s) + autres attributs Forme retenue Titre Contributeur(s) + autres attributs Titre Contributeur(s) + autres attributs Formes rejetées Dates Notice d’autorité Notices bibliographiques (1, n) Sujet(s) Sujet(s) Date Date Informations de la notice d’autorité enrichies par les notices bibliographiques liées Dates biblio Sujets Dates de vie . Persée . IdRef/Sudoc . IdHal . Etc.
  5. 5. Nom(s) Titre(s) Co-contributeur(s) + autres attributs Forme retenue Titre Contributeur(s) + autres attributs Titre Contributeur(s) + autres attributs Formes rejetées Dates Notice d’autorité Notices bibliographiques (1, n) Sujet(s) Sujet(s) Date Date Agrégation de plusieurs notices bibliographiques Dates biblio Sujets Dates de vie « Superautorité » Cluster de notices biblio (cluster)
  6. 6. Cibles Persée . Superautorités . ADUM . Toulouse2 . SAMPRA . OKINA . Lorraine Etc. . Annuaire de chercheurs (nom + équipe) HAL . Superautorités IdHAL . Notices bibliographiques CAIRN ebooks . Notices bibliographiques Sudoc ORCID . Superautorités Wiley (ISTEX) . Notices bibliographiques (articles) IdRef/Sudoc Superautorités : IdRef + Notices Sudoc (pour l’instant) ISNI Superautorités ORCID Superautorités Viaf Superautorités Wiley On aligne les données vers elles-mêmes = clusterisation Données à lier
  7. 7. Sudoc Processus d’alignement Rivière, Agnès Titre(s) Co-contributeur(s) + autres attributs IdRef Recherche floue Rivier, Agnès Titre(s) Co-contributeur(s) + autres attributs Rivière, Agnès Titre(s) Co-contributeur(s) + autres attributs Rivière, A. Titre(s) Co-contributeur(s) + autres attributs 3 candidats Comparaisons Elu ! Règles + détection des anomalies Données d’entrée à lier
  8. 8. Données d’entrée à lier Candidats cibles en lice Nom(s) Titre(s) Co-contributeur(s) + autres attributs Nom(s) Titre(s) Co-contributeur(s) + autres attributs Nom(s) Titre(s) Co-contributeur(s) + autres attributs
  9. 9. + autres attributs + autres attributs Co-contributeur(s) Titre(s) Co-contributeur(s) Titre(s) + autres attributs Co-contributeur(s) Titre(s) Rivière, A. Rivier, Agnès Rivière, Agnès 100 -50 Données d’entrée à lier
  10. 10. + autres attributs + autres attributs + autres attributs Co-contributeur(s) Nom(s) Co-contributeur(s) Nom(s) Co-contributeur(s) Nom(s) Œil de lynx Les soyeux, une vocation Histoire des soyeux -100 50 Terme rare en commun 100 Titres identiques Données d’entrée à lier Candidats cibles en lice
  11. 11. + autres attributs + autres attributs + autres attributs Nom(s) Titre(s) Titre(s) Nom(s) Titre(s) Nom(s) Données d’entrée à lier Candidats cibles en lice Smith, B. Smith, Barry M. Smith, Barry 100 100 !!??
  12. 12. Scénarios variés • Auteurs Persée • Points d’accès dans les notices d’Ebooks CAIRN • Mentions d’auteur dans les notices d’Articles Wiley (ISTEX)
  13. 13. Persée  IdRef Système d’information Persée Alignement Nom(s) Titre(s) Co-contributeur(s) + autres attributs Idpersée;idref Idpersée;idref Idpersée;idref … Fichier .txt « superautorité » Persée
  14. 14. Pour aider le Cercle Ebooks CAIRN (oct, 2016) Sudoc … … 70X $aNOM $bPRENOM … … … … 70X $3PPN … … Alignement 89% des points d’accès liés 5 000 ebooks (corpus facile…)
  15. 15. Auteurs d’articles Wiley (ISTEX) Plein de Robert Sullivan Clusterisation : même mail + nom identique ou proche Liage à ORCID En cours 11 millions de mentions d’auteur 400 000 liens vers 100 000 auteurs ORCID Alignement vers IdRef en cours (bcp moins)
  16. 16. Anomalies • Puces à l’oreille : • Deux candidats différents avec cocontributeurs ou titres qui matchent  2 types d’anomalie possibles : • doublons IdRef • mauvais lien SudocIdRef (= superautorité polluée) • On écarte ces cas  À corriger • Mais certaines anomalies dans les données sont silencieuses • Et causent de mauvais alignements (et impactent le taux de précision)   Problème profond pris en compte par Qualinca
  17. 17. Limites : Taux de précision < 100% • Création de quelques liens erronés • Mais taux de précision proche de 100% (variable selon les corpus) • égal voire supérieur au liage par les catalogueurs en situation réelle • Ces faux positifs • Ne sont pas dues au programme • Mais sont dus à des erreurs dans les données (doublons ou faux liens)  Qualinca
  18. 18. Limites : Taux de rappel < 100% • Vrais négatifs : la bonne autorité n’est pas dans IdRef • Dc : la créer dans IdRef ou lier vers une autre source ! • question stratégique ouverte ? • Faux négatifs : elle existe dans IdRef, mais on ne trouve pas la bonne autorité. Ou on la trouve mais on n’ose pas lier… • Prudence légitime • Que faire ? • Il faut plus d’attributs • Il faut des règles plus nombreuses et complexes • L’humain doit intervenir, pour les cas difficiles … mais avec quel outil ?  Qualinca

×