ALIGNER
Le signalement augmenté
Aligner, en attendant Qualinca…
• En attendant la fin (2016) et la concrétisation (2017-2018?) du projet
Qualinca…
• Solution
• Maison
• Provisoire
• Partielle
• Fiable
Données d’entrée à lier
Référentiel de personnes
-
Candidats cibles en lice
Nom(s)
Nom(s)
Nom(s)
Elu
?
Aligner
« Superautorité »
Nom(s)
Titre(s)
Co-contributeur(s)
+ autres attributs
Forme retenue
Titre
Contributeur(s)
+ autres attributs
Titre
Contributeur(s)
+ autres attributs
Formes rejetées
Dates
Notice d’autorité
Notices bibliographiques (1, n)
Sujet(s) Sujet(s)
Date Date
Informations de la notice d’autorité enrichies
par les notices bibliographiques liées
Dates
biblio
Sujets
Dates
de vie
. Persée
. IdRef/Sudoc
. IdHal
. Etc.
Nom(s)
Titre(s)
Co-contributeur(s)
+ autres attributs
Forme retenue
Titre
Contributeur(s)
+ autres attributs
Titre
Contributeur(s)
+ autres attributs
Formes rejetées
Dates
Notice d’autorité
Notices bibliographiques (1, n)
Sujet(s) Sujet(s)
Date Date
Agrégation de plusieurs notices
bibliographiques
Dates
biblio
Sujets
Dates
de vie
« Superautorité »
Cluster de
notices biblio
(cluster)
Cibles
Persée . Superautorités
. ADUM
. Toulouse2
. SAMPRA
. OKINA
. Lorraine
Etc.
. Annuaire de chercheurs
(nom + équipe)
HAL . Superautorités IdHAL
. Notices bibliographiques
CAIRN ebooks . Notices bibliographiques
Sudoc
ORCID . Superautorités
Wiley (ISTEX) . Notices bibliographiques
(articles)
IdRef/Sudoc Superautorités :
IdRef + Notices Sudoc
(pour l’instant)
ISNI Superautorités
ORCID Superautorités
Viaf Superautorités
Wiley On aligne les données vers
elles-mêmes
= clusterisation
Données à lier
Sudoc
Processus d’alignement
Rivière, Agnès
Titre(s)
Co-contributeur(s)
+ autres attributs
IdRef
Recherche
floue
Rivier, Agnès
Titre(s)
Co-contributeur(s)
+ autres attributs
Rivière, Agnès
Titre(s)
Co-contributeur(s)
+ autres attributs
Rivière, A.
Titre(s)
Co-contributeur(s)
+ autres attributs
3 candidats
Comparaisons
Elu !
Règles +
détection des anomalies
Données d’entrée à lier
Données d’entrée à lier
Candidats cibles en lice
Nom(s)
Titre(s)
Co-contributeur(s)
+ autres attributs
Nom(s)
Titre(s)
Co-contributeur(s)
+ autres attributs
Nom(s)
Titre(s)
Co-contributeur(s)
+ autres attributs
+ autres attributs
+ autres attributs
Co-contributeur(s)
Titre(s)
Co-contributeur(s)
Titre(s)
+ autres attributs
Co-contributeur(s)
Titre(s)
Rivière, A.
Rivier, Agnès
Rivière, Agnès
100
-50
Données d’entrée à lier
+ autres attributs
+ autres attributs
+ autres attributs
Co-contributeur(s)
Nom(s)
Co-contributeur(s)
Nom(s)
Co-contributeur(s)
Nom(s)
Œil de lynx
Les soyeux, une
vocation
Histoire des soyeux
-100
50
Terme rare en commun
100
Titres identiques
Données d’entrée à lier
Candidats cibles en lice
+ autres attributs
+ autres attributs
+ autres attributs
Nom(s)
Titre(s)
Titre(s)
Nom(s)
Titre(s)
Nom(s)
Données d’entrée à lier
Candidats cibles en lice
Smith, B.
Smith, Barry M.
Smith, Barry
100
100
!!??
Scénarios variés
• Auteurs Persée
• Points d’accès dans les notices d’Ebooks CAIRN
• Mentions d’auteur dans les notices d’Articles Wiley (ISTEX)
Persée  IdRef
Système d’information
Persée
Alignement
Nom(s)
Titre(s)
Co-contributeur(s)
+ autres attributs
Idpersée;idref
Idpersée;idref
Idpersée;idref
…
Fichier .txt
« superautorité » Persée
Pour aider le Cercle Ebooks CAIRN (oct, 2016)
Sudoc
…
…
70X $aNOM $bPRENOM
…
…
…
…
70X $3PPN
…
… Alignement
89% des points d’accès liés
5 000 ebooks
(corpus facile…)
Auteurs d’articles Wiley (ISTEX)
Plein de Robert Sullivan
Clusterisation : même mail +
nom identique ou proche
Liage à ORCID En cours
11 millions de mentions d’auteur
400 000 liens vers 100 000 auteurs ORCID
Alignement vers IdRef en cours (bcp moins)
Anomalies
• Puces à l’oreille :
• Deux candidats différents avec cocontributeurs ou titres qui matchent
 2 types d’anomalie possibles :
• doublons IdRef
• mauvais lien SudocIdRef (= superautorité polluée)
• On écarte ces cas
 À corriger
• Mais certaines anomalies dans les données sont silencieuses
• Et causent de mauvais alignements (et impactent le taux de précision) 
 Problème profond pris en compte par Qualinca
Limites : Taux de précision < 100%
• Création de quelques liens erronés
• Mais taux de précision proche de 100% (variable selon les corpus)
• égal voire supérieur au liage par les catalogueurs en situation réelle
• Ces faux positifs
• Ne sont pas dues au programme
• Mais sont dus à des erreurs dans les données (doublons ou faux liens)
 Qualinca
Limites : Taux de rappel < 100%
• Vrais négatifs : la bonne autorité n’est pas dans IdRef
• Dc : la créer dans IdRef ou lier vers une autre source !
• question stratégique ouverte ?
• Faux négatifs : elle existe dans IdRef, mais on ne trouve pas la bonne
autorité. Ou on la trouve mais on n’ose pas lier…
• Prudence légitime
• Que faire ?
• Il faut plus d’attributs
• Il faut des règles plus nombreuses et complexes
• L’humain doit intervenir, pour les cas difficiles … mais avec quel outil ?
 Qualinca

JABES 2017 - Aligner, le signalement augmenté

  • 1.
  • 2.
    Aligner, en attendantQualinca… • En attendant la fin (2016) et la concrétisation (2017-2018?) du projet Qualinca… • Solution • Maison • Provisoire • Partielle • Fiable
  • 3.
    Données d’entrée àlier Référentiel de personnes - Candidats cibles en lice Nom(s) Nom(s) Nom(s) Elu ? Aligner
  • 4.
    « Superautorité » Nom(s) Titre(s) Co-contributeur(s) +autres attributs Forme retenue Titre Contributeur(s) + autres attributs Titre Contributeur(s) + autres attributs Formes rejetées Dates Notice d’autorité Notices bibliographiques (1, n) Sujet(s) Sujet(s) Date Date Informations de la notice d’autorité enrichies par les notices bibliographiques liées Dates biblio Sujets Dates de vie . Persée . IdRef/Sudoc . IdHal . Etc.
  • 5.
    Nom(s) Titre(s) Co-contributeur(s) + autres attributs Formeretenue Titre Contributeur(s) + autres attributs Titre Contributeur(s) + autres attributs Formes rejetées Dates Notice d’autorité Notices bibliographiques (1, n) Sujet(s) Sujet(s) Date Date Agrégation de plusieurs notices bibliographiques Dates biblio Sujets Dates de vie « Superautorité » Cluster de notices biblio (cluster)
  • 6.
    Cibles Persée . Superautorités .ADUM . Toulouse2 . SAMPRA . OKINA . Lorraine Etc. . Annuaire de chercheurs (nom + équipe) HAL . Superautorités IdHAL . Notices bibliographiques CAIRN ebooks . Notices bibliographiques Sudoc ORCID . Superautorités Wiley (ISTEX) . Notices bibliographiques (articles) IdRef/Sudoc Superautorités : IdRef + Notices Sudoc (pour l’instant) ISNI Superautorités ORCID Superautorités Viaf Superautorités Wiley On aligne les données vers elles-mêmes = clusterisation Données à lier
  • 7.
    Sudoc Processus d’alignement Rivière, Agnès Titre(s) Co-contributeur(s) +autres attributs IdRef Recherche floue Rivier, Agnès Titre(s) Co-contributeur(s) + autres attributs Rivière, Agnès Titre(s) Co-contributeur(s) + autres attributs Rivière, A. Titre(s) Co-contributeur(s) + autres attributs 3 candidats Comparaisons Elu ! Règles + détection des anomalies Données d’entrée à lier
  • 8.
    Données d’entrée àlier Candidats cibles en lice Nom(s) Titre(s) Co-contributeur(s) + autres attributs Nom(s) Titre(s) Co-contributeur(s) + autres attributs Nom(s) Titre(s) Co-contributeur(s) + autres attributs
  • 9.
    + autres attributs +autres attributs Co-contributeur(s) Titre(s) Co-contributeur(s) Titre(s) + autres attributs Co-contributeur(s) Titre(s) Rivière, A. Rivier, Agnès Rivière, Agnès 100 -50 Données d’entrée à lier
  • 10.
    + autres attributs +autres attributs + autres attributs Co-contributeur(s) Nom(s) Co-contributeur(s) Nom(s) Co-contributeur(s) Nom(s) Œil de lynx Les soyeux, une vocation Histoire des soyeux -100 50 Terme rare en commun 100 Titres identiques Données d’entrée à lier Candidats cibles en lice
  • 11.
    + autres attributs +autres attributs + autres attributs Nom(s) Titre(s) Titre(s) Nom(s) Titre(s) Nom(s) Données d’entrée à lier Candidats cibles en lice Smith, B. Smith, Barry M. Smith, Barry 100 100 !!??
  • 12.
    Scénarios variés • AuteursPersée • Points d’accès dans les notices d’Ebooks CAIRN • Mentions d’auteur dans les notices d’Articles Wiley (ISTEX)
  • 13.
    Persée  IdRef Systèmed’information Persée Alignement Nom(s) Titre(s) Co-contributeur(s) + autres attributs Idpersée;idref Idpersée;idref Idpersée;idref … Fichier .txt « superautorité » Persée
  • 14.
    Pour aider leCercle Ebooks CAIRN (oct, 2016) Sudoc … … 70X $aNOM $bPRENOM … … … … 70X $3PPN … … Alignement 89% des points d’accès liés 5 000 ebooks (corpus facile…)
  • 15.
    Auteurs d’articles Wiley(ISTEX) Plein de Robert Sullivan Clusterisation : même mail + nom identique ou proche Liage à ORCID En cours 11 millions de mentions d’auteur 400 000 liens vers 100 000 auteurs ORCID Alignement vers IdRef en cours (bcp moins)
  • 16.
    Anomalies • Puces àl’oreille : • Deux candidats différents avec cocontributeurs ou titres qui matchent  2 types d’anomalie possibles : • doublons IdRef • mauvais lien SudocIdRef (= superautorité polluée) • On écarte ces cas  À corriger • Mais certaines anomalies dans les données sont silencieuses • Et causent de mauvais alignements (et impactent le taux de précision)   Problème profond pris en compte par Qualinca
  • 17.
    Limites : Tauxde précision < 100% • Création de quelques liens erronés • Mais taux de précision proche de 100% (variable selon les corpus) • égal voire supérieur au liage par les catalogueurs en situation réelle • Ces faux positifs • Ne sont pas dues au programme • Mais sont dus à des erreurs dans les données (doublons ou faux liens)  Qualinca
  • 18.
    Limites : Tauxde rappel < 100% • Vrais négatifs : la bonne autorité n’est pas dans IdRef • Dc : la créer dans IdRef ou lier vers une autre source ! • question stratégique ouverte ? • Faux négatifs : elle existe dans IdRef, mais on ne trouve pas la bonne autorité. Ou on la trouve mais on n’ose pas lier… • Prudence légitime • Que faire ? • Il faut plus d’attributs • Il faut des règles plus nombreuses et complexes • L’humain doit intervenir, pour les cas difficiles … mais avec quel outil ?  Qualinca