Tutoriel sous la forme d'un pas à pas pour aligner des données avec Wikidata grâce à l'outil Open Refine. Dans ce tutoriel, les données alignées proviennent de la plateforme HAL récupérées via le Sparql endpoint.
Aligner vos données avec Wikidata grâce à l'outil Open Refine
1. Aligner vos données avec
Wikidata grâce à l’outil Open
Refine
Gautier Poupeau
gautier.poupeau@gmail.com
@lespetitescases
http://www.lespetitescases.net
2. Présentation de l’outil
Une analyse comparative : « Du problème de la qualité des données et de la manière de le résoudre... »
• Outil créé en par David Huynh et Stefano Mazzochi
au sein de la société Metaweb
• S’est appelé « Griworks » puis « Google Refine » et
enfin « Open Refine »
• Depuis 2012 dans la communauté
• La V3.0 est sortie officiellement le 16 septembre
2018 après plusieurs années sans sortie
• Très apprécié dans le monde des bibliothèques
• Open source
Pour télécharger l’outil http://openrefine.org/download.html
3. Les serveurs de réconciliation Open Refine
•Wikidata (avec étiquette en français) : https://tools.wmflabs.org/openrefine-
wikidata/fr/api
•ORCID http://refine.codefork.com/reconcile/orcid et
http://refine.codefork.com/reconcile/orcid/smartnames
• VIAF http://refine.codefork.com/reconcile/viaf
Outil de réconciliation
Objectif : Aligner les 300 auteurs appartenant à l’INRIA qui ont le plus de documents
dans HAL-INRIA avec leurs identifiants dans Wikidata, ORCID et VIAF
La requête SPARQL : https://data.archives-ouvertes.fr/sparql
PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
select ?person, ?name, ?same, count(?s) AS ?nbs where {?s dcterms:isPartOf
<https://hal.inria.fr/INRIA>; dcterms:creator ?creator.
?creator <http://data.archives-ouvertes.fr/schema/person> ?person. ?person foaf:name ?name.
OPTIONAL {?person owl:sameAs ?same. FILTER regex(str(?same),'orcid')}
}
GROUP BY ?person ?name ?same
ORDER BY DESC(?nbs)
LIMIT 300
https://bit.ly/2C3APY2
Et le tutoriel qui m’a servi de guide : https://medium.com/@seeksanusername/reconcilier-
une-liste-darchitecte-avec-wikidata-en-utilisant-openrefine-16819fbb2903
4. Aller sur l’IHM du sparql endpoint de HAL
https://data.archives-ouvertes.fr/sparql
5. Saisir la requête qui permet de retrouver les
personnes qui vous intéressent
29. Vous pouvez préciser une propriété
pour faciliter l’alignement
Une auto-complétion permet
de choisir sur quelle propriété
aligner les valeurs de la colonne
30. Quand tout est prêt, vous pouvez cliquer sur le
bouton « Start Reconciling »
31. Et le processus de réconciliation se
lance en tâche de fond…
32. Lorsque le processus est terminé, les entrées alignées
ont un lien et les autres ont des propositions
33. Pour choisir une proposition, il suffit
de cliquer sur la coche
En cliquant sur le
lien, vous pouvez
aller sur la pageEn cliquant sur la coche, vous
sélectionnez l’entrée