Tutoriel de 30' à l'aube, le second jour des journées ABES 2012.
Je vous rassure : la laideur de la page de titre est intentionnelle, à vocation pédagogique (trop long à vous expliquer).
5. Un archipel d’icebergs
• Les données sont cachées sous les pages HTML
(deep web)
• Seules les pages HTML sont liées entre elles
• Les pages HTML sont faites pour les humains
• Ce que veulent les machines, ce sont des
données
• et des données liées
– car elles se complètent les unes les autres
– car les liens permettent de naviguer et de découvrir
• Et des liens qualifiés, signifiants
– au-delà du « voir aussi » des hyperliens
6. Le web de données liées
Données Documents
Base de
données
Liens entre les Hyperlien
bases de données
Base de
données
7. Le web de données liées
Données Documents
Base de
données
Liens entre les Hyperlien
bases de données
Base de
données
8. Persée
Une base de données
DOCUMENTS
id auteur titre
doi :10.3406/mefr.1959.7458 auteur_mefr_1904 Retractatio
Lien interne à la base
AUTEURS
id nom
auteur_mefr_1904 Paul Veyne
9. Sudoc + IdRef
Une autre
base de données
LIVRES
id z7XX titrepropre editeur
068391307 027182800 Le Pain et le cirque Le Seuil
Lien interne à la base
PERSONNES
id nom personnetype
027182800 Veyne, Paul (1930-…. 0
10. DOCUMENTS #1 Comment lier
la donnée d’une base
id auteur titre à la donnée de l’autre base ?
doi :10.3406/mefr. auteur_mefr_1904 Retractatio
1959.7458
#2 Comment lier deux bases
AUTEURS qui n’ont pas le même schéma
id nom #3 Comment qualifier
auteur_mefr_1904 Paul Veyne
la nature de ce lien ?
#4 Comment faire tout ça sur
le Web, en surface ?
LIVRES
id z7XX titrepropre editeur
068391307 027182800 Le Pain et le Le Seuil
cirque
PERSONNES
est la même
id nom personnetype
entité que
027182800 Veyne, Paul (1930-…. 0
16. RDF = Graphes « Paul Veyne »
auteur_mefr_1904
doi:10.3406/
mefr.1959.7458
« Retractatio »
En RDF,
• une ressource (qch) est en relation avec
a telle relation avec
• soit une autre ressource qch qch
• soit un mot qch
a telle relation avec
« mot »
17. Nommer les relations « Paul Veyne »
auteur_mefr_1904
doi:10.3406/
mefr.1959.7458
« Retractatio »
Les relations (prédicats) ont un nom précis.
Ce nom est une URL. ex : dc:title = http://purl.org/dc/elements/1.1/title
rda:title | abes:title | isbd:title
18. Nommer les ressources « Paul Veyne »
http://www.per
see.fr/auteur_m
efr_1904/id
http://dx.doi.org/
doi:10.3406/
mefr.1959.7458
« Retractatio »
Les entités (ressources) ont un nom précis.
Ce nom est une URL. ex : http://dx.doi.org/doi:10.3406/mefr.1959.7458
ex : http://www.sudoc.fr/092673007/id
19. Des graphes aux triplets « Paul Veyne »
http://www.per
see.fr/auteur_m
efr_1904/id
http://dx.doi.org/
doi:10.3406/
mefr.1959.7458
« Retractatio »
Ecrire ce graphe
<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dc:title « Retractatio ».
<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dcterms:creator <http://www.persee.fr/auteur_mefr_1904/id>.
< http://www.persee.fr/auteur_mefr_1904/id > foaf:name « Paul Veyne »
Triplets RDF
20. 2 bases séparées « Paul Veyne »
http://www.per
see.fr/auteur_m
efr_1904/id
http://dx.doi.org/
doi:10.3406/
mefr.1959.7458
« Retractatio »
http://dx.doi.org/ truc:subject http://id.loc.gov/au skos:prefLabel
doi:10.3406/ thorities/subjects/s « Credit »
mefr.1959.7458 h85033856
Deux sites en RDF peuvent parler de la même chose – explicitement ici (même nom (URL)).
21. On agrège les 2 bases « Paul Veyne »
http://www.per
see.fr/auteur_me
fr_1904/id
http://dx.doi.org/ « Retractatio »
doi:10.3406/
mefr.1959.7458
http://id.loc.gov/au skos:prefLabel
thorities/subjects/s « Credit »
h85033856
L’agrégation des données est immédiate
Deux sites en RDF peuvent parler de la même chose.
Mais pas forcément de la même manière (pas de schéma ou de vocabulaire unique)
22. 2 bases séparées « Paul Veyne »
http://www.per
see.fr/auteur_m
efr_1904/id
http://dx.doi.org/
doi:10.3406/
mefr.1959.7458
« Retractatio »
truc:subject http://id.loc.gov/au skos:prefLabel
http://www.truc. « Credit »
thorities/subjects/s
co.nz/wyz123 h85033856
Deux sites en RDF peuvent parler de la même chose – implicitement ici (deux noms différents !)
Problème pour les agréger
23. 2 bases séparées « Paul Veyne »
http://www.per
see.fr/auteur_m
efr_1904/id
http://dx.doi.org/
doi:10.3406/
mefr.1959.7458
« Retractatio »
truc:subject http://id.loc.gov/au skos:prefLabel
http://www.truc. « Credit »
thorities/subjects/s
co.nz/wyz123 h85033856
http://dx.doi.org/
doi:10.3406/
mefr.1959.7458
Dire explicitement qu’il s’agit de la même entité avec owl:sameAs
24. On agrège les 2 bases « Paul Veyne »
owl:sameAs http://www.per
see.fr/auteur_me
fr_1904/id
http://dx.doi.org/
doi:10.3406/
mefr.1959.7458
« Retractatio »
http://id.loc.gov/au skos:prefLabel
http://www.truc. « Credit »
thorities/subjects/s
co.nz/wyz123 truc:subject h85033856
owl:sameAs
Grâce à owl:sameAS, la fusion est totale : tout ce qu’on dit de l’un est aussi vrai de l’autre
25. Paul Veyne dans le RDF de VIAF
http://viaf.org/viaf/108250528/rdf.xml
http://viaf.org
/viaf/108250528
Le Veyne
owl:sameAs
de VIAF
et
le Veyne
d’IdRef
ne font
qu’un
http://www.idref.fr
/027182800/id
26. On ajoute un peu de sémantique
truc:subject
http://id.loc.gov/au skos:prefLabel
http://www.truc. « Credit »
thorities/subjects/s
co.nz/wyz123 h85033856
rdfs:subPropertyOf Schémas RDF
truc:subject dcterms:subject
Ontologies
Le schéma RDF ajoute des informations sur le vocabulaire utilisé (propriétés des propriétés et
des classes)
Ce qui permet de faire du raisonnement
27. On en déduit que…
truc:subject
http://id.loc.gov/au skos:prefLabel
http://www.truc. « Credit »
thorities/subjects/s
co.nz/wyz123 h85033856
rdfs:subPropertyOf Schémas RDF
truc:subject dcterms:subject
Ontologies
http://www.truc.
dcterms:subject http://id.loc.gov/au
co.nz/wyz123
thorities/subjects/s Triplets déduits
h85033856
Le raisonnement permet d’ajouter des informations (triplets).
En l’occurrence, il permet d’exprimer automatiquement en Dublin Core un triplet qui utilisait
un vocabulaire truc non standard
34. Vertu Effet
RDF offre un modèle universel Inutile de chercher le format
qui permet d’exprimer toute miracle qui marchera pour
donnée, quelle que soit la le MARC du Sudoc et
norme de description. d’IdRef, le TEF de STAR,
Cela rend bien plus facile l’EAD de Calames, l’ONIX de
l’agrégation de données tel éditeur, le A++ de
diverses Springer (Lic. Nat.), le
Bloubiboulga de tel autre,
etc.
#abes #hubdedonnées #istex
35. Vertu Effet
RDF rend les données La notice d’autorité n’a pas
extensibles. besoin de tout stocker sur
une personne.
Il vaut mieux en dire le strict
nécessaire et faire des liens
vers d’autres sources (ex :
dictionnaires biographiques
… en RDF)
Idem pour les données
bibliographiques (prix,
recensions, influences, etc.)
#idref #ist #wikipedia #webofdata
36. Vertu Effet
RDF n’impose pas de schéma Devons-nous utiliser
unique. On peut mixer les RDA, Dublin Core ou un
vocabulaires vocabulaire bibliographique
à nous ?
On peut faire les trois.
On peut aussi utiliser un
vocabulaire dont le schéma
explicite ses relations avec
un vocabulaire standard
(cf. truc:subject et dcterms:subject)
#ouverturedesdonnées #hubdedonnées #istex
37. Vertu Effet
RDF permet de raisonner sur Dans le projet SudocAD, on a
les données, pour les essayé de déduire quelle
enrichir ou contrôler leur est la bonne autorité à lier à
cohérence une notice bibliographique
#hubdedonnées #sudocad #qualinca
38. En savoir plus
• Infos : http://punktokomo.abes.fr/tag/semantique-web/
• Outil : inspector.sindice.com
• Tutos : http://web-semantique.developpez.com/tutoriels/