2. Plan
• Partir de ce qu’on connaît :
– Base de données + Web = web de données
• Vertus de RDF
• Champs de bataille
– Syntaxes
– Vocabulaires
– Workflows
– Agrégateurs
3. Le web de données,
c’est pas quoi ?
Base Web
Documents GED Le Web =
Web de documents
Données Base de données Web de données
4. Le Web, web de documents
Données Documents
Base de
données
Hyperlien
Base de
données
6. Un archipel d’icebergs
• Les données sont cachées sous les pages HTML
(deep web)
• Seules les pages HTML sont liées entre elles
• Les pages HTML sont faites pour les humains
• Ce que veulent les machines, ce sont des
données
• et des données liées
– car elles se complètent les unes les autres
– car les liens permettent de naviguer et de découvrir
• Et des liens qualifiés, signifiants
– au-delà du « voir aussi » des hyperliens
7. Le web de données liées
Données Documents
Base de
données
Liens entre les Hyperlien
bases de données
Base de
données
8. Le web de données liées
Données Documents
Base de
données
Liens entre les Hyperlien
bases de données
Base de
données
9. Persée
Une base de données
DOCUMENTS
id auteur titre
doi :10.3406/mefr.1959.7458 auteur_mefr_1904 Retractatio
Lien interne à la base
AUTEURS
id nom
auteur_mefr_1904 Paul Veyne
10. Sudoc + IdRef
Une autre
base de données
LIVRES
id z7XX titrepropre editeur
068391307 027182800 Le Pain et le cirque Le Seuil
Lien interne à la base
PERSONNES
id nom personnetype
027182800 Veyne, Paul (1930-…. 0
11. DOCUMENTS #1 Comment lier
la donnée d’une base
id auteur titre à la donnée de l’autre base ?
doi :10.3406/mefr. auteur_mefr_1904 Retractatio
1959.7458
#2 Comment lier deux bases
AUTEURS qui n’ont pas le même schéma
id nom #3 Comment qualifier
auteur_mefr_1904 Paul Veyne
la nature de ce lien ?
#4 Comment faire tout ça sur
le Web, en surface ?
LIVRES
id z7XX titrepropre editeur
068391307 027182800 Le Pain et le Le Seuil
cirque
PERSONNES
est la même
id nom personnetype
entité que
027182800 Veyne, Paul (1930-…. 0
17. RDF = Graphes « Paul Veyne »
auteur_mefr_1904
doi:10.3406/
mefr.1959.7458
« Retractatio »
En RDF,
• une ressource (qch) est en relation avec
a telle relation avec
• soit une autre ressource qch qch
• soit un mot qch
a telle relation avec
« mot »
18. Nommer les relations « Paul Veyne »
auteur_mefr_1904
doi:10.3406/
mefr.1959.7458
« Retractatio »
Les relations (prédicats) ont un nom précis.
Ce nom est une URL. ex : dc:title = http://purl.org/dc/elements/1.1/title
rda:title | abes:title | isbd:title
19. Nommer les ressources « Paul Veyne »
http://www.per
see.fr/auteur_m
efr_1904/id
http://dx.doi.org/
doi:10.3406/
mefr.1959.7458
« Retractatio »
Les entités (ressources) ont un nom précis.
Ce nom est une URL. ex : http://dx.doi.org/doi:10.3406/mefr.1959.7458
ex : http://www.sudoc.fr/092673007/id
20. Des graphes aux triplets « Paul Veyne »
http://www.per
see.fr/auteur_m
efr_1904/id
http://dx.doi.org/
doi:10.3406/
mefr.1959.7458
« Retractatio »
Ecrire ce graphe
<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dc:title « Retractatio ».
<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dcterms:creator <http://www.persee.fr/auteur_mefr_1904/id>.
< http://www.persee.fr/auteur_mefr_1904/id > foaf:name « Paul Veyne ».
Triplets RDF
21. 2 bases séparées « Paul Veyne »
http://www.per
see.fr/auteur_m
efr_1904/id
http://dx.doi.org/
doi:10.3406/
mefr.1959.7458
« Retractatio »
http://dx.doi.org/ truc:subject http://id.loc.gov/au skos:prefLabel
doi:10.3406/ thorities/subjects/s « Credit »
mefr.1959.7458 h85033856
Deux sites en RDF peuvent parler de la même chose – explicitement ici (même nom (URL)).
22. On agrège les 2 bases « Paul Veyne »
http://www.per
see.fr/auteur_me
fr_1904/id
http://dx.doi.org/ « Retractatio »
doi:10.3406/
mefr.1959.7458
http://id.loc.gov/au skos:prefLabel
thorities/subjects/s « Credit »
h85033856
L’agrégation des données est immédiate
Deux sites en RDF peuvent parler de la même chose.
Mais pas forcément de la même manière (pas de schéma ou de vocabulaire unique)
23. 2 bases séparées « Paul Veyne »
http://www.per
see.fr/auteur_m
efr_1904/id
http://dx.doi.org/
doi:10.3406/
mefr.1959.7458
« Retractatio »
truc:subject http://id.loc.gov/au skos:prefLabel
http://www.truc. « Credit »
thorities/subjects/s
co.nz/wyz123 h85033856
Deux sites en RDF peuvent parler de la même chose – implicitement ici (deux noms différents !)
Problème pour les agréger
24. 2 bases séparées « Paul Veyne »
http://www.per
see.fr/auteur_m
efr_1904/id
http://dx.doi.org/
doi:10.3406/
mefr.1959.7458
« Retractatio »
truc:subject http://id.loc.gov/au skos:prefLabel
http://www.truc. « Credit »
thorities/subjects/s
co.nz/wyz123 h85033856
http://dx.doi.org/
doi:10.3406/
mefr.1959.7458
Dire explicitement qu’il s’agit de la même entité avec owl:sameAs
25. On agrège les 2 bases « Paul Veyne »
owl:sameAs http://www.per
see.fr/auteur_me
fr_1904/id
http://dx.doi.org/
doi:10.3406/
mefr.1959.7458
« Retractatio »
http://id.loc.gov/au skos:prefLabel
http://www.truc. « Credit »
thorities/subjects/s
co.nz/wyz123 truc:subject h85033856
owl:sameAs
Grâce à owl:sameAS, la fusion est totale : tout ce qu’on dit de l’un est aussi vrai de l’autre
26. Paul Veyne dans le RDF de VIAF
http://viaf.org/viaf/108250528/rdf.xml
http://viaf.org
/viaf/108250528
Le Veyne
owl:sameAs
de VIAF
et
le Veyne
d’IdRef
ne font
qu’un
http://www.idref.fr
/027182800/id
27. On ajoute un peu de sémantique
rda:subject
http://id.loc.gov/au skos:prefLabel
http://www.truc. « Credit »
thorities/subjects/s
co.nz/wyz123 h85033856
rdfs:subPropertyOf Schémas RDF
rda:subject dcterms:subject
Ontologies
Le schéma RDF ajoute des informations sur le vocabulaire utilisé (propriétés des propriétés et
des classes)
Ce qui permet de faire du raisonnement
28. On en déduit que…
rda:subject
http://id.loc.gov/au skos:prefLabel
http://www.truc. « Credit »
thorities/subjects/s
co.nz/wyz123 h85033856
rdfs:subPropertyOf Schémas RDF
rda:subject dcterms:subject
Ontologies
http://www.truc.
dcterms:subject http://id.loc.gov/au
co.nz/wyz123
thorities/subjects/s Triplets déduits
h85033856
Le raisonnement permet d’ajouter des informations (triplets).
En l’occurrence, il permet d’exprimer automatiquement en Dublin Core un triplet qui utilisait
un vocabulaire truc non standard
33. Vertu Effet
RDF offre un modèle universel Inutile de chercher le format
qui permet d’exprimer toute miracle qui marchera pour
donnée, quelle que soit la le MARC du Sudoc et
norme de description. d’IdRef, le TEF de
Cela rend bien plus facile STAR, l’EAD de
l’agrégation de données Calames, l’ONIX de tel
diverses éditeur, le A++ de Springer
(Lic. Nat.), le Bloubiboulga
de tel autre, etc.
#abes #hubdedonnées
34. Vertu Effet
RDF n’impose pas de schéma Devons-nous utiliser RDA,
unique. On peut mixer les Dublin Core ou un
vocabulaires vocabulaire bibliographique
à nous ?
On peut faire les trois.
On peut aussi utiliser un
vocabulaire dont le schéma
explicite ses relations avec
un vocabulaire standard
(cf. truc:subject et dcterms:subject)
#ouverturedesdonnées #hubdedonnées
35. Vertu Effet
RDF rend les données La notice d’autorité n’a pas
extensibles. besoin de tout stocker sur
une personne.
Il vaut mieux en dire le strict
nécessaire et faire des liens
vers d’autres sources (ex :
dictionnaires biographiques
… en RDF)
Idem pour les données
bibliographiques (prix,
recensions, influences, etc.)
#idref #ist #wikipedia #webofdata
36. DOCUMENTS
id auteur titre
doi :10.3406/mefr. auteur_mefr_1904 Retractatio
1959.7458
AUTEURS
id nom
auteur_mefr_1904 Paul Veyne
LIVRES
id z7XX titrepropre editeur
068391307 027182800 Le Pain et le Le Seuil
cirque
PERSONNES
est la même
id nom personnetype
entité que
027182800 Veyne, Paul (1930-…. 0
37. id auteur type id titre type
doi :10.3406/mefr. auteur_mefr_1904 Document doi :10.3406/mef Retractatio Document
1959.7458 r.1959.7458
2 2
id nom type id sameAs
auteur_mefr_1904 Paul Veyne Personne
2 auteur_mefr_1904 027182800
1
On éclate nos bases ! Tel ID désigne la même entité
que tel autre ID
A la limite, 1 base = 1 triplet
068391307 titrepropre «Le Pain et le cirque» id S’applique à
id titrepropre
z7XX Personne
068391307 Le Pain et le
cirque
1
1 La relation z7XX porte toujours
id editeur id type sur des entités de type Personne.
068391307 Le Seuil 068391307 Livre
1 1 Donc, on peut en conclure que
027182800 est de type Personne.
id z7XX id nom
068391307 027182800 027182800 Veyne, Paul (1930-…. [Pas la peine de le dire,
1 1
on le déduit (Raisonnement)]
38. Vertu Effet
RDF permet de raisonner sur Dans le projet SudocAD, on a
les données, pour les essayé de déduire quelle
enrichir ou contrôler leur est la bonne autorité à lier à
cohérence une notice bibliographique.
#hubdedonnées #sudocad #qualinca
39. Vertu Effet
RDF a son propre langage SPARQL permet d’interroger
d’interrogation des les données telles qu’on les
données : SPARQL a modélisées – et non
l’inverse : modéliser de telle
manière pour pouvoir
interroger ceci ou cela
#marché #niche #ouvrezlesfenêtres
40. Les données
<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dc:title « Retractatio ».
<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dcterms:creator <http://www.persee.fr/auteur904/id>.
< http://www.persee.fr/auteur904/id > foaf:name « Paul Veyne ».
La requête
SELECT ?truc {
?truc dc:title « Retractatio ».
?truc dcterms:creator ?bidule.
? bidule foaf:name « Paul Veyne ».
}
La réponse
<http://dx.doi.org/doi:10.3406/mefr.1959.7458>
41. Vertu Effet
RDF, c’est pas réservé aux Les bibliothèques peuvent
bibliothécaires accéder à un marché
générique :
– Logiciels
– Services
– Ressources humaines
– Formations
– Consultants
#marché #niche #ouvrezlesfenêtres
43. Quelle(s) syntaxe(s) RDF ?
Différentes syntaxes possibles Ce qui compte
• RDF en XML • C’est le modèle (spo) et le
• RDF Ntriples contenu (tel vocabulaire…)
• RDF N3
• RDF Turtle • RDF dans la page web ou
• RDFa dans une autre page ?
• Microdata • Ou dans les deux ?
– Et alors, même contenu ou
variantes ?
• Excel-RDF ;)
#rdf #syntaxe #rdf #rdfa #microdata
44. Quel(s) vocabulaire(s) RDF ?
Différentes manières de dire la
même chose Questions ?
• dc:title • Utiliser un vocabulaire pro
• rda:title spécialisé (RDA, FRBRoo) ou
un vocabulaire « grand
– rda:titleProper
public (schema.org,
• schema:name Facebook Open Graph) ?
• og:title • Les deux (redondance, un
• Etc. peu, bcp…)
• En principe, un outil de
raisonnement peut passer
d’un vocabulaire à l’autre,
mais dans les faits…
#rdf #vocabulaires
45. Quel(s) vocabulaire(s) RDF dans quelle
syntaxe ? Un compromis possible
Côté cour Côté jardin
• Utiliser un vocabulaire • Utiliser les vocabulaires pro
grand public dans le RDF dans des pages dédiées aux
des pages HTML (RDFa) métadonnées (RDF/XML,
– Notamment pour les moteurs NTriples…)
de recherche comme Google
ou Yahoo
#rdf #vocabulaires
46. Workflows.
Du RDF à tous les étages ?
RDF pas partout Questions
• Ouverture des données OK • RDF juste pour l’extérieur ?
• Stockage des données ? • Technologies assez mures et
• Manipulation des données ? performantes pour
• Edition des données par un stockage, manipulation et
utilisateur professionnel ? recherche à grande échelle
?
• L’utilisateur professionnel
doit-il comprendre RDF ?
Jusqu’où ?
#rdf #technologies #formation
47.
48. Les grossistes du RDF
Acteurs
• Moteurs de recherche généralistes • La publication des
– Google (dont Freebase) métadonnées RDF peut et doit
– Yahoo être décentralisée (sources de
• Moteurs de recherche RDF référence)
généralistes
– Sindice • Mais il faut bien agréger pour
– FactForge – Recherche intégrée
• Moteur de recherche RDF – Enrichissement
spécialisé • Garder les données ouvertes
– Isidore
– Quelles conditions juridiques ?
• Hébergeur de données et de – Métadonnées de provenance
services
– Kasabi • Gérer les doublons de triplets
– Sindice – Provenance, confiance…
– Freebase
– Et autre data marketplaces cf
#rdf #opendata #centralisation #web
49. En savoir plus
• Infos : http://punktokomo.abes.fr/tag/semantique-web/
• Outil : inspector.sindice.com
• Tutos : http://web-semantique.developpez.com/tutoriels/