Les protocoles IIIF : présentation des potentialités
Quelques repères sur le Web sémantique / Web de données
1. Quelques repères sur
le Web sémantique / Web de données
Bertrand Sajus
Ministère de la Culture et de la Communication
Département des programmes numériques
INTD, 05/04/2013
2. 1989-1993 :
gestation du Web
Quelques dates clés
2
1994 :
- World Wide Web Consortium
- T Berners-Lee : “ The Need
for Semantics in the Web ”
1995 : HTML 2.0
1996 : HTTP 1.0
2001 : “The Semantic Web”
T B-L, James Hendler and Ora Lassila,
Scientific American Magazine
2000-2005 :
Éclosion du Web 2.0
2006 Initiative W3C :
Linked Open Data
2004 :
RDF, OWL
2007
DBpedia
2008
SPARQL
2011
Schema.org
2006 :
- VIAF
- Geonames
2011
data.bnf.fr
3. Dans l'expérience commune des internautes, le Web c'est d'abord des « pages HTML »
lisibles par des êtres humains et reliées entre elles par des hyperliens
Du Web des « pages HTML » au Web dit « sémantique »
3
Le Web sémantique est une extension du Web : il relie non pas des pages mais des
données et s'adresse d'abord à des machines
4. Cadre de description des Ressources
RDF Resource Description Framework
4
Norme fondamentale du Web sémantique (2004)
- R comme Resource :
pages, images, videos, toute chose matérielle ou immatérielle
- D comme Description :
… tout ce qui peut avoir une URI
les caractéristiques des ressources et leurs interrelations
- F comme Framework :
le modèle et la syntaxe de ces descriptions
5. L'unité de base du Web sémantique est le triplet RDF
Arc de Triomphe de l’Étoile Paris
est situé à
Sujet Prédicat Objet
Triplet RDF
5
Sujet Verbe ComplémentLangage naturel :
Triplet : ensemble constitué d'un sujet, d'un prédicat et d'un objet
Nœud Arc NœudGraphe :
7. http://viaf.org/viaf/44396537/
http://purl.org/dc/terms/creator
Utiliser le Web comme source de référentiels
Le Sujet est référencé
dans VIAF (Virtual
International Authority
File)
Le Prédicat est défini
dans le Dublin Core
(DMCI)
L'Objet est décrit dans
Wikipédia / DBpediahttp://fr.dbpedia.org/resource/Arc_de_triomphe_de_l'Étoile
8. Arc de Triomphe de l’Étoile Paris
est situé à
Jean-François Chalgrin
est
l'architecte
de
Académie des Beaux-Arts
est membre de
Graphe composé de 5 triplets interconnectés
La place de l'Etoile de nuit Photographie
est une
R
eprésente
8
9. Arc de Triomphe de l’Étoile Paris
est situé à
Jean-François Chalgrin
est
l'architecte
de
Académie des Beaux-Arts
est membre de
Enrichissement des données par liage
La place de l'Etoile de nuit Photographie
est une
R
eprésente
Site dédié à l'architecture du XIXe s.
9
10. Arc de Triomphe de l’Étoile Paris
est situé à
Jean-François Chalgrin
est
l'architecte
de
Académie des Beaux-Arts
est membre de
Liens profonds entre les corpus
La place de l'Etoile de nuit Photographie
est une
R
eprésente
Site dédié à l'architecture du XIXe s.
BDD biographique d'artistes néoclassiques
Plate-forme Web 2.0 d'échange de photos personnelles
10
11. Arc de Triomphe de l’ÉtoileJean-François Chalgrin
est l'architecte de
Les données ne sont pas spontanément interopérables
Site dédié à l'architecture du XIXe s.
BDD biographique d'artistes néoclassiques
Chalgrin, J-F. Académie des Beaux-Arts
est membre de
?
12. … D'où l'utilité de référentiels communs
Exemple : VIAF (Virtual International Authority File), pour les auteurs
Arc de Triomphe de l’Étoile Parisest situé à
http://viaf.org/viaf/44396537/
est
l'architecte
de
Académie des Beaux-Arts
est membre de
Site dédié à l'architecture du XIXe s.
BDD biographique d'artistes néoclassiques
13. SPARQL
Le langage de requête : SPARQL Protocol and RDF Query Language
Conçu et promu par le W3C (2008, version 1.0)
Le langage de requête : SPARQL Protocol and RDF Query Language
Destiné à interroger les graphes RDF et en extraire des jeux de données :
Quelles sont les œuvres des membres de l'Académie des Beaux-Arts situées à Paris ?
Arc de Triomphe de l’Étoile Paris
est situé à
Jean-François Chalgrin
est
l'architecte
de
Académie des Beaux-Arts
est membre de
BDD biographique d'artistes néoclassiques
Site dédié à l'architecture du XIXe s.
13
14. Interconnexion des «Communautés»
Site dédié à l'architecture du XIXe s.
Communauté de spécialistes
de l'architecture
BDD biographique d'artistes néoclassiques
Communauté de spécialistes
du néoclacissisme
Plate-forme d'échange de photos personnelles
Communauté de photographes
amateurs
Data
14
15. Sorties des silos, les données traversent les frontières
Domaines
institutionnels
Sujets d'intérêt
Domaines
de connaissance
Espaces
linguistiques
Data
Territoires
géographiques
Circonscriptions
administratives
Aires
culturelles
15
Etc.
16. Tim Berners-Lee : « Le Web va changer de dimension »
La Recherche - 01/11/2007
Web sémantique vs Web de(s) données
16
Web de données = résultat de l'application des normes et recommandations
du "Web sémantique" aux données mises en ligne sur le Web
Web de données = immense graphe, indéfiniment extensible, composé de myriades
de triplets RDF
- Journal La Recherche : "Web sémantique, que signifie cette appellation ?"
- Tim Berners-Lee : "Le terme sémantique prête un peu à confusion (...) certains ont
pensé qu'il s'agissait d'un Web qui permettrait par exemple d'effectuer des recherches
sur Internet en posant des questions sous forme de phrases, en langage naturel.
Or ce n'est pas son but. En fait, nous aurions dû l'appeler dès le départ Web de données."
17. Le Web de données est un espace de connaissance mondial :
17
- L'information est disponible à un niveau granulaire très fin (data)
- Elle est décrite selon un modèle de description commun (RDF)
- Les données sont fortement reliées entre elles (Linked Data)
- Elles sont analysables par des machines
18. Les 4 principes du Web de données
18
1) Toute ressource sur laquelle on veut faire porter une assertion doit être
identifiée par un URI (Uniform Ressource Identifier)
2) Tout URI doit être construit à partir du protocole HTTP ce qui permet d’y
accéder par des moyens numériques
3) L'utilisation d'un URI doit permettre de renvoyer des données aux formats
standards du Web sémantique : RDF... et non pas seulement du HTML
4) Les ressources doivent être le plus possible liées entres elles selon ces normes
19. Le Web de données et les « données ouvertes »
19
L'échelle des données ouvertes selon T. Berners-Lee :
Les données sont en ligne quel que soit leur format
Les données sont disponibles sous forme structurée (ex. : CSV, XML,
Excel, RDF)
Les données sont libres d'être exploitées juridiquement et
techniquement dans des formats non-propriétaires (pas d'Excel par
exemple)
Utilisation d'URIs pour identifier les données, de sorte que l'on puisse
pointer dessus
Les données sont liées à d'autres données pour fournir un contexte à ces
données
= Linked Open Data (LOD)
20. «1, 2, 3.0 », ça buzze, c'est commode et percutant
… mais c'est quand même très simplificateur...
Et le 3.0 dans tout ça ?
20
Web 1.0
Années 1990
= Web documentaire
Web 2.0
Années 2000
= Web social
Web 3.0
Années 2010
= Web de données
21. • semantic web
L'utilisation des notions "semantic web" (Web sémantique) et
"linked data" (Web de données) dans Google. Source : Google Trends
•linked data
L'essor du Web de données
2007 Dbpedia
21
Dbpedia première application grandeur nature du Web de données
22. LOD (Linked Open Data) Cloud, source lod-cloud.net/
Le Web de données comme écosystème de référentiels mondial
22
Dbpedia.org