Quelques repères sur
le Web sémantique / Web de données
Bertrand Sajus
Ministère de la Culture et de la Communication
Département des programmes numériques
INTD, 05/04/2013
1989-1993 :
gestation du Web 
Quelques dates clés
2

1994 :
- World Wide Web Consortium
- T Berners-Lee : “ The Need
for Semantics in the Web ”

1995 : HTML 2.0

1996 : HTTP 1.0

2001 : “The Semantic Web”
T B-L, James Hendler and Ora Lassila,
Scientific American Magazine
2000-2005 :
Éclosion du Web 2.0

2006 Initiative W3C :
Linked Open Data

2004 :
RDF, OWL
 
2007
DBpedia
2008
SPARQL

2011
Schema.org

2006  :
- VIAF 
- Geonames

2011
data.bnf.fr
Dans l'expérience commune des internautes, le Web c'est d'abord des « pages HTML »
lisibles par des êtres humains et reliées entre elles par des hyperliens
Du Web des « pages HTML » au Web dit « sémantique »
3
Le Web sémantique est une extension du Web : il relie non pas des pages mais des
données et s'adresse d'abord à des machines





 





Cadre de description des Ressources
RDF Resource Description Framework
4
Norme fondamentale du Web sémantique (2004)
- R comme Resource :
pages, images, videos, toute chose matérielle ou immatérielle
- D comme Description :
… tout ce qui peut avoir une URI
les caractéristiques des ressources et leurs interrelations
- F comme Framework :
le modèle et la syntaxe de ces descriptions
L'unité de base du Web sémantique est le triplet RDF
Arc de Triomphe de l’Étoile Paris
est situé à
Sujet Prédicat Objet
Triplet RDF
5
Sujet Verbe ComplémentLangage naturel :
Triplet : ensemble constitué d'un sujet, d'un prédicat et d'un objet
Nœud Arc NœudGraphe :
 
http://viaf.org/viaf/44396537/
http://purl.org/dc/terms/creator
http://fr.dbpedia.org/page/Arc_de_triomphe_de_l%27%C3%89toile
Jean-François Chalgrin Arc de Triomphe de l’Étoile
est l'auteur de
URIs (Uniform Ressource Identifier)
Chaque partie de la déclaration peut être nommée, et donc identifiée de manière absolue
au plan mondial, par un URI :
http://viaf.org/viaf/44396537/
http://purl.org/dc/terms/creator
Utiliser le Web comme source de référentiels
Le Sujet est référencé
dans VIAF (Virtual
International Authority
File)
Le Prédicat est défini
dans le Dublin Core
(DMCI)
L'Objet est décrit dans
Wikipédia / DBpediahttp://fr.dbpedia.org/resource/Arc_de_triomphe_de_l'Étoile
Arc de Triomphe de l’Étoile Paris
est situé à
Jean-François Chalgrin
est
l'architecte
de
Académie des Beaux-Arts
est membre de
Graphe composé de 5 triplets interconnectés
La place de l'Etoile de nuit Photographie
est une
R
eprésente
8
Arc de Triomphe de l’Étoile Paris
est situé à
Jean-François Chalgrin
est
l'architecte
de
Académie des Beaux-Arts
est membre de
Enrichissement des données par liage
La place de l'Etoile de nuit Photographie
est une
R
eprésente
Site dédié à l'architecture du XIXe s.
9
Arc de Triomphe de l’Étoile Paris
est situé à
Jean-François Chalgrin
est
l'architecte
de
Académie des Beaux-Arts
est membre de
Liens profonds entre les corpus
La place de l'Etoile de nuit Photographie
est une
R
eprésente
Site dédié à l'architecture du XIXe s.
BDD biographique d'artistes néoclassiques
Plate-forme Web 2.0 d'échange de photos personnelles
10
Arc de Triomphe de l’ÉtoileJean-François Chalgrin
est l'architecte de
Les données ne sont pas spontanément interopérables
Site dédié à l'architecture du XIXe s.
BDD biographique d'artistes néoclassiques
Chalgrin, J-F. Académie des Beaux-Arts
est membre de
?
… D'où l'utilité de référentiels communs
Exemple : VIAF (Virtual International Authority File), pour les auteurs
Arc de Triomphe de l’Étoile Parisest situé à
http://viaf.org/viaf/44396537/
est
l'architecte
de
Académie des Beaux-Arts
est membre de
Site dédié à l'architecture du XIXe s.
BDD biographique d'artistes néoclassiques
SPARQL 
Le langage de requête : SPARQL Protocol and RDF Query Language
Conçu et promu par le W3C (2008, version 1.0)
Le langage de requête : SPARQL Protocol and RDF Query Language
Destiné à interroger les graphes RDF et en extraire des jeux de données :
Quelles sont les œuvres des membres de l'Académie des Beaux-Arts situées à Paris ?
Arc de Triomphe de l’Étoile Paris
est situé à
Jean-François Chalgrin
est
l'architecte
de
Académie des Beaux-Arts
est membre de
BDD biographique d'artistes néoclassiques
Site dédié à l'architecture du XIXe s.
13
Interconnexion des «Communautés»
Site dédié à l'architecture du XIXe s.
Communauté de spécialistes
de l'architecture
BDD biographique d'artistes néoclassiques
Communauté de spécialistes
du néoclacissisme
Plate-forme d'échange de photos personnelles
Communauté de photographes
amateurs
Data
14
Sorties des silos, les données traversent les frontières
Domaines
institutionnels
Sujets d'intérêt
Domaines
de connaissance
Espaces
linguistiques
Data
Territoires
géographiques
Circonscriptions
administratives
Aires
culturelles
15
Etc.
Tim Berners-Lee : « Le Web va changer de dimension »
La Recherche - 01/11/2007
Web sémantique vs Web de(s) données
16
Web de données = résultat de l'application des normes et recommandations
du "Web sémantique" aux données mises en ligne sur le Web
Web de données = immense graphe, indéfiniment extensible, composé de myriades
de triplets RDF
- Journal La Recherche : "Web sémantique, que signifie cette appellation ?"
- Tim Berners-Lee : "Le terme sémantique prête un peu à confusion (...) certains ont
pensé qu'il s'agissait d'un Web qui permettrait par exemple d'effectuer des recherches
sur Internet en posant des questions sous forme de phrases, en langage naturel.
Or ce n'est pas son but. En fait, nous aurions dû l'appeler dès le départ Web de données."
Le Web de données est un espace de connaissance mondial  :
17
- L'information est disponible à un niveau granulaire très fin (data)
- Elle est décrite selon un modèle de description commun (RDF)
- Les données sont fortement reliées entre elles (Linked Data)
- Elles sont analysables par des machines
Les 4 principes du Web de données
18
1) Toute ressource sur laquelle on veut faire porter une assertion doit être
identifiée par un URI (Uniform Ressource Identifier)
2) Tout URI doit être construit à partir du protocole HTTP ce qui permet d’y
accéder par des moyens numériques
3) L'utilisation d'un URI doit permettre de renvoyer des données aux formats
standards du Web sémantique : RDF... et non pas seulement du HTML
4) Les ressources doivent être le plus possible liées entres elles selon ces normes
Le Web de données et les « données ouvertes »

 
  
   
19
   
L'échelle des données ouvertes selon T. Berners-Lee :
Les données sont en ligne quel que soit leur format
Les données sont disponibles sous forme structurée (ex. : CSV, XML,
Excel, RDF)
Les données sont libres d'être exploitées juridiquement et
techniquement dans des formats non-propriétaires (pas d'Excel par
exemple)
Utilisation d'URIs pour identifier les données, de sorte que l'on puisse
pointer dessus
Les données sont liées à d'autres données pour fournir un contexte à ces
données
= Linked Open Data (LOD)
«1, 2,  3.0 », ça buzze, c'est commode et percutant
… mais c'est quand même très simplificateur...
Et le 3.0 dans tout ça ?
20
Web 1.0
Années 1990
= Web documentaire
Web 2.0
Années 2000
= Web social
Web 3.0
Années 2010
= Web de données
• semantic web
L'utilisation des notions "semantic web" (Web sémantique) et
"linked data" (Web de données) dans Google. Source : Google Trends
•linked data
L'essor du Web de données
2007 Dbpedia
21
Dbpedia première application grandeur nature du Web de données
LOD (Linked Open Data) Cloud, source lod-cloud.net/
Le Web de données comme écosystème de référentiels mondial
22
Dbpedia.org

Quelques repères sur le Web sémantique / Web de données

  • 1.
    Quelques repères sur leWeb sémantique / Web de données Bertrand Sajus Ministère de la Culture et de la Communication Département des programmes numériques INTD, 05/04/2013
  • 2.
    1989-1993 : gestation du Web  Quelquesdates clés 2  1994 : - World Wide Web Consortium - T Berners-Lee : “ The Need for Semantics in the Web ”  1995 : HTML 2.0  1996 : HTTP 1.0  2001 : “The Semantic Web” T B-L, James Hendler and Ora Lassila, Scientific American Magazine 2000-2005 : Éclosion du Web 2.0  2006 Initiative W3C : Linked Open Data  2004 : RDF, OWL   2007 DBpedia 2008 SPARQL  2011 Schema.org  2006  : - VIAF  - Geonames  2011 data.bnf.fr
  • 3.
    Dans l'expérience communedes internautes, le Web c'est d'abord des « pages HTML » lisibles par des êtres humains et reliées entre elles par des hyperliens Du Web des « pages HTML » au Web dit « sémantique » 3 Le Web sémantique est une extension du Web : il relie non pas des pages mais des données et s'adresse d'abord à des machines            
  • 4.
    Cadre de descriptiondes Ressources RDF Resource Description Framework 4 Norme fondamentale du Web sémantique (2004) - R comme Resource : pages, images, videos, toute chose matérielle ou immatérielle - D comme Description : … tout ce qui peut avoir une URI les caractéristiques des ressources et leurs interrelations - F comme Framework : le modèle et la syntaxe de ces descriptions
  • 5.
    L'unité de basedu Web sémantique est le triplet RDF Arc de Triomphe de l’Étoile Paris est situé à Sujet Prédicat Objet Triplet RDF 5 Sujet Verbe ComplémentLangage naturel : Triplet : ensemble constitué d'un sujet, d'un prédicat et d'un objet Nœud Arc NœudGraphe :  
  • 6.
    http://viaf.org/viaf/44396537/ http://purl.org/dc/terms/creator http://fr.dbpedia.org/page/Arc_de_triomphe_de_l%27%C3%89toile Jean-François Chalgrin Arcde Triomphe de l’Étoile est l'auteur de URIs (Uniform Ressource Identifier) Chaque partie de la déclaration peut être nommée, et donc identifiée de manière absolue au plan mondial, par un URI :
  • 7.
    http://viaf.org/viaf/44396537/ http://purl.org/dc/terms/creator Utiliser le Webcomme source de référentiels Le Sujet est référencé dans VIAF (Virtual International Authority File) Le Prédicat est défini dans le Dublin Core (DMCI) L'Objet est décrit dans Wikipédia / DBpediahttp://fr.dbpedia.org/resource/Arc_de_triomphe_de_l'Étoile
  • 8.
    Arc de Triomphede l’Étoile Paris est situé à Jean-François Chalgrin est l'architecte de Académie des Beaux-Arts est membre de Graphe composé de 5 triplets interconnectés La place de l'Etoile de nuit Photographie est une R eprésente 8
  • 9.
    Arc de Triomphede l’Étoile Paris est situé à Jean-François Chalgrin est l'architecte de Académie des Beaux-Arts est membre de Enrichissement des données par liage La place de l'Etoile de nuit Photographie est une R eprésente Site dédié à l'architecture du XIXe s. 9
  • 10.
    Arc de Triomphede l’Étoile Paris est situé à Jean-François Chalgrin est l'architecte de Académie des Beaux-Arts est membre de Liens profonds entre les corpus La place de l'Etoile de nuit Photographie est une R eprésente Site dédié à l'architecture du XIXe s. BDD biographique d'artistes néoclassiques Plate-forme Web 2.0 d'échange de photos personnelles 10
  • 11.
    Arc de Triomphede l’ÉtoileJean-François Chalgrin est l'architecte de Les données ne sont pas spontanément interopérables Site dédié à l'architecture du XIXe s. BDD biographique d'artistes néoclassiques Chalgrin, J-F. Académie des Beaux-Arts est membre de ?
  • 12.
    … D'où l'utilitéde référentiels communs Exemple : VIAF (Virtual International Authority File), pour les auteurs Arc de Triomphe de l’Étoile Parisest situé à http://viaf.org/viaf/44396537/ est l'architecte de Académie des Beaux-Arts est membre de Site dédié à l'architecture du XIXe s. BDD biographique d'artistes néoclassiques
  • 13.
    SPARQL  Le langage derequête : SPARQL Protocol and RDF Query Language Conçu et promu par le W3C (2008, version 1.0) Le langage de requête : SPARQL Protocol and RDF Query Language Destiné à interroger les graphes RDF et en extraire des jeux de données : Quelles sont les œuvres des membres de l'Académie des Beaux-Arts situées à Paris ? Arc de Triomphe de l’Étoile Paris est situé à Jean-François Chalgrin est l'architecte de Académie des Beaux-Arts est membre de BDD biographique d'artistes néoclassiques Site dédié à l'architecture du XIXe s. 13
  • 14.
    Interconnexion des «Communautés» Sitedédié à l'architecture du XIXe s. Communauté de spécialistes de l'architecture BDD biographique d'artistes néoclassiques Communauté de spécialistes du néoclacissisme Plate-forme d'échange de photos personnelles Communauté de photographes amateurs Data 14
  • 15.
    Sorties des silos,les données traversent les frontières Domaines institutionnels Sujets d'intérêt Domaines de connaissance Espaces linguistiques Data Territoires géographiques Circonscriptions administratives Aires culturelles 15 Etc.
  • 16.
    Tim Berners-Lee :« Le Web va changer de dimension » La Recherche - 01/11/2007 Web sémantique vs Web de(s) données 16 Web de données = résultat de l'application des normes et recommandations du "Web sémantique" aux données mises en ligne sur le Web Web de données = immense graphe, indéfiniment extensible, composé de myriades de triplets RDF - Journal La Recherche : "Web sémantique, que signifie cette appellation ?" - Tim Berners-Lee : "Le terme sémantique prête un peu à confusion (...) certains ont pensé qu'il s'agissait d'un Web qui permettrait par exemple d'effectuer des recherches sur Internet en posant des questions sous forme de phrases, en langage naturel. Or ce n'est pas son but. En fait, nous aurions dû l'appeler dès le départ Web de données."
  • 17.
    Le Web dedonnées est un espace de connaissance mondial  : 17 - L'information est disponible à un niveau granulaire très fin (data) - Elle est décrite selon un modèle de description commun (RDF) - Les données sont fortement reliées entre elles (Linked Data) - Elles sont analysables par des machines
  • 18.
    Les 4 principesdu Web de données 18 1) Toute ressource sur laquelle on veut faire porter une assertion doit être identifiée par un URI (Uniform Ressource Identifier) 2) Tout URI doit être construit à partir du protocole HTTP ce qui permet d’y accéder par des moyens numériques 3) L'utilisation d'un URI doit permettre de renvoyer des données aux formats standards du Web sémantique : RDF... et non pas seulement du HTML 4) Les ressources doivent être le plus possible liées entres elles selon ces normes
  • 19.
    Le Web dedonnées et les « données ouvertes »           19     L'échelle des données ouvertes selon T. Berners-Lee : Les données sont en ligne quel que soit leur format Les données sont disponibles sous forme structurée (ex. : CSV, XML, Excel, RDF) Les données sont libres d'être exploitées juridiquement et techniquement dans des formats non-propriétaires (pas d'Excel par exemple) Utilisation d'URIs pour identifier les données, de sorte que l'on puisse pointer dessus Les données sont liées à d'autres données pour fournir un contexte à ces données = Linked Open Data (LOD)
  • 20.
    «1, 2,  3.0 »,ça buzze, c'est commode et percutant … mais c'est quand même très simplificateur... Et le 3.0 dans tout ça ? 20 Web 1.0 Années 1990 = Web documentaire Web 2.0 Années 2000 = Web social Web 3.0 Années 2010 = Web de données
  • 21.
    • semantic web L'utilisationdes notions "semantic web" (Web sémantique) et "linked data" (Web de données) dans Google. Source : Google Trends •linked data L'essor du Web de données 2007 Dbpedia 21 Dbpedia première application grandeur nature du Web de données
  • 22.
    LOD (Linked OpenData) Cloud, source lod-cloud.net/ Le Web de données comme écosystème de référentiels mondial 22 Dbpedia.org