Le Web de données
Une (courte) introduction
Master TRIED
Nicolas Larrousse - 2015
Les données et metadonnées sur le Web
Du...
Avant le commencement …
Article « As we may think »
Comment gérer les montagnes de documents (livres, publications …)
Retr...
Au commencement … Internet
• Adressage IP & Routage par paquets
• Protocoles de transport … TCP/IP (1978)
• DNS (1983)
• P...
Au commencement … le Web
• Notion d’Hypertexte
• Extension à internet
• Définition du langage HTML, du protocole HTTP
• Na...
Au commencement … le Web
…
Un web de documents liés par des ancres
…
…
…
…
« Hyper Texte »
« Ancre »
« Hyper Media»
…
…
Li...
Au commencement … le Web
Un mécanisme simple
Serveur
Pages statiques
Pages générées (php, java …
interrogation de SGBDR)
C...
Le contenu du Web
Riche en nombre mais pauvre en description
• Peu ou pas de description normalisée du contenu
• Peu ou pa...
XML - une proposition de structuration
Un langage de structuration
&
Des outils
(contrôle, recherche …)
<?xml version="1.0...
XML - Séparer le fond et la forme
21:00
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE SEANCES SYSTEM "seances.dtd">
<SE...
XML … suite
• Permet une adaptation (eXtensible) à tout type/modèle de
données structurées
• Permet un contrôle syntaxique...
Comment représenter la(es) connaissance(s) ?
De la sémantique pour le Web :
Représenter le(s) modèle(s) du monde de chacun...
Mise en œuvre des triplets pour/sur le Web
La notion d’URI
Sujet Objet
Prédicat
Tim Berners Lee est né à Londres
Comment r...
Mise en œuvre des triplets sur le Web
Tout est URI
Sujet Objet
Prédicat
Tim Berners Lee est né à Londres
Prédicat
Objet
Il...
Un exemple d’Ontologie
Voir Linked Open Vocabularies http://lov.okfn.org/dataset/lov/
Foaf : Friend of a Friend
Un exemple de représentation
Tim Berners-Lee est de type ”Personne”
Tim Berners-Lee a pour nom ”Timothy Berners-Lee”
Tim B...
Représentation de RDF en XML ou « sérialisation »
<rdf:RDF
xmlns:foaf="http://xmlns.com/foaf/0.1/"
xmlns:rdf="http://www.w...
Le langage d’interrogation SPARQL
SELECT *
WHERE
{
?Un_sujet <URI_Predicat> <URI_objet>
}
Un langage de recherche de tripl...
Le web sémantique et de données
Un modèle de graphe de triplets : RDF
Le Web : URIs, URLs, HTTP etc.
Un modèle auto-descri...
Un entrepôt utile
Le projet « DbPedia »
Relier les données de différents entrepôts
Le « Linked Open Data »
Site Enrichi
L’exemple de JocondeLab
Prochain SlideShare
Chargement dans…5
×

ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)

823 vues

Publié le

Cette conférence de Nicolas Larrousse (Huma-Num) s'inscrit dans le cadre de l'atelier doctoral (ATED) soutenu par le LabexMed qui se positionne comme acteur de la recherche internationale, des pratiques interdisciplinaires et de la promotion des Digital Humanities dans le champ des études méditerranéennes. il est organisé en collaboration avec les laboratoires TELEMME , IREMAM, LAMES,IRMC et le Pôle Images/Sons, pratiques du numérique de la MMSH. L’atelier a l’ambition de constituer un réseau d’études doctorales et de créer les conditions d’une communauté collaborative dynamique autour des Digital Humanities sur l’aire méditerranéenne.
Voir http://imageson.hypotheses.org/2054

Publié dans : Internet
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
823
Sur SlideShare
0
Issues des intégrations
0
Intégrations
274
Actions
Partages
0
Téléchargements
3
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)

  1. 1. Le Web de données Une (courte) introduction Master TRIED Nicolas Larrousse - 2015 Les données et metadonnées sur le Web Du web de documents au web de données ATED Tunis Juin 2015 Nicolas Larrousse
  2. 2. Avant le commencement … Article « As we may think » Comment gérer les montagnes de documents (livres, publications …) Retrouver ceux qui sont utiles et ceux qui leur sont liés MemEx (MemoryExpander) 1945 : Vannevar Bush Article « Complex information processing: a file structure for the complex, the changing and the indeterminate » Gérer l’évolution constante de l’information ELF (Executable and Linking Format) 1965 : Ted Nelson
  3. 3. Au commencement … Internet • Adressage IP & Routage par paquets • Protocoles de transport … TCP/IP (1978) • DNS (1983) • Protocoles pour les applications … Mail, FTP (1974/75) Machine @IP TCP/IP Machine Machine Machine Machine @IP @IP @IP @IP FTP, Mail DNS Nom -> @IP Nom -> @IP Nom -> @IP 1970-1980 V. Cerf, L. Pouzin, P. Mokapetris …
  4. 4. Au commencement … le Web • Notion d’Hypertexte • Extension à internet • Définition du langage HTML, du protocole HTTP • Navigateurs (Mosaic, Netscape, IE) • Recherche (Altavista … fin de Gopher, Wais) « Information management: a proposal» 1994 –W3C - http://www.w3.org 1990 : Tim Berners Lee « The Mesh »
  5. 5. Au commencement … le Web … Un web de documents liés par des ancres … … … … « Hyper Texte » « Ancre » « Hyper Media» … … Liste des entrées au CERN
  6. 6. Au commencement … le Web Un mécanisme simple Serveur Pages statiques Pages générées (php, java … interrogation de SGBDR) Client (navigateur) Requête GET à une URL Décodage & Affichage HTML Flux HTML Requête HTTP Notion d’URL Java script … XML … ressource • 1995 HTML 2 (première évolution, formulaire …) • 1997 HTML 3 (applets, scripts, feuilles de style …) • 1999 HTML 4 (internationalisation, multimedia, scripts …) • > 2010 HTML5 Le web devient « inscriptible » La page devient « calcul »
  7. 7. Le contenu du Web Riche en nombre mais pauvre en description • Peu ou pas de description normalisée du contenu • Peu ou pas de description structurée • Peu exploitable par une machine -> Les moteurs de recherche fonctionnent « en aveugle » • Les bases de données ne sont pas accessibles de manière normalisée mais par le programme qui les propose • Il est nécessaire de connaître la structure et l’organisation des données pour les utiliser Pages HTML & autres ressources Bases de données
  8. 8. XML - une proposition de structuration Un langage de structuration & Des outils (contrôle, recherche …) <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE SEANCES SYSTEM "seances.dtd"> <SEANCES> <FILM> <TITRE>Alien</TITRE> <CINEMA>Epée de Bois</CINEMA> <VILLE>Paris</VILLE> <HEURE>15:00</HEURE> <HEURE>18:00</HEURE> <HEURE>21:00</HEURE> </FILM> </SEANCES> <?xml version="1.0" encoding="UTF-8"?> <!ELEMENT FILM ( TITRE, CINEMA, VILLE, URL?, HEURE+ ) > <!ELEMENT TITRE ( #PCDATA ) > <!ELEMENT CINEMA ( #PCDATA ) > <!ELEMENT VILLE ( #PCDATA ) > <!ELEMENT URL ( #PCDATA ) > <!ELEMENT HEURE ( #PCDATA ) SEANCES FILM TITRE CINEMA VILLE HEURE Alien Epée de Bois Paris 18:00 15:00 21:00 Fichier XML DTD/Schema
  9. 9. XML - Séparer le fond et la forme 21:00 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE SEANCES SYSTEM "seances.dtd"> <SEANCES> <FILM> <TITRE>Alien</TITRE> <CINEMA>Epée de Bois</CINEMA> <VILLE>Paris</VILLE> <HEURE>15:00</HEURE> <HEURE>18:00</HEURE> <HEURE>21:00</HEURE> </FILM> </SEANCES> MACHINE & PROGRAMME Transformation (XSLT) HUMAIN Fichier XML XPATH & Xquery sur le fichier XML « pur » HTML, Pdf, Epub … Feuille de style
  10. 10. XML … suite • Permet une adaptation (eXtensible) à tout type/modèle de données structurées • Permet un contrôle syntaxique et dispose d’outils puissants • Est devenu un standard pour l’échange de données (e.g. Docx) • Parfois utilisé comme format de base de données (e.g. BaseX) • Sert de syntaxe à nombre de langages Est parfois utilisé « curieusement » … Pas de description de la sémantique des relations Adapté aux données structurées de manière arborescente … ne permet pas de former des graphes
  11. 11. Comment représenter la(es) connaissance(s) ? De la sémantique pour le Web : Représenter le(s) modèle(s) du monde de chacun et les lier au Web Un modèle simple … Sujet Complément Verbe Tim Berners Lee est né à Londres On constitue ainsi des « triplets » de type (sujet, prédicat, objet) Le modèle proposé par le W3C se nomme RDF (Resource Description Framework) Qui permet de constituer des graphes … Tim Berners Lee est né à Londres Se trouve en Angleterre connait Vinton Cerf est l’inventeur du Web
  12. 12. Mise en œuvre des triplets pour/sur le Web La notion d’URI Sujet Objet Prédicat Tim Berners Lee est né à Londres Comment représenter/désigner Tim Berners Lee sur le Web ??? Le web dispose de la notion d’URI qui permet d’identifier une ressource Une URI est toujours de la forme [scheme][autorité][chemin] Une URL est une URI qui permet en plus d’accéder à représentation de la ressource http://fr.wikipedia.org/wiki/Tim_Berners-Lee urn:ietf:rfc:2141 ark:/12148/cb34419111x hdl://11280/c3d77465
  13. 13. Mise en œuvre des triplets sur le Web Tout est URI Sujet Objet Prédicat Tim Berners Lee est né à Londres Prédicat Objet Il est toujours désigné par un URI Sujet Peut être un URI ou de texte, nommé dans ce cas « littéral » Il est toujours désigné par un URI Il fait partie lui même d’un graphe (ensemble de triplets) qui décrit sa signification/son rôle. Ce graphe décrivant un ensemble de concepts se nomme une ontologie exprimée dans le langage RDFS (ou OWL plus complet) http://xmlns.com/foaf/0.1/Person
  14. 14. Un exemple d’Ontologie Voir Linked Open Vocabularies http://lov.okfn.org/dataset/lov/ Foaf : Friend of a Friend
  15. 15. Un exemple de représentation Tim Berners-Lee est de type ”Personne” Tim Berners-Lee a pour nom ”Timothy Berners-Lee” Tim Berners-Lee a créé ”le Web” Tim Berners-Lee a pour surnom ”timbl” Tim Berners-Lee “Timothy Berners-Lee” Le Web “timbl” est de type a pour nom a créé a pour surnom http://www.w3.org http://xmlns.com/foaf/0.1/nick http://xmlns.com/foaf/0.1/maker http://xmlns.com/foaf/0.1/name Personne http://xmlns.com/foaf/0.1/Person http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://www.w3.org/People/Berners-Lee/card#
  16. 16. Représentation de RDF en XML ou « sérialisation » <rdf:RDF xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:dc="http://purl.org/dc/terms/"> <rdf:Description rdf:about="http://www.w3.org/People/Berners-Lee/card#i"> <rdf:type rdf:resource="http://xmlns.com/foaf/0.1/Person"/> <foaf:name>Timothy Berners-Lee</foaf:name> <foaf:maker rdf:resource="http://www.w3.org"/> <foaf:nick>timbl</foaf:nick> </rdf:Description> </rdf:RDF>
  17. 17. Le langage d’interrogation SPARQL SELECT * WHERE { ?Un_sujet <URI_Predicat> <URI_objet> } Un langage de recherche de triplets Un langage de parcours de graphe SELECT * WHERE { ?Un_sujet <URI_Predicat> <URI_objet> ?Un_autre_sujet <URI_Predicat> ?Un_sujet }
  18. 18. Le web sémantique et de données Un modèle de graphe de triplets : RDF Le Web : URIs, URLs, HTTP etc. Un modèle auto-descripteur extensible Totalement intégré au Web Des langages de description : RDFS, OWL Un langage d’interrogation : SPARQL
  19. 19. Un entrepôt utile Le projet « DbPedia »
  20. 20. Relier les données de différents entrepôts Le « Linked Open Data » Site Enrichi
  21. 21. L’exemple de JocondeLab

×