Diaporama de la présentation faite à l'occasion du Co-lab Semantique organisé par le consortium Scribo. L'enjeu était de présenter en 45-60min les enjeux du Web sémantique.
Comment sélectionner, qualifier puis exploiter les données ouvertes
Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour s'y retrouver
1. Web sémantique, Web de données, Web 3.0, Linked Data….. Quelques repères pour s’y retrouver Gautier Poupeau @lespetitescases http://www.lespetitescases.net
2. Qu’est-ce-que le Web ? Un cadre d’interopérabilité pour mettre à disposition, consulter, lier et partager des documents sur un réseau de machines connectées. La recette du Web Un protocole Un langage Un principe Un mécanisme d’identification HTTP HTML L’hypertexte URL/URI
3. Qu’est-ce-que HTML ? Un modèle HTML est la lingua franca du Web pour encoder des documents L’arbre Une syntaxe Les balises SGML Une grammaire La DTD HTML
4. Le problème du Web de documents par Tim Berners-Lee « The Need for Semantics in the Web », Tim Berners-Lee Passer d’un Web de documents « sans relief » peu compréhensible par les machines à…. un Web de choses relié à la réalité et compréhensible par les machines Source : http://www.w3.org/Talks/WWW94Tim/
5. Le problème des données sur le Web par Chris Bizer (1) D’un Web de documents Documents reliés par des liens Pas de structuration sémantique Pas de requêtes structurées à un Web d’applications Données exposées à travers API API valable que pour un Silo Pas d’ineropérabilité entre les silos
6. Le problème des données sur le Web par Chris Bizer (2) Web de données = espace unifié Liens entre les données APIs remplacés par standards ouverts pour aboutir à un Web de données
7. Sortir de la logique de silos de données… http://www.flickr.com/photos/jimgris/281139738/ Les technologies ont eu tendance jusqu’à maintenant à enfermer les données dans des silos : logiciels, processus, APIs, protocoles spécifiques… Siège social d’Oracle, l’éditeur du SGBDR le plus utilisé dans le monde, dans la Silicon Valley « But the second big trend then is to decouple the data from the application or the application services, so that in that sense what you can do is write your application or create services independent of the data sources they have to deal with, which comes full circle back to having a virtual layer between application services and data. The application can go out and find whatever data sources are best to use for that particular question. That’s what semantic technology provides for enterprise information management. » Robert Shimp, vice Président, Oracle
8. … et envisager une nouvelle évolution dans l’architecture des SI B A Silos applicatifs indépendants et non connectés B A Silos de services Indépendance des trois niveaux (applicatif, service, données)
9. Le Web sémantique à la rescousse « The Semantic Web is a web of data, in some ways like a global database » « The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation. » Nature du Web sémantique Concept Activité du W3C Ensemble de technologies Extension du Web Gourou du Web sémantique Tim Berners-Lee Premières « working draft » au W3C 2 octobre 1997 Acte de naissance officielle Article de Tim Berners-Lee, Ora Lassila et James Hendler dans la revue Scientific American en 2001 Rapport avec la « sémantique » Presque aucun…
10. Qu’est-ce-que le Web sémantique ? Un cadre d’interopérabilité pour mettre à disposition, consulter, lier et partager des données sur un réseau de machines connectées. La recette du Web sémantique Un protocole Un langage Un principe Un mécanisme d’identification HTTP RDF L’hypertexte URL/URI
11. Encoder une donnée pour les machines… Chien Animal Une série de signes reliés forme une donnée Machine doit comprendre la donnée
12. Encoder une donnée pour les machines… Chien Animal Une série de signes reliés forme une donnée La donnée est encodée dans le cadre d’un document Machine doit comprendre la donnée <html> <head> <title>Le chien</title> </head> <body> <p> le chien est un animal </p> </body> </html>
13. Encoder une donnée pour les machines… Chien Animal Une série de signes reliés forme une donnée La donnée est encodée dans le cadre d’un document Machine doit comprendre la donnée Ne comprend pas la donnée mais qu’il s’agit d’un paragraphe De plus, la donnée est toujours vraie même en dehors de ce document. <html> <head> <title>Le chien</title> </head> <body> <p> le chien est un animal </p> </body> </html>
14. Encoder une donnée pour les machines… Chien Animal Une série de signes reliés forme une donnée La donnée est encodée dans le cadre d’un document Machine doit comprendre la donnée Ne comprend pas la donnée mais qu’il s’agit d’un paragraphe De plus, la donnée est toujours vraie même en dehors de ce document. Sujet prédicat La donnée elle-même est encodée sous la forme d’un triplet. Objet chien animal est <html> <head> <title>Le chien</title> </head> <body> <p> le chien est un animal </p> </body> </html>
15. Encoder une donnée pour les machines… Chien Animal Une série de signes reliés forme une donnée La donnée est encodée dans le cadre d’un document Machine doit comprendre la donnée Ne comprend pas la donnée mais qu’il s’agit d’un paragraphe De plus, la donnée est toujours vraie même en dehors de ce document. Sujet prédicat La donnée elle-même est encodée sous la forme d’un triplet. Objet La machine peut traiter et analyser la donnée car elle est encodée selon une logique formelle. Chaque membre du triplet est une ressource identifiée par une URI. C’est le principe du modèle RDF. chien animal est <html> <head> <title>Le chien</title> </head> <body> <p> le chien est un animal </p> </body> </html>
16. … selon le principe des graphes… Nœud 1 Nœud 2 Arc 1
17. … selon le principe des graphes… Nœud 1 Nœud 2 Arc 1 Sujet Entités Relation Objet Prédicat
18. … selon le principe des graphes… Nœud 1 Nœud 2 Arc 1 Nœud 1 Nœud 3 Arc 2 Nœud 4 Arc 1
19. … selon le principe des graphes… Nœud 2 Objet Nœud 3 Nœud 1 Arc 2 Arc 1 Nœud 4 Arc 1
20. … appliqué au Web <http://www.w3.org/People/Berners-Lee/card#i> <http://xmlns.com/foaf/0.1/Person> <http://www.sciam.com/article.cfm?id=the-semantic-web> <http://purl.org/dc/dcmitype/Text> <http://www.w3.org/Home/Lassila> « Timothy Berners-Lee » <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://purl.org/dc/elements/1.1/creator> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://purl.org/dc/elements/1.1/creator> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://xmlns.com/foaf/0.1/name>
21. Pour résumer : le layer cake aujourd’hui Déjà normalisé ou en cours de normalisation au W3C
22. Les quatre principes du Linked data Source : http://www.w3.org/2009/Talks/0204-ted-tbl/#%281%29 Utiliser des URIs Utiliser des URIs accessibles via HTTP Donner l’accès aux données utiles en utilisant les standards SPARQL et RDF Exprimer l’URI des objets liés Le Linked Data ou Web de données Application des technologies du Web sémantique pour exposer, échanger et traiter données structurées sur le Web http://dbpedia.org/resource/ Smoking_pipe_%28tobacco%29
23. Linked data cloud en détail : ressources d’intérêt général Ressources d’intérêt général
24. Le projet DBPedia 213,000 personnes, 328,000 lieux, 57,000 albums musicaux, 36,000 films, etc. 274 millions d’informations (triplets RDF) DBpedia est une initiative visant à extraire de l’information structurée à partir de Wikipedia et à rendre cette information disponible sur le Web. DBPedia permet de faire des requêtes complexes sur les données de Wikipedia, et de relier d’autres ensembles de données du Web à Wikipedia. http://dbpedia.org Mis au point et maintenu par Universität Leipzig, Freie Universität Berlin et la société OpenLink Software dans le cadre du projet
25. Linked data cloud en détail : ressources « sociales » Ressources d’intérêt général Ressources « sociales »
26. Linked data cloud en détail : ressources géographiques Ressources d’intérêt général Ressources « sociales » Ressources géographiques et statistiques
27. Geonames et LinkedGeoData Geonames est un système d’information géographique dont les informations sont libres (CC BY). 8 millions d’emplacements géographiques (villes, monuments, montagnes…) dans le monde sont référencés et géotaggués ce qui en fait un des référentiels géographiques les plus complets. En complément de Web services, les données sont accessibles selon les principes du Linked Data . http://sws.geonames.org/6487834/ RDF pour les machines HTML pour les humains LinkedGeoData est à OpenStreetMap ce que Dbpedia est à Wikipedia 320 millions de points géoréférencés 25 millions d’itinéraires http://linkedgeodata.org
28. Les données gouvernementales Data.gov.uk Data.gov A la suite de l’annonce de Barack Obama de mettre à disposition les données publiques américaines, les initiatives dans le domaine se multiplient. Les principes du Linked Data sont au cœur de la réflexion, mais pas forcément utilisés. Sous la direction de Nigel Shadbolt et Tim Berners-Lee 3 000 ensembles de données Utilisation des technos du Web sémantique Initiative de Barack Obama 1076 ensembles de données Utilisation des technos du Web sémantique
29. Linked data cloud en détail : ressources multimédia Ressources d’intérêt général Ressources « sociales » Ressources géographiques et statistiques Ressources multimédia
30. Les sites de la BBC : exploiter et enrichir le « cloud » La BBC utilise pour plusieurs de ses sites les données du Linked Data pour construire des sites Web et les enrichit avec ses propres données. BBC Music Beta http://www.bbc.co.uk/music/artists/cb67438a-7f50-4f2b-a6f1-2bb2729fd538 Données de Dbpedia Données de la BBC BBC Wildlife finder http://www.bbc.co.uk/music http://www.bbc.co.uk/nature/species/Giant_Panda
31. Linked data cloud en détail : ressources biologiques et médicales Ressources d’intérêt général Ressources « sociales » Ressources géographiques et statistiques Ressources multimédia Ressources médicales et biologiques
32. Linked data cloud en détail : ressources bibliographiques Ressources d’intérêt général Ressources « sociales » Ressources géographiques et statistiques Ressources multimédia Ressources médicales et biologiques Ressources bibliographiques
33. LIBRIS (catalogue collectif suédois) http://libris.kb.se/ FRBRisation Lien avec Dbpedia Métadonnées descriptives traditionnelles
34. Exemple d’utilisation 1 : Linked book Mashup http://www.lespetitescases.net/semweblabs/linkedbookmashup/
Le Web de données est un espace unifié, global, commun On peut faire des liens d'une donnée à une autre Les données ne sont plus isolées dans des silos Les APIs propriétaires sont remplacées par des standards ouverts (RDF, SPARQL, HTTP...)
Le Web de données est un espace unifié, global, commun On peut faire des liens d'une donnée à une autre Les données ne sont plus isolées dans des silos Les APIs propriétaires sont remplacées par des standards ouverts (RDF, SPARQL, HTTP...)
Le Web sémantique, conçu comme une extension du Web actuel, est une notion promue par le W3C, l’organisme de normalisation du Web, à la croisée de plusieurs disciplines et pratiques : L’intelligence artificielle ; La logique de description ; La théorie des graphes ; Le traitement automatique des langues et la recherche d’information ; Les bases de données. Sans être assimilable à une de ses disciplines, il leur empreinte certains concepts, visions ou technologies pour atteindre son but : exposer, lier, partager sur le Web des données structurées. A l’image du Web actuel basé sur l’idée de la mise à disposition et la relation entre les documents, le Web sémantique vise à constituer un web de données liées. Pour parvenir à ce but, il s’appuie, à la fois, sur la notion de métadonnées et les systèmes d’organisation de l’information : Vocabulaires contrôlés ; Taxinomie ; Thésaurus ; Ontologie. et sur un ensemble de briques technologiques, dont la première est un modèle de données simple, générique et universel : le RDF (Resource Description Framework), que l’on peut écrire de différentes façons (RDFa, RDF/XML, NTriples…). A partir de ce modèle de base, le W3C et d’autres organismes ont mis au point différentes briques dont nous préciserons au fur et à mesure la place dans cette formation : RDFS (Resource Description Framework Schema) ; OWL (Ontology Web language) ; SKOS (Simple Knowledge Organization System) ; SPARQL ; Dublin Core.
L’ensemble des briques technologiques du Web sémantique sont représentés par le W3C sous la forme d’un « cake » à plusieurs couches, correspondant à la vision initiale de Tim Berners-Lee. Il évolue au fur et à mesure de la standardisation d’un élément et de l’évolution inhérente à tout domaine de recherche. Il fait apparaître les briques encore manquantes actuellement.