Échange et interopérabilité des données structurées sur le Web
Echange et interopérabilité des données structurées (métadonnées) sur le Web Gautier Poupeau @lespetitescases http://www.lespetitescases.net
Niveau 1 : Interopérabilité de transport HTTP, le protocole ou langage de communication du Web
Niveau 2 : Interopérabilité syntaxique Information encodée Machine connectée Conversion Machine connectée Information encodée Information encodée Machine connectée Machine connectée Information encodée Une conversion est nécessaire si deux syntaxes d’encodage sont utilisées. Si tout le monde utilise une syntaxe standard et normalisée, pas de conversion. XML, une syntaxe standard et normalisée
Niveau 3 : Interopérabilité structurelle Chien Animal Une série de signes reliés forme une donnée Machine doit comprendre la donnée
Niveau 3 : Interopérabilité structurelle Chien Animal Une série de signes reliés forme une donnée La donnée est encodée dans le cadre d’un document Machine doit comprendre la donnée Ne comprend pas la donnée mais qu’il s’agit d’un paragraphe De plus, la donnée est toujours vraie même en dehors de ce document. <html> <head> <title>Le chien</title> </head> <body> <p> le chien est un animal </p> </body> </html>
Niveau 3 : Interopérabilité structurelle Chien Animal Une série de signes reliés forme une donnée La donnée est encodée dans le cadre d’un document Machine doit comprendre la donnée Ne comprend pas la donnée mais qu’il s’agit d’un paragraphe De plus, la donnée est toujours vraie même en dehors de ce document. La donnée elle-même est encodée sous la forme d’un triplet. La machine peut traiter et analyser la donnée car elle est encodée selon une logique formelle. <html> <head> <title>Le chien</title> </head> <body> <p> le chien est un animal </p> </body> </html> Sujet prédicat Objet chien animal est
Niveau 3 : Interopérabilité structurelle Chien Animal Une série de signes reliés forme une donnée La donnée est encodée dans le cadre d’un document Machine doit comprendre la donnée Ne comprend pas la donnée mais qu’il s’agit d’un paragraphe De plus, la donnée est toujours vraie même en dehors de ce document. La donnée elle-même est encodée sous la forme d’un triplet. La machine peut traiter et analyser la donnée car elle est encodée selon une logique formelle. <html> <head> <title>Le chien</title> </head> <body> <p> le chien est un animal </p> </body> </html> Sujet prédicat Objet Sujet prédicat prédicat chien animal est RDF, un modèle pour encoder les données structurées
Niveau 4 : Interopérabilité sémantique Personne Person πρόσωπο persona
Niveau 4 : Interopérabilité sémantique Imaginez le problème pour les machines…
Niveau 4 : Interopérabilité sémantique RDFS/OWL, un moyen normalisé de décrire le vocabulaire pour les machines Imaginez le problème pour les machines… http://xmlns.com/foaf/0.1/Person
Wikipedia, Dbpedia et le Web de données 213,000 personnes, 328,000 lieux, 57,000 albums musicaux, 36,000 films, etc. 274 millions d’informations (triplets RDF) DBpedia est une initiative visant à extraire de l’information structurée à partir de Wikipedia et à rendre cette information disponible sur le Web. DBPedia permet de faire des requêtes complexes sur les données de Wikipedia, et de relier d’autres ensembles de données du Web à Wikipedia. http://dbpedia.org Mis au point et maintenu par Universität Leipzig, Freie Universität Berlin et la société OpenLink Software dans le cadre du projet
Dbpedia et le problème de la qualité des données Mais, Dbpedia de par son origine pose différents problèmes
Dbpedia et le problème de la qualité des données Mais, Dbpedia de par son origine pose différents problèmes Que représente une page de Wikipedia sur un livre ? Une œuvre, une édition ? A quelle édition fait référence la mention d’éditeur et date de publication ?
Dbpedia et le problème de la qualité des données Mais, Dbpedia de par son origine pose différents problèmes Les données ne sont pas homogènes d’un article à l’autre
Dbpedia et le problème de la qualité des données Mais, Dbpedia de par son origine pose différents problèmes Certaines données sont incomplètes
Dbpedia et le problème de la qualité des données Mais, Dbpedia de par son origine pose différents problèmes Certains articles évoluent pour compléter les informations et ajouter des informations pour faciliter la mise en place de liens
Dbpedia et le problème de la qualité des données Mais, Dbpedia de par son origine pose différents problèmes Niveau transverse d’interopérabilité : La qualité des données Il ne s’agit pas d’un problème informatique, mais d’un problème de production et d’attention aux données
Dbpedia et le problème de la qualité des données Mais, Dbpedia de par son origine pose différents problèmes Malgré les quelques défauts mis en lumière, Dbpedia (et donc wikipedia) reste un formidable outil pour créer de nouvelles applications à partir de milliers de données structurées interopérables cf. http://www.lespetitescases.net/semweblabs/linkedbookmashup/
En résumé Les différentes niveaux/couches d’interopérabilité TRANSPORT SYNTAXE STRUCTURE SÉMANTIQUE QUALITÉ DES DONNÉES HTTP XML RDF OWL/RDFS