Introduction au web des données (Linked Data)

2 374 vues

Publié le

L'Open Data, le Big Data, le Web des données, le Web sémantique, les ontologies, le NoSql et le SPARQL sont autant de notions qu'il faut comprendre pour ne pas rater la prochaine rupture technologique du Web.
Cette présentation est l'introduction de la formation sur le Web sémantique que donne la société BorderCloud pour prendre un peu de recule sur les buzzwords du moment et savoir si vous avez besoin de faire du Big Data ou bien du Linked Data.

Publié dans : Données & analyses
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
2 374
Sur SlideShare
0
Issues des intégrations
0
Intégrations
951
Actions
Partages
0
Téléchargements
78
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Introduction au web des données (Linked Data)

  1. 1. Web 3.0 Hosting & Factory Karima Rafes, BorderCloud 30/11/2015 Le Web des données L’introduction aux ontologies et au Web sémantique
  2. 2. 2 Sommaire 1. Historique du mouvement 2. Définition 3. Qui en a besoin ? 4. En avez-vous besoin ? 5. Le Web des données était utopique. 6. Le Web sémantique est-il encore utopique ?
  3. 3. 1. Historique du mouvement
  4. 4. 4 Si on reliait tous les documents sur Internet !? Et le Web fut ? 1989
  5. 5. Le concept "informations liées" apparaît dès les origines. { Dès ses origines, le Web n’avait pas la finalité de relier seulement des documents mais de relier les informations.
  6. 6. En 1999, le concept de Web sémantique est créé/structuré pour décrire la finalité du Web mais le concept fut mal compris et souvent détourné.
  7. 7. 7 Objectif du Web sémantique Pouvoir créer de nouvelles connaissances avec l’aide de machines. Iron Man
  8. 8. 8 Le Web des données… en route vers le Web sémantique 2000 2015 Web des données Linked Data En 2025-30, le Web sémantique ? Travaux de recommandations en cours En 2006, on crée un point d’étape au Web sémantique que l’on nomme le Web des données ou Linked Data. Ce concept offre un objectif plus simple à comprendre/expliquer et moins utopique car il est de + en + facile de faire des démonstrations.
  9. 9. 9 Objectif du Web des données Pouvoir accéder aux informations disponibles avec l’aide de machines. Cortana
  10. 10. 2.Définition Du chaos naîtra l’ordre…
  11. 11. 11 Définition : le Web de données ou Linked Data Initiative visant à favoriser la publication de données : Interopérables à l’aide d’un modèle commun pour représenter une information Structurées à l’aide d’ontologies Accessibles à travers le Web Reliées entre elles pour constituer un réseau global d'informations
  12. 12. 12 Historique Le lancement de l'initiative, en 2006, avait pour objectifs de : • promouvoir une vision du Web comme une base de données globale • naviguer à travers les données sur le Web de la même façon que l'hypertexte permet de relier des pages Web Le Consortium World Wide Web (W3C) à travers cette initiative, poursuit sa mission qui est d’assurer au Web une croissance à long terme
  13. 13. 3. Qui en a besoin ?
  14. 14. 1 Prise de conscience Il est impossible de traiter humainement l’information disponible sur le Web. 2 Besoins Les donneurs d’ordres demandent des solutions pour prendre de meilleurs décisions sans manipulations extérieures. 3 Diffusion Le Linked Data permet l’accès aux données sans intermédiaires et de manières décentralisées. La technologie se diffuse dans les laboratoires et les institutions gouvernementales. 4 Disponibilité (en cours) Les données sont de plus en plus accessibles, de plus en plus liées et mises à jour en temps réel. 5 Réutilisation Les données sont maintenant réutilisables à travers toutes les machines sans intermédiaires. Le Web des données permettra… la réutilisation de toutes les données
  15. 15. WoT RDF Sciences City Open Data Web Agent datadata Faciliter l’intégration de Web Agent pour aider les humains dans cet océan de données Le Web des données permettra… l’émergence des Web agents
  16. 16. 4. En avez-vous besoin ? L’équivalent de SQL dans le Linked Data est SPARQL
  17. 17. 17 Approche classique ou Linked Data ? 1. Est-ce que vous maîtrisez le modèle des données dont vous avez besoin ? 2. Est-ce que vous connaissez à l’avance les questions que les utilisateurs souhaitent poser aux données ? 3. Est-ce que vous êtes habilités à héberger/traiter toutes les données nécessaires pour répondre aux questions ? Données en temps réel par exemple...
  18. 18. 18 Approche classique ou Linked Data ? Si vous répondez non à une seule de ces questions une BDD SQL n’est pas adapté. Il faut commencer à mettre œuvre une solution de type Linked Data. Si la QoS des solutions Linked Data est insuffisante, il faudra mettre en œuvre une solution hybride (avec des BDD SQL ou NoSQL).  Hors démo dans 95% des cas les solutions sont hybrides
  19. 19. 19 Approche SQL ou NoSQL? Si vous répondez oui à toutes ces questions, vous pouvez centraliser les données et travailler de manière classique. Cependant, si la quantité des données entraîne une QoS insuffisante, il faut envisager de faire du NoSQL (Big Data).
  20. 20. 20 SQL/NoSQL nécessitent de centraliser les données NoSQL = une BDD pour tous (exemple: Google, Facebook, etc...) Data Data Data Data Data Data Data Data Data Data Data Data Data Data Data Data Organisation 1 Organisation 2 Organisation 3
  21. 21. 21 SPARQL Le Linked Data supporte les données décentralisées avec plusieurs structures SPARQL Data Data Data Data Data Data Data Data Data Data Data Data Data Data Data Data Organisation 1 Organisation 2 Organisation 3 SPARQL httpLa décentralisation des données avec des structures différentes à travers le Web permet aussi de garder le contrôle des données par leurs propriétaires. Le croisement des données peut se faire du côté du client (respect des données privées) ou des serveurs.
  22. 22. Comment interroger une BDD sans structure préalable ? Web des données Linked Data 2 à 5 ans > 5 ans
  23. 23. 23 IRI (Internationalized Resource Identifier) Chaque chose doit être représentée par un IRI. Un IRI doit être : • Unique sur le Web • Valide : un IRI dans un navigateur doit afficher un document • Lisible : (si possible) dans la langue de l'être humain qui l’a créé • Lié : si vous décrivez une chose qui est déjà décrite sur le web avec un IRI, il faut lier les IRIs. Un IRI pointe sur un document qui doit également être lisible pour les humains et les machines. Un IRI affiche • une page HTML pour un être humain, • un document RDF pour une machine.
  24. 24. 24 RDF (Resource Description Framework) Triplets Modèle de graphe destiné à décrire de façon formelle les ressources Web et leurs métadonnées, de façon à permettre le traitement automatique (par des machines) de telles descriptions. Un document structuré en RDF est constitué d'un ensemble de triplets. Objet Valeur Ou Objet Prédicat/Propriété https://en.wikipedia.org/wiki/Voyager_1 https://www.wikidata.org/wiki/Property:P18 (Image) https://commons.wikimedia.org/wiki/File:Voyager.jpg
  25. 25. 25 Les structures de représentation des faits avec des ontologies A travers RDF : Les données peuvent prendre n’importe quelle structure. On parle aussi d’ontologie. Plusieurs structures/ontologies peuvent exister simultanément dans la même BDD
  26. 26. 26 Ontologie Un peu d’histoire L’ontologie est une branche de la philosophie concernant l'étude de l'être, de ses modalités et de ses propriétés. (Remonte à Platon) Comment décrire une entité ? Qu’est ce qui est semblable ? Qu’est ce qui est différent ? Peut on classifier ce qui est différent ?
  27. 27. 27 Ontologie Un peu d’histoire Le concept d’ontologie rentre dans les entreprises comme le résultat de ce questionnement dés lors que des questions d'organisations de connaissances se posent. Exemple : j’ai terminé de faire l’ontologie de votre domaine. On peut le traduire par : j’ai effectué un processus intellectuel afin de pouvoir rendre explicite les connaissances de votre domaine en utilisant un modèle de représentation.
  28. 28. 28 Ontologie Définition pour le W3C Une ontologie est un modèle formel qui permet de représenter les connaissances d'un domaine spécifique. Une ontologie décrit • les types de choses qui existent (classes), • les relations entre eux (propriétés ou attributs) et • les raisonnements logiques qui portent sur ces types et ces propriétés (axiomes). Exemple : si A est ami de B donc B est aussi ami de A. Attention pour un chercheur : l’ontologie contient également les faits… c’est-à-dire toutes les données. C’est une source de confusion… http://www.w3.org/TR/ld-glossary/#ontology
  29. 29. 29 Ontologies Simple ou complexe ? Plus les connaissances dans un domaine seront complexes plus l’ontologie sera complexe. W3C propose 2 boîtes à outils pour décrire son ontologie : – RDFS  opérationnel ds les BDD – OWL Lite, DL, Full, OWL 2…  expérimentales W3C propose plusieurs syntaxes : XML et Turtle
  30. 30. 30 Ontologies Conceptions ? Connaissances Services Développeurs Web Ontologistes Archives Développeurs Web
  31. 31. 31 Ontologies …le chaos ? Le plus grand avantage de RDF est de pouvoir supporter toutes les structures simultanément  facilite l’archivage et les migrations On pensait que c’était en même temps son plus gros problème  infinité de structures = temps de développement infini
  32. 32. 32 SPARQL prononcer « sparkle » SPARQL deviendra au Web ce que le SQL est à une base de données. SELECT ?image WHERE { <http://www.wikidata.org/entity/Q48469> <http://www.wikidata.org/prop/direct/P18> ?image . } image <http://commons.wikimedia.org/wiki/Special:FilePath/Voyager.jpg> <http://commons.wikimedia.org/wiki/Special:FilePath/Voyager%20probe.jpg>
  33. 33. 5. Le Web des données est était utopique
  34. 34. 34 Il était une fois… Le LOD (Linked Open Data) Le GGG (Geant Global Graph) Et si le Web devenait une base de données ? http://lod-cloud.net/versions/2007-11-10/lod-cloud.png
  35. 35. 35 SPARQL, l’étincelle du LOD (Linked Open Data) Première recommandation du W3C en 2008 mais des BDD seulement en lecture « sparkle », en anglais « étincelle »…
  36. 36. 36 DBPedia, Yago, etc… Extraction automatique des pages de Wikipédia. En 2008, seulement des démos… mais surtout des IRI uniques.
  37. 37. 37 2009, les sciences s’emparent du LOD Dbpedia permet d’offrir des identifiants uniques de manière transversale aux différents domaines scientifiques. http://lod-cloud.net/versions/2009-03-05/lod-cloud_colored.png
  38. 38. 38 2010, L’Open Data bascule dans le LOD L’Open Data au UK bascule à son tour. On commence à parler de Web Science. En France, le buzzword de l’Open Data commence mais la question du format des données est clairement éludée. http://lod-cloud.net/versions/2010-09-22/lod-cloud_colored.png
  39. 39. 39 Exemple : Data.gov.uk Education
  40. 40. 40 Hackathon Stabilité des technos + des données = développeurs Les widgets et applications pour mobile se multiplient. Le SPARQL occulte complétement le RDF pour les consommateurs de données. RDF devient un format "Dump" de BDD. Buzzword des Hackathons dans le monde. En France, on parle licences de données…
  41. 41. 41 2007 2008 2009 Nombredepointsd’accèsinteropérables Augmentation exponentielle des silos accessibles à travers le protocole SPARQL 2010 Augmentation exponentielle SPARQL 1.0 W3C Recommendation 15 January 2008 SPARQL 1.1 W3C Working Draft 26 January 2010
  42. 42. http://lod-cloud.net/versions/2014-08-30/lod-cloud_colored.png 2014, 570 Endpoints SPARQL déclarés dans le Linked Open Data mais la QoS est encore faible
  43. 43. Le Web sémantique est-il encore utopique ? 6.
  44. 44. 25/05/2015 Alors une infinité de structures ?
  45. 45. 45 Ontologies dynamiques et partagées
  46. 46. Demo 1/3 : Wikipedia affichera les données de Wikidata
  47. 47. Demo 2/3 : Wikidata agrègera toutes les données structurées disponibles
  48. 48. Demo 3/3 : Wikidata remet déjà à disposition les données dans le Linked Open Data
  49. 49. 49 Conclusion en 2015 Le Web des données fonctionne avec un volume de données stables – QoS des technologies/données s’améliorent mais elles sont encore insuffisantes pour pouvoir utiliser toutes les données du Web sans intermédiaires – Les ontologies doivent converger pour permettre la réutilisation des données Une question de temps pour que les ontologies convergent… Et c’est déjà en cours. Et ensuite, le Web sémantique ? – Les chercheurs en IA commencent à utiliser le Linked Data pour pouvoir accéder aux données du Web... La Data Science
  50. 50. Web 3.0 Hosting & Factory Karima Rafes, BorderCloud Services de BorderCloud TP OnLine 11/09/2015
  51. 51. Service pour donner des formations interactives Catalogue sur http://bordercloud.com TPO sur http://tpo.bordercloud.com Auto-complétion de Wikidata, prefixes, etc. 11/09/2015
  52. 52. 11/09/2015 Service pour partager vos découvertes Demo http://tpo.bordercloud.com/K.php?i=1abdb0c0e9df986a715e76bb5ea0977f
  53. 53. LinkedWiki Plateforme Un logiciel pour la découverte des données privées ou ouvertes au sein d’une structure. http://io.datascience-paris-saclay.fr/ 11/09/2015
  54. 54. LinkedWiki Plateforme Un logiciel pour exposer vos données. https://io.datascience-paris-saclay.fr/query/Population_in_Europe_after_1960
  55. 55. LinkedWiki Plateforme Un logiciel pour réutiliser vos données. https://io.datascience-paris-saclay.fr/query/Population_in_Europe_after_1960
  56. 56. LinkedWiki extension pour afficher vos données dans votre Wiki 11/09/2015
  57. 57. http://www.bordercloud.com contact@bordercloud.com Web 3.0 Hosting & Factory

×