Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Web sémantique et Web de données, et si on passait à la pratique ?

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Chargement dans…3
×

Consultez-les par la suite

1 sur 85 Publicité

Web sémantique et Web de données, et si on passait à la pratique ?

Télécharger pour lire hors ligne

Le web sémantique, théorisé il y a déjà longtemps par Tim Berners-Lee, a tardé à prendre son envol. Mais aujourd'hui la vague est là et les premiers à la surfer sont les grands acteurs du web, comme Google qui bâtit son Knowledge Graph. Les standards sont aujourd'hui matures, et des organisations de toutes tailles les mettent en oeuvre dans des projets concrets, avec un vrai retour sur investissement. Cependant faire une application à l’aide des technologies du Web Sémantique peut s’avérer être une tâche fastidieuse pour ceux qui souhaitent découvrir ce domaine. De nombreuses questions restent souvent en suspens. Quel est le rôle des ontologies ? Pourquoi utiliser RDF et SPARQL ? Qu’est ce qu’un triplestore et comment l’exploiter ? Comment tirer parti du Web de données pour enrichir ses données métier à l'aide de ces outils ? Autant de questions auxquelles nous essaieront de répondre à partir d’un exemple concret : les données de l'institution culturelle Les Champs Libres à Rennes.

Le web sémantique, théorisé il y a déjà longtemps par Tim Berners-Lee, a tardé à prendre son envol. Mais aujourd'hui la vague est là et les premiers à la surfer sont les grands acteurs du web, comme Google qui bâtit son Knowledge Graph. Les standards sont aujourd'hui matures, et des organisations de toutes tailles les mettent en oeuvre dans des projets concrets, avec un vrai retour sur investissement. Cependant faire une application à l’aide des technologies du Web Sémantique peut s’avérer être une tâche fastidieuse pour ceux qui souhaitent découvrir ce domaine. De nombreuses questions restent souvent en suspens. Quel est le rôle des ontologies ? Pourquoi utiliser RDF et SPARQL ? Qu’est ce qu’un triplestore et comment l’exploiter ? Comment tirer parti du Web de données pour enrichir ses données métier à l'aide de ces outils ? Autant de questions auxquelles nous essaieront de répondre à partir d’un exemple concret : les données de l'institution culturelle Les Champs Libres à Rennes.

Publicité
Publicité

Plus De Contenu Connexe

Diaporamas pour vous (20)

Publicité

Similaire à Web sémantique et Web de données, et si on passait à la pratique ? (20)

Plus par Antidot (20)

Publicité

Plus récents (20)

Web sémantique et Web de données, et si on passait à la pratique ?

  1. 1. Pierre Col Julien Homo @PierreCol @Julien_Homo
  2. 2. 2 Pierre Col @PierreCol Julien Homo @Julien_Homo 1978 1963 1983 1986 1996 2007 2010 2006 2009 2011 1987
  3. 3. 3
  4. 4. 4 Le web sémantique, concrètement Certains en parlent… d’autres le font !
  5. 5. 5 Le web sémantique, concrètement
  6. 6. 6 Le web sémantique, concrètement Knowledge Graph
  7. 7. 7 Knowledge Graph Le web sémantique, concrètement
  8. 8. 8 Knowledge Graph Le web sémantique, concrètement
  9. 9. 9 Le web sémantique, concrètement Knowledge Graph
  10. 10. 10 Le web sémantique, concrètement Knowledge Graph
  11. 11. 11 Knowledge Graph Le web sémantique, concrètement
  12. 12. 12 Le web sémantique, concrètement Knowledge Graph
  13. 13. 13 Le web sémantique, concrètement Knowledge Graph
  14. 14. 14 Tim Berners-Lee verbatim « The Semantic Web is a web of data, in some ways like a global database » « The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation »
  15. 15. 15 « Raw data now ! » février 2009 http://www.ted.com/talks/tim_berners_lee_on_the_next_web?language=fr
  16. 16. 16 http://www.flickr.com/photos/jimgris/281139738/ L’idée : casser la vieille logique des silos de données cloisonnées… Siège social d’Oracle, l’éditeur du SGBDR le plus utilisé dans le monde, dans la Silicon Valley
  17. 17. 17 …pour partager la donnée structurée sur un espace décentralisé : le web Un Web de documents ● Documents reliés par des liens ● Pas de structuration sémantique ● Pas de requêtes structurées
  18. 18. 18 …pour partager la donnée structurée sur un espace décentralisé: le web Puis un Web d’applications ● Données exposées à travers des API ● API valables uniquement pour un silo ● Pas d’interopérabilité entre les silos
  19. 19. 19 …pour partager la donnée structurée sur un espace décentralisé : le web Et maintenant un Web de données ● Web de données = espace unifié ● Liens entre les données elles-mêmes ● APIs remplacées par des standards ouverts
  20. 20. 20
  21. 21. 21 Une condition nécessaire : assurer l’interopérabilité des données structurées ● Transport
  22. 22. 22 Une condition nécessaire : assurer l’interopérabilité des données structurées ● Syntaxe
  23. 23. 23 Une condition nécessaire : assurer l’interopérabilité des données structurées ● Sémantique
  24. 24. 24 Un langage pour les machines Une grammaire Le vocabulaire Des règles d’écriture Des moyens de communication RDF RDFS / OWL Ontologie RDF/XML N3, Turtle RDFa HTTP SPARQL
  25. 25. 25 Standards : le layer cake aujourd’hui Déjà normalisé ou en cours de normalisation au W3C
  26. 26. 26 Le Linked Open Data Cloud - 2014
  27. 27. 27
  28. 28. 28 Contexte ● Site portail
  29. 29. 29 Contexte ● Site portail
  30. 30. 30 Contexte ● Site portail
  31. 31. 31 Problématique ● Mesurer « la faisabilité technique de réaliser un site portail basé sur les règles du web de données et du web sémantique »
  32. 32. 32 Mais pourquoi recourir au Web Sémantique ? ● Agréger les données ● Enrichir les données par des données externes libre d’accès ● Faciliter leur échange ● Faciliter leur publication
  33. 33. 33 Objectifs ● Offrir aux visiteurs une vision plus globale des ressources disponibles
  34. 34. 34 Objectifs ● Favoriser leur découverte par un effet de sérendipité
  35. 35. 35 Objectifs ● Enrichir l’expérience de navigation
  36. 36. 36 Objectifs ● Mettre les données à la disposition de tous
  37. 37. 37 Par où commencer ? ● Définir le périmètre de l’étude ● Analyser les données ● Réaliser un prototype
  38. 38. 38 Quelles sont les sources disponibles ?
  39. 39. 39 Comment accéder aux données ? ● API intégrée au système de gestion de bibliothèque Requête SIGB Base de données Export XML ● Export au format XML
  40. 40. 40 Quelles sont les données disponibles ?
  41. 41. 41 Quelles sont les données disponibles ? 20 000 films 250 000 textes imprimés 2 500 ouvrages numériques 20 000 enregistrements musicaux
  42. 42. 42 Comment sont structurées les données ?
  43. 43. 43 Comment sont structurées les données ? Propriétés ID Dénomination Auteur Lieu de création Date de création Dimensions Catégorie matière Catégorie technique Mots-clés Référence commerciale
  44. 44. 44 Comment sont structurées les données ? Propriétés ID Dénomination Auteur Lieu de création Date de création Dimensions Catégorie matière Catégorie technique Mots-clés Référence commerciale Propriétés génériques d’une œuvre ?
  45. 45. 45 Comment sont structurées les données ? Propriétés ID Dénomination Auteur Lieu de création Date de création Dimensions Catégorie matière Catégorie technique Mots-clés Référence commerciale Lien vers le Linked Open Data ?
  46. 46. 46 Laisse Béton (Renaud) ● Prenons un exemple !
  47. 47. 47 Laisse Béton (Renaud) ● Vu du catalogue Web (OPAC) …
  48. 48. 48 Laisse Béton (Renaud) ● … et du XML
  49. 49. 49 Laisse Béton (Renaud) ● Il y a sûrement des choses à faire… Propriétés Valeurs ID b18895888 Dénomination Laisse Béton Auteur Renaud Lieu de création - Date de création - Dimensions 1 disque compact (36 min) Catégorie matière - Catégorie technique - Mots-clés - Référence commerciale 0042282534828
  50. 50. 50 …Et bien faisons les ! ● Réalisation d’un prototype ● Mesurer la faisabilité technique du projet sur un échantillon ● Montrer l’apport de l’Open Data ● Evaluer les difficultés
  51. 51. 51 Mettre les données en commun film01.avi “Livre A” http://exemple.org/film/01 http://exemple.org/livre/A
  52. 52. 52 Identifier les objets ● Schéma arbitraire ● http://data.leschampslibres.org/ ● Origine : numérotation arbitraire Source Numéro Propriété ID Bibliothèque de Rennes 1 Controlfield 001 http://data.leschampslibres.org/1/b18895888
  53. 53. 53 Modéliser les objets Modèle HADOC Modèles “évènements” (LODE, CIDOC CRM, The Event Ontology…)
  54. 54. 54 Laisse Béton (Renaud)
  55. 55. 55 Relier les données à l’extérieur ● Oui mais dans quel but ?
  56. 56. 56 Données VS Usages
  57. 57. 57 Usages… ● « Apporter à l’utilisateur des compléments d’informations sur les objets culturels qu’il consulte sur le portail des Champs Libres »
  58. 58. 58 … VS Données Propriétés ISBN Référence commerciale Nom et date de naissance de l’auteur Noms de lieux
  59. 59. 59 Sélectionner les sources externes
  60. 60. 60 Graphe Référence commerciale Nom de l’auteur + Date de naissanceNom de lieu ISBN ID IDID ID
  61. 61. 61 Laisse Béton (Renaud)
  62. 62. 62 Automatisons-le ! Aligner Annoter Préparer les données Localement A distance Récupérer les données externes Interroger Interroger
  63. 63. 63 Préparer les données : aligner Nom Prénom Date de naissance Hugo victor 26 février 1802 sartre jean paul 21/06/1905 … http://catalogue.bnf.fr/ark:/ 12148/cb11907966z Nom Prénom Date de naissance Hugo Victor 1802-02-26 Victor 1802-02-26
  64. 64. 64 Préparer les données : annoter http://sws.geonames.org/2911298
  65. 65. 65 Préparer les données ● Idéalement ● Dumps RDF ● SPARQL Endpoint ● APIs Web RDF … ● Triplestore intermédiaire
  66. 66. 66 Préparer les données ● En réalité ● Dumps divers ● Pas de SPARQL Endpoint ● APIs Web diverses ● Conversion RDF Triplestore …
  67. 67. 67 Récupérer les données externes ● Requêtes SPARQL ● Triplestore intermédiaire ● SPARQL Endpoint Enrichissements Enrichissements
  68. 68. 68 Récupérer les données externes ● Requêtes SPARQL : exemples http://catalogue.bnf.fr/ark:/12148/cb11907966z Victor Hugo 1802-02-26 foaf:givenName foaf:name db:birthDate http://catalogue.bnf.fr/ark:/12148/cb11907966z
  69. 69. 69 Récupérer les données externes ● Requêtes SPARQL : exemples http://data.leschampslibres.org/1/b18895888 “0042282534828” hadoc:isbn “4.25 / 5” http://www.discogs.com/master/11710 http://www.wikidata.org/wiki/Q3216384 http://musicbrainz.org/release-group/ 374fd86d-838c-3d40-a2c8-680b800290e7 “0042282534828” mb:barcod e owl:sameA s owl:sameA s dcogs:rating “4.25 / 5”
  70. 70. 70 Récupérer les données externes ● Autres : pas de RDF ● APIs Web ● Dumps (XML, CSV…) ● HTML ● … … Enrichissements
  71. 71. 71 Récupérer les données externes ● En réalité ● Architecture complexe ● A adapter selon les besoins … …
  72. 72. 72 Laisse béton (Renaud) Normalisation Triplestore intermédiaire Enrichissements RDF Enrichissements APIs barcode ? IDs Discogs Allmusic ?
  73. 73. 73
  74. 74. 74 Résultats
  75. 75. 75 Outils
  76. 76. 76 Outils ● Convertir les données Actions Outils Aligner, annoter Antidot Information Factory, Gate, Python… Créer des données RDF avec un éditeur Morla, Top Braid composer, Editeur XML (Oxygen), Protégé Transformer des données de XML vers RDF/XML XSL, Python… Transformer des entrées clés/valeurs en RDF Google Refine Transformer une base de données relationnelle en RDF Db2triples, D2R server, …
  77. 77. 77 Outils ● Stocker les données dans un triplestore Optimisation Outils Mémoire Corese, Redstore Triplestore natif Mulgara, AllegroGraph, BigOWLIM, 4store, Neo4j BDR paramétrée Virtuoso, ARC, Oracle 11g, Sesame, 3store Column store Cstore, Heart, BigData, Cloudera
  78. 78. 78 Outils ● Exploiter les données en RDF Langages Outils Java (triples) Jena, Sesame, Trialox SCB, RDF2Go Java (ORM) Topaz, RDFReactor, So(m)mer, Elmo, jenabean PHP RAP, ARC (généraliste) C Redland Python RDFlib Ruby ActiveRDF Scala Scardf
  79. 79. 79 Laisse béton (Renaud) ● Publication des données en RDF
  80. 80. 80
  81. 81. 81 Le web sémantique, ça marche ! ● Les géants mondiaux de l’Internet avancent rapidement ● De plus en plus d’organisations l’adoptent pour des usages ciblés ● « Que puis-je faire pour le web sémantique ? » ● « Qu’est ce que le web sémantique peut faire pour moi ? »
  82. 82. 82 Le Web Sémantique, des atouts uniques ● Disposer d’une quantité colossale de jeux de données ● Accéder aux données de façon standardisée donc automatisable ● Les agréger pour servir tous types d’usages nouveaux
  83. 83. 83 Le Web Sémantique, aller plus loin ? Un livre dirigé par Fabien Gandon, INRIA / W3C EAN13 : 9782100572946
  84. 84. 84 Le web sémantique : à vous de jouer !
  85. 85. 85 pcol@antidot.net @PierreCol jhomo@antidot.net @Julien_Hom o @AntidotNet www.antidot.net

Notes de l'éditeur

  • Avant de nous présenter, une petite question : qui était né en 1978 ?
    Peu de monde, pas même mon collègue Julien… et cela confirme ce que laisse penser ma barbe blanche : je suis devenu « un vieux con de l’informatique » :-)
    En 1978 à 15 ans je codais mon premier programme en assembleur Z80 ensuite après une école d’ingénieurs en informatique et intelligence artificielle j’ai vu passer plusieurs vagues technologiques et pas des moindres : j’ai d’abord co-écrit un logiciel serveur pour le web 0.0, celui qu’on consultait sur un petit cube marron avec un écran N&B de 24 lignes par 40 caractères  Puis j’ai vu les débuts du web il y a un peu plus de 20 ans et travaillé pour un des principaux hébergeurs français, Jet Multimédia, depuis vendu à SFR. J’ai ensuite accompagné le lancement de quelques startup lyonnaises avant de rejoindre l’éditeur de logiciels lyonnais Antidot. Je tiens aussi un blog chez ZDNet France où je parle d’in frastructures Internet. Si j’ai tenu à parler devant vous du web sémantique, c’est parce qu’à mes yeux ce n’est pas juste une technologie de plus, mais quelque chose de vraiment important non seulement pour l’informatique mais pour toute l’humanité. Avec moi Julien Homo, qui lui est justement l’inverse d’un vieux con et va résumer son parcours  (Présentation de Julien)
  • Nous allons commencer par voir concrètement ce que peut faire le web sémantique.
  • Car le web sémantique est l’objet de nombreuses conférences et travaux de recherche depuis des années, mais c’est aussi déjà une réalité industrielle, notamment pour Google… avec le Knowledge Graph
  • Pour construire son "graphe de connnaissances", Google agrège des contenus structurés, issus notamment de Freebase (rachetée en 2010) du World Fact Book de la CIA et de plus en plus de Wikidata, la « base de données structurée » de Wikipedia.
  • Le Knowledge Graph, ce sont ces informations factuelles situées dans une boîte à droite des résultats de recherche… ici pour Antidot où nous travaillons…
  • Ici pour l’Ecole Normale Supérieure, voisine de nos bureaux et qui nous a fourni quelques stagiaires de très bon niveau…
  • … remarquez que Google y partage une information qu’il détient sur les « recherches associées », ici avec d’autres institutions universitaires et grandes écoles.
  • Le Knowledge Graph permet à Google de répondre directement à des questions, ici sur la population de la France, avec une synthèse d’informations fiables et pertinentes.
  • Le Knowledge Graph propose également de l’information culturelle, ici avec une frise donnant accès à une info synthétique sur les peintres impressionnistes…
  • … et là sur le chanteur Renaud…
  • … pour lequel sont donnés des éléments biographiques et aussi un accès direct à ses principales œuvres, même si à mes yeux il manque la chanson « Hexagone », victime de la censure giscardienne quand j’étais lycéen et codeur débutant, et que je vous invite à écouter ;-)
  • En cliquant sur l’album « Laisse béton », on a une information très complète sur son contenu et une frise de tous les autres albums, toujours sans quitter Google ! Je n’ai pas choisi Renaud au hasard, vous le verrez plus tard avec la présentation de Julien…
  • Ce que commence à faire Google avec le Knowledge Graph répond exactement à la vision de Tim Berners-Lee, qui a théorisé le web de données il y a près de 15 ans (une base de données globale pour faboriser la coopération hommes-machines)...
  • … avant de lancer le mouvement du Linked Open Data en 2009, dans une conférence TED demeurée célèbre et que je vous invite à revoir, en version sous-titrée.
  • Quand on voit le siège social d’Oracle, principal éditeur de logiciels de bases de données, on comprend pourquoi la vieille logique des silos de données est si prégnante, encore aujourd’hui…
  • Ca c’est le web des années 90, avec des hyperliens reliant des documents texte, sans vraie structure
  • Ca c’est le web des années 2000, avec des API permettant d’accéder aux données, chaque fournissseur de données apportant son API spécifique
  • Et ça c’est le web sémantique, qui a pris son essor dans les années 2010 : les liens se font au niveau le plus granulaire, entre les données elles-mêmes ! Comment est-ce possible ?
  • Grâce à des standards définis par le W3C, le World Wide Web Consortium.
  • Le web fonctionne selon un modèle en couches : HTTP standardise le transport des données…
  • XML simplifie l’échange direct des données, sans transcodage ou conversion de format…
  • Reste à mettre derrière les données une sémantique, indépendante de la langue que parlent les internautes… c’est le rôle des ontologies
  • Voici les standard du web sémantique, tels qu’ils sont validés par le W3C…
  • Ils forment un socle éprouvé pour des applications industrielles et pérennes… même s’il reste encore un peu de travail, notamment dans les couches supérieures, et particulièrement en ce qui concerne la « confiance » que l’on peut accorder aux données disponibles sur le web.
  • Voici le « Linked Open Data Cloud », le « nuage des données ouvertes liées » accessibles directement et librement sur le web.
    Je laisse maintenant la parole à Julien, jeune Jedi du web sémantique, qui va vous montrer en quoi c’est un sabre laser aussi puissant que précis !
  • Les Champs libres sont un équipement de la communauté d'agglomération Rennes Métropole, regroupant deux entités de Rennes Métropole, Bibliothèque de Rennes Métropole et le musée de Bretagne, ainsi que deux associations, l'Espace des sciences et son planétarium
  • Le site portail Les Champs Libres, www.leschampslibres.fr, a pour rôle de présenter au visiteur les activités et les ressources proposées par les différents établissements qui constituent l’équipement culturel (Bibliothèque de Rennes Métropole, musée de Bretagne, l’Espace des sciences) et de l’orienter vers leurs sites respectifs.
  • Pourtant, selon ses animateurs, il « ne remplit que très imparfaitement son rôle de portail » à ce jour. Aussi, dans la perspective du renouvellement du marché de maintenance des sites des Champs Libres, de la Bibliothèque de Rennes Métropole et du musée de Bretagne en juillet 2015, ceux-ci « souhaitent repenser les usages et les rôles souhaités pour ces différents sites ».
  • Moteurs de recherche cloisonnées, agenda commun mais visuellement distinct selon les services, silos de données clairement indépendants les uns des autres
  • Périmètre très générique et finalement assez vague : basé sur l’idée que le Web Sémantique et le Web de Données va apporter la solution. Mais quand est-il en réalité ? Pourquoi utiliser ces technologies ? Qu’est ce que signifie « les règles du web de données et du web sémantique »? Dans ce type d’étude, les clients ont peu ou pas de connaissances avancées sur le sujet. Notre rôle dans ce type d’étude est d’accompagner le client pour identifier ses besoins et ses usages pour lever rapidement les ambiguïtés et pour éviter les désillusions.
  • Les Champs Libres nous ont contacté dans le cadre d’une étude pour mettre à la disposition de ses utilisateurs un « centre de ressources digitales », produites par les sites web et les services de chacun des établissements sous forme de « fenêtres », de timeline, de cartes (géolocalisation) et d’un moteur de recherche fédéré.
  • Mettre à la disposition de ses utilisateurs un « centre de ressources digitales », produites par les sites web et les services de chacun des établissements sous forme de « fenêtres », de timeline, de cartes (géolocalisation) et d’un moteur de recherche fédéré.
  • Avant de démarrer : la méthodologie est indispensable.
  • Définissons le périmètre d’étude…
    Dans un premier temps : identifier les données disponibles et de leurs modes de production actuels

    Les services rentrant dans le cadre de l’étude sont les suivants :
    L’agenda culturel collectif des établissements des Champs Libres.
    Le catalogue de la bibliothèque de Rennes Métropole.
    Les Tablettes rennaises : la Bibliothèque a lancé un programme de numérisation de ses collections anciennes les plus précieuses, et dès à présent, plus de 4 500 textes et images vous attendent sur ce portail dédié.
    Les collections du musée de Bretagne.
    Les ressources de l’Espace des sciences.
    Les fiches pédagogiques.
    Les vidéos postées sur Vimeo et les podcasts postés sur Soundcloud.
  • Analyse des données : analyse des sources
    Captation des données de la source
    Format des données
    XML = un langage informatique de balisage générique et extensible
  • Analyse des données : types de données disponibles
  • Analyse des données : Types de données disponibles
    250 000 textes imprimés
    2 500 ouvrages numériques
    20 000 films et 2000 vidéos à la demande
    20 000 enregistrements musicaux et 10 000 partitions
    Zoom sur … les enregistrements musicaux !
  • Analyse des données : structure es enregistrements musicaux
  • Analyse des données : structure es enregistrements musicaux
  • Analyse des données : structure des enregistrements musicaux
    Première approche de la notion de format pivot
    Etude du modèle
    On voit le modèle HADOC émerger
  • Analyse des données : structure des enregistrements musicaux
    Première approche de la notion d’enrichissement
  • Analyse des données
    Pour se rendre compte plus en détails prenons un exemple du catalogue !
    Source de données : Bibliothèque de Rennes
    Types de données : Enregistrements musicaux
    Exemple du catalogue : Laisse béton (Renaud)
  • Analyse des données
    Interface pauvre…
  • Analyse des données
    …et des données que l’on retrouve directement en XML
    UNIMARC = format d’échange de données bibliographiques officiel
  • Fin de l’analyse et conclusion : on peut peut-être réussir à agréger les données et à les enrichir.
    Pour s’en rendre compte, il faut mettre les mains dedans.
    Ne pas perdre de vue qu’il s’agit ici d’un exemple. Ce travail d’analyse doit être effectuée sur chaque source et sur chaque type.
  • On va donc essayer de le faire concrètement.
    Il y a 3 étapes :
    normaliser les données
    enrichir les données
    exposer les données
  • Normalisation des données :
    - Construction des URIs
    - Définition des formats pivots
  • Constuire les URIs
  • Définition du format pivot
    2 types génériques, 2 modèles
    HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • Maintenant que les données sont décloisonnées, comment les relier au LOD ?
    Et surtout, pourquoi ?
  • Il faut d’abord regarder les données avec une vague idée de l’usage.

    Nous voulions travailler sur les musées, mais sans idées préconçues car on SUBIT les données. Ce qui conduit forcément à une déconvenues car on peut facilement fantasmer sur les usages si on fait une totale abstraction des données.
    Rencontre entre les deux, pas de réflexions plus poussées.

    Bien sûr, le Linked Data est plein de promesses, mais la réalité des données impose d’éviter tout aveuglement ou idéalisme
  • Dans un premier temps : identifier un macro usage

    Le chjoix de scope fonctionnel est tès large, mais on a un élément important : se focaliser sur qqch, ne pas se disperser.
    Le jeu de données principal ne peut pas être de la stat par exemple, il nous faut un jeu décrivant des objets informationnels.

    On se concentre – en général - sur un ou deux jeux de données qui amèneront, de par les liens qu’ils renferment, vers d’autres sources de données : on parle alors des qualités agrégeantes des jeux en question.
  • Données disponibles dans Les Champs Libres
  • Quels jeux de données complémentaires ?
    Etape très importante.
    Ils viennent enrichir le jeu principal.
    Critères de sélection : interrogations sur l’état des données
    Autorité de la source ?
    Qualité intrinsèque ? (format, structuration, complétude/cohérence, ex : dbpedia n’a pas de complétude/cohérence)
    Fraîcheur / fréquence de mise à jour ? (Dbpedia = tous les ans, alors que Wikidata est en temps réel)
    « Connectabilité » à d’autres données ? Et en particulier au jeu de données principal
    En fonction de prod ou proto cela peut influer
    En fonction du contexte client (médias ? Institution culturelle ? ) : les critères vont être pondérés différemment.



    Freebase (racheté par Google, CQFD) et l’écosystème Wikipedia représentent peut-être les meilleures exemples de qualités agrégeantes.
  • Wikidata = Hub de données du LOD
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • Publication en RDF =
    Interopérabilité
    Structure générique
    Identification des ressources
    Mise en relation

    Mise à disposition :
    SPARQL Endpoint
    Dump RDF
    Négociation de contenu
    Autres (intégrations web…)
  • La question n’est pas tant « Que puis-je faire pour le web sémantique ? » mais bien « Qu’est ce que le web sémantique peut faire pour moi ? » , et il peut faire beaucoup !
  • Le Web Sémantique est le seul moyen d’utiliser des quantités incroyables de données, dans tous les domaines, pour les agréger automatiquement au gré des besoins et des nouveaux usages du web !
  • Pour aller plus loin nous vous recommandons cet excellent bouquin en français
  • Mettez en œuvre le web sémantique, ça marche et ça améliore le web pour tout le monde !

×