Pierre Col Julien Homo
@PierreCol @Julien_Homo
2
Pierre Col @PierreCol
Julien Homo @Julien_Homo
1978
1963
1983
1986
1996
2007
2010
2006
2009
2011
1987
3
4
Le web sémantique, concrètement
Certains en parlent…
d’autres le font !
5
Le web sémantique, concrètement
6
Le web sémantique, concrètement
Knowledge
Graph
7
Knowledge
Graph
Le web sémantique, concrètement
8
Knowledge
Graph
Le web sémantique, concrètement
9
Le web sémantique, concrètement
Knowledge
Graph
10
Le web sémantique, concrètement
Knowledge
Graph
11
Knowledge
Graph
Le web sémantique, concrètement
12
Le web sémantique, concrètement
Knowledge
Graph
13
Le web sémantique, concrètement
Knowledge
Graph
14
Tim Berners-Lee verbatim
« The Semantic Web is a web of data,
in some ways like a global database »
« The Semantic Web ...
15
« Raw data now ! » février 2009
http://www.ted.com/talks/tim_berners_lee_on_the_next_web?language=fr
16
http://www.flickr.com/photos/jimgris/281139738/
L’idée : casser la vieille logique des silos
de données cloisonnées…
Si...
17
…pour partager la donnée structurée sur
un espace décentralisé : le web
Un Web de documents
● Documents reliés par des ...
18
…pour partager la donnée structurée sur
un espace décentralisé: le web
Puis un Web d’applications
● Données exposées à ...
19
…pour partager la donnée structurée sur
un espace décentralisé : le web
Et maintenant un Web de données
● Web de donnée...
20
21
Une condition nécessaire : assurer
l’interopérabilité des données structurées
● Transport
22
Une condition nécessaire : assurer
l’interopérabilité des données structurées
● Syntaxe
23
Une condition nécessaire : assurer
l’interopérabilité des données structurées
● Sémantique
24
Un langage pour les machines
Une grammaire Le vocabulaire
Des règles
d’écriture
Des moyens
de communication
RDF
RDFS / ...
25
Standards : le layer cake aujourd’hui
Déjà normalisé ou
en cours de normalisation
au W3C
26
Le Linked Open Data Cloud - 2014
27
28
Contexte
● Site portail
29
Contexte
● Site portail
30
Contexte
● Site portail
31
Problématique
● Mesurer « la faisabilité technique de réaliser un
site portail basé sur les règles du web de
données et...
32
Mais pourquoi recourir au Web
Sémantique ?
● Agréger les données
● Enrichir les données par des données externes
libre ...
33
Objectifs
● Offrir aux visiteurs une vision plus globale des
ressources disponibles
34
Objectifs
● Favoriser leur découverte par un effet de
sérendipité
35
Objectifs
● Enrichir l’expérience de navigation
36
Objectifs
● Mettre les données à la disposition de tous
37
Par où commencer ?
● Définir le périmètre de l’étude
● Analyser les données
● Réaliser un prototype
38
Quelles sont les sources disponibles ?
39
Comment accéder aux données ?
● API intégrée au système de gestion de
bibliothèque
Requête SIGB Base de données Export ...
40
Quelles sont les données disponibles ?
41
Quelles sont les données disponibles ?
20 000 films
250 000 textes imprimés
2 500 ouvrages numériques
20 000
enregistre...
42
Comment sont structurées les données ?
43
Comment sont structurées les données ?
Propriétés
ID
Dénomination
Auteur
Lieu de création
Date de création
Dimensions
C...
44
Comment sont structurées les données ?
Propriétés
ID
Dénomination
Auteur
Lieu de création
Date de création
Dimensions
C...
45
Comment sont structurées les données ?
Propriétés
ID
Dénomination
Auteur
Lieu de création
Date de création
Dimensions
C...
46
Laisse Béton (Renaud)
● Prenons un exemple !
47
Laisse Béton (Renaud)
● Vu du catalogue Web (OPAC) …
48
Laisse Béton (Renaud)
● … et du XML
49
Laisse Béton (Renaud)
● Il y a sûrement des choses à faire…
Propriétés Valeurs
ID b18895888
Dénomination Laisse Béton
A...
50
…Et bien faisons les !
● Réalisation d’un prototype
● Mesurer la faisabilité technique du projet sur un
échantillon
● M...
51
Mettre les données en commun
film01.avi “Livre A”
http://exemple.org/film/01 http://exemple.org/livre/A
52
Identifier les objets
● Schéma arbitraire
● http://data.leschampslibres.org/
● Origine : numérotation arbitraire
Source...
53
Modéliser les objets
Modèle HADOC
Modèles “évènements” (LODE,
CIDOC CRM, The Event Ontology…)
54
Laisse Béton (Renaud)
55
Relier les données à l’extérieur
● Oui mais dans quel but ?
56
Données VS Usages
57
Usages…
● « Apporter à l’utilisateur des compléments
d’informations sur les objets culturels qu’il
consulte sur le port...
58
… VS Données
Propriétés
ISBN
Référence commerciale
Nom et date de naissance de l’auteur
Noms de lieux
59
Sélectionner les sources externes
60
Graphe
Référence commerciale
Nom de l’auteur
+
Date de naissanceNom de lieu
ISBN
ID
IDID
ID
61
Laisse Béton (Renaud)
62
Automatisons-le !
Aligner Annoter
Préparer les données
Localement
A distance
Récupérer les données externes
Interroger ...
63
Préparer les données : aligner
Nom Prénom Date de
naissance
Hugo victor 26 février 1802
sartre jean paul 21/06/1905
…
h...
64
Préparer les données : annoter
http://sws.geonames.org/2911298
65
Préparer les données
● Idéalement
● Dumps RDF
● SPARQL Endpoint
● APIs Web RDF …
● Triplestore intermédiaire
66
Préparer les données
● En réalité
● Dumps divers
● Pas de SPARQL Endpoint
● APIs Web diverses
● Conversion RDF
Triplest...
67
Récupérer les données externes
● Requêtes SPARQL
● Triplestore intermédiaire
● SPARQL Endpoint
Enrichissements
Enrichis...
68
Récupérer les données externes
● Requêtes SPARQL : exemples
http://catalogue.bnf.fr/ark:/12148/cb11907966z
Victor Hugo
...
69
Récupérer les données externes
● Requêtes SPARQL : exemples
http://data.leschampslibres.org/1/b18895888
“0042282534828”...
70
Récupérer les données externes
● Autres : pas de RDF
● APIs Web
● Dumps (XML, CSV…)
● HTML
● …
…
Enrichissements
71
Récupérer les données externes
● En réalité
● Architecture complexe
● A adapter selon les besoins
… …
72
Laisse béton (Renaud)
Normalisation Triplestore intermédiaire Enrichissements RDF Enrichissements APIs
barcode ?
IDs Di...
73
74
Résultats
75
Outils
76
Outils
● Convertir les données
Actions Outils
Aligner, annoter Antidot Information Factory, Gate,
Python…
Créer des don...
77
Outils
● Stocker les données dans un triplestore
Optimisation Outils
Mémoire Corese, Redstore
Triplestore natif Mulgara...
78
Outils
● Exploiter les données en RDF
Langages Outils
Java (triples) Jena, Sesame, Trialox SCB, RDF2Go
Java (ORM) Topaz...
79
Laisse béton (Renaud)
● Publication des données en RDF
80
81
Le web sémantique, ça marche !
● Les géants mondiaux de l’Internet
avancent rapidement
● De plus en plus d’organisation...
82
Le Web Sémantique, des atouts uniques
● Disposer d’une quantité colossale de
jeux de données
● Accéder aux données de f...
83
Le Web Sémantique, aller plus loin ?
Un livre dirigé par
Fabien Gandon,
INRIA / W3C
EAN13 : 9782100572946
84
Le web sémantique : à vous de jouer !
85
pcol@antidot.net @PierreCol
jhomo@antidot.net
@Julien_Hom
o
@AntidotNet
www.antidot.net
Prochain SlideShare
Chargement dans…5
×

Web sémantique et Web de données, et si on passait à la pratique ?

2 382 vues

Publié le

Le web sémantique, théorisé il y a déjà longtemps par Tim Berners-Lee, a tardé à prendre son envol. Mais aujourd'hui la vague est là et les premiers à la surfer sont les grands acteurs du web, comme Google qui bâtit son Knowledge Graph. Les standards sont aujourd'hui matures, et des organisations de toutes tailles les mettent en oeuvre dans des projets concrets, avec un vrai retour sur investissement. Cependant faire une application à l’aide des technologies du Web Sémantique peut s’avérer être une tâche fastidieuse pour ceux qui souhaitent découvrir ce domaine. De nombreuses questions restent souvent en suspens. Quel est le rôle des ontologies ? Pourquoi utiliser RDF et SPARQL ? Qu’est ce qu’un triplestore et comment l’exploiter ? Comment tirer parti du Web de données pour enrichir ses données métier à l'aide de ces outils ? Autant de questions auxquelles nous essaieront de répondre à partir d’un exemple concret : les données de l'institution culturelle Les Champs Libres à Rennes.

Publié dans : Internet

Web sémantique et Web de données, et si on passait à la pratique ?

  1. 1. Pierre Col Julien Homo @PierreCol @Julien_Homo
  2. 2. 2 Pierre Col @PierreCol Julien Homo @Julien_Homo 1978 1963 1983 1986 1996 2007 2010 2006 2009 2011 1987
  3. 3. 3
  4. 4. 4 Le web sémantique, concrètement Certains en parlent… d’autres le font !
  5. 5. 5 Le web sémantique, concrètement
  6. 6. 6 Le web sémantique, concrètement Knowledge Graph
  7. 7. 7 Knowledge Graph Le web sémantique, concrètement
  8. 8. 8 Knowledge Graph Le web sémantique, concrètement
  9. 9. 9 Le web sémantique, concrètement Knowledge Graph
  10. 10. 10 Le web sémantique, concrètement Knowledge Graph
  11. 11. 11 Knowledge Graph Le web sémantique, concrètement
  12. 12. 12 Le web sémantique, concrètement Knowledge Graph
  13. 13. 13 Le web sémantique, concrètement Knowledge Graph
  14. 14. 14 Tim Berners-Lee verbatim « The Semantic Web is a web of data, in some ways like a global database » « The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation »
  15. 15. 15 « Raw data now ! » février 2009 http://www.ted.com/talks/tim_berners_lee_on_the_next_web?language=fr
  16. 16. 16 http://www.flickr.com/photos/jimgris/281139738/ L’idée : casser la vieille logique des silos de données cloisonnées… Siège social d’Oracle, l’éditeur du SGBDR le plus utilisé dans le monde, dans la Silicon Valley
  17. 17. 17 …pour partager la donnée structurée sur un espace décentralisé : le web Un Web de documents ● Documents reliés par des liens ● Pas de structuration sémantique ● Pas de requêtes structurées
  18. 18. 18 …pour partager la donnée structurée sur un espace décentralisé: le web Puis un Web d’applications ● Données exposées à travers des API ● API valables uniquement pour un silo ● Pas d’interopérabilité entre les silos
  19. 19. 19 …pour partager la donnée structurée sur un espace décentralisé : le web Et maintenant un Web de données ● Web de données = espace unifié ● Liens entre les données elles-mêmes ● APIs remplacées par des standards ouverts
  20. 20. 20
  21. 21. 21 Une condition nécessaire : assurer l’interopérabilité des données structurées ● Transport
  22. 22. 22 Une condition nécessaire : assurer l’interopérabilité des données structurées ● Syntaxe
  23. 23. 23 Une condition nécessaire : assurer l’interopérabilité des données structurées ● Sémantique
  24. 24. 24 Un langage pour les machines Une grammaire Le vocabulaire Des règles d’écriture Des moyens de communication RDF RDFS / OWL Ontologie RDF/XML N3, Turtle RDFa HTTP SPARQL
  25. 25. 25 Standards : le layer cake aujourd’hui Déjà normalisé ou en cours de normalisation au W3C
  26. 26. 26 Le Linked Open Data Cloud - 2014
  27. 27. 27
  28. 28. 28 Contexte ● Site portail
  29. 29. 29 Contexte ● Site portail
  30. 30. 30 Contexte ● Site portail
  31. 31. 31 Problématique ● Mesurer « la faisabilité technique de réaliser un site portail basé sur les règles du web de données et du web sémantique »
  32. 32. 32 Mais pourquoi recourir au Web Sémantique ? ● Agréger les données ● Enrichir les données par des données externes libre d’accès ● Faciliter leur échange ● Faciliter leur publication
  33. 33. 33 Objectifs ● Offrir aux visiteurs une vision plus globale des ressources disponibles
  34. 34. 34 Objectifs ● Favoriser leur découverte par un effet de sérendipité
  35. 35. 35 Objectifs ● Enrichir l’expérience de navigation
  36. 36. 36 Objectifs ● Mettre les données à la disposition de tous
  37. 37. 37 Par où commencer ? ● Définir le périmètre de l’étude ● Analyser les données ● Réaliser un prototype
  38. 38. 38 Quelles sont les sources disponibles ?
  39. 39. 39 Comment accéder aux données ? ● API intégrée au système de gestion de bibliothèque Requête SIGB Base de données Export XML ● Export au format XML
  40. 40. 40 Quelles sont les données disponibles ?
  41. 41. 41 Quelles sont les données disponibles ? 20 000 films 250 000 textes imprimés 2 500 ouvrages numériques 20 000 enregistrements musicaux
  42. 42. 42 Comment sont structurées les données ?
  43. 43. 43 Comment sont structurées les données ? Propriétés ID Dénomination Auteur Lieu de création Date de création Dimensions Catégorie matière Catégorie technique Mots-clés Référence commerciale
  44. 44. 44 Comment sont structurées les données ? Propriétés ID Dénomination Auteur Lieu de création Date de création Dimensions Catégorie matière Catégorie technique Mots-clés Référence commerciale Propriétés génériques d’une œuvre ?
  45. 45. 45 Comment sont structurées les données ? Propriétés ID Dénomination Auteur Lieu de création Date de création Dimensions Catégorie matière Catégorie technique Mots-clés Référence commerciale Lien vers le Linked Open Data ?
  46. 46. 46 Laisse Béton (Renaud) ● Prenons un exemple !
  47. 47. 47 Laisse Béton (Renaud) ● Vu du catalogue Web (OPAC) …
  48. 48. 48 Laisse Béton (Renaud) ● … et du XML
  49. 49. 49 Laisse Béton (Renaud) ● Il y a sûrement des choses à faire… Propriétés Valeurs ID b18895888 Dénomination Laisse Béton Auteur Renaud Lieu de création - Date de création - Dimensions 1 disque compact (36 min) Catégorie matière - Catégorie technique - Mots-clés - Référence commerciale 0042282534828
  50. 50. 50 …Et bien faisons les ! ● Réalisation d’un prototype ● Mesurer la faisabilité technique du projet sur un échantillon ● Montrer l’apport de l’Open Data ● Evaluer les difficultés
  51. 51. 51 Mettre les données en commun film01.avi “Livre A” http://exemple.org/film/01 http://exemple.org/livre/A
  52. 52. 52 Identifier les objets ● Schéma arbitraire ● http://data.leschampslibres.org/ ● Origine : numérotation arbitraire Source Numéro Propriété ID Bibliothèque de Rennes 1 Controlfield 001 http://data.leschampslibres.org/1/b18895888
  53. 53. 53 Modéliser les objets Modèle HADOC Modèles “évènements” (LODE, CIDOC CRM, The Event Ontology…)
  54. 54. 54 Laisse Béton (Renaud)
  55. 55. 55 Relier les données à l’extérieur ● Oui mais dans quel but ?
  56. 56. 56 Données VS Usages
  57. 57. 57 Usages… ● « Apporter à l’utilisateur des compléments d’informations sur les objets culturels qu’il consulte sur le portail des Champs Libres »
  58. 58. 58 … VS Données Propriétés ISBN Référence commerciale Nom et date de naissance de l’auteur Noms de lieux
  59. 59. 59 Sélectionner les sources externes
  60. 60. 60 Graphe Référence commerciale Nom de l’auteur + Date de naissanceNom de lieu ISBN ID IDID ID
  61. 61. 61 Laisse Béton (Renaud)
  62. 62. 62 Automatisons-le ! Aligner Annoter Préparer les données Localement A distance Récupérer les données externes Interroger Interroger
  63. 63. 63 Préparer les données : aligner Nom Prénom Date de naissance Hugo victor 26 février 1802 sartre jean paul 21/06/1905 … http://catalogue.bnf.fr/ark:/ 12148/cb11907966z Nom Prénom Date de naissance Hugo Victor 1802-02-26 Victor 1802-02-26
  64. 64. 64 Préparer les données : annoter http://sws.geonames.org/2911298
  65. 65. 65 Préparer les données ● Idéalement ● Dumps RDF ● SPARQL Endpoint ● APIs Web RDF … ● Triplestore intermédiaire
  66. 66. 66 Préparer les données ● En réalité ● Dumps divers ● Pas de SPARQL Endpoint ● APIs Web diverses ● Conversion RDF Triplestore …
  67. 67. 67 Récupérer les données externes ● Requêtes SPARQL ● Triplestore intermédiaire ● SPARQL Endpoint Enrichissements Enrichissements
  68. 68. 68 Récupérer les données externes ● Requêtes SPARQL : exemples http://catalogue.bnf.fr/ark:/12148/cb11907966z Victor Hugo 1802-02-26 foaf:givenName foaf:name db:birthDate http://catalogue.bnf.fr/ark:/12148/cb11907966z
  69. 69. 69 Récupérer les données externes ● Requêtes SPARQL : exemples http://data.leschampslibres.org/1/b18895888 “0042282534828” hadoc:isbn “4.25 / 5” http://www.discogs.com/master/11710 http://www.wikidata.org/wiki/Q3216384 http://musicbrainz.org/release-group/ 374fd86d-838c-3d40-a2c8-680b800290e7 “0042282534828” mb:barcod e owl:sameA s owl:sameA s dcogs:rating “4.25 / 5”
  70. 70. 70 Récupérer les données externes ● Autres : pas de RDF ● APIs Web ● Dumps (XML, CSV…) ● HTML ● … … Enrichissements
  71. 71. 71 Récupérer les données externes ● En réalité ● Architecture complexe ● A adapter selon les besoins … …
  72. 72. 72 Laisse béton (Renaud) Normalisation Triplestore intermédiaire Enrichissements RDF Enrichissements APIs barcode ? IDs Discogs Allmusic ?
  73. 73. 73
  74. 74. 74 Résultats
  75. 75. 75 Outils
  76. 76. 76 Outils ● Convertir les données Actions Outils Aligner, annoter Antidot Information Factory, Gate, Python… Créer des données RDF avec un éditeur Morla, Top Braid composer, Editeur XML (Oxygen), Protégé Transformer des données de XML vers RDF/XML XSL, Python… Transformer des entrées clés/valeurs en RDF Google Refine Transformer une base de données relationnelle en RDF Db2triples, D2R server, …
  77. 77. 77 Outils ● Stocker les données dans un triplestore Optimisation Outils Mémoire Corese, Redstore Triplestore natif Mulgara, AllegroGraph, BigOWLIM, 4store, Neo4j BDR paramétrée Virtuoso, ARC, Oracle 11g, Sesame, 3store Column store Cstore, Heart, BigData, Cloudera
  78. 78. 78 Outils ● Exploiter les données en RDF Langages Outils Java (triples) Jena, Sesame, Trialox SCB, RDF2Go Java (ORM) Topaz, RDFReactor, So(m)mer, Elmo, jenabean PHP RAP, ARC (généraliste) C Redland Python RDFlib Ruby ActiveRDF Scala Scardf
  79. 79. 79 Laisse béton (Renaud) ● Publication des données en RDF
  80. 80. 80
  81. 81. 81 Le web sémantique, ça marche ! ● Les géants mondiaux de l’Internet avancent rapidement ● De plus en plus d’organisations l’adoptent pour des usages ciblés ● « Que puis-je faire pour le web sémantique ? » ● « Qu’est ce que le web sémantique peut faire pour moi ? »
  82. 82. 82 Le Web Sémantique, des atouts uniques ● Disposer d’une quantité colossale de jeux de données ● Accéder aux données de façon standardisée donc automatisable ● Les agréger pour servir tous types d’usages nouveaux
  83. 83. 83 Le Web Sémantique, aller plus loin ? Un livre dirigé par Fabien Gandon, INRIA / W3C EAN13 : 9782100572946
  84. 84. 84 Le web sémantique : à vous de jouer !
  85. 85. 85 pcol@antidot.net @PierreCol jhomo@antidot.net @Julien_Hom o @AntidotNet www.antidot.net

×