Pierre Col Julien Homo
@PierreCol @Julien_Homo
2
Pierre Col @PierreCol
Julien Homo @Julien_Homo
1978
1963
1983
1986
1996
2007
2010
2006
2009
2011
1987
3
4
Le web sémantique, concrètement
Certains en parlent…
d’autres le font !
5
Le web sémantique, concrètement
6
Le web sémantique, concrètement
Knowledge
Graph
7
Knowledge
Graph
Le web sémantique, concrètement
8
Knowledge
Graph
Le web sémantique, concrètement
9
Le web sémantique, concrètement
Knowledge
Graph
10
Le web sémantique, concrètement
Knowledge
Graph
11
Knowledge
Graph
Le web sémantique, concrètement
12
Le web sémantique, concrètement
Knowledge
Graph
13
Le web sémantique, concrètement
Knowledge
Graph
14
Tim Berners-Lee verbatim
« The Semantic Web is a web of data,
in some ways like a global database »
« The Semantic Web ...
15
« Raw data now ! » février 2009
http://www.ted.com/talks/tim_berners_lee_on_the_next_web?language=fr
16
http://www.flickr.com/photos/jimgris/281139738/
L’idée : casser la vieille logique des silos
de données cloisonnées…
Si...
17
…pour partager la donnée structurée sur
un espace décentralisé : le web
Un Web de documents
● Documents reliés par des ...
18
…pour partager la donnée structurée sur
un espace décentralisé: le web
Puis un Web d’applications
● Données exposées à ...
19
…pour partager la donnée structurée sur
un espace décentralisé : le web
Et maintenant un Web de données
● Web de donnée...
20
21
Une condition nécessaire : assurer
l’interopérabilité des données structurées
● Transport
22
Une condition nécessaire : assurer
l’interopérabilité des données structurées
● Syntaxe
23
Une condition nécessaire : assurer
l’interopérabilité des données structurées
● Sémantique
24
Un langage pour les machines
Une grammaire Le vocabulaire
Des règles
d’écriture
Des moyens
de communication
RDF
RDFS / ...
25
Standards : le layer cake aujourd’hui
Déjà normalisé ou
en cours de normalisation
au W3C
26
Le Linked Open Data Cloud - 2014
27
28
Contexte
● Site portail
29
Contexte
● Site portail
30
Contexte
● Site portail
31
Problématique
● Mesurer « la faisabilité technique de réaliser un
site portail basé sur les règles du web de
données et...
32
Mais pourquoi recourir au Web
Sémantique ?
● Agréger les données
● Enrichir les données par des données externes
libre ...
33
Objectifs
● Offrir aux visiteurs une vision plus globale des
ressources disponibles
34
Objectifs
● Favoriser leur découverte par un effet de
sérendipité
35
Objectifs
● Enrichir l’expérience de navigation
36
Objectifs
● Mettre les données à la disposition de tous
37
Par où commencer ?
● Définir le périmètre de l’étude
● Analyser les données
● Réaliser un prototype
38
Quelles sont les sources disponibles ?
39
Comment accéder aux données ?
● API intégrée au système de gestion de
bibliothèque
Requête SIGB Base de données Export ...
40
Quelles sont les données disponibles ?
41
Quelles sont les données disponibles ?
20 000 films
250 000 textes imprimés
2 500 ouvrages numériques
20 000
enregistre...
42
Comment sont structurées les données ?
43
Comment sont structurées les données ?
Propriétés
ID
Dénomination
Auteur
Lieu de création
Date de création
Dimensions
C...
44
Comment sont structurées les données ?
Propriétés
ID
Dénomination
Auteur
Lieu de création
Date de création
Dimensions
C...
45
Comment sont structurées les données ?
Propriétés
ID
Dénomination
Auteur
Lieu de création
Date de création
Dimensions
C...
46
Laisse Béton (Renaud)
● Prenons un exemple !
47
Laisse Béton (Renaud)
● Vu du catalogue Web (OPAC) …
48
Laisse Béton (Renaud)
● … et du XML
49
Laisse Béton (Renaud)
● Il y a sûrement des choses à faire…
Propriétés Valeurs
ID b18895888
Dénomination Laisse Béton
A...
50
…Et bien faisons les !
● Réalisation d’un prototype
● Mesurer la faisabilité technique du projet sur un
échantillon
● M...
51
Mettre les données en commun
film01.avi “Livre A”
http://exemple.org/film/01 http://exemple.org/livre/A
52
Identifier les objets
● Schéma arbitraire
● http://data.leschampslibres.org/
● Origine : numérotation arbitraire
Source...
53
Modéliser les objets
Modèle HADOC
Modèles “évènements” (LODE,
CIDOC CRM, The Event Ontology…)
54
Laisse Béton (Renaud)
55
Relier les données à l’extérieur
● Oui mais dans quel but ?
56
Données VS Usages
57
Usages…
● « Apporter à l’utilisateur des compléments
d’informations sur les objets culturels qu’il
consulte sur le port...
58
… VS Données
Propriétés
ISBN
Référence commerciale
Nom et date de naissance de l’auteur
Noms de lieux
59
Sélectionner les sources externes
60
Graphe
Référence commerciale
Nom de l’auteur
+
Date de naissanceNom de lieu
ISBN
ID
IDID
ID
61
Laisse Béton (Renaud)
62
Automatisons-le !
Aligner Annoter
Préparer les données
Localement
A distance
Récupérer les données externes
Interroger ...
63
Préparer les données : aligner
Nom Prénom Date de
naissance
Hugo victor 26 février 1802
sartre jean paul 21/06/1905
…
h...
64
Préparer les données : annoter
http://sws.geonames.org/2911298
65
Préparer les données
● Idéalement
● Dumps RDF
● SPARQL Endpoint
● APIs Web RDF …
● Triplestore intermédiaire
66
Préparer les données
● En réalité
● Dumps divers
● Pas de SPARQL Endpoint
● APIs Web diverses
● Conversion RDF
Triplest...
67
Récupérer les données externes
● Requêtes SPARQL
● Triplestore intermédiaire
● SPARQL Endpoint
Enrichissements
Enrichis...
68
Récupérer les données externes
● Requêtes SPARQL : exemples
http://catalogue.bnf.fr/ark:/12148/cb11907966z
Victor Hugo
...
69
Récupérer les données externes
● Requêtes SPARQL : exemples
http://data.leschampslibres.org/1/b18895888
“0042282534828”...
70
Récupérer les données externes
● Autres : pas de RDF
● APIs Web
● Dumps (XML, CSV…)
● HTML
● …
…
Enrichissements
71
Récupérer les données externes
● En réalité
● Architecture complexe
● A adapter selon les besoins
… …
72
Laisse béton (Renaud)
Normalisation Triplestore intermédiaire Enrichissements RDF Enrichissements APIs
barcode ?
IDs Di...
73
74
Résultats
75
Outils
76
Outils
● Convertir les données
Actions Outils
Aligner, annoter Antidot Information Factory, Gate,
Python…
Créer des don...
77
Outils
● Stocker les données dans un triplestore
Optimisation Outils
Mémoire Corese, Redstore
Triplestore natif Mulgara...
78
Outils
● Exploiter les données en RDF
Langages Outils
Java (triples) Jena, Sesame, Trialox SCB, RDF2Go
Java (ORM) Topaz...
79
Laisse béton (Renaud)
● Publication des données en RDF
80
81
Le web sémantique, ça marche !
● Les géants mondiaux de l’Internet
avancent rapidement
● De plus en plus d’organisation...
82
Le Web Sémantique, des atouts uniques
● Disposer d’une quantité colossale de
jeux de données
● Accéder aux données de f...
83
Le Web Sémantique, aller plus loin ?
Un livre dirigé par
Fabien Gandon,
INRIA / W3C
EAN13 : 9782100572946
84
Le web sémantique : à vous de jouer !
85
pcol@antidot.net @PierreCol
jhomo@antidot.net
@Julien_Hom
o
@AntidotNet
www.antidot.net
Prochain SlideShare
Chargement dans…5
×

Web sémantique et Web de données, et si on passait à la pratique ?

1 738 vues

Publié le

Le web sémantique, théorisé il y a déjà longtemps par Tim Berners-Lee, a tardé à prendre son envol. Mais aujourd'hui la vague est là et les premiers à la surfer sont les grands acteurs du web, comme Google qui bâtit son Knowledge Graph. Les standards sont aujourd'hui matures, et des organisations de toutes tailles les mettent en oeuvre dans des projets concrets, avec un vrai retour sur investissement. Cependant faire une application à l’aide des technologies du Web Sémantique peut s’avérer être une tâche fastidieuse pour ceux qui souhaitent découvrir ce domaine. De nombreuses questions restent souvent en suspens. Quel est le rôle des ontologies ? Pourquoi utiliser RDF et SPARQL ? Qu’est ce qu’un triplestore et comment l’exploiter ? Comment tirer parti du Web de données pour enrichir ses données métier à l'aide de ces outils ? Autant de questions auxquelles nous essaieront de répondre à partir d’un exemple concret : les données de l'institution culturelle Les Champs Libres à Rennes.

Publié dans : Internet
1 commentaire
1 j’aime
Statistiques
Remarques
Aucun téléchargement
Vues
Nombre de vues
1 738
Sur SlideShare
0
Issues des intégrations
0
Intégrations
105
Actions
Partages
0
Téléchargements
43
Commentaires
1
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Avant de nous présenter, une petite question : qui était né en 1978 ?
    Peu de monde, pas même mon collègue Julien… et cela confirme ce que laisse penser ma barbe blanche : je suis devenu « un vieux con de l’informatique » :-)
    En 1978 à 15 ans je codais mon premier programme en assembleur Z80 ensuite après une école d’ingénieurs en informatique et intelligence artificielle j’ai vu passer plusieurs vagues technologiques et pas des moindres : j’ai d’abord co-écrit un logiciel serveur pour le web 0.0, celui qu’on consultait sur un petit cube marron avec un écran N&B de 24 lignes par 40 caractères  Puis j’ai vu les débuts du web il y a un peu plus de 20 ans et travaillé pour un des principaux hébergeurs français, Jet Multimédia, depuis vendu à SFR. J’ai ensuite accompagné le lancement de quelques startup lyonnaises avant de rejoindre l’éditeur de logiciels lyonnais Antidot. Je tiens aussi un blog chez ZDNet France où je parle d’in frastructures Internet. Si j’ai tenu à parler devant vous du web sémantique, c’est parce qu’à mes yeux ce n’est pas juste une technologie de plus, mais quelque chose de vraiment important non seulement pour l’informatique mais pour toute l’humanité. Avec moi Julien Homo, qui lui est justement l’inverse d’un vieux con et va résumer son parcours  (Présentation de Julien)
  • Nous allons commencer par voir concrètement ce que peut faire le web sémantique.
  • Car le web sémantique est l’objet de nombreuses conférences et travaux de recherche depuis des années, mais c’est aussi déjà une réalité industrielle, notamment pour Google… avec le Knowledge Graph
  • Pour construire son "graphe de connnaissances", Google agrège des contenus structurés, issus notamment de Freebase (rachetée en 2010) du World Fact Book de la CIA et de plus en plus de Wikidata, la « base de données structurée » de Wikipedia.
  • Le Knowledge Graph, ce sont ces informations factuelles situées dans une boîte à droite des résultats de recherche… ici pour Antidot où nous travaillons…
  • Ici pour l’Ecole Normale Supérieure, voisine de nos bureaux et qui nous a fourni quelques stagiaires de très bon niveau…
  • … remarquez que Google y partage une information qu’il détient sur les « recherches associées », ici avec d’autres institutions universitaires et grandes écoles.
  • Le Knowledge Graph permet à Google de répondre directement à des questions, ici sur la population de la France, avec une synthèse d’informations fiables et pertinentes.
  • Le Knowledge Graph propose également de l’information culturelle, ici avec une frise donnant accès à une info synthétique sur les peintres impressionnistes…
  • … et là sur le chanteur Renaud…
  • … pour lequel sont donnés des éléments biographiques et aussi un accès direct à ses principales œuvres, même si à mes yeux il manque la chanson « Hexagone », victime de la censure giscardienne quand j’étais lycéen et codeur débutant, et que je vous invite à écouter ;-)
  • En cliquant sur l’album « Laisse béton », on a une information très complète sur son contenu et une frise de tous les autres albums, toujours sans quitter Google ! Je n’ai pas choisi Renaud au hasard, vous le verrez plus tard avec la présentation de Julien…
  • Ce que commence à faire Google avec le Knowledge Graph répond exactement à la vision de Tim Berners-Lee, qui a théorisé le web de données il y a près de 15 ans (une base de données globale pour faboriser la coopération hommes-machines)...
  • … avant de lancer le mouvement du Linked Open Data en 2009, dans une conférence TED demeurée célèbre et que je vous invite à revoir, en version sous-titrée.
  • Quand on voit le siège social d’Oracle, principal éditeur de logiciels de bases de données, on comprend pourquoi la vieille logique des silos de données est si prégnante, encore aujourd’hui…
  • Ca c’est le web des années 90, avec des hyperliens reliant des documents texte, sans vraie structure
  • Ca c’est le web des années 2000, avec des API permettant d’accéder aux données, chaque fournissseur de données apportant son API spécifique
  • Et ça c’est le web sémantique, qui a pris son essor dans les années 2010 : les liens se font au niveau le plus granulaire, entre les données elles-mêmes ! Comment est-ce possible ?
  • Grâce à des standards définis par le W3C, le World Wide Web Consortium.
  • Le web fonctionne selon un modèle en couches : HTTP standardise le transport des données…
  • XML simplifie l’échange direct des données, sans transcodage ou conversion de format…
  • Reste à mettre derrière les données une sémantique, indépendante de la langue que parlent les internautes… c’est le rôle des ontologies
  • Voici les standard du web sémantique, tels qu’ils sont validés par le W3C…
  • Ils forment un socle éprouvé pour des applications industrielles et pérennes… même s’il reste encore un peu de travail, notamment dans les couches supérieures, et particulièrement en ce qui concerne la « confiance » que l’on peut accorder aux données disponibles sur le web.
  • Voici le « Linked Open Data Cloud », le « nuage des données ouvertes liées » accessibles directement et librement sur le web.
    Je laisse maintenant la parole à Julien, jeune Jedi du web sémantique, qui va vous montrer en quoi c’est un sabre laser aussi puissant que précis !
  • Les Champs libres sont un équipement de la communauté d'agglomération Rennes Métropole, regroupant deux entités de Rennes Métropole, Bibliothèque de Rennes Métropole et le musée de Bretagne, ainsi que deux associations, l'Espace des sciences et son planétarium
  • Le site portail Les Champs Libres, www.leschampslibres.fr, a pour rôle de présenter au visiteur les activités et les ressources proposées par les différents établissements qui constituent l’équipement culturel (Bibliothèque de Rennes Métropole, musée de Bretagne, l’Espace des sciences) et de l’orienter vers leurs sites respectifs.
  • Pourtant, selon ses animateurs, il « ne remplit que très imparfaitement son rôle de portail » à ce jour. Aussi, dans la perspective du renouvellement du marché de maintenance des sites des Champs Libres, de la Bibliothèque de Rennes Métropole et du musée de Bretagne en juillet 2015, ceux-ci « souhaitent repenser les usages et les rôles souhaités pour ces différents sites ».
  • Moteurs de recherche cloisonnées, agenda commun mais visuellement distinct selon les services, silos de données clairement indépendants les uns des autres
  • Périmètre très générique et finalement assez vague : basé sur l’idée que le Web Sémantique et le Web de Données va apporter la solution. Mais quand est-il en réalité ? Pourquoi utiliser ces technologies ? Qu’est ce que signifie « les règles du web de données et du web sémantique »? Dans ce type d’étude, les clients ont peu ou pas de connaissances avancées sur le sujet. Notre rôle dans ce type d’étude est d’accompagner le client pour identifier ses besoins et ses usages pour lever rapidement les ambiguïtés et pour éviter les désillusions.
  • Les Champs Libres nous ont contacté dans le cadre d’une étude pour mettre à la disposition de ses utilisateurs un « centre de ressources digitales », produites par les sites web et les services de chacun des établissements sous forme de « fenêtres », de timeline, de cartes (géolocalisation) et d’un moteur de recherche fédéré.
  • Mettre à la disposition de ses utilisateurs un « centre de ressources digitales », produites par les sites web et les services de chacun des établissements sous forme de « fenêtres », de timeline, de cartes (géolocalisation) et d’un moteur de recherche fédéré.
  • Avant de démarrer : la méthodologie est indispensable.
  • Définissons le périmètre d’étude…
    Dans un premier temps : identifier les données disponibles et de leurs modes de production actuels

    Les services rentrant dans le cadre de l’étude sont les suivants :
    L’agenda culturel collectif des établissements des Champs Libres.
    Le catalogue de la bibliothèque de Rennes Métropole.
    Les Tablettes rennaises : la Bibliothèque a lancé un programme de numérisation de ses collections anciennes les plus précieuses, et dès à présent, plus de 4 500 textes et images vous attendent sur ce portail dédié.
    Les collections du musée de Bretagne.
    Les ressources de l’Espace des sciences.
    Les fiches pédagogiques.
    Les vidéos postées sur Vimeo et les podcasts postés sur Soundcloud.
  • Analyse des données : analyse des sources
    Captation des données de la source
    Format des données
    XML = un langage informatique de balisage générique et extensible
  • Analyse des données : types de données disponibles
  • Analyse des données : Types de données disponibles
    250 000 textes imprimés
    2 500 ouvrages numériques
    20 000 films et 2000 vidéos à la demande
    20 000 enregistrements musicaux et 10 000 partitions
    Zoom sur … les enregistrements musicaux !
  • Analyse des données : structure es enregistrements musicaux
  • Analyse des données : structure es enregistrements musicaux
  • Analyse des données : structure des enregistrements musicaux
    Première approche de la notion de format pivot
    Etude du modèle
    On voit le modèle HADOC émerger
  • Analyse des données : structure des enregistrements musicaux
    Première approche de la notion d’enrichissement
  • Analyse des données
    Pour se rendre compte plus en détails prenons un exemple du catalogue !
    Source de données : Bibliothèque de Rennes
    Types de données : Enregistrements musicaux
    Exemple du catalogue : Laisse béton (Renaud)
  • Analyse des données
    Interface pauvre…
  • Analyse des données
    …et des données que l’on retrouve directement en XML
    UNIMARC = format d’échange de données bibliographiques officiel
  • Fin de l’analyse et conclusion : on peut peut-être réussir à agréger les données et à les enrichir.
    Pour s’en rendre compte, il faut mettre les mains dedans.
    Ne pas perdre de vue qu’il s’agit ici d’un exemple. Ce travail d’analyse doit être effectuée sur chaque source et sur chaque type.
  • On va donc essayer de le faire concrètement.
    Il y a 3 étapes :
    normaliser les données
    enrichir les données
    exposer les données
  • Normalisation des données :
    - Construction des URIs
    - Définition des formats pivots
  • Constuire les URIs
  • Définition du format pivot
    2 types génériques, 2 modèles
    HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • Maintenant que les données sont décloisonnées, comment les relier au LOD ?
    Et surtout, pourquoi ?
  • Il faut d’abord regarder les données avec une vague idée de l’usage.

    Nous voulions travailler sur les musées, mais sans idées préconçues car on SUBIT les données. Ce qui conduit forcément à une déconvenues car on peut facilement fantasmer sur les usages si on fait une totale abstraction des données.
    Rencontre entre les deux, pas de réflexions plus poussées.

    Bien sûr, le Linked Data est plein de promesses, mais la réalité des données impose d’éviter tout aveuglement ou idéalisme
  • Dans un premier temps : identifier un macro usage

    Le chjoix de scope fonctionnel est tès large, mais on a un élément important : se focaliser sur qqch, ne pas se disperser.
    Le jeu de données principal ne peut pas être de la stat par exemple, il nous faut un jeu décrivant des objets informationnels.

    On se concentre – en général - sur un ou deux jeux de données qui amèneront, de par les liens qu’ils renferment, vers d’autres sources de données : on parle alors des qualités agrégeantes des jeux en question.
  • Données disponibles dans Les Champs Libres
  • Quels jeux de données complémentaires ?
    Etape très importante.
    Ils viennent enrichir le jeu principal.
    Critères de sélection : interrogations sur l’état des données
    Autorité de la source ?
    Qualité intrinsèque ? (format, structuration, complétude/cohérence, ex : dbpedia n’a pas de complétude/cohérence)
    Fraîcheur / fréquence de mise à jour ? (Dbpedia = tous les ans, alors que Wikidata est en temps réel)
    « Connectabilité » à d’autres données ? Et en particulier au jeu de données principal
    En fonction de prod ou proto cela peut influer
    En fonction du contexte client (médias ? Institution culturelle ? ) : les critères vont être pondérés différemment.



    Freebase (racheté par Google, CQFD) et l’écosystème Wikipedia représentent peut-être les meilleures exemples de qualités agrégeantes.
  • Wikidata = Hub de données du LOD
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • HADOC = Harmonisation de la production des Données Culturelles
  • Publication en RDF =
    Interopérabilité
    Structure générique
    Identification des ressources
    Mise en relation

    Mise à disposition :
    SPARQL Endpoint
    Dump RDF
    Négociation de contenu
    Autres (intégrations web…)
  • La question n’est pas tant « Que puis-je faire pour le web sémantique ? » mais bien « Qu’est ce que le web sémantique peut faire pour moi ? » , et il peut faire beaucoup !
  • Le Web Sémantique est le seul moyen d’utiliser des quantités incroyables de données, dans tous les domaines, pour les agréger automatiquement au gré des besoins et des nouveaux usages du web !
  • Pour aller plus loin nous vous recommandons cet excellent bouquin en français
  • Mettez en œuvre le web sémantique, ça marche et ça améliore le web pour tout le monde !
  • Web sémantique et Web de données, et si on passait à la pratique ?

    1. 1. Pierre Col Julien Homo @PierreCol @Julien_Homo
    2. 2. 2 Pierre Col @PierreCol Julien Homo @Julien_Homo 1978 1963 1983 1986 1996 2007 2010 2006 2009 2011 1987
    3. 3. 3
    4. 4. 4 Le web sémantique, concrètement Certains en parlent… d’autres le font !
    5. 5. 5 Le web sémantique, concrètement
    6. 6. 6 Le web sémantique, concrètement Knowledge Graph
    7. 7. 7 Knowledge Graph Le web sémantique, concrètement
    8. 8. 8 Knowledge Graph Le web sémantique, concrètement
    9. 9. 9 Le web sémantique, concrètement Knowledge Graph
    10. 10. 10 Le web sémantique, concrètement Knowledge Graph
    11. 11. 11 Knowledge Graph Le web sémantique, concrètement
    12. 12. 12 Le web sémantique, concrètement Knowledge Graph
    13. 13. 13 Le web sémantique, concrètement Knowledge Graph
    14. 14. 14 Tim Berners-Lee verbatim « The Semantic Web is a web of data, in some ways like a global database » « The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation »
    15. 15. 15 « Raw data now ! » février 2009 http://www.ted.com/talks/tim_berners_lee_on_the_next_web?language=fr
    16. 16. 16 http://www.flickr.com/photos/jimgris/281139738/ L’idée : casser la vieille logique des silos de données cloisonnées… Siège social d’Oracle, l’éditeur du SGBDR le plus utilisé dans le monde, dans la Silicon Valley
    17. 17. 17 …pour partager la donnée structurée sur un espace décentralisé : le web Un Web de documents ● Documents reliés par des liens ● Pas de structuration sémantique ● Pas de requêtes structurées
    18. 18. 18 …pour partager la donnée structurée sur un espace décentralisé: le web Puis un Web d’applications ● Données exposées à travers des API ● API valables uniquement pour un silo ● Pas d’interopérabilité entre les silos
    19. 19. 19 …pour partager la donnée structurée sur un espace décentralisé : le web Et maintenant un Web de données ● Web de données = espace unifié ● Liens entre les données elles-mêmes ● APIs remplacées par des standards ouverts
    20. 20. 20
    21. 21. 21 Une condition nécessaire : assurer l’interopérabilité des données structurées ● Transport
    22. 22. 22 Une condition nécessaire : assurer l’interopérabilité des données structurées ● Syntaxe
    23. 23. 23 Une condition nécessaire : assurer l’interopérabilité des données structurées ● Sémantique
    24. 24. 24 Un langage pour les machines Une grammaire Le vocabulaire Des règles d’écriture Des moyens de communication RDF RDFS / OWL Ontologie RDF/XML N3, Turtle RDFa HTTP SPARQL
    25. 25. 25 Standards : le layer cake aujourd’hui Déjà normalisé ou en cours de normalisation au W3C
    26. 26. 26 Le Linked Open Data Cloud - 2014
    27. 27. 27
    28. 28. 28 Contexte ● Site portail
    29. 29. 29 Contexte ● Site portail
    30. 30. 30 Contexte ● Site portail
    31. 31. 31 Problématique ● Mesurer « la faisabilité technique de réaliser un site portail basé sur les règles du web de données et du web sémantique »
    32. 32. 32 Mais pourquoi recourir au Web Sémantique ? ● Agréger les données ● Enrichir les données par des données externes libre d’accès ● Faciliter leur échange ● Faciliter leur publication
    33. 33. 33 Objectifs ● Offrir aux visiteurs une vision plus globale des ressources disponibles
    34. 34. 34 Objectifs ● Favoriser leur découverte par un effet de sérendipité
    35. 35. 35 Objectifs ● Enrichir l’expérience de navigation
    36. 36. 36 Objectifs ● Mettre les données à la disposition de tous
    37. 37. 37 Par où commencer ? ● Définir le périmètre de l’étude ● Analyser les données ● Réaliser un prototype
    38. 38. 38 Quelles sont les sources disponibles ?
    39. 39. 39 Comment accéder aux données ? ● API intégrée au système de gestion de bibliothèque Requête SIGB Base de données Export XML ● Export au format XML
    40. 40. 40 Quelles sont les données disponibles ?
    41. 41. 41 Quelles sont les données disponibles ? 20 000 films 250 000 textes imprimés 2 500 ouvrages numériques 20 000 enregistrements musicaux
    42. 42. 42 Comment sont structurées les données ?
    43. 43. 43 Comment sont structurées les données ? Propriétés ID Dénomination Auteur Lieu de création Date de création Dimensions Catégorie matière Catégorie technique Mots-clés Référence commerciale
    44. 44. 44 Comment sont structurées les données ? Propriétés ID Dénomination Auteur Lieu de création Date de création Dimensions Catégorie matière Catégorie technique Mots-clés Référence commerciale Propriétés génériques d’une œuvre ?
    45. 45. 45 Comment sont structurées les données ? Propriétés ID Dénomination Auteur Lieu de création Date de création Dimensions Catégorie matière Catégorie technique Mots-clés Référence commerciale Lien vers le Linked Open Data ?
    46. 46. 46 Laisse Béton (Renaud) ● Prenons un exemple !
    47. 47. 47 Laisse Béton (Renaud) ● Vu du catalogue Web (OPAC) …
    48. 48. 48 Laisse Béton (Renaud) ● … et du XML
    49. 49. 49 Laisse Béton (Renaud) ● Il y a sûrement des choses à faire… Propriétés Valeurs ID b18895888 Dénomination Laisse Béton Auteur Renaud Lieu de création - Date de création - Dimensions 1 disque compact (36 min) Catégorie matière - Catégorie technique - Mots-clés - Référence commerciale 0042282534828
    50. 50. 50 …Et bien faisons les ! ● Réalisation d’un prototype ● Mesurer la faisabilité technique du projet sur un échantillon ● Montrer l’apport de l’Open Data ● Evaluer les difficultés
    51. 51. 51 Mettre les données en commun film01.avi “Livre A” http://exemple.org/film/01 http://exemple.org/livre/A
    52. 52. 52 Identifier les objets ● Schéma arbitraire ● http://data.leschampslibres.org/ ● Origine : numérotation arbitraire Source Numéro Propriété ID Bibliothèque de Rennes 1 Controlfield 001 http://data.leschampslibres.org/1/b18895888
    53. 53. 53 Modéliser les objets Modèle HADOC Modèles “évènements” (LODE, CIDOC CRM, The Event Ontology…)
    54. 54. 54 Laisse Béton (Renaud)
    55. 55. 55 Relier les données à l’extérieur ● Oui mais dans quel but ?
    56. 56. 56 Données VS Usages
    57. 57. 57 Usages… ● « Apporter à l’utilisateur des compléments d’informations sur les objets culturels qu’il consulte sur le portail des Champs Libres »
    58. 58. 58 … VS Données Propriétés ISBN Référence commerciale Nom et date de naissance de l’auteur Noms de lieux
    59. 59. 59 Sélectionner les sources externes
    60. 60. 60 Graphe Référence commerciale Nom de l’auteur + Date de naissanceNom de lieu ISBN ID IDID ID
    61. 61. 61 Laisse Béton (Renaud)
    62. 62. 62 Automatisons-le ! Aligner Annoter Préparer les données Localement A distance Récupérer les données externes Interroger Interroger
    63. 63. 63 Préparer les données : aligner Nom Prénom Date de naissance Hugo victor 26 février 1802 sartre jean paul 21/06/1905 … http://catalogue.bnf.fr/ark:/ 12148/cb11907966z Nom Prénom Date de naissance Hugo Victor 1802-02-26 Victor 1802-02-26
    64. 64. 64 Préparer les données : annoter http://sws.geonames.org/2911298
    65. 65. 65 Préparer les données ● Idéalement ● Dumps RDF ● SPARQL Endpoint ● APIs Web RDF … ● Triplestore intermédiaire
    66. 66. 66 Préparer les données ● En réalité ● Dumps divers ● Pas de SPARQL Endpoint ● APIs Web diverses ● Conversion RDF Triplestore …
    67. 67. 67 Récupérer les données externes ● Requêtes SPARQL ● Triplestore intermédiaire ● SPARQL Endpoint Enrichissements Enrichissements
    68. 68. 68 Récupérer les données externes ● Requêtes SPARQL : exemples http://catalogue.bnf.fr/ark:/12148/cb11907966z Victor Hugo 1802-02-26 foaf:givenName foaf:name db:birthDate http://catalogue.bnf.fr/ark:/12148/cb11907966z
    69. 69. 69 Récupérer les données externes ● Requêtes SPARQL : exemples http://data.leschampslibres.org/1/b18895888 “0042282534828” hadoc:isbn “4.25 / 5” http://www.discogs.com/master/11710 http://www.wikidata.org/wiki/Q3216384 http://musicbrainz.org/release-group/ 374fd86d-838c-3d40-a2c8-680b800290e7 “0042282534828” mb:barcod e owl:sameA s owl:sameA s dcogs:rating “4.25 / 5”
    70. 70. 70 Récupérer les données externes ● Autres : pas de RDF ● APIs Web ● Dumps (XML, CSV…) ● HTML ● … … Enrichissements
    71. 71. 71 Récupérer les données externes ● En réalité ● Architecture complexe ● A adapter selon les besoins … …
    72. 72. 72 Laisse béton (Renaud) Normalisation Triplestore intermédiaire Enrichissements RDF Enrichissements APIs barcode ? IDs Discogs Allmusic ?
    73. 73. 73
    74. 74. 74 Résultats
    75. 75. 75 Outils
    76. 76. 76 Outils ● Convertir les données Actions Outils Aligner, annoter Antidot Information Factory, Gate, Python… Créer des données RDF avec un éditeur Morla, Top Braid composer, Editeur XML (Oxygen), Protégé Transformer des données de XML vers RDF/XML XSL, Python… Transformer des entrées clés/valeurs en RDF Google Refine Transformer une base de données relationnelle en RDF Db2triples, D2R server, …
    77. 77. 77 Outils ● Stocker les données dans un triplestore Optimisation Outils Mémoire Corese, Redstore Triplestore natif Mulgara, AllegroGraph, BigOWLIM, 4store, Neo4j BDR paramétrée Virtuoso, ARC, Oracle 11g, Sesame, 3store Column store Cstore, Heart, BigData, Cloudera
    78. 78. 78 Outils ● Exploiter les données en RDF Langages Outils Java (triples) Jena, Sesame, Trialox SCB, RDF2Go Java (ORM) Topaz, RDFReactor, So(m)mer, Elmo, jenabean PHP RAP, ARC (généraliste) C Redland Python RDFlib Ruby ActiveRDF Scala Scardf
    79. 79. 79 Laisse béton (Renaud) ● Publication des données en RDF
    80. 80. 80
    81. 81. 81 Le web sémantique, ça marche ! ● Les géants mondiaux de l’Internet avancent rapidement ● De plus en plus d’organisations l’adoptent pour des usages ciblés ● « Que puis-je faire pour le web sémantique ? » ● « Qu’est ce que le web sémantique peut faire pour moi ? »
    82. 82. 82 Le Web Sémantique, des atouts uniques ● Disposer d’une quantité colossale de jeux de données ● Accéder aux données de façon standardisée donc automatisable ● Les agréger pour servir tous types d’usages nouveaux
    83. 83. 83 Le Web Sémantique, aller plus loin ? Un livre dirigé par Fabien Gandon, INRIA / W3C EAN13 : 9782100572946
    84. 84. 84 Le web sémantique : à vous de jouer !
    85. 85. 85 pcol@antidot.net @PierreCol jhomo@antidot.net @Julien_Hom o @AntidotNet www.antidot.net

    ×