Le Web de données - nouvelles pratiques de publication et nouveaux services?

Le Web de données
nouvelles pratiques de publication et
nouveaux services?
Muriel Foulonneau
muriel.foulonneau@tudor.lu

Une couche du Web où les données sont
structurées sémantiquement
“In the coming years, we will see a revolution in
the ability of machines to access, process, and
apply information. This revolution will emerge
from three distinct areas of activity connected to
the Semantic Web: the Web of Data, the Web of
Services, and the Web of Identity providers.
These webs aim to make semantic knowledge of
data accessible…”
Alexander Korth April 18, 2009
http://readwrite.com/2009/04/18/web_of_data_machine_accessible_information
24/10/2014 2

Publier sur le Web
24/10/2014 Presentation Tudor 3

Modèles de publication Web 1.0
24/10/2014 4

Modèles de publication Web 2.0 (social)
http://www.lemonde.fr/politique/article/2013/10/10/a-l-assemblee-le-sexisme-
en-accusation_3492868_823448.html
http://www.imdb.com/title/tt1454468/ratings?ref_=tt_ov_rt
24/10/2014 5
http://trignacechecs.blogspot.com/

Modèles de publication Web 3.0 (lisible
par des machines)
http://en.wikipedia.org/wiki/JSON
http://fr.wikipedia.org/wiki/Resource_Description_Framework
24/10/2014 6

L’accès à un layer du Web qui contient
des données structurées
Une version lisible par les machines et une version lisible par les
humains
Albert Einstein
24/10/2014 7

Le Web de données: des liens entre les
données
http://commons.wikimedia.org/wiki/File:Web.jpg
24/10/2014 8

Des données au Web de données

Différents niveaux de structuration
Bases de données
CSV / Excel
XML
JSON
Micro-formats
RDF
RDFa
Linked Data
Des liens entre les données
24/10/2014 10

Les principes des Linked Data
1- Use URIs as names for things
2- Use HTTP URIs so that people can look up those names.
3- When someone looks up a URI, provide useful information,
using the standards (RDF*, SPARQL)
4- Include links to other URIs. so that they
can discover more things.
24/10/2014 11

Le principe 1 à 1 du Dublin Core: ex. objet
numérique vs objet physique
Contenu Propriété
intellectuelle
Instantiation
Coverage
Description
Relation
Type
Source
Title
Subject
Rights
Contributor
Publisher
Creator
Language
Identifier
Format
Date

Vocabulaires et modèles de données
Des formats de métadonnées aux ontologies
=> définir et identifier les ressources
=> définir et identifier les relations entre les ressources
February 1945
E7 Activity
http://cidoc.ics.forth.gr/docs/crm_for_imperial_2009.ppt
“Crimea Conference”
P86 falls within
E65 Creation
Event
E38 Image
P82 at some time
within
E39 Actor
E39 Actor
E53 Place
7012124
24/10/2014 13

RDF et modélisation sémantique des
données
RDF
http://me/hasBirthPlace
Einstein Ulm
Classes and instances
rdfs:subclass_of
14
Me:Scientist
Me:Location
Me:City
rdf:type
Einstein Ulm
rdf:type

La capacité à raisonner sur des données
Mécanismes d’inférence liés au langage
ex. Ulm est un lieu
Mécanismes d’inférence liés à
des règles
Me:Location
rdfs:subclass_of
Me:City
Ulm
rdf:type
24/10/2014 15

Représentation sémantique des données
Des données en RDF
• Sujet – Prédicat - Objet
Des modèles
• Des classes de ressources
Des URIs (identifiants) pour des ressources abstraites ou
concrètes
• Plus d’ambiguités
Des mécanismes d’inférence
• permettre aux ordinateurs de raisonner sur les contenus
16

Existence de jeux de données différents
24/10/2014 17

Fusion de graphes: les liens (linked data)
24/10/2014 18

Liens entre les jeux de données (Linked
Data)
19
Me:
Einstein
Dbpedia:Ulm
Me:
Einstein
Me:Ulm
Owl:sameAs
Dbpedia:Ulm

Exemple de page de Wikipedia

Représentation sur DBpedia
dbpedia.org/resource/Albert_Einstein

Version RDF de la page DBpedia

Références externes et description des
propriétés

Identité: Owl:sameAs
“links an individual to an individual. Such an owl:sameAs
statement indicates that two URI references actually refer to the
same thing: the individuals have the same ‘identity’ ”.
24
http://www.w3.org/TR/owl-ref/#sameAs-def
24/10/2014 24

Quels liens?
y rdf:type foaf:Person
y foaf:name James Bond
y foaf:nickname 007
x rdf:type skos:concept
x skos:prefLabel James Bond
x skos:altLabel 007
?
24/10/2014 25

La modélisation des concepts
[…]
[…]
[…]
24/10/2014 26

Propriétés et valeurs
24/10/2014 27

Le Linked Data Cloud
Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
24/10/2014 ESWC 2011 28

Quelques statistiques sur le nuage
24/10/2014 http://lod-cloud.net/state/ 29

Réutiliser des vocabulaires
24/10/2014 30

Retrouver des informations sur le Web de
données
SPARQL
Mots-clefs
24/10/2014 31

Enrichir le Web de données: créer des
liens
24/10/2014 32

La qualité des données
24/10/2014 33

Wikidata: rendre le Web de données
social
24/10/2014 34

Réutiliser le Web de données
Exemple de génération de questions
de tests en éducation

Objectifs de l’expérimentation
 Quelles sont les limitations à l’utilisation des Linked
open Data comme modèle de connaissance dans un
contexte éducationnel ?
• Est-ce faisable?
• Est-ce que les données sont pertinentes?
• Quel niveau de contrôle qualité est nécessaire?
Test sur des données factuelles pour créer des
questions de test à choix multiples

Un template avec des variables
Variable de
la question
Options:
réponse
correcte +
distracteurs
Clef
Information
auxiliaire
Item extrait de Gierl, M.J., Zhou, J., Alves, C. (2008).
Developing a Taxonomy of Item Model Types to Promote
Assessment Engineering. Journal of Technology, Learning, and
Assessment, 7(2).
24/10/2014 ESWC 2011 37

Le processus de génération d’items
(questions) de test

La génération des items à partir de
différentes sources de données
Dbpedia
Sindice
OpenLink

Requêtes SPARQL pour retrouver les
données
Label
SELECT ?country ?capital
WHERE {
?c <http://dbpedia.org/property/commonName> ?country .
?c <http://dbpedia.org/property/capital> ?capital
}
LIMIT 30
24/10/2014 ESWC 2011 40

Génération d’items IMS-QTI
24/10/2014 ESWC 2011 41

Test avec des données de DBpedia
Who succeeded to {Charles VII the Victorious} as ruler of France ?
 1 variable était inexacte (The three Musketeers)
 Des labels multiples pour la même ressource
Louis IX, Saint Louis, Saint Louis IX
 Un item généré avec des options aux labels incohérents:
Charles VII the Victorious, Charles 09 Of France, Louis VII
24/10/2014 ESWC 2011 42

Problèmes liés aux données
• Les ontologies utilisées
• Le manque de persistence des URLs
• Fermetures transitives
• Fiabilité des sources d’informations
• Cohérence syntaxique des labels
• Liens entre les données
24/10/2014 43

Calcul de la similarité sémantique entre
la réponse correcte et les distracteurs
Quelle est la capitale du Gabon?
Ulan Bator
Libreville
Manila
Maputo
Port Louis
Libreville
Sans SemSim
Avec SemSim
24/10/2014 44

Résultats sur les tests utilisateurs
Baisse claire de performance en tenant compte de la
similarité sémantique
24/10/2014 45

Et les usages?
D’une logique de production à une
logique de services

Quelques early adopters
Ex. BBC
http://www.bbc.co.uk/blogs/internet/posts/Linked-Data-Connecting-together-
the-BBCs-Online-Content
http://www.bbc.co.uk/blogs/internet/posts/olympic_data_xml_latency
24/10/2014 47

Démarche pour l’éducation: sélection
des données
24/10/2014 48

Créer une communauté
24/10/2014 50

Lier ses propres données: Exemples
d’infrastructure
http://stefandietze.files.wordpress.com/2011/05/20110529_linkedlearni
ng2_eswc_fouad_zablith_etal.pdf
24/10/2014 51

Exemples d’applications
http://stefandietze.files.wordpress.com/2011/05/20110529_linkedlearni
ng2_eswc_fouad_zablith_etal.pdf
24/10/2014 52

Europeana hackhatons
http://paths.sheffield.ac.uk/storyana
24/10/2014 53

Problèmes de l’utilisation des données
dans les services: Le mélange des
licences
Plusieurs stratégies
- Europeana pour CC0
- Portail Open Data de Singapour pour la documentation des
conditions de propriété intellectuelle
24/10/2014 54

Problèmes de l’utilisation des données
dans les services: Les données
- Les mises à jour
- La qualité (fiabilité, complétude, …)
- Provenance
- Les processus de maintenance
- Les droits de propriété intellectuelle et conditions d’usage
- Interopérabilité: modèles sémantiques
- Documentation
- …. etc
24/10/2014 55

Leçons des Open Data: Services et
applications développés à partir de
données
Construire 1 service
• avec 1 seul jeu de données
• avec plusieurs jeux de données
• avec un mashup avec des sources de données sous licence
Utilisation des données
• Uniquement pour enrichir des données existantes
• Uniquement pour améliorer la qualité des données existantes (ex.
exactitude des informations)
=> Pour le Web de données, l’utilisation conjointe de plusieurs datasets
requiert de passer par un service tiers ou de naviguer
24/10/2014 56

Conclusion:
Le Web de données est en cours
Existe-t-il un modèle pour le Web of
Services?

La fin du rêve d’un Web intelligent?
Des problèmes de qualité des données
Ex. Louis XIII
Problèmes de modélisation
Ex. VIAF et les noms vs.
Les personnes
Problèmes de pérennité
Le Web n’a pas (ou
presque) de mémoire
Les liens impliquent
la confiance
Jeux de données pivot,
généralistes
www.data.gov/ [14/10/2013]
24/10/2014 58

Des modèles de création de données
dans le Future Internet
Données de capteurs et Internet of Things
http://www.gpsreview.net/pigeonblog-gps-pigeons-monitor-air-quality/
24/10/2014 59

Les moteurs de recherche et la
sémantique
Bing, Google, Yahoo!, Yandex
Microdata
24/10/2014 60

Tracer les usages des données
24/10/2014 61

Data scientists, data engineers, data
analysts: de nouvelles compétences
http://www.biginnovationcentre.com/Assets/Docs/Reports/Hackday%2
0Lessons%20Learnt_final.pdf
http://www.technologyreview.com/news/513866/in-a-data-deluge-companies-seek-to-fill-a-new-role/?
utm_campaign=newsletters&utm_source=newsletter-daily-all&utm_medium=email&utm_content=20130523

Quelques références
Tutoriel Linked Data
http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/
Chan, C. M. (2013, January). From Open Data to Open Innovation Strategies: Creating E-Services
Using Open Government Data. In System Sciences (HICSS), 2013 46th Hawaii
International Conference on (pp. 1890-1899). IEEE.
Martin, S., Foulonneau, M., Turki, S. (2013). 1-5 stars: Metadata on the Openness Level of Open
Data Sets in Europe. In Metadata and Semantics Research 2013. Communications in
Computer and Information Science, Springer Verlag, Heidelberg
Martin, S., Foulonneau, M., Turki, S., Ihadjadene, M. (2013). Open Data: Barriers, Risks, and
Opportunities. European Conference on eGovernment, Como, Italy, 13-14th June, 2013.
Foulonneau, M. Generating Educational Assessment Items from Linked Open Data: the Case of
DBpedia. In R. Garcia-Castro et al. (Eds.): ESWC 2011 Workshops, LNCS 7117, pp. 16--27.
Springer, Heidelberg (2012)
Foulonneau, M., Grouès, V. Common vs. Expert knowledge: making the Semantic Web an
educational model. In Proceedings of the 2nd International Workshop on Learning and
Education with the Web of Data (LiLe-2012 at WWW-2012). Stefan Dietze, Mathieu d'Aquin,
Dragan Gasevic (eds.). CEUR workshop proceedings, vol. 840. http://www.ceur-ws.org/Vol-
840/
24/10/2014 63

Quelques questions
Comment construire des services sur le Web de données?
Quels freins à la réutilisation?
Quelle intervention humaine?
24/10/2014 64

Note: des éléments de cette présentation ont été repris de
ressources créées par des tiers. Une attribution est fournie
sous la forme d’un lien.
24/10/2014 65

Le Web de données - nouvelles pratiques de publication et nouveaux services?

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (15)

En vedette

En vedette (20)

Similaire à Le Web de données - nouvelles pratiques de publication et nouveaux services?

Similaire à Le Web de données - nouvelles pratiques de publication et nouveaux services? (20)

Plus de chessmu

Plus de chessmu (14)

Le Web de données - nouvelles pratiques de publication et nouveaux services?