Le Web de données - nouvelles pratiques de publication et nouveaux services?
1. Le Web de données
nouvelles pratiques de publication et
nouveaux services?
Muriel Foulonneau
muriel.foulonneau@tudor.lu
2. Une couche du Web où les données sont
structurées sémantiquement
“In the coming years, we will see a revolution in
the ability of machines to access, process, and
apply information. This revolution will emerge
from three distinct areas of activity connected to
the Semantic Web: the Web of Data, the Web of
Services, and the Web of Identity providers.
These webs aim to make semantic knowledge of
data accessible…”
Alexander Korth April 18, 2009
http://readwrite.com/2009/04/18/web_of_data_machine_accessible_information
24/10/2014 2
5. Modèles de publication Web 2.0 (social)
http://www.lemonde.fr/politique/article/2013/10/10/a-l-assemblee-le-sexisme-
en-accusation_3492868_823448.html
http://www.imdb.com/title/tt1454468/ratings?ref_=tt_ov_rt
24/10/2014 5
http://trignacechecs.blogspot.com/
6. Modèles de publication Web 3.0 (lisible
par des machines)
http://en.wikipedia.org/wiki/JSON
http://fr.wikipedia.org/wiki/Resource_Description_Framework
24/10/2014 6
7. L’accès à un layer du Web qui contient
des données structurées
Une version lisible par les machines et une version lisible par les
humains
Albert Einstein
24/10/2014 7
8. Le Web de données: des liens entre les
données
http://commons.wikimedia.org/wiki/File:Web.jpg
24/10/2014 8
9. Des données au Web de données
24/10/2014 Presentation Tudor 9
10. Différents niveaux de structuration
Bases de données
CSV / Excel
XML
JSON
Micro-formats
RDF
RDFa
Linked Data
Des liens entre les données
24/10/2014 10
11. Les principes des Linked Data
1- Use URIs as names for things
2- Use HTTP URIs so that people can look up those names.
3- When someone looks up a URI, provide useful information,
using the standards (RDF*, SPARQL)
4- Include links to other URIs. so that they
can discover more things.
24/10/2014 11
12. Le principe 1 à 1 du Dublin Core: ex. objet
numérique vs objet physique
Contenu Propriété
intellectuelle
Instantiation
Coverage
Description
Relation
Type
Source
Title
Subject
Rights
Contributor
Publisher
Creator
Language
Identifier
Format
Date
13. Vocabulaires et modèles de données
Des formats de métadonnées aux ontologies
=> définir et identifier les ressources
=> définir et identifier les relations entre les ressources
February 1945
E7 Activity
http://cidoc.ics.forth.gr/docs/crm_for_imperial_2009.ppt
“Crimea Conference”
P86 falls within
E65 Creation
Event
E38 Image
P82 at some time
within
E39 Actor
E39 Actor
E53 Place
7012124
24/10/2014 13
14. RDF et modélisation sémantique des
données
RDF
http://me/hasBirthPlace
Einstein Ulm
Classes and instances
rdfs:subclass_of
14
Me:Scientist
Me:Location
Me:City
rdf:type
Einstein Ulm
rdf:type
http://me/hasBirthPlace
15. La capacité à raisonner sur des données
Mécanismes d’inférence liés au langage
ex. Ulm est un lieu
Mécanismes d’inférence liés à
des règles
Me:Location
rdfs:subclass_of
Me:City
Ulm
rdf:type
24/10/2014 15
16. Représentation sémantique des données
Des données en RDF
• Sujet – Prédicat - Objet
Des modèles
• Des classes de ressources
Des URIs (identifiants) pour des ressources abstraites ou
concrètes
• Plus d’ambiguités
Des mécanismes d’inférence
• permettre aux ordinateurs de raisonner sur les contenus
16
19. Liens entre les jeux de données (Linked
Data)
19
Me:
Einstein
Dbpedia:Ulm
http://me/hasBirthPlace
Me:
Einstein
Me:Ulm
http://me/hasBirthPlace
Owl:sameAs
Dbpedia:Ulm
20. Exemple de page de Wikipedia
24/10/2014 Presentation Tudor 20
24. Identité: Owl:sameAs
“links an individual to an individual. Such an owl:sameAs
statement indicates that two URI references actually refer to the
same thing: the individuals have the same ‘identity’ ”.
24
http://www.w3.org/TR/owl-ref/#sameAs-def
24/10/2014 24
25. Quels liens?
y rdf:type foaf:Person
y foaf:name James Bond
y foaf:nickname 007
x rdf:type skos:concept
x skos:prefLabel James Bond
x skos:altLabel 007
?
24/10/2014 25
35. Réutiliser le Web de données
Exemple de génération de questions
de tests en éducation
24/10/2014 Presentation Tudor 35
36. Objectifs de l’expérimentation
Quelles sont les limitations à l’utilisation des Linked
open Data comme modèle de connaissance dans un
contexte éducationnel ?
• Est-ce faisable?
• Est-ce que les données sont pertinentes?
• Quel niveau de contrôle qualité est nécessaire?
Test sur des données factuelles pour créer des
questions de test à choix multiples
24/10/2014 Presentation Tudor 36
37. Un template avec des variables
Variable de
la question
Options:
réponse
correcte +
distracteurs
Clef
Information
auxiliaire
Item extrait de Gierl, M.J., Zhou, J., Alves, C. (2008).
Developing a Taxonomy of Item Model Types to Promote
Assessment Engineering. Journal of Technology, Learning, and
Assessment, 7(2).
24/10/2014 ESWC 2011 37
38. Le processus de génération d’items
(questions) de test
24/10/2014 Presentation Tudor 38
39. La génération des items à partir de
différentes sources de données
Dbpedia
Sindice
OpenLink
24/10/2014 Presentation Tudor 39
40. Requêtes SPARQL pour retrouver les
données
Label
SELECT ?country ?capital
WHERE {
?c <http://dbpedia.org/property/commonName> ?country .
?c <http://dbpedia.org/property/capital> ?capital
}
LIMIT 30
24/10/2014 ESWC 2011 40
42. Test avec des données de DBpedia
Who succeeded to {Charles VII the Victorious} as ruler of France ?
1 variable était inexacte (The three Musketeers)
Des labels multiples pour la même ressource
Louis IX, Saint Louis, Saint Louis IX
Un item généré avec des options aux labels incohérents:
Charles VII the Victorious, Charles 09 Of France, Louis VII
24/10/2014 ESWC 2011 42
43. Problèmes liés aux données
• Les ontologies utilisées
• Le manque de persistence des URLs
• Fermetures transitives
• Fiabilité des sources d’informations
• Cohérence syntaxique des labels
• Liens entre les données
24/10/2014 43
44. Calcul de la similarité sémantique entre
la réponse correcte et les distracteurs
Quelle est la capitale du Gabon?
Ulan Bator
Libreville
Manila
Maputo
Port Louis
Libreville
Sans SemSim
Avec SemSim
24/10/2014 44
45. Résultats sur les tests utilisateurs
Baisse claire de performance en tenant compte de la
similarité sémantique
24/10/2014 45
46. Et les usages?
D’une logique de production à une
logique de services
24/10/2014 Presentation Tudor 46
47. Quelques early adopters
Ex. BBC
http://www.bbc.co.uk/blogs/internet/posts/Linked-Data-Connecting-together-
the-BBCs-Online-Content
http://www.bbc.co.uk/blogs/internet/posts/olympic_data_xml_latency
24/10/2014 47
54. Problèmes de l’utilisation des données
dans les services: Le mélange des
licences
Plusieurs stratégies
- Europeana pour CC0
- Portail Open Data de Singapour pour la documentation des
conditions de propriété intellectuelle
24/10/2014 54
55. Problèmes de l’utilisation des données
dans les services: Les données
- Les mises à jour
- La qualité (fiabilité, complétude, …)
- Provenance
- Les processus de maintenance
- Les droits de propriété intellectuelle et conditions d’usage
- Interopérabilité: modèles sémantiques
- Documentation
- …. etc
24/10/2014 55
56. Leçons des Open Data: Services et
applications développés à partir de
données
Construire 1 service
• avec 1 seul jeu de données
• avec plusieurs jeux de données
• avec un mashup avec des sources de données sous licence
Utilisation des données
• Uniquement pour enrichir des données existantes
• Uniquement pour améliorer la qualité des données existantes (ex.
exactitude des informations)
=> Pour le Web de données, l’utilisation conjointe de plusieurs datasets
requiert de passer par un service tiers ou de naviguer
24/10/2014 56
57. Conclusion:
Le Web de données est en cours
Existe-t-il un modèle pour le Web of
Services?
24/10/2014 Presentation Tudor 57
58. La fin du rêve d’un Web intelligent?
Des problèmes de qualité des données
Ex. Louis XIII
Problèmes de modélisation
Ex. VIAF et les noms vs.
Les personnes
Problèmes de pérennité
Le Web n’a pas (ou
presque) de mémoire
Les liens impliquent
la confiance
Jeux de données pivot,
généralistes
www.data.gov/ [14/10/2013]
24/10/2014 58
59. Des modèles de création de données
dans le Future Internet
Données de capteurs et Internet of Things
http://www.gpsreview.net/pigeonblog-gps-pigeons-monitor-air-quality/
24/10/2014 59
60. Les moteurs de recherche et la
sémantique
Bing, Google, Yahoo!, Yandex
Microdata
24/10/2014 60
62. Data scientists, data engineers, data
analysts: de nouvelles compétences
http://www.biginnovationcentre.com/Assets/Docs/Reports/Hackday%2
0Lessons%20Learnt_final.pdf
http://www.technologyreview.com/news/513866/in-a-data-deluge-companies-seek-to-fill-a-new-role/?
24/10/2014 Presentation Tudor 62
utm_campaign=newsletters&utm_source=newsletter-daily-all&utm_medium=email&utm_content=20130523
63. Quelques références
Tutoriel Linked Data
http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/
Chan, C. M. (2013, January). From Open Data to Open Innovation Strategies: Creating E-Services
Using Open Government Data. In System Sciences (HICSS), 2013 46th Hawaii
International Conference on (pp. 1890-1899). IEEE.
Martin, S., Foulonneau, M., Turki, S. (2013). 1-5 stars: Metadata on the Openness Level of Open
Data Sets in Europe. In Metadata and Semantics Research 2013. Communications in
Computer and Information Science, Springer Verlag, Heidelberg
Martin, S., Foulonneau, M., Turki, S., Ihadjadene, M. (2013). Open Data: Barriers, Risks, and
Opportunities. European Conference on eGovernment, Como, Italy, 13-14th June, 2013.
Foulonneau, M. Generating Educational Assessment Items from Linked Open Data: the Case of
DBpedia. In R. Garcia-Castro et al. (Eds.): ESWC 2011 Workshops, LNCS 7117, pp. 16--27.
Springer, Heidelberg (2012)
Foulonneau, M., Grouès, V. Common vs. Expert knowledge: making the Semantic Web an
educational model. In Proceedings of the 2nd International Workshop on Learning and
Education with the Web of Data (LiLe-2012 at WWW-2012). Stefan Dietze, Mathieu d'Aquin,
Dragan Gasevic (eds.). CEUR workshop proceedings, vol. 840. http://www.ceur-ws.org/Vol-
840/
24/10/2014 63
64. Quelques questions
Comment construire des services sur le Web de données?
Quels freins à la réutilisation?
Quelle intervention humaine?
24/10/2014 64
65. Note: des éléments de cette présentation ont été repris de
ressources créées par des tiers. Une attribution est fournie
sous la forme d’un lien.
24/10/2014 65