2. 2
Plan
•Échange des données
• les problèmes liés à l'interopérabilité des systèmes d’information
• les bonnes pratiques à mettre en place
• exemple à l’Irstea : BDOH site web des données de capteur hydro
•L’ouverture des données et le web de données liées
•Les technologies web sémantique
•Exemple à l’Irstea: publication de données capteurs météo
3. 3
Définitions:
Données, Informations
Donnée: un élément d’information,
percevable,
manipulable
Information: donnée +
sens + contexte
type structure de données
Guide pratique pour la gestion des données de la recherche irstea
Une donnée est une information qui peut être enregistrée, traitée,
analysée ou communiquée, quelle que soit sa nature. Lorsque la donnée
n’a pas encore été traitée ou contextualisée, on parle de donnée brute.
4. 4
Problème de l’interopérabilité lexicale
Le même terme est utilisé pour représenter différents objets
Le même objet est référencé par des termes différents
Credit Fabien GANDON
5. 5
Normaliser le vocabulaire
rivière
fleuve
river
rio
A relatively large
natural stream of
water
Water course
Una corriente
relativamente larga
corriente de agua natural
Cours d’eau naturel de moyenne
ou de faible importance, qui en
principe n’aboutit pas directement
à la mer
Cours d’eau naturel
généralement important
(plus spécialement lorsque
ce cours d’eau se jette
dans la mer)
10. 10
Echange de données : les bonnes pratiques
• Normaliser le vocabulaire
• Choisir un format non propriétaire (XML, txt, html, csv)
• Définir un schéma de données commun
• Documenter le schéma
• Choisir une licence d’usage de ces données
• Rendre accessible les fichiers de données sur le web
Exemple à l’Irstea Base de Données des Observatoires en Hydrologie
BDOH https://bdoh.irstea.fr/
11. 11
Ouverture des données (publiques)
Open data is data that can be freely used, reused and redistributed by
anyone - subject only, at most, to the requirement to attribute and
sharealike.
The most important aspects to consider:
–Availability and Access: the data must be available as a whole and at no
more than a reasonable reproduction cost, preferably by downloading over
the internet. The data must also be available in a convenient and modifiable
form.
–Reuse and Redistribution: the data must be provided under terms that
permit reuse and redistribution including the intermixing with other datasets.
–Universal Participation: everyone must be able to use, reuse and
redistribute - there should be no discrimination against fields of endeavour or
against persons or groups. For example, ‘non-commercial’ restrictions that
would prevent ‘commercial’ use, or restrictions of use for certain purposes
(e.g. only in education), are not allowed.
Source http://opendatahandbook.org/en/what-is-open-data/
12. 12
Modèle 5 étoiles
Web de Données liées ouvertes
source: Tim Berners-Lee, http://5stardata.info/
13. 13
Exemple de site open data
Auvergne http://opendata.auvergne.fr/
France https://www.data.gouv.fr/fr/
Europe http://ec.europa.eu/eurostat/fr
Regards citoyens http://www.regardscitoyens.org/
Data Publica le tableau de bord des communes
14. 14
Le web de données liées (Linked Open Data)
An extension of the
current Web…
… where data are given
well-defined and explicitly
represented meaning, …
… so that it can be
shared and used by
humans and machines,
...
... better enabling them to
work in cooperation
And clear principles on
how to publish data
Video europeana qu’est ce que le web des données
https://vimeo.com/49231111
16. 16
Syntaxe de base du web sémantique
RDF: Resource Description Framework
is a triple model i.e. every piece of
knowledge is broken down into
( subject , predicate , object )
RDF
Credit Fabien GANDON
19. 19
Les ontologies dans le web de données
Une ontologie contient un vocabulaire et un schéma de données:
• consensuels,
• publiés sur le web et documentés
• formalisés avec des standards du web (RDF, OWL, SPARQL)
• Avec des contraintes en DL (conditions nécessaires et/ou suffisantes)
= un schéma de données pour le web de données
23. 23
Publication des données de la station météo
Données publiées sous la licence open data etalab
SPARQL endpoint visible sur datahub
http://ontology.irstea.fr/weather/snorql/
24. 24
Ou trouver des ontologies ?
SWOOGLE
http://swoogle.umbc.edu/
Watson
http://watson.kmi.open.ac.uk/WatsonWUI/
LOV Linked Open Vocabulary
http://lov.okfn.org/dataset/lov/
W3C groups
http://www.w3.org/Consortium/activities
Credit Fabien Gandon
25. 25
Autres exemples de jeux de données
Dbpedia
http://dbpedia.org/snorql/
http://dbpedia.org/fct/
Agrovoc en skos http://aims.fao.org/aos/agrovoc/c_16047.html
IGN http://data.ign.fr/endpoint.html
Open Data cloud diagram, by Richard Cyganiak and Anja
Jentzsch. http://lod-cloud.net/
Datahub.io http://datahub.io/
Une liste de sparql end point disponible
http://www.w3.org/wiki/SparqlEndpoints
26. 26
Conclusion et Perspectives
Publication des données de la station météo (2014 à jour)
pas si simple au début…
Publication d’autres données capteurs
Proposer une interface d’interrogation en français plus intuitive qu’une
requête SPARQL
Lier nos données aux données de l’IGN pour une interrogation
spatialisée
Tester différents serveurs RDF (requête avec agrégats)
Découverte et utilisation de ces données ?
Utiliser ces données dans des modèles météorologiques
Conversion au format netcdf?