Publication et intégration de
données ouvertes
François Scharffe
LIRMM, UM2

Gazouillez #lechatpito #datalift

Matinée Ope...
Qu’est-ce qu’une donnée ouverte ?
• Une donnée accessible sur le web sous une licence
ouverte.
• Notre contexte est plus l...
Données Ouvertes
•

Un sujet très à la mode …

●

Motion du G8 pour l’ouverture et la transparence des données

●

Directi...
Partons en voyage...

Matinée Open Data, Montpellier, 28 Nov 2013

4
Problème de planning

Matinée Open Data, Montpellier, 28 Nov 2013

5
Problème de planning

Matinée Open Data, Montpellier, 28 Nov 2013

6
Une situation insuffisamment satisfaisante pour
la valorisation de vos données
Oblige les développeurs à :
Ø Analyser à ch...
Le Web sémantique comme solution
Ø Un système d'identifiants global : les URIs
●

chaque donnée ou métadonnée est identifi...
Datalif
De données brutes ouvertes
à des données sémantiques
interconnectées
Matinée Open Data, Montpellier, 28 Nov 2013

...
Datalift
Plateforme logicielle pour assister la publication de données
Publication de jeux de données
R&D pour automatiser...
Le processus
d'élévation

Matinée Open Data, Montpellier, 28 Nov 2013

11
Le processus de publication
DBPedia

IGN
INSEE

Accès HTTP
Interrogation en SPARQL
Ontologie du
service public
Ontologie
g...
sélection
Ø Qu’est-ce qu’un (bon) vocabulaire pour des données liées?
§ Critères d’utilisabilité
§ Simplicité, visibilité,...
conversion
Ø Guide des bonnes pratiques pour les données liées:
§ La ressource: http://id.insee.fr/geo/commune/75056
–

Le...
conversion
Ø Guide des bonnes pratiques pour les données liées:
§ La ressource: http://id.insee.fr/geo/commune/75056
–

Le...
Managing licenses and access
rights on published data

Matinée Open Data, Montpellier, 28 Nov 2013

16
publication
§

Utiliser le format RDF

§

Utiliser des URI pour nommer les choses

§

Utiliser des URI HTTP (URL) pour pou...
Interconnexion
Dépasser
l'hétérogénéité
des données
§

§

Comment identifier les jeux
de données à lier ?
Comment trouver ...
Et plus ...
●

Gestion des droits d'accès aux données à
échelle variable

●

Gestion des licences, licences composites

●
...
La plateforme Datalift
●

Architecture modulaire

●

Supporte le processus de publication

●

Documentée : installation, u...
La plateforme Datalift

Matinée Open Data, Montpellier, 28 Nov 2013

21
Quelques jeux de données

Matinée Open Data, Montpellier, 28 Nov 2013

22
Datalift Platform

Matinée Open Data, Montpellier, 28 Nov 2013

23
Matinée Open Data, Montpellier, 28 Nov 2013

24
Matinée Open Data, Montpellier, 28 Nov 2013

25
Matinée Open Data, Montpellier, 28 Nov 2013

26
DATALIFT
En route vers le web de données
Matinée Open Data, Montpellier, 28 Nov 2013

27
Prochain SlideShare
Chargement dans…5
×

Publication et intégration de données ouvertes

679 vues

Publié le

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
679
Sur SlideShare
0
Issues des intégrations
0
Intégrations
5
Actions
Partages
0
Téléchargements
7
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Publication et intégration de données ouvertes

  1. 1. Publication et intégration de données ouvertes François Scharffe LIRMM, UM2 Gazouillez #lechatpito #datalift Matinée Open Data, Montpellier, 28 Nov 2013 1
  2. 2. Qu’est-ce qu’une donnée ouverte ? • Une donnée accessible sur le web sous une licence ouverte. • Notre contexte est plus large: – Données accessibles sous condition – Licences de différents types Matinée Open Data, Montpellier, 28 Nov 2013 2
  3. 3. Données Ouvertes • Un sujet très à la mode … ● Motion du G8 pour l’ouverture et la transparence des données ● Directives de l’UE (Open Data, Inspire) ● Etalab et data.gouv.fr ● Open Data France • … qui amène de nouvelles problématiques ● Sous quel(s) format(s) publier les données ? ● De quelle façon y accéder ? ● Différents niveaux d’ouverture ? Matinée Open Data, Montpellier, 28 Nov 2013 ● respect de la vie privée, etc 3
  4. 4. Partons en voyage... Matinée Open Data, Montpellier, 28 Nov 2013 4
  5. 5. Problème de planning Matinée Open Data, Montpellier, 28 Nov 2013 5
  6. 6. Problème de planning Matinée Open Data, Montpellier, 28 Nov 2013 6
  7. 7. Une situation insuffisamment satisfaisante pour la valorisation de vos données Oblige les développeurs à : Ø Analyser à chaque fois la sémantique de vos données : qu'est-ce que veut dire ce champ “nom” ? signifie-t-il la même chose que dans cet autre jeu de données ? Ø Découvrir par eux-mêmes les relations entre vos données et d'autres données Ø Gérer des formats hétérogènes pour croiser des données : CSV pour tel jeu de données, XLS pour tel autre, SHP pour ce dernier Ø Gérer des méthodes d'accès hétérogènes pour accéder aux données : APIs propriétaires différentes De votre côté : Ø Temps passé à développer des APIs Ø Difficulté à faire adapter des applications existantes à vos données Matinée Open Data, Montpellier, 28 Nov 2013 7
  8. 8. Le Web sémantique comme solution Ø Un système d'identifiants global : les URIs ● chaque donnée ou métadonnée est identifiée de manière non ambigue : http://dbpedia.org/resource/Paris est la ville de Paris en France ; pas de risque de confusion avec Paris au Texas ou avec les paris sportifs Ø Un format unique, RDF : un modèle de données simple pour décrire vos données, extensif à l'infini Ø La standardisation de la sémantique de vos données, à travers des propriétés et des “vocabulaires” réutilisables : par ex. vous n'avez pas à réinventer pas la propriété “auteur” qui est déjà définie ailleurs Ø Un protocole d'acccès uniforme : HTTP, SPARQL ● SPARQL est l'API unique, normalisée, du web sémantique (ressemble à SQL) Open Data, Montpellier, 28 Nov 2013 Matinée 8
  9. 9. Datalif De données brutes ouvertes à des données sémantiques interconnectées Matinée Open Data, Montpellier, 28 Nov 2013 9
  10. 10. Datalift Plateforme logicielle pour assister la publication de données Publication de jeux de données R&D pour automatiser le processus de publication Formations, tutoriels, camps de publication de données Matinée Open Data, Montpellier, 28 Nov 2013 10
  11. 11. Le processus d'élévation Matinée Open Data, Montpellier, 28 Nov 2013 11
  12. 12. Le processus de publication DBPedia IGN INSEE Accès HTTP Interrogation en SPARQL Ontologie du service public Ontologie géographique Conversion RDF → RDF Conversion XML → RDF Matinée Open Data, Montpellier, 28 Nov 2013 12
  13. 13. sélection Ø Qu’est-ce qu’un (bon) vocabulaire pour des données liées? § Critères d’utilisabilité § Simplicité, visibilité, pérennité, intégration, cohérence … Ø Différents types de vocabulaires § De métadonnées, de référence, de domaine, généraliste … § Les piliers du Linked Data : Dublin Core, FOAF, SKOS Ø Bonnes et moins bonnes pratiques § Ex : Programmes BBC vs legislation.gov.uk § Vocabulary of a Friend : les vocabulaires en réseau Ø Problèmes linguistiques § Les vocabulaires existants sont en anglais à 99% § Approche terminologique : quels vocabulaires pour « Evénement » « Organisation » Matinée Open Data, Montpellier, 28 Nov 2013 13
  14. 14. conversion Ø Guide des bonnes pratiques pour les données liées: § La ressource: http://id.insee.fr/geo/commune/75056 – Le document: http://www.insee.fr/geo/commune/75056 – Les données: http://rdf.insee.fr/geo/commune/75056 Matinée Open Data, Montpellier, 28 Nov 2013 14
  15. 15. conversion Ø Guide des bonnes pratiques pour les données liées: § La ressource: http://id.insee.fr/geo/commune/75056 – Le document: http://www.insee.fr/geo/commune/75056 – Les données: http://rdf.insee.fr/geo/commune/75056 Matinée Open Data, Montpellier, 28 Nov 2013 15
  16. 16. Managing licenses and access rights on published data Matinée Open Data, Montpellier, 28 Nov 2013 16
  17. 17. publication § Utiliser le format RDF § Utiliser des URI pour nommer les choses § Utiliser des URI HTTP (URL) pour pouvoir leur demander des informations § Donner des informations (HTML, RDF) quand les liens sont dé-référencés § Inclure dans ces infos les URIs pointant vers d'autres données pour permettre la découverte Tim Berners Lee, SemWebPro 18/01/2011 17 http://www.w3.org/DesignIssues/LinkedData.html
  18. 18. Interconnexion Dépasser l'hétérogénéité des données § § Comment identifier les jeux de données à lier ? Comment trouver les resources équivalentes ? SemWebPro 18/01/2011 18
  19. 19. Et plus ... ● Gestion des droits d'accès aux données à échelle variable ● Gestion des licences, licences composites ● Une API web de données pour Androïd ● ● Des patrons configuration pour visualiser les données ... Matinée Open Data, Montpellier, 28 Nov 2013 19
  20. 20. La plateforme Datalift ● Architecture modulaire ● Supporte le processus de publication ● Documentée : installation, utilisation, développement ● Sécurisée ● Open-source ● Exécutables pour Windows, OSX, Linux Matinée Open Data, Montpellier, 28 Nov 2013 20
  21. 21. La plateforme Datalift Matinée Open Data, Montpellier, 28 Nov 2013 21
  22. 22. Quelques jeux de données Matinée Open Data, Montpellier, 28 Nov 2013 22
  23. 23. Datalift Platform Matinée Open Data, Montpellier, 28 Nov 2013 23
  24. 24. Matinée Open Data, Montpellier, 28 Nov 2013 24
  25. 25. Matinée Open Data, Montpellier, 28 Nov 2013 25
  26. 26. Matinée Open Data, Montpellier, 28 Nov 2013 26
  27. 27. DATALIFT En route vers le web de données Matinée Open Data, Montpellier, 28 Nov 2013 27

×