1. Publier et interconnecter
les données publiques :
Le projet Datalift
13 Mars 2012, COEPIA, Paris
Formation spécialisée « Mise à
disposition et valorisation des données
publiques »
François Scharffe
Francois.scharffe@lirmm.fr
@lechatpito
Présentation réalisée avec l'équipe du projet Datalift
Et le soutien de l'Agence Nationale pour la Recherche
1
2. Au sommaire
Ø Problématiques
Ø Le web sémantique comme solution
Ø Le projet Datalift
Ø Processus de publications des données
Ø Exemple avec les données de l'annuaire du service public
Ø Vocabulaires, identifiants et interconnexion
Ø Vers un écosystème de jeux de données de référence
3. Problématiques
Ø Redondance des identifiants
Ø Hétérogénéité des formats de données
Ø Diversité des formats de métadonnées
Ø Hétérogénéité des protocoles d'accès aux données
4. Le Web sémantique comme solution
Ø Un système d'identifiants global: les URIs
Ø Un format unique: RDF
Ø Un langage de représentation de vocabulaires de métadonnées:
RDFS+OWL, SKOS
Ø Un protocole d'acccès uniforme: HTTP, SPARQL
5. Datalift
Plateforme logicielle pour assister la publication de données
Publication de jeux de données
R&D pour automatiser le processus de publication
Formations, tutoriels, camps de publication de données
6. but de datalift
De données brutes ouvertes
à des données sémantiques
interconnectées
7. Un ascenseur pour les données
Données publiées et
interconnectées sur le Web
Applications
Interconnexion
Infrastructure de publication
Conversion des données
Sélection de vocabulaires
Données brutes
8. Le processus de publication
DBPedia IGN
INSEE
SPARQL
Négociation de contenu
Dé-référencement des URIs
Ontologie du
service public
Conversion RDF → RDF
Ontologie
géographique
Conversion XML → RDF
9. sélection
Ø Qu’est-ce qu’un (bon) vocabulaire pour des données liées?
§ Critères d’utilisabilité
§ Simplicité, visibilité, pérennité, intégration, cohérence …
Ø Différents types de vocabulaires
§ De métadonnées, de référence, de domaine, généraliste …
§ Les piliers du Linked Data : Dublin Core, FOAF, SKOS
Ø Bonnes et moins bonnes pratiques
§ Ex : Programmes BBC vs legislation.gov.uk
§ Vocabulary of a Friend : les vocabulaires en réseau
Ø Problèmes linguistiques
§ Les vocabulaires existants sont en anglais à 99%
§ Approche terminologique : quels vocabulaires pour « Evénement » « Organisation »
10. conversion
Ø Guide des bonnes pratiques pour les données liées:
§ La ressource: http://dbpedia.org/resource/Paris
§ Le document: http://dbpedia.org/page/Paris
§ Les données: http://dbpedia.org/data/Paris
Ø Cas d’étude: legislation.gov.uk
§ L’identifiant: http://www.legislation.gov.uk/id/ukpga/1985/67
§ Le document: http://www.legislation.gov.uk/ukpga/1985/67
§ La représentation (en XML plutôt que HTML):
http://www.legislation.gov.uk/ukpga/1985/67/data.xml
11. publication
§
Utiliser le format RDF
§
Utiliser des URI pour nommer les choses
§
Utiliser des URI HTTP (URL) pour pouvoir leur demander des
informations
§
Donner des informations (HTML, RDF) quand les liens sont dé-
référencés
§
Inclure dans ces infos les URIs pointant vers d'autres données pour
permettre la découverte
Tim Berners Lee,
http://www.w3.org/DesignIssues/LinkedData.html
12. Interconnexion
§
Comment identifier les jeux
de données à lier ?
§
Comment trouver les resources
équivalentes ?
13. Élévation de données
expérimentations en cours ou prévues
Ø IGN, INSEE, DILA
Ø Regards Citoyens (nosdeputes.fr)
Ø Etalab – data.gouv.fr
Ø Version Française de DBPedia (INRIA, ministère de la culture)
Ø Office national des transports (CETE Méditerranée)
Ø Ville de Montpellier
Ø EU projects LOD2, LATC, PlanetData
Ø SharePSI.eu, W3C Linked Open Government Data, CKAN
14. Education Dev. Durable
Nuage de
Industrie
Culture
données
Annuaire du
Service Public Reférentiel
DILA des communes
INSEE
Finances
.fr
BDAdresse
IGN DBPedia.fr
Intérieur
Min.Culture
Recensement
INSEE
BDTopo Recherche
IGN Offres des services
Administrations locales De transport
(villes, agglos, data.BNF.fr CETE
départements, régions)
Santé
Associations Médias
17. Quelques exemples de requêtes
● Quels sont les services publics disponibles à
Melun classés par type de service ?
● Quels sont les horaires d'ouverture des services
publics en Île de France ?
● Dans quelles villes y a t'il des instances
préfectorales ? Quel est leur numéro de
téléphone ? Quel est le nom de ces communes
en Japonais ?
18. Credits
This presentation was realized thanks to the work of the Datalift team.
It can be freely distributed under Creative Commons licence BY-NC-SA 3.0
18