1. DATALIFT CAMP
09 et 10 octobre 2012
Paris
Gazouillez #datalift
Datalift Camp, 09 et 10 octobre 2012, Paris 1
2. Plan
● Problématiques
● Objectifs du projet
● Etapes et jalons
● Réalisations
● La plateforme Datalift
● Difficultés rencontrées
● Travaux futurs
Datalift Camp, 09 et 10 octobre 2012, Paris 2
6. Une situation insuffisament satisfaisante pour la
valorisation de vos données
Oblige les développeurs à :
Ø Analyser à chaque fois la sémantique de vos données : qu'est-ce
que veut dire ce champ “nom” ? signifie-t-il la même chose que
dans cet autre jeu de données ?
Ø Découvrir par eux-mêmes les relations entre vos données et
d'autres données
Ø Gérer des formats hétérogènes pour croiser des données : CSV
pour tel jeu de données, XLS pour tel autre, SHP pour ce dernier
Ø Gérer des méthodes d'accès hétérogènes pour accéder aux
données : APIs propriétaires différentes
De votre côté :
Ø Temps passé à développer des APIs
Ø Difficulté à faire adapter des applications existantes à vos données
Datalift Camp, 09 et 10 octobre 2012, Paris 6
7. Le Web sémantique comme solution
Ø Un système d'identifiants global : les URIs
●
chaque donnée ou métadonnée est identifiée de manière non
ambigue : http://dbpedia.org/resource/Paris est la ville de
Paris en France ; pas de risque de confusion avec Paris
au Texas ou avec les paris sportifs
Ø Un format unique, RDF : un modèle de données simple pour
décrire vos données, extensif à l'infini
Ø La standardisation de la sémantique de vos données, à travers
des propriétés et des “vocabulaires” réutilisables : par ex. vous
n'avez pas à réinventer pas la propriété “auteur” qui est déjà définie
ailleurs
Ø Un protocole d'acccès uniforme : HTTP, SPARQL
●
SPARQL est l'API unique, normalisée, Paris web sémantique
Datalift Camp, 09 et 10 octobre 2012, du 7
(ressemble à SQL)
8. but de datalif
De données brutes ouvertes
à des données sémantques
interconnectées
Datalift Camp, 09 et 10 octobre 2012, Paris 8
9. Datalift
Plateforme logicielle pour assister la publication de données
Publication de jeux de données
R&D pour automatiser le processus de publication
Formations, tutoriels, camps de publication de données
Datalift Camp, 09 et 10 octobre 2012, Paris 9
11. Le processus de publication
DBPedia IGN
INSEE
Accès HTTP
Interrogation en SPARQL
Ontologie du
service public
Conversion RDF → RDF
Ontologie
géographique
Conversion XML → RDF
Datalift Camp, 09 et 10 octobre 2012, Paris 11
12. sélection
Ø Qu’est-ce qu’un (bon) vocabulaire pour des données liées?
§ Critères d’utilisabilité
§ Simplicité, visibilité, pérennité, intégration, cohérence …
Ø Différents types de vocabulaires
§ De métadonnées, de référence, de domaine, généraliste …
§ Les piliers du Linked Data : Dublin Core, FOAF, SKOS
Ø Bonnes et moins bonnes pratiques
§ Ex : Programmes BBC vs legislation.gov.uk
§ Vocabulary of a Friend : les vocabulaires en réseau
Ø Problèmes linguistiques
§ Les vocabulaires existants sont en anglais à 99%
§ Approche terminologique : quels vocabulaires pour « Evénement » « Organisation »
Datalift Camp, 09 et 10 octobre 2012, Paris 12
13. conversion
Ø Guide des bonnes pratiques pour les données liées:
§ La ressource: http://id.insee.fr/geo/commune/75056
●
Le document: http://www.insee.fr/geo/commune/75056
●
Les données: http://rdf.insee.fr/geo/commune/75056
Datalift Camp, 09 et 10 octobre 2012, Paris 13
14. conversion
Ø Guide des bonnes pratiques pour les données liées:
§ La ressource: http://id.insee.fr/geo/commune/75056
●
Le document: http://www.insee.fr/geo/commune/75056
●
Les données: http://rdf.insee.fr/geo/commune/75056
Datalift Camp, 09 et 10 octobre 2012, Paris 14
15. publication
§
Utliser le format RDF
§
Utliser des URI pour nommer les choses
§
Utliser des URI HTTP (URL) pour pouvoir leur demander des informatons
§
Donner des informatons (HTML, RDF) quand les liens sont dé-référencés
§
Inclure dans ces infos les URIs pointant vers d'autres données pour
permettre la découverte
Tim Berners Lee,
SemWebPro 18/01/2011 15
http://www.w3.org/DesignIssues/LinkedData.html
17. Et plus ...
● Gestion des droits d'accès aux données à
échelle variable
● Gestion des licences, licences composites
● Une API web de données pour Androïd
● Des patrons configuration pour visualiser les
données
● ...
Datalift Camp, 09 et 10 octobre 2012, Paris 17
18. La plateforme Datalift
● Architecture modulaire
● Supporte le processus de publication
● Documentée : installation, utilisation,
développement
● Sécurisée
● Open-source
● Exécutables pour Windows, MacOS, Linux
Datalift Camp, 09 et 10 octobre 2012, Paris 18