20121009 10-datalift-camp-paris

708 vues

Publié le

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
708
Sur SlideShare
0
Issues des intégrations
0
Intégrations
5
Actions
Partages
0
Téléchargements
10
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

20121009 10-datalift-camp-paris

  1. 1. DATALIFT CAMP 09 et 10 octobre 2012 ParisGazouillez #datalift Datalift Camp, 09 et 10 octobre 2012, Paris 1
  2. 2. Plan● Problématiques● Objectifs du projet● Etapes et jalons● Réalisations● La plateforme Datalift● Difficultés rencontrées● Travaux futurs Datalift Camp, 09 et 10 octobre 2012, Paris 2
  3. 3. Partons en voyage... Datalift Camp, 09 et 10 octobre 2012, Paris 3
  4. 4. Problème de planning Datalift Camp, 09 et 10 octobre 2012, Paris 4
  5. 5. Problème de planning Datalift Camp, 09 et 10 octobre 2012, Paris 5
  6. 6. Une situation insuffisament satisfaisante pour la valorisation de vos donnéesOblige les développeurs à :Ø Analyser à chaque fois la sémantique de vos données : quest-ce que veut dire ce champ “nom” ? signifie-t-il la même chose que dans cet autre jeu de données ?Ø Découvrir par eux-mêmes les relations entre vos données et dautres donnéesØ Gérer des formats hétérogènes pour croiser des données : CSV pour tel jeu de données, XLS pour tel autre, SHP pour ce dernierØ Gérer des méthodes daccès hétérogènes pour accéder aux données : APIs propriétaires différentesDe votre côté :Ø Temps passé à développer des APIsØ Difficulté à faire adapter des applications existantes à vos données Datalift Camp, 09 et 10 octobre 2012, Paris 6
  7. 7. Le Web sémantique comme solutionØ Un système didentifiants global : les URIs ● chaque donnée ou métadonnée est identifiée de manière non ambigue : http://dbpedia.org/resource/Paris est la ville de Paris en France ; pas de risque de confusion avec Paris au Texas ou avec les paris sportifsØ Un format unique, RDF : un modèle de données simple pour décrire vos données, extensif à linfiniØ La standardisation de la sémantique de vos données, à travers des propriétés et des “vocabulaires” réutilisables : par ex. vous navez pas à réinventer pas la propriété “auteur” qui est déjà définie ailleursØ Un protocole dacccès uniforme : HTTP, SPARQL ● SPARQL est lAPI unique, normalisée, Paris web sémantique Datalift Camp, 09 et 10 octobre 2012, du 7 (ressemble à SQL)
  8. 8. but de datalif De données brutes ouvertes à des données sémantques interconnectées Datalift Camp, 09 et 10 octobre 2012, Paris 8
  9. 9. DataliftPlateforme logicielle pour assister la publication de donnéesPublication de jeux de donnéesR&D pour automatiser le processus de publicationFormations, tutoriels, camps de publication de données Datalift Camp, 09 et 10 octobre 2012, Paris 9
  10. 10. Le processus délévation Datalift Camp, 09 et 10 octobre 2012, Paris 10
  11. 11. Le processus de publication DBPedia IGN INSEE Accès HTTP Interrogation en SPARQL Ontologie du service public Conversion RDF → RDF Ontologie géographique Conversion XML → RDF Datalift Camp, 09 et 10 octobre 2012, Paris 11
  12. 12. sélectionØ Qu’est-ce qu’un (bon) vocabulaire pour des données liées? § Critères d’utilisabilité § Simplicité, visibilité, pérennité, intégration, cohérence …Ø Différents types de vocabulaires § De métadonnées, de référence, de domaine, généraliste … § Les piliers du Linked Data : Dublin Core, FOAF, SKOSØ Bonnes et moins bonnes pratiques § Ex : Programmes BBC vs legislation.gov.uk § Vocabulary of a Friend : les vocabulaires en réseauØ Problèmes linguistiques § Les vocabulaires existants sont en anglais à 99% § Approche terminologique : quels vocabulaires pour « Evénement » « Organisation » Datalift Camp, 09 et 10 octobre 2012, Paris 12
  13. 13. conversion Ø Guide des bonnes pratiques pour les données liées: § La ressource: http://id.insee.fr/geo/commune/75056 ● Le document: http://www.insee.fr/geo/commune/75056 ● Les données: http://rdf.insee.fr/geo/commune/75056 Datalift Camp, 09 et 10 octobre 2012, Paris 13
  14. 14. conversion Ø Guide des bonnes pratiques pour les données liées: § La ressource: http://id.insee.fr/geo/commune/75056 ● Le document: http://www.insee.fr/geo/commune/75056 ● Les données: http://rdf.insee.fr/geo/commune/75056 Datalift Camp, 09 et 10 octobre 2012, Paris 14
  15. 15. publication § Utliser le format RDF § Utliser des URI pour nommer les choses § Utliser des URI HTTP (URL) pour pouvoir leur demander des informatons § Donner des informatons (HTML, RDF) quand les liens sont dé-référencés § Inclure dans ces infos les URIs pointant vers dautres données pour permettre la découverte Tim Berners Lee, SemWebPro 18/01/2011 15 http://www.w3.org/DesignIssues/LinkedData.html
  16. 16. InterconnexionDépasserlhétérogénéitédes données§ Comment identfier les jeux de données à lier ?§ Comment trouver les resources équivalentes ? SemWebPro 18/01/2011 16
  17. 17. Et plus ...● Gestion des droits daccès aux données à échelle variable● Gestion des licences, licences composites● Une API web de données pour Androïd● Des patrons configuration pour visualiser les données● ... Datalift Camp, 09 et 10 octobre 2012, Paris 17
  18. 18. La plateforme Datalift● Architecture modulaire● Supporte le processus de publication● Documentée : installation, utilisation, développement● Sécurisée● Open-source● Exécutables pour Windows, MacOS, Linux Datalift Camp, 09 et 10 octobre 2012, Paris 18
  19. 19. La plateforme Datalift Datalift Camp, 09 et 10 octobre 2012, Paris 19
  20. 20. DATALIFT En route vers le web de données Datalift Camp, 09 et 10 octobre 2012, Paris 20

×