Publier et interconnecter
les données publiques :
Le projet Datalift

                  13 Mars 2012, COEPIA, Paris
                  Formation spécialisée « Mise à
                  disposition et valorisation des données
                  publiques »


                  François Scharffe
                  Francois.scharffe@lirmm.fr
                  @lechatpito



   Présentation réalisée avec l'équipe du projet Datalift
   Et le soutien de l'Agence Nationale pour la Recherche
                                               1
Au sommaire


Ø Problématiques
Ø Le web sémantique comme solution
Ø Le projet Datalift
Ø Processus de publications des données
Ø Exemple avec les données de l'annuaire du service public
Ø Vocabulaires, identifiants et interconnexion
Ø Vers un écosystème de jeux de données de référence
Problématiques


Ø Redondance des identifiants
Ø Hétérogénéité des formats de données
Ø Diversité des formats de métadonnées
Ø Hétérogénéité des protocoles d'accès aux données
Le Web sémantique comme solution


Ø Un système d'identifiants global: les URIs
Ø Un format unique: RDF
Ø Un langage de représentation de vocabulaires de métadonnées:
  RDFS+OWL, SKOS
Ø Un protocole d'acccès uniforme: HTTP, SPARQL
Datalift

Plateforme logicielle pour assister la publication de données
Publication de jeux de données
R&D pour automatiser le processus de publication
Formations, tutoriels, camps de publication de données
but de datalift
 De données brutes ouvertes
 à des données sémantiques
       interconnectées
Un ascenseur pour les données
                                    Données publiées et
                                interconnectées sur le Web
                            Applications


                Interconnexion


Infrastructure de publication


           Conversion des données


                 Sélection de vocabulaires




                                       Données brutes
Le processus de publication
       DBPedia     IGN
                          INSEE



                             SPARQL

                                  Négociation de contenu

                             Dé-référencement des URIs
  Ontologie du
  service public
                         Conversion RDF → RDF
  Ontologie
 géographique
                         Conversion XML → RDF
sélection
Ø Qu’est-ce qu’un (bon) vocabulaire pour des données liées?
    § Critères d’utilisabilité
    § Simplicité, visibilité, pérennité, intégration, cohérence …
Ø Différents types de vocabulaires
    § De métadonnées, de référence, de domaine, généraliste …
    § Les piliers du Linked Data : Dublin Core, FOAF, SKOS
Ø Bonnes et moins bonnes pratiques
    § Ex : Programmes BBC vs legislation.gov.uk
    § Vocabulary of a Friend : les vocabulaires en réseau
Ø Problèmes linguistiques
    § Les vocabulaires existants sont en anglais à 99%
    § Approche terminologique : quels vocabulaires pour « Evénement » « Organisation »
conversion
Ø Guide des bonnes pratiques pour les données liées:
   § La ressource: http://dbpedia.org/resource/Paris
   § Le document: http://dbpedia.org/page/Paris
   § Les données: http://dbpedia.org/data/Paris
Ø Cas d’étude: legislation.gov.uk
   § L’identifiant: http://www.legislation.gov.uk/id/ukpga/1985/67
   § Le document: http://www.legislation.gov.uk/ukpga/1985/67
   § La représentation (en XML plutôt que HTML):
     http://www.legislation.gov.uk/ukpga/1985/67/data.xml
publication
 §
      Utiliser le format RDF
 §
      Utiliser des URI pour nommer les choses
 §
      Utiliser des URI HTTP (URL) pour pouvoir leur demander des
      informations
 §
      Donner des informations (HTML, RDF) quand les liens sont dé-
      référencés
 §
      Inclure dans ces infos les URIs pointant vers d'autres données pour
      permettre la découverte
                                           Tim Berners Lee,
     http://www.w3.org/DesignIssues/LinkedData.html
Interconnexion

§
    Comment identifier les jeux
    de données à lier ?
§
    Comment trouver les resources
    équivalentes ?
Élévation de données
        expérimentations en cours ou prévues

Ø IGN, INSEE, DILA
Ø Regards Citoyens (nosdeputes.fr)
Ø Etalab – data.gouv.fr
Ø Version Française de DBPedia (INRIA, ministère de la culture)
Ø Office national des transports (CETE Méditerranée)
Ø Ville de Montpellier
Ø EU projects LOD2, LATC, PlanetData
Ø SharePSI.eu, W3C Linked Open Government Data, CKAN
Education         Dev. Durable


Nuage de
                                                         Industrie
                                                                             Culture




données
                                         Annuaire du
                                        Service Public        Reférentiel
                                            DILA             des communes
                                                                 INSEE
                                                                                   Finances



.fr
                          BDAdresse
                            IGN              DBPedia.fr
             Intérieur
                                             Min.Culture

                                                                     Recensement
                                                                        INSEE
                          BDTopo                                                   Recherche
                           IGN                    Offres des services
Administrations locales                               De transport
   (villes, agglos,                   data.BNF.fr        CETE
départements, régions)

                                                                             Santé
                              Associations                   Médias
DATALIFT




 En route vers le web de données
Datalift Platform
Quelques exemples de requêtes
●   Quels sont les services publics disponibles à
    Melun classés par type de service ?
●   Quels sont les horaires d'ouverture des services
    publics en Île de France ?
●   Dans quelles villes y a t'il des instances
    préfectorales ? Quel est leur numéro de
    téléphone ? Quel est le nom de ces communes
    en Japonais ?
Credits

This presentation was realized thanks to the work of the Datalift team.
It can be freely distributed under Creative Commons licence BY-NC-SA 3.0




                                                               18

20120313 coepia-mise-à-disposition-et-valorisation-des-données-publiques

  • 1.
    Publier et interconnecter lesdonnées publiques : Le projet Datalift 13 Mars 2012, COEPIA, Paris Formation spécialisée « Mise à disposition et valorisation des données publiques » François Scharffe Francois.scharffe@lirmm.fr @lechatpito Présentation réalisée avec l'équipe du projet Datalift Et le soutien de l'Agence Nationale pour la Recherche 1
  • 2.
    Au sommaire Ø Problématiques ØLe web sémantique comme solution Ø Le projet Datalift Ø Processus de publications des données Ø Exemple avec les données de l'annuaire du service public Ø Vocabulaires, identifiants et interconnexion Ø Vers un écosystème de jeux de données de référence
  • 3.
    Problématiques Ø Redondance desidentifiants Ø Hétérogénéité des formats de données Ø Diversité des formats de métadonnées Ø Hétérogénéité des protocoles d'accès aux données
  • 4.
    Le Web sémantiquecomme solution Ø Un système d'identifiants global: les URIs Ø Un format unique: RDF Ø Un langage de représentation de vocabulaires de métadonnées: RDFS+OWL, SKOS Ø Un protocole d'acccès uniforme: HTTP, SPARQL
  • 5.
    Datalift Plateforme logicielle pourassister la publication de données Publication de jeux de données R&D pour automatiser le processus de publication Formations, tutoriels, camps de publication de données
  • 6.
    but de datalift De données brutes ouvertes à des données sémantiques interconnectées
  • 7.
    Un ascenseur pourles données Données publiées et interconnectées sur le Web Applications Interconnexion Infrastructure de publication Conversion des données Sélection de vocabulaires Données brutes
  • 8.
    Le processus depublication DBPedia IGN INSEE SPARQL Négociation de contenu Dé-référencement des URIs Ontologie du service public Conversion RDF → RDF Ontologie géographique Conversion XML → RDF
  • 9.
    sélection Ø Qu’est-ce qu’un(bon) vocabulaire pour des données liées? § Critères d’utilisabilité § Simplicité, visibilité, pérennité, intégration, cohérence … Ø Différents types de vocabulaires § De métadonnées, de référence, de domaine, généraliste … § Les piliers du Linked Data : Dublin Core, FOAF, SKOS Ø Bonnes et moins bonnes pratiques § Ex : Programmes BBC vs legislation.gov.uk § Vocabulary of a Friend : les vocabulaires en réseau Ø Problèmes linguistiques § Les vocabulaires existants sont en anglais à 99% § Approche terminologique : quels vocabulaires pour « Evénement » « Organisation »
  • 10.
    conversion Ø Guide desbonnes pratiques pour les données liées: § La ressource: http://dbpedia.org/resource/Paris § Le document: http://dbpedia.org/page/Paris § Les données: http://dbpedia.org/data/Paris Ø Cas d’étude: legislation.gov.uk § L’identifiant: http://www.legislation.gov.uk/id/ukpga/1985/67 § Le document: http://www.legislation.gov.uk/ukpga/1985/67 § La représentation (en XML plutôt que HTML): http://www.legislation.gov.uk/ukpga/1985/67/data.xml
  • 11.
    publication § Utiliser le format RDF § Utiliser des URI pour nommer les choses § Utiliser des URI HTTP (URL) pour pouvoir leur demander des informations § Donner des informations (HTML, RDF) quand les liens sont dé- référencés § Inclure dans ces infos les URIs pointant vers d'autres données pour permettre la découverte Tim Berners Lee, http://www.w3.org/DesignIssues/LinkedData.html
  • 12.
    Interconnexion § Comment identifier les jeux de données à lier ? § Comment trouver les resources équivalentes ?
  • 13.
    Élévation de données expérimentations en cours ou prévues Ø IGN, INSEE, DILA Ø Regards Citoyens (nosdeputes.fr) Ø Etalab – data.gouv.fr Ø Version Française de DBPedia (INRIA, ministère de la culture) Ø Office national des transports (CETE Méditerranée) Ø Ville de Montpellier Ø EU projects LOD2, LATC, PlanetData Ø SharePSI.eu, W3C Linked Open Government Data, CKAN
  • 14.
    Education Dev. Durable Nuage de Industrie Culture données Annuaire du Service Public Reférentiel DILA des communes INSEE Finances .fr BDAdresse IGN DBPedia.fr Intérieur Min.Culture Recensement INSEE BDTopo Recherche IGN Offres des services Administrations locales De transport (villes, agglos, data.BNF.fr CETE départements, régions) Santé Associations Médias
  • 15.
    DATALIFT En routevers le web de données
  • 16.
  • 17.
    Quelques exemples derequêtes ● Quels sont les services publics disponibles à Melun classés par type de service ? ● Quels sont les horaires d'ouverture des services publics en Île de France ? ● Dans quelles villes y a t'il des instances préfectorales ? Quel est leur numéro de téléphone ? Quel est le nom de ces communes en Japonais ?
  • 18.
    Credits This presentation wasrealized thanks to the work of the Datalift team. It can be freely distributed under Creative Commons licence BY-NC-SA 3.0 18