Datalift à l’INSEE
Data Tuesday – 20 novembre 2012




Franck Cotton
Secrétariat général informatique



                                   20/11/2012
Le projet Datalift
 Objectif : construction d’une plate-forme de production
  et de publication de données liées (linked data)
 Cofinancé par l’Agence Nationale de la Recherche
 Durée : 3 ans et demi (fin en mars 2014)
 Partenaires :
    Enseignement / recherche
      EURECOM (Institut Mines-Telecom), INRIA (EXMO, WIMMICS),
       LIRMM (Université de Montpellier)
    Industriels
      Atos, Mondeca
    Fournisseurs de données
      IGN, INSEE
    Think tank
      FING (Fondation Internet nouvelle génération)

                                                                 20/11
Données liées ?
 Des données directement sur le web
 Un modèle de données de base simple et souple (RDF)
    Des assertions sur des ressources :
                          Prédicat         Ressource objet
      Ressource sujet                ou
                                               Valeur

 Utilisation de standards du web
    Pour nommer les ressources : URI
    Pour accéder aux ressources : HTTP
 Des langages pour construire des modèles de données
  de plus haut niveau
 Un langage de requête puissant : SPARQL

                                                             20/11
La plate-forme Datalift
 Logiciel open source Java
 Modulaire et intégrée
 Des modules qui outillent les différentes étapes (les
  « étages de l’ascenseur ») de la donnée brute à la
  donnée « pub-liée »
    Conversion des formats bruts (CSV, SQL, XML) vers RDF
    Choix de vocabulaires pour construire les modèles de
     données métier
    Transformations sur les données RDF
    Interconnexion des données avec le « LOD Cloud »
    Accès contrôlé
    Visualisation
    Requêtage

                                                             20/11
Datalift et l’INSEE
 Un projet aux objectifs conformes aux missions de
  l’Institut
 Un intérêt ancien pour le domaine
    Publication RDF du Code Officiel Géographique depuis
     2005
    L’occasion d’une collaboration enrichissante
 Le rôle de l’INSEE dans Datalift
      Fournisseur de données
      Fournisseur de modèles
      Utilisateur
      Demandeur
      Développeur


                                                            20/11
Datalift à l’INSEE
 Organisation retenue
    Une plate-forme orientée diffusion pour commencer
 Calendrier
    Janvier 2013 :
       Mise en production de la plate-forme
       Code officiel géographique, nomenclatures
    Mi-2013 : données statistiques du recensement
    À l’étude :
       Base permanente des équipements
       Séries temporelles
 À moyen terme
    Intégration de cette filière dans le projet de refonte de notre
     diffusion web


                                                                       20/11

Data Tuesday 20 nov 2012 INSEE - Datalift

  • 1.
    Datalift à l’INSEE DataTuesday – 20 novembre 2012 Franck Cotton Secrétariat général informatique 20/11/2012
  • 2.
    Le projet Datalift Objectif : construction d’une plate-forme de production et de publication de données liées (linked data)  Cofinancé par l’Agence Nationale de la Recherche  Durée : 3 ans et demi (fin en mars 2014)  Partenaires :  Enseignement / recherche EURECOM (Institut Mines-Telecom), INRIA (EXMO, WIMMICS), LIRMM (Université de Montpellier)  Industriels Atos, Mondeca  Fournisseurs de données IGN, INSEE  Think tank FING (Fondation Internet nouvelle génération) 20/11
  • 3.
    Données liées ? Des données directement sur le web  Un modèle de données de base simple et souple (RDF)  Des assertions sur des ressources : Prédicat Ressource objet Ressource sujet ou Valeur  Utilisation de standards du web  Pour nommer les ressources : URI  Pour accéder aux ressources : HTTP  Des langages pour construire des modèles de données de plus haut niveau  Un langage de requête puissant : SPARQL 20/11
  • 4.
    La plate-forme Datalift Logiciel open source Java  Modulaire et intégrée  Des modules qui outillent les différentes étapes (les « étages de l’ascenseur ») de la donnée brute à la donnée « pub-liée »  Conversion des formats bruts (CSV, SQL, XML) vers RDF  Choix de vocabulaires pour construire les modèles de données métier  Transformations sur les données RDF  Interconnexion des données avec le « LOD Cloud »  Accès contrôlé  Visualisation  Requêtage 20/11
  • 5.
    Datalift et l’INSEE Un projet aux objectifs conformes aux missions de l’Institut  Un intérêt ancien pour le domaine  Publication RDF du Code Officiel Géographique depuis 2005  L’occasion d’une collaboration enrichissante  Le rôle de l’INSEE dans Datalift  Fournisseur de données  Fournisseur de modèles  Utilisateur  Demandeur  Développeur 20/11
  • 6.
    Datalift à l’INSEE Organisation retenue  Une plate-forme orientée diffusion pour commencer  Calendrier  Janvier 2013 :  Mise en production de la plate-forme  Code officiel géographique, nomenclatures  Mi-2013 : données statistiques du recensement  À l’étude :  Base permanente des équipements  Séries temporelles  À moyen terme  Intégration de cette filière dans le projet de refonte de notre diffusion web 20/11