Data Publica
Hack the data !
26 mars 2012
•   Guillaume Lebourgeois
•   Ingénieur R&D Data Publica
         o @glebourg sur Twitter
         o guillaume.lebourgeois@data-publica.com
Qui suis-je ?
Data Publica développe la connaissance la plus complète
  et la plus fine des données électroniques françaises



Deux axes de revenu :
•   Jeux de données sur mesure
•   Annuaire et Data Store des données françaises :
      o Des jeux de données de vendeurs tiers
      o Des jeux de données développés par Data Publica
L'annuaire Data Publica
Annuaire
•   L’annuaire de données françaises le
    plus complet (depuis septembre
    2010)
•   Périmètre
      o public/privé & gratuit/payant
      o régional/national/européen
      o Focalisé France
•   190 éditeurs, 13.000 jeux de
    données, 90% de fichiers tableurs
•   Moteur de recherche
•   Interviews de spécialistes
•   Actualités des données


Data Store depuis octobre 2011
Le drame de la data française
•   90+% des données
    o   Fichiers XLS
    o   Fichiers PDF


L'enjeu : pouvoir traiter automatiquement les
   données
Pour créer du sens
Pour croiser des données entre-elles
Créer des données structurées
ou la clef de tous les possibles

Structure DSPL
  Mesurer des métriques selon des dimensions
  •Un fichier XML de description des données
  •Un fichier CSV détaillant les valeurs par concept
  •Un fichier CSV par "tranche" de données
DSPL : un exemple présidentiel
http://www.data-publica.com/opendata/13242--vox-twitter-2012



• dataset.xml
     o   concept candidat
     o   concept bruit
     o   concept popularité
     o   concept jour
     o   slice tweets
           dimensions : candidat, jour
           metrics : bruit, popularité
     o   table candidats
     o   table tweets
Vous avez dit structuré ?
Des données structurées dans un format qui
 permet de définir des métriques et des
 dimensions, ce sont des données que l'on
 peut faire parler.
visualisation
Ou comment faire parler les données




Choisir les données
   à visualiser




 Visualiser sur une
        carte
Données structurées ? API !
Ou comment redonner la parole aux développeurs... et aux machines




http://api.data-publica.com/…/content.json? limit=10&filter={revenue_fiscal_par_foyer:{$gt:25000}}
Demo visualisateur/api
http://www.data-publica.com/opendata/12244--faits-constates-par-departement-de-2002-a-2010
API Data Publica

Documentation
•   http://www.data-publica.com/content/api/
•   Methode REST
•   Filtres géolocalisés et conditions sur les colonnes


Documentation des jeux de données dans la fiche
•   Documentation des attributs
•   Extraits des valeurs
•   http://www.data-publica.com/opendata/13242--vox-twitter-2012


Signature
•   il faut un compte sur Data Publica, lib de signature
•   accès à une interface pour simuler un appel
API Data Publica : help !
Nous fournissons généreusement deux clients :
•Python (abouti)
•Java (seulement la signature)

https://github.com/datapublica-company/API


Faites du Python, car c'est mieux. Tout
  simplement.
Maintenant, à vous de bosser
Trois thèmes différents, pour des groupes de 2
  à 4 étudiants.

• Croisements géographiques
• Croisements thématiques
• Graphe de connaissances
Croisements géographiques
Travailler autour des données qui concernent la
  Bretagne.
•   Via l'API, pour les données géolocalisées
•   Via parsing de fichiers, pour les données non structurées

Problématique : quelles données croiser ? De quelle
  manière (uniquement géo ?) ? Comment les
  représenter ?
Croisements thématiques
Travailler autour des données médicales
Ex : DÉCÈS DUS AUX ACCIDENTS, PAR SEXE

• Via l'API autour de concepts communs
• Via Parsing de fichiers, pour du sur mesure
Problématique : Quelles données croiser, sur quels
  concepts communs ? Est-il possible de croiser avec
  données hors thème (ex. PIB par habitant) pour trouver
  des corrélations ? Comment représenter les résultats ?
Graphe de connaissances
Représenter le graphe de connaissances de
 l'open-data français.

Source : site de Data-Publica
Méthode : co-reférence de catégories ; co-référence de
  tags

Peu de catégories ; beaucoup de tags.
Il y aura peut être nécessité d'organiser les tags en
    thèmes.
Visualisations / API
Pour sélectionner uniquement les jeux de
 données disponibles via API, ou bénéficiant
 d'une visualisation, utiliser les facettes du
 moteur de recherche.
Futurs stagiaires ?
Contactez-nous !

On adore les jeunes motivés et compétents.
Hack the data !
                               Données Publiques, Open Data & Data Store
                         26 mars 2012




guillaume.lebourgeois@data-publica.com

Utc data publica1

  • 1.
    Data Publica Hack thedata ! 26 mars 2012
  • 2.
    Guillaume Lebourgeois • Ingénieur R&D Data Publica o @glebourg sur Twitter o guillaume.lebourgeois@data-publica.com Qui suis-je ?
  • 3.
    Data Publica développela connaissance la plus complète et la plus fine des données électroniques françaises Deux axes de revenu : • Jeux de données sur mesure • Annuaire et Data Store des données françaises : o Des jeux de données de vendeurs tiers o Des jeux de données développés par Data Publica
  • 4.
    L'annuaire Data Publica Annuaire • L’annuaire de données françaises le plus complet (depuis septembre 2010) • Périmètre o public/privé & gratuit/payant o régional/national/européen o Focalisé France • 190 éditeurs, 13.000 jeux de données, 90% de fichiers tableurs • Moteur de recherche • Interviews de spécialistes • Actualités des données Data Store depuis octobre 2011
  • 5.
    Le drame dela data française • 90+% des données o Fichiers XLS o Fichiers PDF L'enjeu : pouvoir traiter automatiquement les données Pour créer du sens Pour croiser des données entre-elles
  • 6.
    Créer des donnéesstructurées ou la clef de tous les possibles Structure DSPL Mesurer des métriques selon des dimensions •Un fichier XML de description des données •Un fichier CSV détaillant les valeurs par concept •Un fichier CSV par "tranche" de données
  • 7.
    DSPL : unexemple présidentiel http://www.data-publica.com/opendata/13242--vox-twitter-2012 • dataset.xml o concept candidat o concept bruit o concept popularité o concept jour o slice tweets  dimensions : candidat, jour  metrics : bruit, popularité o table candidats o table tweets
  • 8.
    Vous avez ditstructuré ? Des données structurées dans un format qui permet de définir des métriques et des dimensions, ce sont des données que l'on peut faire parler.
  • 9.
    visualisation Ou comment faireparler les données Choisir les données à visualiser Visualiser sur une carte
  • 10.
    Données structurées ?API ! Ou comment redonner la parole aux développeurs... et aux machines http://api.data-publica.com/…/content.json? limit=10&filter={revenue_fiscal_par_foyer:{$gt:25000}}
  • 11.
  • 12.
    API Data Publica Documentation • http://www.data-publica.com/content/api/ • Methode REST • Filtres géolocalisés et conditions sur les colonnes Documentation des jeux de données dans la fiche • Documentation des attributs • Extraits des valeurs • http://www.data-publica.com/opendata/13242--vox-twitter-2012 Signature • il faut un compte sur Data Publica, lib de signature • accès à une interface pour simuler un appel
  • 13.
    API Data Publica: help ! Nous fournissons généreusement deux clients : •Python (abouti) •Java (seulement la signature) https://github.com/datapublica-company/API Faites du Python, car c'est mieux. Tout simplement.
  • 14.
    Maintenant, à vousde bosser Trois thèmes différents, pour des groupes de 2 à 4 étudiants. • Croisements géographiques • Croisements thématiques • Graphe de connaissances
  • 15.
    Croisements géographiques Travailler autourdes données qui concernent la Bretagne. • Via l'API, pour les données géolocalisées • Via parsing de fichiers, pour les données non structurées Problématique : quelles données croiser ? De quelle manière (uniquement géo ?) ? Comment les représenter ?
  • 16.
    Croisements thématiques Travailler autourdes données médicales Ex : DÉCÈS DUS AUX ACCIDENTS, PAR SEXE • Via l'API autour de concepts communs • Via Parsing de fichiers, pour du sur mesure Problématique : Quelles données croiser, sur quels concepts communs ? Est-il possible de croiser avec données hors thème (ex. PIB par habitant) pour trouver des corrélations ? Comment représenter les résultats ?
  • 17.
    Graphe de connaissances Représenterle graphe de connaissances de l'open-data français. Source : site de Data-Publica Méthode : co-reférence de catégories ; co-référence de tags Peu de catégories ; beaucoup de tags. Il y aura peut être nécessité d'organiser les tags en thèmes.
  • 18.
    Visualisations / API Poursélectionner uniquement les jeux de données disponibles via API, ou bénéficiant d'une visualisation, utiliser les facettes du moteur de recherche.
  • 19.
    Futurs stagiaires ? Contactez-nous! On adore les jeunes motivés et compétents.
  • 20.
    Hack the data! Données Publiques, Open Data & Data Store 26 mars 2012 guillaume.lebourgeois@data-publica.com