Avant propos
Introduction
A. Les annuaires de données.
L’annuaire Open Data de Data Publica
Google Public Data Explorer
Da...
Avant propos
Avec l’expérience acquise par la mise en place de son annuaire
aujourd’hui riche de plus de 16 000 jeux de do...
Introduction
Les sources disponibles
Il existe quantité de sources de données disponibles parmi lesquelles on
distinguera ...
A. Les annuaires de données.
Les annuaires de données sont des sites qui regroupent des données
disponibles par ailleurs.
...
Sur Data Publica, la navigation est simple : tapez dans la barre de
recherche les données dont vous avez besoin, affinez e...
Google Public Data Explorer
Googe a également mis au point un service d’indexation des données
publiques visible à http://...
DataMarket
Datamarket est une société islandaise qui a développé un catalogue de
données en répertoriant comme Data Public...
Quandl
Plus jeune société présente sur le créneau de l’agrégation de données,
Quandl est une start up canadienne qui a déj...
Les annuaires institutionnels
De nombreux Etats ont déjà mis en place des annuaires de données.
Petit état des lieux de si...
B. Les producteurs publics de données
Les organisations publiques nationales et locales diffusent de
nombreuses données pa...
2. Les grandes bases de données: http://www.insee.fr/fr/bases-de-
donnees/
Dans les grandes bases de données de l’INSEE vo...
Les données des collectivités
De nombreuses collectivités ont déjà ouvert leur portail de données.
Aussi si vous cherchez ...
Les Ministères
Les ministères sont des sources de données parfois négligées : pourtant
ils sont nombreux à compiler et édi...
A noter : chaque ministère dispose normalement d’un correspondant
open data (lire l’interview de Philippe Guiraud, le corr...
Les organisations publiques internationales
On sous estime également la quantité de données disponibles au sein
des instit...
Ajoutons à cette liste des organisations internationales les producteurs de
données tels que :
Le FMI : http://www.imf.org...
JC DECAUX : https://developer.jcdecaux.com/
Avec l’ouverture des données du réseau Vélib, la société JC Decaux est
l’une d...
Associations, Organisations professionnelles et syndicats
Les organisations, associations et syndicats professionnels disp...
Crowdsourcing
Le crowdsourcing consiste à mobiliser une communauté afin de collecter
des données. Les sites de crowdsourci...
D. Chercher sur le Web
Chercher des données sur grâce aux moteurs de recherche
Les moteurs de recherche restent les outils...
Exemple de recherche avec le mot discrimination limité aux sites gouvernementaux français (gouv.fr) et dans
les fichiers e...
Chercher des données sur Common Crawl
Common Crawl est une fondation américaine dont l’objectif est de
mettre en place une...
Chaîne de valeur de la production de données par Data Publica
Data Guide – Le Pense-bête des sources de données du Web 23
Data Publica a développé plusieurs services autour de la recherche de
données parmi lesquels :
• un service de données sur...
Pour ce faire, Data Publica a mis en place un processus de scraping
[recueil] de données sur plusieurs dizaines de sites p...
Conclusion
Les sources de données sont nombreuses sur Internet. Même si des sites
comme Google, Bing ou Yahoo peuvent vous...
Le Data guide de Data Publica
Le Data guide de Data Publica
Prochain SlideShare
Chargement dans…5
×

Le Data guide de Data Publica

758 vues

Publié le

www.actuaires-bigdata.fr

Publié dans : Business
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
758
Sur SlideShare
0
Issues des intégrations
0
Intégrations
89
Actions
Partages
0
Téléchargements
12
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Le Data guide de Data Publica

  1. 1. Avant propos Introduction A. Les annuaires de données. L’annuaire Open Data de Data Publica Google Public Data Explorer DataMarket Quandl Les annuaires institutionnels B. Les sources publiques L’INSEE Les données des collectivités Les Ministères Les organisations publiques nationales Les organisations publiques internationales C.Les sources de données privées Les Sociétés Associations, Organisations professionnelles et syndicats Crowdsourcing D. Chercher sur le Web Chercher des données sur grâce aux moteurs de recherche Chercher des données sur Common Crawl Chercher avec les outils de Data Publica Conclusion Data Guide – Le Pense-bête des sources de données du Web 1
  2. 2. Avant propos Avec l’expérience acquise par la mise en place de son annuaire aujourd’hui riche de plus de 16 000 jeux de données créé dès septembre 2010, les équipes de Data Publica ont souhaité partager leur connaissance des sources. Les données que vous cherchez existent-elles ? Comment les trouver ? Quels sont les sites où ces données peuvent être répertoriées ? Existe t-il des astuces pour trouver des données sur les moteurs de recherche ? Ce livre blanc est un début de réponse dont nous espérons qu’il vous aidera à trouver les données que vous cherchez. Ce guide ne prétend pas à l’exhaustivité. Il vise simplement à offrir au lecteur un panorama des sources disponibles. Data Guide – Le Pense-bête des sources de données du Web 2
  3. 3. Introduction Les sources disponibles Il existe quantité de sources de données disponibles parmi lesquelles on distinguera : - Sources publiques : administration, organisations publiques nationales et internationales, collectivités - Sources privées : entreprises, syndicats professionnels ou associations - Les annuaires de données (tels que celui développé par Data Publica) Toutefois ces sources ne sont pas les seules possibilités offertes aux internautes pour trouver des données. Les données peuvent également être disséminées sur la toile et d’autant plus difficiles à trouver. Que ce soient des astuces pour chercher sur les moteurs de recherches ou bien des archives du web créées par des sociétés spécialisées, d’autres solutions existent pour trouver les données. Le pense-bête des sources des données du Web est justement l’outil à conserver près de soi. NB : Attention « données publiques » ne signifie pas pour autant « données gratuites » même si une grande partie d’entre elles sont gratuites. Le dernier rapport de Mohammed Adnène Trojette, par ailleurs magistrat à la Cour desComptes, fait la liste de toutes les données publiques qui restent soumises à redevance dans son rapport remis au Premier Ministre le 5 novembre dernier et disponible sur cette page. Data Guide – Le Pense-bête des sources de données du Web 3
  4. 4. A. Les annuaires de données. Les annuaires de données sont des sites qui regroupent des données disponibles par ailleurs. L’annuaire Open Data de Data Publica L’annuaire Open Data de Data Publica est l’exemple même d’un annuaire de données. Sur l’annuaire Open Data de Data Publica, près de 16 000 jeux de données peuvent être recherchés et sont accessibles gratuitement, en libre service, sans inscription. 200 éditeurs publics et privés ont une partie de leurs données référencées dans cet annuaire : INSEE, ministère, préfectures, institutions publiques internationales, Eurostat, OCDE, Banque Mondiale. Attention l’annuaire Open Data ne contient pas toutes les données de ces éditeurs. Si vous ne trouvez pas les données sur Data Publica et que vous pensez que ces éditeurs publics les diffusent, alors nous vous invitons à visiter leur portail d’accès à leurs données [voir plus bas]. Data Guide – Le Pense-bête des sources de données du Web 4
  5. 5. Sur Data Publica, la navigation est simple : tapez dans la barre de recherche les données dont vous avez besoin, affinez et triez ensuite les premiers résultats avec les facettes présentes dans la colonne de gauche : vous pouvez sélectionner plusieurs thèmes, éditeurs, formats, licence.. Un peu plus de 4 000 jeux de données sont visualisables sous forme de cartes, histogrammes, courbes et tableaux. Les fonctionnalités de cet outil permettent d’intégrer des visualisations dans les articles, posts de blog et pages web. Vous pouvez également paramétrer les séries : cela permet d’afficher et de comparer uniquement les indicateurs désirés. Les données peuvent enfin être exportées sous de multiples formats : xls, csv, Kml, png… Carte, histogramme, tableau ou courbe : insérez facilement une visualisation interactive dans vos articles en ligne grâce au visualisateur générique de données de l’annuaire open data de Data Publica. Data Guide – Le Pense-bête des sources de données du Web 5
  6. 6. Google Public Data Explorer Googe a également mis au point un service d’indexation des données publiques visible à http://www.google.com/publicdata/directory Sur ce site, vous aurez accès à quelques séries d’indicateurs des grandes institutions internationales : Banque Mondiale, Bureaux des études statistiques américaines, OCDE, Fonds Monétaire International... Google Public Data Explorer est avant tout un outil de visualisation des principaux indicateurs démographiques, sociologiques et économiques publiés par les organisations internationales. Cet outil facilement paramétrable est surtout utile pour afficher des séries et les partager sur les réseaux sociaux et dans des articles. Par ailleurs, Google Public Data Explorer n’est pas exhaustif : il n’indexe pas non plus toutes les données des organisations nationales et internationales. Visitez et utilisez Google Public Data Explorer Data Guide – Le Pense-bête des sources de données du Web 6
  7. 7. DataMarket Datamarket est une société islandaise qui a développé un catalogue de données en répertoriant comme Data Publica et Google Public Data Explorer des données d’organisations publiques et privées, nationales et internationales. Ces données sont classées par thèmes, pays, organisations... Les données sont visualisables et peuvent être exportées, à la condition de s’être préalablement inscrit. Par ailleurs, certains jeux de données sont payants parmi les 44 200 en ligne : consultez le site Datamarket 7Data Guide – Le Pense-bête des sources de données du Web
  8. 8. Quandl Plus jeune société présente sur le créneau de l’agrégation de données, Quandl est une start up canadienne qui a déjà indexé près de 8 millions de jeux de données principalement économiques, et financiers, dont une grande partie concerne surtout l’Amérique du nord pour le moment. Avec l’objectif de devenir l’équivalent de Wikipedia pour les données, Quandl fonctionne sur un mode collaboratif. Visitez et testez Quandl : http://www.quandl.com/ Taux d’homicides aux Etats-Unis Data Guide – Le Pense-bête des sources de données du Web 8
  9. 9. Les annuaires institutionnels De nombreux Etats ont déjà mis en place des annuaires de données. Petit état des lieux de sites incontournables. Data.gouv.fr L’annuaire français des données publiques a été lancé le 5 décembre 2011. Actuellement près de 353 000 jeux de données y sont disponibles. Cet annuaire officiel des données publiques est placé sous l’autorité de la mission Etalab dirigée par Henri Verdier. Data.gov Premier annuaire national de données publiques mis en place par l’Etat fédéral en mai 2009, le site data.gov dispense aujourd’hui plus de 91000 jeux de données diffusés par les services de l’administration. Data.gov.uk Le site officiel servant de répertoire pour les données publiques du gouvernement du Royaume-Uni, mis en place en septembre 2009 donnant accès à environ 9650 jeux de données. Data Guide – Le Pense-bête des sources de données du Web 9 Sur Data.gov, retrouvez la carte interactive de près de 300 sites open data par pays Cliquez sur la carte et téléchargez la liste en xls sur ce lien
  10. 10. B. Les producteurs publics de données Les organisations publiques nationales et locales diffusent de nombreuses données parfois non répertoriées par les annuaires : ministères, collectivités, organisations publiques, institutions, collectivités, les sources sont particulièrement nombreuses et les données abondantes. L’INSEE Si vous cherchez des données statistiques sur la France alors le site de l’INSEE vous permettra d’accéder à des bases de données particulièrement détaillées : économie, population, logement, éducation ainsi qu’à des indicateurs mis à jour mensuellement. Plusieurs centaines de milliers de fichiers excel auxquels s’ajoutent plus de 200 000 fichiers pdf, des centaines de fichiers zippés et des cartes interactives sont consultables sur le site. A lui seul le site de l’INSEE contient plus de données que le site data.gouv.fr. D’ailleurs comme détaillé dans notre analyse, une grande partie des 350 000 fichiers de Data.gouv.fr provient de seulement quelques bases de données INSEE. Outre les études ponctuelles, trois types de données produites et publiées par l’INSEE sont particulièrement intéressantes : 1. Les données détaillées par thème : http://www.insee.fr/fr/themes/ Retrouvez des études statistiques sur les thèmes de l’agriculture, du commerce, des conditions de vie, de l’économie etc.. Dans ces données thématiques vous pouvez également retrouver des indices conjoncturels mis à jour mensuellement ou trimestriellement : enquête de conjoncture sur les ménages, sur l’industrie, l’automobile, le commerce de détail, la création d’entreprise etc.. Data Guide – Le Pense-bête des sources de données du Web 10
  11. 11. 2. Les grandes bases de données: http://www.insee.fr/fr/bases-de- donnees/ Dans les grandes bases de données de l’INSEE vous aurez accès par exemple : - aux Statistiques structurelles d'entreprises : toutes les statistiques d'entreprise issues du dispositif Esane et de la statistique publique. - aux indices et séries chronologiques : tous les indices et indicateurs de l’Insee, sur de longues périodes, documentés et accompagnés de graphiques. - aux résultats des recensements de la population : les résultats détaillés, les cartes et toutes les informations utiles sur les recensements. - aux Données locales : de nombreuses données très détaillées sont disponibles à l’échelle de votre commune ou de votre quartier (IRIS). - Au Répertoire Sirene qui permet d’accéder à des données d’entreprises http://www.sirene.fr 3. Les bases de données régionales http://www.insee.fr/fr/regions/ Dans ces bases locales, sont regroupés un certain nombre d’indicateurs locaux : présentation de la région en chiffres, conjoncture régionale, études.. Presque chaque pays dispose d’une organisation équivalente à notre institut statistique national : une liste assez complète mais non exhaustive, est disponible sur cette page. Data Guide – Le Pense-bête des sources de données du Web 11
  12. 12. Les données des collectivités De nombreuses collectivités ont déjà ouvert leur portail de données. Aussi si vous cherchez des données particulièrement concernant un territoire, essayez d’abord de voir si il existe un portail d’une collectivité au niveau géographique communal, de la communauté d’agglomération, du département ou de la région. Nantes, Rennes, Paris, le conseil général du 71, Montpellier, la Communauté urbaine de Bordeaux, Lyon et Toulouse très récemment : ces collectivités, entre autres, ont déjà référencé de nombreuses données à dimension locale sur des portails dédiés. L’association nantaise Libertic a créé une carte interactive à laquelle vous pouvez collaborer qui liste les initiatives. Voir le projet en ligne Data Guide – Le Pense-bête des sources de données du Web 12
  13. 13. Les Ministères Les ministères sont des sources de données parfois négligées : pourtant ils sont nombreux à compiler et éditer des données souvent diffusées dans des chapitres dédiés de leurs sites web. Vous cherchez par exemple: - des données sur le tourisme ? Alors n’hésitez pas à vous rendre sur le site du ministère du tourisme sur cette page. - des résultats d’élection manquent à votre étude : le ministère de l’intérieur aura quelque chose pour vous sur ces pages. Parmi les ministères les plus productifs en terme de données n’oubliez pas : 1. Le ministère du développement durable : http://www.developpement-durable.gouv.fr/ il s’agit de l’un des plus prolifiques : énergie, écologie, bâtiment etc.. des centaines de sources sont accessibles depuis le site du ministère. 2. Le ministère de l’agriculture et notamment son site : http://www.franceagrimer.fr/ 3. Le ministère de l’éducation nationale : séries du bac, le personnel enseignant etc.. 4. Le ministère du travail et ses pages statistiques notamment sur le chômage Sans oublier les préfectures : source de données méconnues mais qui diffusent régulièrement des informations sur les élus (maires, députés, sénateurs), les autorisations officielles d’exercer certaines activités etc.. 13Data Guide – Le Pense-bête des sources de données du Web
  14. 14. A noter : chaque ministère dispose normalement d’un correspondant open data (lire l’interview de Philippe Guiraud, le correspondant open data du ministère de l’intérieur). Vous avez également la possibilité de contacter chaque ministère pour être mis en relation avec ce correspondant qui pourra peut-être vous informer des données publiques disponibles. Les organisations publiques nationales Les 560 opérateurs de l’Etat sont également des producteurs de données auxquels on ne pense pas suffisamment. Parmi ces opérateurs, on trouve par exemple : les agences régionales de santé, l’agence du médicament, le CNRS, INRIA, les musées nationaux, Pôle emploi, l’Institut National des Etudes Démographiques etc... Tous ces opérateurs dont la liste est accessible ici peuvent avoir les données que vous cherchez. N’oubliez pas non plus des institutions telles que la Banque de France qui présente des dizaines d’indicateurs particulièrement pertinents mis à jour mensuellement sur l’activité économique dans un chapitre dédié de son site web. Data Guide – Le Pense-bête des sources de données du Web 14
  15. 15. Les organisations publiques internationales On sous estime également la quantité de données disponibles au sein des institutions publiques internationales : Eurostat, la Banque Mondiale, le Bureau International du Travail, l’OCDE etc.. L’Union européenne - Eurostat Certainement l’une des sources les plus complètes pour comparer des données européennes, des milliers de statistiques sont disponibles à plusieurs niveaux de granularité géographique (3 niveaux détaillés de granularité régionale européenne : NUTS 1, 2 et 3) sous format tableur. Outre Eurostat, l’Union européenne regroupe également un certain nombre d’organisation qui diffusent également des données dont la liste est disponible sur cette page. Banque Mondiale - http://data.worldbank.org/ La Banque Mondiale est l’une des premières organisations internationales à avoir consacré un chapitre entier de son site à la diffusion de données statistiques. Plus de 8 000 séries temporelles sont accessibles et vous y trouverez des fiches pays à jour pour chacun des 200 nations référencées exportables sous format xls et xml. Près de 800 indicateurs par pays sont disponibles concernant l’économie, la démographie, la santé etc... Il s’agit de l’une des bases de données les plus complètes par pays. L’OCDE - http://stats.oecd.org/ On peut également ajouter à cette liste les bases de données statistiques disponibles sur le site de l’OCDE. 22 thèmes couverts et exportables des formats différents (CSV, XLS, XML..) Data Guide – Le Pense-bête des sources de données du Web 15
  16. 16. Ajoutons à cette liste des organisations internationales les producteurs de données tels que : Le FMI : http://www.imf.org/external/data.htm La CNUCED : http://unctad.org/fr/Pages/Statistics.aspx La FAO : http://faostat.fao.org/ Le BIT : http://kilm.ilo.org/KILMnetBeta/default2.asp L’OMS : http://www.who.int/research/en/ L’OMC : http://stat.wto.org/Home/WSDBHome.aspx?Language= C. Les sources de données privées (ou d’entreprises détenues par l’Etat) Même si leur nombre reste encore particulièrement faible, les organisations privées ne sont pas les moins réactives à mettre des données à disposition du public. Les Sociétés Si vous cherchez des données spécifiques à un secteur, il est envisageable que l’un des acteurs de ce secteur rende publiques certaines informations. Voici plusieurs exemples concrets tant en France qu’à l’étranger. La SNCF : http://test.data-sncf.com/ Depuis plusieurs mois la SNCF s’est engagée dans une démarche de libération d’un certain nombre de données. Petit à petit des données sont disponibles sous la forme de jeux de données ou accessibles par API : horaires des lignes Transilien, équipements des gare d’Ile-de-France, tarifs des abonnements, liste des gares, nombre moyen de voyageurs par gare du réseau Ile de France etc.. La RATP : http://data.ratp.fr La régie Autonome des Transports Parisiens s’est également convertie à une démarche open data depuis peu de temps : trafic entrant par stations, qualité de l’air mesuré, accessibilité des lignes etc... Des données que Data Publica a notamment utilisé pour ce tableau de Bord de la RATP. Data Guide – Le Pense-bête des sources de données du Web 16
  17. 17. JC DECAUX : https://developer.jcdecaux.com/ Avec l’ouverture des données du réseau Vélib, la société JC Decaux est l’une des rares sociétés privées à jouer le jeu de l’open data. Les données en temps réel des velib’ permet le développement d’applications et optimise les usages du service. La Française des Jeux - http://www.fdj.fr A titre d’exemple, la Française des Jeux met à la disposition des joueurs les statistiques sur les jeux de tirages et les paris sportifs. Vous avez ainsi accès aux séries des tirages du loto et euromillions, des loto sportifs ou encore du keno (qui malheureusement ne seront sans doute pas utiles pour prédire les combinaisons à venir). BP - British Petroleum La société BP diffuse sur son site un volumineux jeu de données sur le secteur de l’énergie. Dans ce fichier, on trouve plus d’une cinquantaine d’onglets avec des séries statistiques temporelles longues relatives à la production internationale des différentes énergies, fossiles et renouvelables. ENEL - Société Italienne d’Electricité http://data.enel.com La société ENEL a décidé d’emboiter le pas de l’open data en mettant près de 300 de jeux de données à la disposition des internautes : données financières de la société, statistiques écologiques, développement durable, vous serez surpris par la richesse de leur portail. Data Guide – Le Pense-bête des sources de données du Web 17
  18. 18. Associations, Organisations professionnelles et syndicats Les organisations, associations et syndicats professionnels disposent de nombreuses données. Dans un premier temps, vous pouvez prendre connaissance des syndicats professionnels qui existent en consultant le fichier des fédérations professionnelles françaises disponible sur l’annuaire open data de Data Publica. Data Publica a relevé trois initiatives open data provenant d’associations et d’organisations. Le Comité des Constructeurs Automobiles Français - CCFA http://www.ccfa.fr/ Sur le site du Comité des Constructeurs Automobiles Français, vous avez accès à des données mensuelles uniques sur la production et les immatriculations de véhicules : http://www.ccfa.fr/Donnees-mensuelles Disponibles sous des formats excel et pdf, cette source de données reste méconnue et offre pourtant des données détaillées pour la production et les immatriculations des véhicules par type, par pays (en Europe), et par marque. L’organisation internationale du café - International Coffee Organization Cette organisation qui fédère les pays exportateurs et importateurs donne accès à de multiples séries statistiques sur la production et les exportations de café dans le monde. http://www.ico.org/coffee_prices.asp?section=Statistics Le Comité International Olympique Les données accumulées par le Comité International Olympique sont nombreuses et variées : elles sont également disponibles aujourd’hui sur un portail dédié http://www.olympic.org/olympic-results qui permet d’accéder à des séries détaillées par J.O., épreuves, pays ou athlètes. Data Guide – Le Pense-bête des sources de données du Web 18
  19. 19. Crowdsourcing Le crowdsourcing consiste à mobiliser une communauté afin de collecter des données. Les sites de crowdsourcing permettent d’accéder aux informations qui ne sont pas libérées ou qui le sont mais à des conditions financières empêchant leur réutilisation. Voici trois expériences de crowdsourcing des données qui offrent des solutions alternatives. Données géographiques : OSM (Open Street Map ) http://www.openstreetmap.org/ Le site d’OpenStreetMap rassemble une communauté à travers le monde dont l’objectif vise à rendre libre et accessible l’information géographique. Les données sont librement réutilisables et offrent donc une alternative aux données payantes fournies par l’IGN ou Google. Lire l’interview de son représentant français, Gaël Musquet, Données sur l’alimentation : Openfoodfacts http://openfoodfacts.org/ Openfoodfacts est une initiative consacrée au recueil de données sur l’alimentation détaillée sur les étiquettes et les codes barres des produits. Ce sont près de 11 000 produits qui sont référencés sur ce site. Les données peuvent être réutilisées avec la licence ODBL. Lire l’interview de Stéphane Gigandet. Les données politiques : Regards Citoyens http://www.regardscitoyens.org/ Depuis 2009, l’association Regards Citoyens travaille à la transparence des données politiques notamment en collectant et en rendant disponibles des données sur les parlementaires au travers des sites qu’ils ont édités : nosdeputes.fr et nossenateurs.fr. Relire l’interview de l’un des fondateurs de Regards Citoyens. Data Guide – Le Pense-bête des sources de données du Web 19
  20. 20. D. Chercher sur le Web Chercher des données sur grâce aux moteurs de recherche Les moteurs de recherche restent les outils les plus simples pour trouver les données dont on a besoin et vérifier leur disponibilité. Parmi ceux-ci, Google occupe une place majeure : c’est le moteur de recherche le plus utilisé dans le monde et qui indexe le plus de pages web (près de 40 milliards). Afin de mieux chercher vos données, il existe quelques manipulations à connaître qui permettent de mieux parcourir et sélectionner les résultats. D’abord dans les paramétrages de la recherche, Google offre la possibilité de chercher dans certains types de contenus (livre, vidéos, actualités etc..), pour la période voulue, dans la langue souhaitée. Chercher uniquement les résultats dans un seul site : Dans la barre de recherche, indiquez la formule suivante “site:nomdusite.fr” suivi des mots clés. Chercher uniquement les résultats dans un site et pour un type de fichier en particulier Vous cherchez des données uniquement disponibles dans un format tableur ou dans un pdf, là encore une autre formule permet de le faire. Dans la barre de recherche, indiquer la formule suivante (sans espace) “site:nomdusite.fr” suivi d’un espace et “filetype:xls” et les mots clés. Par exemple vous ne cherchez que des statistiques éditées par l’administration sur la discrimination dans des fichiers excel ? Alors tapez dans la barre de recherche : site:gouv.fr filetype:xls discrimination Data Guide – Le Pense-bête des sources de données du Web 20
  21. 21. Exemple de recherche avec le mot discrimination limité aux sites gouvernementaux français (gouv.fr) et dans les fichiers excel (filetype:xls). Cette recherche spécifique indique que 108 fichiers excel publiés par les sites des ministères et préfectures évoquent ce thème. Exclure des mots clés de votre recherche Afin d’exclure des mots clés de votre recherche, il vous suffit d’indiquer le signe “-” collé au mot que vous souhaitez exclure des résultats. Par exemple, pour ne pas avoir dans la liste de vos résultats les pages wikipédia, indiquez “-wikipedia” : faîtes l’expérience d’abord en tapant le mot wikipedia suivi de “-wikipedia” et ensuite sans cette exclusion et comparez les résultats. Trouver l’expression exacte Pour limiter votre recherche à une sélection de mots précise, il faudra mettre en guillemets les mots clés. Il ne s’agit que d’un échantillon des possibilités offertes par Google. Un excellent document résumant toutes les possibilités grâce aux moteurs de recherche est librement disponible et consultable réalisé et produit par Victorine Porte, étudiante à l’université de Poitiers : télécharger le document Data Guide – Le Pense-bête des sources de données du Web 21
  22. 22. Chercher des données sur Common Crawl Common Crawl est une fondation américaine dont l’objectif est de mettre en place une copie du web et de la rendre librement accessible auprès du public. Ce sont ainsi 100 tera octets qui sont aujourd’hui accessibles pour y effectuer des recherches et extraire ainsi des données. Cette option n’est ouverte qu’aux développeurs aguerris. Data Publica par exemple a utilisé les données de Common Crawl afin de réaliser une carte de l’éco-système de l’opendata. Cette cartographie a pour objectif d’identifier les acteurs sur le web de l’open data français, leur importance et les liens qu’ils entretiennent. Ce travail a été récompensée par Common Crawl. Ce travail met en lumière le potentiel du web comme ressource de données. Chercher avec les outils de Data Publica Vous n’avez pas trouvé les données que vous cherchiez dans les sources évoquées, vous savez qu’elles sont disponibles mais éparses, difficiles à rassembler. Effectivement, il faut parfois développer des programmes d’extraction, de nettoyage, de déduplication pour obtenir les données que l’on cherche. C’est le métier de Data Publica de vous fournir les données dont vous avez besoin mais qu’il vous est difficile d’acquérir. L’expertise des équipes de Data Publica repose justement sur cette connaissance des sources et la maîtrise des outils pour extraire les données des sources. De nombreux outils ont été développés par nos équipes techniques afin de pouvoir extraire, nettoyer, dédupliquer et livrer les données dont les organisations ont besoin. Data Guide – Le Pense-bête des sources de données du Web 22
  23. 23. Chaîne de valeur de la production de données par Data Publica Data Guide – Le Pense-bête des sources de données du Web 23
  24. 24. Data Publica a développé plusieurs services autour de la recherche de données parmi lesquels : • un service de données sur mesure : indiquez-nous les spécificités des données que vous cherchez et nous vous les livrerons. • un service de tableau de bord : vous souhaitez construire un tableau de bord à n’importe quel niveau géographique (commune, nation, département etc...) et qui présente des données à jour sur les thèmes souhaités ? Data Publica vous construit l’application alimentée par les données désirées et mis à jour en temps réel. • un service d’enrichissement de données B2B : vous disposez de données que vous désirez enrichir d’informations disponibles sur Internet : par exemple, un fichier d’entreprises auquel vous souhaitez ajouter des données précises comme les comptes de réseau social, horaires, des adresses mails etc... Revenons par exemple sur le Tableau de bord avec celui que Data Publica a produit pour la société Secafi. Ce tableau de bord a été réalisé en utilisant de multiples sources de données publiques : ministère de l’intérieur, Direccte, Pole emploi, INSEE... Secafi est une société spécialisée dans l'expertise, l'assistance et le conseil auprès des Instances Représentatives du Personnel : comité d'entreprise, comité de groupe, comité d'entreprise européen... La société intervient principalement dans des missions de conseils et de diagnostics : ses consultants sont amenés à utiliser régulièrement les mêmes indicateurs économiques territoriaux pour porter un avis, établir une analyse et alimenter une étude. Pour éviter ce travail rébarbatif de recherche des données, souvent toujours les mêmes données, la société Secafi a demandé à Data Publica de lui fournir un outil de visualisation et de manipulation des données publiques sur les thèmes de l’emploi, l’économie (etc..) niveau géographiques des 300 zones d’emploi de métropole. Data Guide – Le Pense-bête des sources de données du Web 24
  25. 25. Pour ce faire, Data Publica a mis en place un processus de scraping [recueil] de données sur plusieurs dizaines de sites pour extraire des centaines d’indicateurs en temps réel et les visualiser dans un tableau de bord des zones d’emploi sur mesure. Cet outil illustre les possibilités d’utilisation des données dès lors que les sources sont connues. De la même manière, des tableaux de bord peuvent être créés qui mixeraient des données publiques avec des données internes. Data Guide – Le Pense-bête des sources de données du Web 25
  26. 26. Conclusion Les sources de données sont nombreuses sur Internet. Même si des sites comme Google, Bing ou Yahoo peuvent vous permettre d’affiner vos recherches, une bonne connaissance des ressources vous permettra de gagner du temps. D’abord n’oubliez pas qu’il existe : - des annuaires de données (Data Publica, Google Public Data Explorer..) - des producteurs de données à chaque niveau géographique : o communal (exemple la petite ville de Brocas, 800 habitants) o de la communauté urbaine (comme celle de Bordeaux) o du département (ex : Conseil Général de Saône et Loire) o de la région (ex : Pays de Loire) o national (ex : Data.gouv.fr) o international (ex : Eurostat, Banque Mondiale..) - des producteurs institutionnels de données publiques o préfecture o ministère o institutions o opérateurs de l’Etat - des producteurs privés : o associations, fédérations, syndicats o sociétés o sites de crowdsourcing des données Et si votre recherche est plus compliquée que prévue, alors vous avez toujours la possibilité de faire appel aux services de Data Publica qui a développé des outils uniques de recherche, d’extraction et de traitement des données. Contactez-nous pour en savoir plus. Data Guide – Le Pense-bête des sources de données du Web 26

×