Date doc
© 2015 CXP Page 1/30 Livre Blanc – Avril 2015
LIVRE BLANC
Les Big Data pour les services publics :
enjeux, techno...
Date doc
© 2015 CXP Page 2/30 Livre Blanc – Avril 2015
Les Big Data pour les services publics
LES AUTEURS
Emmanuel Lartigu...
© 2015 CXP Page 3/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
SOMMAIRE
1. Les ambitions du Secteur ...
© 2015 CXP Page 4/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
1 - LES ATTENTES DU SECTEUR PUBLIC
Le...
© 2015 CXP Page 5/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Figure 1 - Quels problèmes souhaitez-...
© 2015 CXP Page 6/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Figure 3 – Quels vont être vos procha...
© 2015 CXP Page 7/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Les projets Big Data ont un coût tech...
© 2015 CXP Page 8/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Figure 4 - Les différentes étapes du ...
© 2015 CXP Page 9/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
ENJEUX POUR LE SECTEUR PUBLIC
La coll...
© 2015 CXP Page 10/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
3 – LA MAITRISE DES DISPOSITIONS JUR...
© 2015 CXP Page 11/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
LA REGLEMENTATION FRANÇAISE : LE LAB...
© 2015 CXP Page 12/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
4 – LES TECHNOLOGIES LIEES AUX BIG D...
© 2015 CXP Page 13/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
(lectures, croisements, calculs, tri...
© 2015 CXP Page 14/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
souscription payante au support sont...
© 2015 CXP Page 15/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Une plateforme intégrée, proposant d...
© 2015 CXP Page 16/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
5 – APPLICATIONS ET USAGES
UN ENORME...
© 2015 CXP Page 17/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Applications et usages
>>>>>
© 2015 CXP Page 18/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
INTERVIEW - Jean-Michel ALIMI, Direc...
© 2015 CXP Page 19/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Comment sont partagés ces résultats ...
© 2015 CXP Page 20/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
INTERVIEW – Emmanuelle Bermes, BnF
«...
© 2015 CXP Page 21/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Existent-ils des progiciels pour gér...
© 2015 CXP Page 22/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
INTERVIEW - Henri Verdier
Administra...
© 2015 CXP Page 23/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
polystructurées, Data Science et tec...
© 2015 CXP Page 24/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
A propos de
>>>>>
© 2015 CXP Page 25/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
A propos de Teradata
Teradata France...
© 2015 CXP Page 26/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Une sélection de clients
français
SF...
© 2015 CXP Page 27/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
Les plateformes Teradata spécifiques...
© 2015 CXP Page 28/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
A propos du CXP
Le Groupe CXP est le...
© 2015 CXP Page 29/30 Livre Blanc – Avril 2015
Les Big Data dans les services publics
De nombreuses études dans le domaine...
Pour toute information :
Le Service Clients CXP
relation_client@lecxp.com
+33 (0)1 53 05 05 90
www.cxp.fr
Le CXP – 13 rue ...
Prochain SlideShare
Chargement dans…5
×

[livre blanc] "Les Big Data pour les services publics : enjeux, technologies et usages" CXP / Teradata (Avril 2015)

888 vues

Publié le

>>[livre blanc] "Les Big Data pour les services publics : enjeux, technologies et usages" CXP / Teradata
[cxp.fr 01.04.15]
Selon une étude de CXP et Teradata, les services publics offrent un débouché privilégié pour le big data. Ils pourraient même constituer le moteur de banalisation de cette technologie dans l’ensemble de l’économie. Et, pour une fois, la France serait en avance dans ce domaine.
http://www.cxp.fr/sites/default/files/images/Divers/livre_blanc_cxp_bigdataservices_publics2015_final.pdf

Publié dans : Données & analyses
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
888
Sur SlideShare
0
Issues des intégrations
0
Intégrations
6
Actions
Partages
0
Téléchargements
30
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

[livre blanc] "Les Big Data pour les services publics : enjeux, technologies et usages" CXP / Teradata (Avril 2015)

  1. 1. Date doc © 2015 CXP Page 1/30 Livre Blanc – Avril 2015 LIVRE BLANC Les Big Data pour les services publics : enjeux, technologies, usages En partenariat avec
  2. 2. Date doc © 2015 CXP Page 2/30 Livre Blanc – Avril 2015 Les Big Data pour les services publics LES AUTEURS Emmanuel Lartigue Analyste Senior / Consultant BI, le CXP Mathieu Poujol Principal Consultant, Cyber Security, Infrastructures and Middleware, CXP-PAC Nikolai Janoschek Research Analyst, CXP-BARC
  3. 3. © 2015 CXP Page 3/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics SOMMAIRE 1. Les ambitions du Secteur Public 2. Les Big Data : apports et enjeux 3. La maîtrise des dispositions juridiques 4. Les technologies liées aux Big Data 5. Applications et usages INTRODUCTION Les systèmes d'information des services publics brassent un nombre important de flux de données concernant tant le fonctionnement de la ville et que les déclarations des citoyens. La croissance exponentielle du volume de données disponible et les corrélations entre ces données présente un véritable enjeu pour le secteur public. Les initiatives autour du Big Data y sont nombreuses et les attentes importantes : un meilleur service rendu aux usagers par une optimisation opérationnelle ou par une offre de services plus large, une réorganisation de la prestation de service grâce aux nouvelles technologies, un meilleur partage des connaissances, ou encore un renforcement du lien social par une meilleure prise en compte des applications digitales : web, blogs, réseaux sociaux, etc. Tout cela avec un enjeu sécuritaire fort : si les Français sont inquiets sur l’exploitation de leurs données personnelles, ils accordent leur confiance à l’Etat pour les héberger et en garantir la sécurité d’accès. De nombreuses initiatives ont été engagées et plusieurs projets lancés par les organismes intéressés. Le secteur privé témoigne régulièrement de cas d’usages métiers liés aux Big Data, des applications qui pourraient être reprises dans le secteur public. Nous présenterons dans ce document deux projets Big Data dans le secteur public : un lié à la recherche, un autre lié aux bibliothèques, ainsi qu’un éclairage sur la coordination nationale des initiatives sur les données. Toutefois, les responsables projets butent sur l’absence de ligne directrice et sur le choix des socles technologiques. Trop d’incertitudes demeurent encore quant aux autres choix techniques à mettre en œuvre et sur l’effort de conduite du changement à mener. La prise en compte de ces nouveaux canaux de communication exigent une nouvelle architecture technique que nous allons décrire dans les derniers chapitres.
  4. 4. © 2015 CXP Page 4/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics 1 - LES ATTENTES DU SECTEUR PUBLIC Le CXP a interrogé les acteurs du Secteur Public dans le but de mieux comprendre les nouvelles attentes et les futurs défis à relever dans la prise en compte des Big Data et d’améliorer la performance des services publics. UN MEILLEUR SERVICE FOURNI AUX USAGERS Le service public, dans le cadre de ses missions et pour rendre un meilleur service aux usagers, doit veiller au bon usage de la réutilisation des données. La gouvernance de ces données, et les questions liées à l’intégrité, à la neutralité et à la qualité des données, sont un des enjeux de la modernité et de la transparence du service public. Les projets Big Data ont déjà montré leur efficacité dans la relation avec les citoyens en proposant à la population de coparticiper à la gestion de la cité, tout en recherchant de nouvelles économies et une meilleure efficacité. Les données des villes numériques, une fois analysées, permettront d’imaginer des services novateurs, qui influeront sur l’organisation des villes et le quotidien des individus. DES SOLUTIONS INTÉGRÉES POUR TOUT TYPE DE DONNEES Dans un contexte économique difficile où les services publics sont confrontés aux défis de la rationalisation des coûts et de la maîtrise des dépenses, les solutions informatiques recherchées doivent être optimisées et si possible centralisées. Seules les données structurées sont bien maitrisées aujourd’hui (soit 20% des données). Les nouveaux systèmes d’informations doivent prendre en compte des formats de données très variés, documents, vidéos, images, et proposer si possible une gestion transparente de ces nouveaux formats. Afin de pouvoir capitaliser sur les compétences déjà maîtrisées, les nouveaux outils doivent si possible être graphiques, ou générer automatiquement les scripts d’exécution en SQL, C ou encore ‘R’. UN MEILLEUR PARTAGE DE L’INFORMATION Les données sont aujourd’hui hébergées dans des silos de données. Pour tirer pleinement partie des Big Data, il sera nécessaire de bâtir des ensembles transverses et cohérents de données. Des mécanismes d’habilitation et de partage des informations devront être mis en place afin de permettre au plus grand nombre d’accéder à l’information sans dupliquer cette information. Ces systèmes devront se conformer au cadre fixé par La loi Informatique et Libertés, dans le cas où de nombreuses informations sont susceptibles de porter atteinte aux droits et libertés des personnes, ou à leur vie privée.
  5. 5. © 2015 CXP Page 5/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Figure 1 - Quels problèmes souhaitez-vous adresser avec les technologies Big Data ? (n=431, choix multiple) Source le CXP 2015, n=431 2 – LES BIG DATA : APPORTS ET ENJEUX POUR LE SECTEUR PUBLIC GENESE Face à l’accroissement exponentiel des volumes de données liées à de nouveaux usages (réseaux sociaux, mobiles, forums, Web, blogs, e-mails...), les architectures et outils classiques pour les traiter ne sont plus adaptés. Cet « infodéluge » a ainsi fait naître de nouvelles approches décisionnelles destinées à traiter, analyser et valoriser ces énormes volumes de données de toutes natures, semi-structurées ou non structurées, que l'on peut trouver aujourd'hui dans bon nombre d'organisations, quelle que soit leur taille : c'est cet ensemble de nouvelles technologies que l'on appelle les Big Data. Les premiers utilisateurs à s'intéresser au phénomène ont été les entreprises privées orientées consommateur final, telles que la grande distribution, les télécommunications, le tourisme, le loisir, les médias ou encore le secteur financier. Ces entreprises ont vu dans les Big Data une opportunité économique et un axe de développement pour l’entreprise (conquête de marchés, captation de nouveaux client…). Des Big Data, elles attendent la possibilité de mieux connaitre leurs clients, de mieux cibler leurs attentes et, de plus en plus, d’anticiper leurs demandes. Le graphique ci-dessous reprend les principales motivations qui ont poussé les entreprises à s’équiper de solutions Big Data. Si ces technologies ont eu un véritable impact sur le marketing et la relation client, qui représentent les principaux revenus des grands acteurs du Web, elles se déclinent maintenant dans d'autres secteurs sur lesquels elles ont désormais un réel impact sur la productivité et l’efficacité : les sciences de la vie, les transports, l’énergie, les services financiers et la sécurité.
  6. 6. © 2015 CXP Page 6/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Figure 3 – Quels vont être vos prochains investissements pour les Big Data ? Source: CXP Big Data Analytics Survey 2015, n = 222 Les objets vont devenir de plus en plus communicants et à terme les cartes SIM machines to machines, seront plus nombreuses que les cartes SIM des milliards d’individus détenteurs de téléphones mobiles. L’exploitation des données remontées par ces machines (sensors, web logs, smartmeters …) pour mieux comprendre leurs conditions d’utilisation, avoir des métriques fiables, faire de la maintenance prédictive pour baisser les coûts de maintenance, améliorer le maintien en conditions opérationnelles et donc la satisfaction des clients, sont autant de domaines qui intéressent de près les services publics. Par exemple, dans le domaine des transports, Maersk a placé des capteurs sur ses conteneurs, permettant de connaitre en temps réel leur emplacement et de surveiller leur température lorsqu’ils contiennent des denrées périssables. Ces solutions intéressent aussi les acteurs les acteurs du monde des transports comme la SNCF ou la RATP. Ces nouvelles technologies Big Data sont disruptives pour le système d'information : les précédents systèmes n’avaient pas été prévus pour prendre en compte d’aussi grands volumes de données dans une aussi grande variété : désormais les vidéos, les documents scannés, les flux temps réel peuvent être stockés et analysés. Afin de valider l’architecture ainsi que le bien-fondé de l’usage de ces technologies, les entreprises se sont lancées dans une phase d’expérimentation (Proof Of Concept), puis elles ont franchi le pas pour s'équiper de solutions Big Data.
  7. 7. © 2015 CXP Page 7/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Les projets Big Data ont un coût technologique, mais aussi organisationnel et stratégique. Les nouvelles possibilités d’analyse et de prédiction peuvent avoir une incidence sur la manière dont l’entreprise sert ses clients ou réalise son activité. L’analyse des grands volumes de données exige par ailleurs de nouvelles compétences à la fois en algorithmique et en statistique. Ces nouveaux profils, les Data Scientists, sont encore rares sur le marché, ce qui complique la mise en place de projets novateurs sur les Big Data. DE LA COLLECTE A LA RESTITUTION Un projet Big Data commence par une collecte des données, de formats et d'origines très variés : données issues de capteurs (compteurs de visites dans un magasin, machine-outil sous surveillance constante, sondes réseaux placés sur un réseau informatique...), données issues de vidéos numériques de surveillance ou encore de documents scannés qu’il faudra interpréter, logs de sites web, contenu des mails reçus d’un client... Après la collecte vient l’analyse des données. Cette opération nécessite de préparer la donnée nécessaire, entre autres extraire les informations importantes des données les moins structurées. Pour des documents scannés, le video-codage ou OCR (Optical Character Recognition), couplé à des outils de sémantiques, permet par exemple de catégoriser les informations des documents. Pour l’analyse des voix enregistrées, des outils de type Speach to Text existent sur le marché. Pour l’analyse des fichiers binaires, des parseurs (ou analyseurs syntaxiques) se chargent de décomposer les enregistrements en entités manipulables. Les données sont ensuite stockées, organisées voire indexées pour pouvoir être exploitées. Elles doivent généralement aussi être sécurisées : des droits et des habilitations sont posés sur ces données afin d’en autoriser l’accès uniquement aux personnes habilitées. Enfin, des outils de Data Visualisation permettent de restituer les résultats de l’analyse dans un format interprétable et compréhensible par tous et d’explorer la donnée, afin de mieux comprendre les comportements. Figure 2 - Votre entreprise a-t-elle initié une démarche Big Data ? Si oui, où en êtes-vous ? Source: CXP Big Data Analytics Survey 2015, n = 526
  8. 8. © 2015 CXP Page 8/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Figure 4 - Les différentes étapes du traitement des Big Data Source le CXP 2015 Extraire Stocker Restituer Analyser Partager Odata, ETL, WebCrawler Data Cleaning, Data Quality Reporting Requêtes Ad-Hoc, Tableaux de bord, Data Visualization Portails, Search, Collaboration Self-Service Datamining, ‘R’, Analytics, Data Discovery, Machine Learning Hadoop, SGBDR, Cloud Suite intégrée
  9. 9. © 2015 CXP Page 9/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics ENJEUX POUR LE SECTEUR PUBLIC La collecte des données provient régulièrement des statistiques nationales, celles de l’Insee, Institut National de la Statistique et des Études Économiques, par exemple. Ces données sont issues de recensements, d’enquêtes et de toutes les sources administratives numériques disponibles. L’analyse des données concerne la quasi-totalité des ministères, de nombreux organismes publics, voire des institutions de droit privé chargées de missions de service public. Les statisticiens du secteur public sont surtout présents dans les services statistiques ministériels : celui de l’Agriculture, le plus important, de l’Éducation, du Développement Durable, des Douanes, de la Justice, du « Travail, emploi et formation professionnelle » et de la « Santé et solidarités ». La Dares (travail et emploi) et la Drees (santé et protection sociale) sont des organismes qui produisent régulièrement des statistiques sur les établissements publics et leur personnel. La gouvernance des données est certainement l’un des sujets les plus difficiles à traiter pour le secteur public. La pluralité des missions et la diversité des données rendent très compliquées l’harmonisation et la compatibilité des données. Les données peuvent en effet provenir à la fois de l’Administration Centrale, des établissements publics, des collectivités territoriales, des Conseils Généraux et des services déconcentrés. L’homogénéisation des données et le partage de référentiels qui faciliteraient la consolidation des données ne sont pas toujours systématisés. La mutualisation des données doit être encouragée pour réduire le nombre de silos de données afin de réduire les coûts et favoriser les analyses croisées. La mise en place de référentiels communs à différentes administrations, avec des classes de services en fonction de chaque contributeur et de chaque partie prenante, permettrait de fiabiliser les données et de générer de la valeur à partir de ces données. Les systèmes décisionnels complètent sans remplacer les systèmes transactionnels dont les méthodes de fonctionnement au quotidien ne changent pas. Par contre ils peuvent en améliorer les processus, en leur faisant bénéficier d’une information fiable car unique (stockée une seule fois au bon endroit) mais aussi potentiellement enrichie par d’autres sources de données et par le fruit de potentielles analyses croisées et avancées. Enfin, une autre difficulté est le partage des informations publiques. L’échange peut être réalisé soit entre les administrations, soit entre l’administration et le secteur privé et enfin entre l’administration et les usagers. Il peut être intéressant de valoriser auprès de tiers les traitements Big Data qui produisent des analyses de tendances, des analyses d’écarts ou encore de la prospective. Quant à la restitution de ces données aux usagers, l’ouverture des données publiques (Open Data), entreprise depuis maintenant quelques années, a déjà apporté de nouveaux services aux citoyens : la diffusion des horaires de trains, la liste des vélos ou des voitures disponibles en partage, la liste des codes postaux si utiles pour valider la saisie des adresses et sécuriser les livraisons et des éléments plus spécifiques comme par exemple la liste des médicaments commercialisés en France ou encore la liste des établissements d'enseignement supérieur. Autre point crucial pour le secteur public : la sécurisation des données et la maîtrise des risques liés au respect de la vie privée (données à caractère privé ou administratif) et à la protection des libertés individuelles. L’utilisation de ces données doit être scrupuleusement contrôlée car elle doit respecter les contraintes juridiques liées à l’utilisation ou à la divulgation de données personnelles. Enfin, il existe une contrainte particulière associée au traitement des Big Data dans le secteur public : la maitrise des dispositions juridiques liées aux données. Un point essentiel qui mérite d'être développé.
  10. 10. © 2015 CXP Page 10/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics 3 – LA MAITRISE DES DISPOSITIONS JURIDIQUES Les technologies Big Data sont nées avec le Web et avec la mondialisation des échanges informatiques. Aussi, le défi juridique soulevé par les Big data est à la fois de portée nationale et internationale. Les usagers français connaissent déjà l’existence des outils de reconnaissance faciale ou de lecture de plaques minéralogiques (comme cela se pratique à l’entrée de parkings). De plus en plus sollicités par des actions de marketing direct, ils réclament de faire valoir leur droit à l’oubli. Aussi attendent-ils du Service Public une exemplarité sur la protection de leurs données personnelles : ils souhaitent que leur droit soit préservé en France comme à l’étranger. Ce chapitre présente les principales législations en vigueur aujourd’hui ainsi que les dispositions prises dans les pays Européens. DES ORGANISMES ET DES REGLEMENTS FACE A LA MONDIALISATION La France n’est pas le seul pays à subir la loi des grands acteurs du Web qui constituent des bases de plus en plus riches sur les internautes du monde entier. En avril 2015, on estime qu’un internaute est déjà caractérisé en moyenne par 3 000 attributs (pays, adresse IP, type de navigateur utilisé, adresse e-mail, nom, prénom, etc.). Afin que les États n’encouragent pas cette inflation, une coordination européenne a été mise en place, dont le but est de juguler la diffusion de données confidentielles. Régulièrement, des commissions et des organismes tentent de s’organiser et de légiférer pour préserver la confidentialité des citoyens. Les différents pays européens ont demandé aux entreprises du privé comme et au secteur public de nommer des responsables à la protection des données. La carte ci-dessous précise la date à laquelle cette décision a été prise, l’intitulé de la fonction et le caractère obligatoire ou facultatif de la mesure. Les Etats ont intérêt à protéger leurs données. De même que les banques, au travers de mesures internationales comme Bâle 3 ou l'obligation de stress tests, doivent justifier leur robustesse, les Etats devront prouver leur capacité à protéger leurs données. Figure 7 – Les pays Européens qui ont légiféré la fonction de Délégué à la Protection des Données Source = La CNIL, mars 2015
  11. 11. © 2015 CXP Page 11/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics LA REGLEMENTATION FRANÇAISE : LE LABEL CNIL Un projet de loi numérique français est attendu pour 2015. Afin de sensibiliser les organismes publics et privés et de leur permettre de se préparer à leurs nouvelles obligations, la CNIL a créé un nouveau label portant sur la gouvernance informatique et libertés par une délibération. Publié le 15 janvier 2015 au Journal Officiel, ce label de la CNIL permet aux entreprises de se distinguer par la qualité de leurs services. C'est un indicateur de confiance pour les utilisateurs de produits ou de services, car il leur offre la possibilité d’identifier et de privilégier ceux qui garantissent un haut niveau de protection de leurs données personnelles. C’est enfin la reconnaissance par la CNIL qu’un produit ou une procédure est conforme aux dispositions de la loi "Informatique & libertés". Chaque label est délivré pour une durée de trois ans et se décline selon quatre référentiels : "Audit de traitements" : l’objectif de ce label est de faire contrôler et de valider les projets en cours ou les solutions mises en œuvre pour anticiper tout risque de plainte. Il peut s'agir de traitements informatiques mais aussi de systèmes de vidéosurveillance et de vidéo protection devant respecter le cadre juridique encadrant leur usage ; "Coffre-fort numérique" : ce label valide la bonne mise en œuvre de l’accès aux données, de la conservation des données, de l’information des personnes, de la gestion des risques et des mécanismes cryptographiques ; "Gouvernance Informatique et Libertés" : ce label validation des exigences relatives à l'organisation liée à la protection des données, à la méthode de vérification de la conformité des traitements et à la gestion des réclamations et incidents (EG) ; "Formations Informatique et Libertés " : ce label certifie que le contenu pédagogique et le programme ont été validés par la CNIL. Le candidat au label CNIL doit obligatoirement disposer d’un correspondant Informatique et libertés (CIL). Il peut en désigner un en interne ou faire appel à un prestataire externe qui pourra l’accompagner dans ses démarches d’obtention du label. Il doit aussi justifier que son CIL bénéficie d’un budget annuel dédié et de moyens lui permettant d’assurer ses missions. Ce label donne aux entreprises l’opportunité de communiquer leur engagement sur la protection des données personnelles et de la vie privée et d’en faire un avantage concurrentiel, y compris sur un plan européen, alors que se prépare l’harmonisation de la réglementation sur la protection des données personnelles. Un prochain règlement européen va promouvoir le principe d’ «accountability ». Il désigne et rend obligatoire la documentation de l’ensemble des mesures internes définies et prises par un responsable de traitement ou ses sous-traitants afin d'attester de son niveau de conformité. Afin de se préparer à cette labellisation et de se conformer à ce principe européen, les entreprises et les services publics doivent dès à présent nommer un responsable de leurs données et répertorier et documenter leurs mesures de sécurité pour que celles-ci puissent être facilement auditées.
  12. 12. © 2015 CXP Page 12/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics 4 – LES TECHNOLOGIES LIEES AUX BIG DATA LA CONSOLIDATION DES DONNEES Le volume de données grandissant, il devient de plus en plus contraignant de répliquer les données. Les nouveaux systèmes, s’ils doivent consolider les données réparties dans plusieurs silos d’information, devront limiter la réplication de l’information et éviter la prolifération des Datamarts. L’objectif d’une solution centralisée est de conserver dans un réservoir de données unique une seule version de la donnée, servant de multiples usages, dans le but de simplifier les architectures, limiter les désynchronisations de données et gagner en performance. En factorisant les systèmes, les coûts d’infrastructures, les coûts logiciels et les coûts de supervision sont réduits d’autant. L’administration centralisée des règles de sécurité et des règles d’accès aux données permet de réduire les coûts d’administration de la plateforme. La centralisation des informations facilite aussi la mise en place des règles de confidentialité ainsi que des procédures d’anonymisation des données conformes aux préconisations des législateurs. Cette concentration des fonctions d’administration et des données concoure aussi à la performance globale des systèmes concernés. LA RECHERCHE DE PERFORMANCE L’immense volume des Big Data a une incidence sur les performances des solutions. Plusieurs approches ont été tentées ces dernières années pour exploiter au mieux ces grands volumes de données. Voici les principes qui peuvent être retenus aujourd’hui au regard des principaux retours d’expérience des projets. Le premier constat, concernant l’organisation des larges entrepôts de données structurées, est de privilégier les modèles logiques normalisés, comme peuvent le faire les progiciels de gestion. Plutôt que de chercher à modifier les modèles de données en schémas en étoile ou en flocons afin d’accélérer les restitutions, il est préférable d’utiliser, sur une plateforme SQL performante, des modèles de données conçus pour faciliter la mise à jour de la donnée, éviter toute duplication source d’erreur et être capable d’évoluer simplement pour accueillir de nouvelles informations. La non-duplication des données devient désormais la nouvelle règle et seules des contraintes très fortes, comme par exemple l’éloignement géographique ou des besoins de site de secours, peuvent justifier la recopie d’une donnée d’un Datacenter Européen sur un Datacenter Australien par exemple. Lors du transport de données massif entre un système opérationnel et un système décisionnel de type Big Data, le principe de base à privilégier sera un fonctionnement de type E L T (Extraction, Loading, Transformation) plutôt qu’E T L (la phase de transformation réalisée pendant le transport). Les transformations de données - mises en forme, lookups, règles de gestion - seront en priorité réalisées sur la base de données cible plutôt que sur le serveur applicatif de l’outil de transfert, même si cela ne permet pas de tirer parti de toutes les fonctionnalités proposées par l’ETL. Le traitement parallèle est désormais incontournable. Les traitements longs s’exécutent en parallèle sur des sous-ensembles de données distribués, puis restituent un résultat consolidé. Ce traitement parallèle est aujourd’hui la seule réponse trouvée pour garantir des temps de réponses acceptables face à l’inflation des données. Le parallélisme doit pouvoir être réalisé de bout en bout, sur toutes les étapes d’un traitement
  13. 13. © 2015 CXP Page 13/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics (lectures, croisements, calculs, tris …) afin d’éviter tout point de contention qui pénaliserait toute la chaîne de traitement. Ce parallélisme ne doit pas être le fait de l’expertise de l’utilisateur mais réalisé de manière automatique et transparente par la plateforme. La stratégie d'allocation des ressources d’un système Big Data est primordiale pour assurer la performance. Les outils de gestion de charge, connus sous le nom de Workload Manager ou encore de Kernel Resource Management, sont à la fois des planificateurs de la charge de travail, des gestionnaires des ressources et des moteurs de workflow. Leur rôle est d’optimiser l’allocation des ressources machine et de faire cohabiter des usages très différents sur la même plateforme, permettant à chaque tâche de pouvoir s’exécuter dans les meilleures conditions, selon son niveau de priorité et ses caractéristiques : Des utilisateurs avancés, comme les statisticiens, les Data Scientists, les Data Miners, qui souhaitent réaliser des requêtes complexes avec beaucoup de croissements de données, Des centaines d’utilisateurs concurrents qui lancent leurs éditions et génèrent leur reporting, Des traitements batchs ou temps réel qui alimentent le système en nouvelles informations. Pour gagner en réactivité, les traitements parallèles en base de données (in-database) peuvent être complétés par des traitements en mémoire (in-memory). Sans aller jusque monter en mémoire l’intégralité des données, il est intéressant d’y placer les données les plus importantes, les plus récentes ou les plus accédées (données dites très chaudes). L’accès et le traitement de ces données est alors fortement accéléré. Les autres données pourront rester sur des supports de stockage moins couteux, le système se chargeant de monter automatiquement en mémoire les données nécessaires. Pour les outils de restitutions et d’analyses il faudra aussi privilégier le traitement en mémoire (In-Memory). LE ROLE DE L'OPEN SOURCE Avant l’avènement des Big Data, le coût des bases de données augmentait en fonction du volume de données à gérer. Plus le serveur de données était puissant, plus la base de données coûtait cher. Gérer les Big Data au sein d’une base de données payante était alors prohibitif. Le Framework Hadoop est une réponse au problème. Il s'agit d’un ensemble de programmes Java qui permettent de paralléliser un très grand nombre d’opérations informatiques sur de larges clusters de serveurs accueillant des données. La distribution gratuite d’Hadoop et son fonctionnement sur des serveurs d'entrée de gamme ont permis de faire baisser les coûts, permettant la gestion d’un grand volume de données à des prix attractifs. Un très grand nombre d’entreprises a pu se lancer dans le stockage des données Big Data et inventer de nouveaux modèles économiques. Parmi les sociétés les plus connues qui utilisent le framework Hadoop, on trouve Amazon Web Services, AOL, Facebook (un cluster de 2 000 serveurs), Linkedln pour alimenter la rubrique « Les connaissez-vous ? » ou encore Twitter pour le stockage des tweets et des fichiers logs. Les limites d’une solution entièrement Open source : le Framework Hadoop est distribué gratuitement par la fondation Apache. Hadoop est un système complexe à utiliser et est constitué d’un ensemble de modules qui évoluent rapidement : Sqoop, Flume, Hive, Oozie, Pig, Mahout, Spark … Une entreprise qui réaliserait elle-même l’intégration de ces modules devrait constituer un centre de compétences dédié afin de rester à un bon niveau de performance, ce qui ne fait pas forcement partie la stratégie de l’entreprise. Aussi, de nombreux acteurs proposent des installations pré-assemblées et pré-testées d’Hadoop, avec des modules d’administration et des fonctionnalités additionnels. Ces distributions d’Hadoop - Map’R, Hortonworks, Cloudera, etc … ainsi que la
  14. 14. © 2015 CXP Page 14/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics souscription payante au support sont à privilégier car les équipes de ces éditeurs, basées dans la Silicon Valley, participent au développement des nouvelles versions des composants du Framework Hadoop. De même, Hadoop ne remplace pas un système décisionnel existant basé une base de données relationnelle mais vient le compléter. De nombreuses solutions unifiées proposent un écosystème simplifié (base de données relationnelle et stockage de données polystructurées) afin de simplifier et de rationaliser les plateformes. La meilleure approche de l’Open Source : afin de bénéficier pleinement des apports de la solution Hadoop, qui est incontestablement un constituant important de la stratégie Big Data, il convient de chercher à intégrer la solution Hadoop au mieux au système d’information existant. Du point de vue opérationnel, il est nécessaire de rechercher des solutions intégrées avec une administration graphique du cluster Hadoop et une console commune avec le système information existant. Il faut aussi pouvoir utiliser le langage SQL, connu des équipes et des logiciels actuels et rechercher des outils qui génèrent automatiquement des scripts MapReduce ou ‘R’ pour pouvoir exploiter les données contenues dans Hadoop sans trop investir dans le conseil ou la formation. Comme tout outil informatique qui est choisi en fonction de besoins métiers, il est très important, avant de commencer un projet Big Data, de s’assurer de l’existence d’un véritable cas d’usage métier, de vérifier qu’une solution en mode Cloud locatif (par exemple : suivi des campagnes marketing, analyse de la fraude, analyse e- réputation, etc…) n’existe pas sur le marché pour ce besoin et que l’investissement sur la plateforme et les formations donneront bien lieu à un retour sur investissement assez rapide. L’AGILITE Les systèmes décisionnels historiques ont montré leur capacité à produire un reporting automatisé, désormais indispensable aux entreprises, mais leur manque d’agilité leur est souvent reproché. L’agilité d’une solution Big Data doit être envisagée avant sa mise en œuvre. Elle s’appuie sur les principes suivants : une simplification de l’administration et une mise à disposition de fonctions Self-Service pour les utilisateurs. La simplification de l’administration s’appuie sur une plateforme commune entre l’opérationnel et l’analytique permettant de simplifier l’infrastructure, réduire le nombre de matériels, d’applications et de logiciels d’administration et de supervision. Certaines solutions, disponibles sous forme d’Appliance, proposent des matériels et des logiciels optimisés et préinstallés pour la gestion des Big Data. Dans ce cas, le client bénéficie d’un seul interlocuteur pour l’ensemble de la solution, avec lequel il peut contracter un engagement de service pour l’ensemble de la solution (SLA, Service Level Agrement). L’efficacité opérationnelle ainsi dégagée vient contrebalancer l’achat d’une plateforme intégrée. Des fonctions simplifiées pour l’utilisateur. La Business Intelligence a beaucoup fait pour simplifier l’accès des utilisateurs à l’information structurée de l’entreprise. Les utilisateurs souhaitent désormais pouvoir exploiter les données poly-structurées, des algorithmes de la théorie des graphes, de la recherche des chemins, des fonctions de classification (clustering) ou encore de Data Discovery. Une plateforme agile permettra de mettre à disposition de l’utilisateur un espace de travail (du stockage, de la puissance de calcul) le temps de son travail. Ces capacités d'autoprovisionning (allocation automatique de ressources) autorisées et supervisées par l’administrateur du système, offrent une grande souplesse d’administration et permettent des scénarios d’expérimentation et de Fail-Fast Découverte de tendances, d’Insight Recherche de tentatives de fraude, hypothèses de défaillance client, recherche de corrélation Expérimentation de concepts avant remise en main aux équipes informatiques pour industrialisation.
  15. 15. © 2015 CXP Page 15/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Une plateforme intégrée, proposant des fonctions Plug & Play et une administration simplifiée, permettra de couvrir économiquement les nombreux usages attendus d’une plateforme moderne de Big Data.
  16. 16. © 2015 CXP Page 16/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics 5 – APPLICATIONS ET USAGES UN ENORME CAPITAL INFORMATIONNEL L’État possède incontestablement un immense capital informationnel. Sans compter les ministères, de nombreux organismes disposent de bases d’informations très riches : citons, entre autres, la Coface, la Bibliothèque publique d’information (BPI), l’Agence Française pour le développement international des entreprises (UBIFRANCE), ou encore l’Institut National de la Propriété Industrielle (INPI). Les usagers souhaitent pouvoir accéder à toutes ces informations et pouvoir interroger des annuaires de données qui recensent, ordonnent, aident à comprendre les données, qu’elles soient traitées et mises à disposition du public par l’Etat (data.gouv.fr), par les collectivités locales (data.nantes.fr) ou par le privé (data- publica.fr). Ces données publiques représentent une opportunité pour les individus (simples citoyens, militants et journalistes), les entreprises (grandes et petites) et l’Etat. DE NOMBREUSES INITIATIVES L’état français a pris la mesure du sujet et a lancé un vaste programme d’investissement dans le domaine du numérique. Plus de 150 millions d’€ d’aides à la recherche et au développement ont été alloués dans les domaines suivants : Le logiciel embarqué et objets connectés (l’internet des objets, les capteurs), Le calcul intensif et la simulation numérique, Le cloud computing et technologies d'exploitation massive des données ("Big Data"), La sécurité des systèmes d'information. L’École Polytechnique vient de créer une chaire « Data Scientist » et plusieurs écoles et Universités ont lancé leur cursus « Big Data ». Enfin des formations en ligne sur ce sujet, disponibles sur le Web, des MOOC, Massive Online Open Courses, sont diffusés depuis les Etats Unis. Parmi les dernières initiatives en date, le programme VITAM (Valeurs immatérielles transmises aux archives pour mémoire), lancé le 10 mars 2015, est chargé de collecter, conserver et communiquer au public les documents numériques produits par les ministères et administrations centrales de l’Etat. CAS D’USAGE Le Cloud et la mobilité sont entrés dans le quotidien du citoyen. Un citoyen qui souhaite pouvoir accéder partout à des informations toujours plus nombreuses pour améliorer ses conditions de circulation, identifier le meilleur trajet, obtenir des informations sur la société. Tout en souhaitant préserver son identité, échapper aux caméras de surveillance et bénéficier d'une vraie transparence sur l’accès aux informations et sur l’usage qui est fait de ses données. Nous avons recueillis des témoignages dans plusieurs domaines différents : la recherche et les biblothèques nationales. Des projets Big Data qui illustrent bien les différents engagements de l’État dans les projets Big Data. Enfin nous terminerons sur la coordination des différents projets et la sur la gouvernance des données.
  17. 17. © 2015 CXP Page 17/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Applications et usages >>>>>
  18. 18. © 2015 CXP Page 18/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics INTERVIEW - Jean-Michel ALIMI, Directeur de Recherche au LUT « Les limites des simulations numériques repoussées grâce aux Big Data » Jean-Michel Alimi, Directeur de Recherche au CNRS, nous présente une partie des travaux réalisés par son équipe sur la simulation numérique en cosmologie au Laboratoire Univers et Théories, Observatoire de Meudon, des calculs qui ont nécessité plus de 150 pétaoctets de données. A l’Observatoire de Paris, avec votre équipe, vous avez entrepris de modéliser l'univers du Big Bang. Pouvez-vous nous présenter les grandes étapes de ce projet ? Jean-Michel Alimi. Le projet DEUS, Dark Energy Universe Simulation, dont j’ai la responsabilité a débuté il y a dix ans, son objectif est de comprendre l’origine de la structuration et la nature du contenu de notre univers et spécialement la nature de l’énergie noire. Plus récemment, en 2012 nos efforts ont permis de réaliser la première simulation mondiale de structuration de TOUT l’Univers observable du Big Bang jusqu’à aujourd’hui. C’est la taille gigantesque des volumes manipulés qui en fait un projet Big Data remarquable, voire hors norme : alors que 150 Po de données sont générés durant les calculs, 2 Po de données ont été finalement conservés après un processus de sélection très optimisé. Pour ce faire, l’équipe scientifique s’est appuyée sur le supercalculateur Curie qui après 30 millions d’heures sur 76 032 cœurs de calcul, plus de 300 To de mémoire et un débit disque de plus de 50Go/sec aura permis d’expulser vers un système de fichiers parallèle les données produites par le calcul. Quelles sont les précautions à prendre lorsque l’on se lance dans un projet Big Data de cette nature ? J-M.A. Malgré la puissance de calcul et la capacité de stockage dont nous disposions, nous avons dû optimiser de façon extrême l’ensemble des opérations. Toutes les facettes de la simulation haute performance ont été sollicitées : le temps de calcul, l’usage de la mémoire, les schémas de communication, la gestion des entrées/sorties. Tout devait être optimisé au même instant en exploitant toutes les ressources disponibles. La sélection des données et leur analyse sont deux phases critiques qu’il faut savoir préparer. Il est indispensable de retenir les données essentielles au calcul, mais aussi garder à disposition des informations qui pourraient intervenir dans la modélisation ou être corrélées avec d’autres résultats. Si la plupart des données concerne le projet Dark Energy qui vise à étudier la dynamique de l'expansion de l'univers et la croissance de structure à grande échelle, de très nombreuses données sont conservées à des fins exploratoires pour de nombreuses autres questions de cosmologie. Chaque année de nouveaux calculs, de nouvelles analyses nous conduisent encore à générer près de 200 téraoctets de nouvelles données et la gestion de ce volume de données est un souci quotidien. Comme nous partageons le résultat de nos recherches avec d’autres laboratoires répartis sur l’ensemble de la planète, nous sommes régulièrement confrontés à la latence des réseaux transcontinentaux, qui nous limite dans la recopie et la mise à disposition de données.
  19. 19. © 2015 CXP Page 19/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Comment sont partagés ces résultats ? Y-a-t-il une exploitation commerciale des analyses réalisées ? J-M.A. Du fait de leur complexité, les calculs scientifiques ne sont directement utilisés que par des chercheurs très spécialisés dans le monde. Aussi, pour rendre les résultats accessibles à une plus large population, nous avons réalisé par exemple des animations vidéo permettant de retracer toute l'histoire de l'Univers du Big Bang jusqu'à aujourd'hui. La fabrication de ces animations n’est possible que grâce aux technologies Big Data. Ces vidéos ont été par exemple diffusées aux journaux du 20h00, gracieusement offertes. Ces travaux sont rarement commercialisés car la connaissance de notre l’univers n’a pas de prix ! Vous le savez, comme le disait Albert Einstein, « tout ce qui compte ne se compte pas et tout ce qui se compte ne compte pas ! » Dans ce domaine, la philosophie qui prédomine chez les chercheurs du monde entier est un état d’esprit ouvert et une tradition de partage. Nous travaillons en partenariat avec de très nombreux centres de calculs, de nombreuses équipes avec qui nous échangeons beaucoup de données : des données issues de simulations numériques mais également des données réelles issues d’observation que nous confrontons à nos prévisions. Nous interagissons également avec de nombreuses équipes de recherches spécialisées dans les simulations numériques au-delà de notre discipline scientifique : avec des équipes de sismologie, de physique des particules, ou encore de mécanique des fluides. Ces données ont donc une vocation publique. La question de la sécurité porte donc plus sur la préservation des données ? J-M.A. En effet, les difficultés de la gouvernance de ces données concernent davantage la mise à disposition des données et leur sauvegarde que la sécurisation de l’accès. Les énormes volumes de données limitent les possibilités de recopies et exigent une grande rigueur quant à leur diffusion afin de ne pas risquer une multiplication des volumes. Nous sommes hébergés par de grands centres de données qui prennent en compte le risque d’incendie et de perte des données, mais nous devons sans cesse arbitrer sur les volumes et sur les conditions de mise à disposition de ces données.
  20. 20. © 2015 CXP Page 20/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics INTERVIEW – Emmanuelle Bermes, BnF « Le volume d’informations numériques a largement dépassé la production littéraire.» Emmanuelle Bermes est adjointe pour les questions scientifiques et techniques auprès du Directeur des services et des réseaux Bibliothèque nationale de France. Elle dresse un panorama du rôle des données dans la gestion des Bibliothèques et de l’apport des nouvelles technologies dans la gestion des Big Data. La gestion des grands volumes de données dans les bibliothèques nationales a-t-elle évoluée ces dernières années depuis l’apparition du phénomène Big Data ? Emmanuelle Bernes. Les bibliothèques nationales sont confrontées aux grands volumes de données depuis les années 90, lorsque les premiers chantiers de numérisation des ouvrages ont commencé. Nous disposons actuellement de plus de 3 millions de documents numérisés, nous avons appris à les gérer. Les bibliothécaires ont une grande tradition de normalisation, de création de métadonnées et d’échange de données structurées. Un format international d’échange de données documentaire existe depuis les années 1960 – MARC pour MAchine- Readable Cataloging – avec sa déclinaison INTERMARC pour la Bibliothèque nationale de France. Nous utilisons de nombreux référentiels internationaux pour coder nos métadonnées (code langues ISO, code pays ISO, identifiants comme l’ISBN pour les livres ou l’ISNI pour les auteurs, etc..) : ce formalisme nous permet d’échanger des données à la fois entre bibliothèques mais aussi entre pays. Après cette première phase d’acquisition et de numérisation, l’avènement de Google en 2005 et de ses capacités de recherche plein texte, le travail d’interprétation des documents numérisés s'est accéléré. Nous avons de plus en plus utilisé l’OCR (Optical Character Recognition) pour transformer les documents numérisés en éléments interrogeables et nous nous sommes mis à l'usage d'algorithmes de recherche. Le troisième phénomène a été la production massive de documents numériques. Avec la généralisation des ordinateurs individuels et des caméras numériques, les documents, les blogs, les vidéos ont proliféré sur le Web. Les documents étaient désormais au format numérique natif, et il fallait les prendre ainsi en compte dans nos bases documentaires. Quelles ont été les conséquences de cette prolifération d’informations disponibles sur le Web ? E.B. Depuis 2006, le dépôt légal a été étendu aux sites internet : toute information publiée en ligne doit être conservée. C’est un travail que nous partageons avec l’INA, l’Institut national de l'Audiovisuel, qui est en charge des sites internet de la radio et de la télévision. De notre côté nous collectons chaque année 4 millions de sites internet français, dont 23 titres de presse quotidienne nationale et régionale (Ouest France, Le Républicain Lorrain, Médiapart…) qui entrent chaque jour dans nos collections de manière automatique. Le volume d’information est gigantesque : plus de 567 To de données, et ce volume croît chaque jour.
  21. 21. © 2015 CXP Page 21/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Existent-ils des progiciels pour gérer ces informations ? E.B. Du fait du caractère exceptionnel du volume de données, la plupart des systèmes que nous utilisons sont spécifiques. Il existe bien des solutions de gestion intégrées de bibliothèque et de gestion électronique de documents commercialisées par des sociétés comme Archimed, BiblioMondo ou Ex Libris, mais elles ne répondent pas aux spécificités d’une bibliothèque nationale (gestion du dépôt légal et des fonds patrimoniaux, en particulier). La plupart de ces logiciels offrent toutefois la possibilité, pour les bibliothèques qui les utilisent, de récupérer les informations que nous produisons sur les ouvrages, à partir du catalogue de la BNF http://catalogue.BnF.fr/. Souvent, ils sont également capables de traiter d’autres sources de données comme decitre.fr ou electre.com. Pour gérer l’accès à de très grands volumes d’informations, nous utilisons des moteurs de recherche comme CloudView d’Exalead (pour la bibliothèque numérique Gallica.bnf.fr) ou le moteur open source Lucene (pour le catalogue général). Nous avons aussi créé des sélections basées sur des corpus numérisés – le sport, les manuscrits – des corpus d’albums photographiques ou encore des corpus plus originaux comme celui des partitions du fonds musical de la Bibliothèque Royale. Ces corpus réunis par des spécialistes des collections sont consultables dans la bibliothèque numérique gallica.BnF.fr. De plus, nous avons signé des partenariats avec d’autres fonds documentaires – bibliothèques, e-distributeurs – qui nous permettent aussi de référencer des ouvrages, des documents ou des vidéos que nous ne détenons pas en propre. Les attentes des lecteurs et usagers de la BnF ont-ils changé avec la révolution numérique ? E.B. Oui, bien sûr, la généralisation des moteurs de recherche des géants du Web a eu un fort impact sur les différentes manières d’accéder à l’information. Les utilisateurs souhaitent de plus en plus interroger les systèmes en langage naturel, plutôt qu’en suivant des menus. On peut aussi exploiter les « traces » laissées par les lecteurs dans le cadre de leur consultation : un exemple concret est le portail tactiques.org/prevu des prêts de la bibliothèque universitaire Paris 8 qui propose des statistiques sur les emprunts : le nombre de prêts de l’ouvrage, l’âge moyen des emprunteurs, etc. Le système compile toute l’activité des prêts et en quelques clics vous accédez à l’ensemble des prêts ventilés par secteur (psychologie, droit administratif, cinéma, sociologie), par langue (français, anglais...), par répartition géographique, et à des classements comme le Top 10 des livres empruntés parmi les 324401 prêts des deux dernières années. Nous travaillons aussi beaucoup autour des outils de datamining et de recherche sémantique, nous suivons de près les progrès du Web sémantique. Nous menons avec l’école Télécom ParisTech des recherches sur les usages du patrimoine numérique des bibliothèques et sur l’exploitation des statistiques d’usage de Gallica. De nombreux acteurs du Web souhaitent monétiser leurs données et se positionnent comme des DaaS, Data As A Service. Cela a-t-il du sens dans de le cadre de la BnF ? E.B. Nous ne cherchons pas à monétiser les informations, mais au contraire à diffuser le plus largement possible le contenu que nous gérons, tout en prenant soin de veiller aux contraintes juridiques et aux différents droits sur les œuvres. C’est la raison pour laquelle nous avons adopté, pour la diffusion de nos données publiques, la licence publique de l’Etat élaborée par la mission Etalab. Par ailleurs, la BNF publie régulièrement les catalogues de ses collections, les catalogues d'expositions et des documents inédits.
  22. 22. © 2015 CXP Page 22/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics INTERVIEW - Henri Verdier Administrateur général des données de l’État « La transformation numérique de l'action publique passe par une bonne gouvernance des données » Henri Verdier, Administrateur général des données de l’Etat - en anglais Chief Data Officer - présente le phénomène des Big Data non plus sous l’angle de l’entreprise privée qu’il connait bien, mais sous celui des politiques des données de l’Administration française. Il évoque ici sa vision du potentiel des données possédées par l’État face aux champions de l’économie numérique. Henri Verdier, dans le cadre de votre nouvelle mission d'administrateur des données publiques, comment définissez-vous l'économie numérique ? Henri Verdier. L’économie numérique est la rencontre entre deux écosystèmes : le monde de la recherche technologique et de l’algorithmique avec celui de l’activité réelle, deux écosystèmes qui ne se rencontrent que très rarement, ou du moins pas assez souvent dans un monde en perpétuelle évolution. En tant qu'administrateur des données publiques, notre rôle consiste à faciliter ces échanges, à insuffler les avancées technologiques et surtout les nouvelles méthodes de gestion des données dans les rouages existants. Le but est bien sûr de permettre à l’action publique de bénéficier des mêmes moyens que les entreprises privées. Nous souhaitons mettre à disposition d’une équipe de datascientists des données en très grand nombre afin que leurs analyses puissent orienter les politiques à venir. Avec, toujours en ligne directrice, la baisse des coûts des processus, un meilleur service public rendu et la modernisation du système d’information de l’État. Toutes les organisations sont concernées : les services publics, les administrations, les services déconcentrés comme les collectivités locales. Votre service est rattaché au DISIC, la direction interministérielle des systèmes d’information et de communication, qui vise à améliorer le service rendu à l’usager et à l’agent et à accroître la valeur ajoutée des systèmes d’information. Comment votre expérience du numérique et des Big Data peut- elle contribuer à l’atteinte de ces objectifs ? H.V. Nous intervenons comme force de proposition et comme influenceur. Nous veillons d’abord à l’usage des données, en privilégiant l’ouverture des données publiques, un meilleur partage, plus de modernité et de transparence, et une centralisation accrue pour une exploitation facilitée. Et surtout nous cherchons à insuffler une nouvelle approche sur les données, proches des pratiques réalisées sur les Big Data, mêlant données Henri Verdier a dirigé l’Etalab, un service rattaché au Secrétariat général pour la modernisation de l’action publique, dont la mission était de faciliter la réutilisation la plus large possible des informations publiques. Le portail unique interministériel Etalab, data.gouv.fr, rassemble et à met à disposition du public l’ensemble des informations publiques de l’Etat. Henri Verdier est également le membre fondateur du pôle de compétitivité Cap Digital et, à cette occasion, a rencontré la plupart des start-up françaises qui se lançaient dans les nouvelles technologies. En septembre 2014, il a été nommé par le gouvernement Administrateur des données de l’État.
  23. 23. © 2015 CXP Page 23/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics polystructurées, Data Science et techniques d’apprentissage automatiques. Systématiquement impliqué dans les projets structurants et manipulant de grands volumes de données, notre service essaie d’imposer une visibilité sur le stockage des données nécessaire à l’automatisation du processus, pour rechercher une corrélation, une synergie avec d’autres silos de données existants dans l’administration, afin que le rapprochement des données vienne enrichir le capital informationnel de l’État. Ce travail est complexe et doit être réalisé en amont pour pouvoir influer sur l’architecture de la solution, en proposant par exemple des Web API, des ouvertures pour lire la donnée qui demain aura autant de valeur que le processus optimisé lui-même. C’est une démarche disruptive : elle présente la donnée comme un bien commun, utile au pilotage des activités et aussi à l’évaluation des politiques menées. La fonction d’Administrateur général des données de l’État est nouvelle en France, quelles sont vos sources d’inspirations et les modèles sur lesquels vous pouvez vous appuyer ? H.V. La fonction de Chef Data Officer est de plus en plus présente dans les grandes entreprises internationales ainsi que dans les grandes villes américaines, telles que New York ou San Francisco. De très nombreuses initiatives y sont menées. Par exemple, New York compte une million d’immeubles dont 3 000 environ prennent feu chaque année. En croisant les données de plusieurs systèmes d’information – la pauvreté du quartier, l’âge de l’immeuble, la date des derniers travaux réalisés, le nombre de loyers impayés, la présence ou non de squatters, la présence ou non d’un gardien – plus de 60 critères en tout, un algorithme a permis de déterminer où les 341 unités de pompiers de la ville doivent concentrer leurs visites de contrôle. Ce système a permis de rendre ces contrôles pertinents dans 73% des cas au lieu de 13% auparavant. Voilà le type d’optimisation et d’amélioration du service public que peuvent procurer une bonne gestion des données et l’apport des nouvelles technologies. Personne ne gagnera seul le défi des Big Data. La collaboration des services est un élément clé de la stratégie pour pouvoir offrir des services qui soient proches de la qualité que les usagers peuvent rencontrer par ailleurs. Par exemple, nous menons actuellement une expérimentation associant l’IGN, La Poste et Open Street Map pour créer un référentiel ouvert de la géolocalisation de toutes les adresses qui pourra être utilisé par tous les services. Nous souhaitons aussi apporter de la modernité dans le pilotage des projets informatiques, en proposant des cycles plus courts, favorisant la réutilisation des données ou des services déjà en place, et en traitant très en amont les problématiques législatives, d’éthique et de confidentialité, incontournables dans tous les projets liés aux données, toujours en concertation avec les organismes comme la CNIL, la CADA ou encore l'AFNIC. La prise en compte d’une bonne gouvernance des données et de son exploitation a posteriori sera un véritable levier de la transformation numérique de l’action publique.
  24. 24. © 2015 CXP Page 24/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics A propos de >>>>>
  25. 25. © 2015 CXP Page 25/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics A propos de Teradata Teradata France Antony Parc 1 2/6 Place du général de Gaulle 92184 Antony cedex Tél : +33 1 81 89 15 00 Site Internet : http://fr.teradata.com/government/ Teradata (NYSE : TDC) est le spécialiste des plates-formes analytiques de données et des applications et services marketing. Les produits et services novateurs de Teradata offrent aux entreprises des solutions d'intégration de données et une approche métier qui leur permettent de prendre les meilleures décisions possibles et de se doter de véritables avantages concurrentiels. Bureaux à Dayton, Ohio ; San Diego, Atlanta et Indianapolis ; Bureaux en Amérique du Nord et Amérique du Sud, en Europe, au Moyen-Orient, en Afrique (EMEA), ainsi que dans la zone Asie et Japon. Teradata compte 11 500 salariés dans plus 40 pays Industries ciblées : Services financiers et assurance, gouvernement et services publics, santé, Sciences de la vie ,eCommerce, media numériques, divertissement, commerce de détail, industrie, pétrole et gaz, hôtellerie, télécommunications, voyage et transport, service public. Leadership : Teradata collabore avec plus de 2600 clients dont 1800 utilisent les applications Teradata parmi lesquels :  15 des 20 premières banques mondiales  18 des 20 premières entreprises mondiales de télécommunications  Les 6 premières compagnies aériennes mondiales  14 des 20 premières agences de transport et de voyage  15 des 20 premiers détaillants mondiaux  11 des 20 premières sociétés de l’industrie de la santé  11 des 20 premières sociétés du monde de l’industrie Chaque jour, plus de 3 millions d'utilisateurs dans le monde entier accèdent à un environnement Teradata analytics ou applications marketing dans le cadre de leur travail dans quasiment tous les secteurs. Une sélection de partenaires Accenture, Adam Software, Alteryx, Attensity, Brierly, Capgemini, Celebrus, Cloudera, Cognizant Technology Solutions, Deloitte Consulting, ESRI, Fuzzy Logix, Harte Hanks, HortonWorks, IBM: Global Business Services, IBM Cognos, Guardium, InfoSphere, Optim, and SPSS; Informatica, LiveRamp, MapR, Microgen, Microsoft, MicroStrategy, Oracle, Protegrity, Qlik Technologies, Inc., Revolution Analytics, SAP, SAS, Tableau, Tibco, Urban Airship, Webtrends, Wipro & Wherescape.
  26. 26. © 2015 CXP Page 26/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Une sélection de clients français SFR, Bouygues, Orange, BNP PARIBAS, Air France, SNCF, Geopost, ERDF, Carrefour, Auchan, Intermarché, Monoprix, ADEO Canal+, Banque Accord., Société Générale, LCL, iBP, CA, Française des jeux….. Direction : Mike Koehler, Président-Directeur Général Hermann Wimmer, Co - President, Teradata Data & Analytics Bob Fair, Co-président Teradata Marketing Applications Dan Harrington, Executive Vice President, Global Consulting and Support Services Stephen Brobst, Chief Technology Officer Eric Joulié, Président Teradata France et Vice Président Western Europe, Southern et Middle East Africa Thierry Teisseire, Directeur Teradata Applications France et Europe de l’ouest Les biographies sont disponibles sur le site : www.teradata.com Prix et récompenses Teradata est reconnue par les analystes, la presse et les groupes de réflexion pour son leadership dans le domaine des solutions d'entrepôts de données, des solutions analytiques d'entreprise, du marketing intégré, ainsi que dans le domaine du Big Data. La liste complète des prix remportés par Teradata et ses dirigeants, disponible sur le site Teradata Teradata® Unified Data Architecture™ Teradata Unified Data Architecture™ est au cœur des solutions orientées données de Teradata. Cette architecture permet aux organisations et entreprises d’analyser tous types de données hébergées par différents systèmes Teradata. L’architecture UDA tire avantage des technologies évoluées de Teradata, de la plateforme Teradata Aster Discovery, de l’environnement open-source Apache™ Hadoop® et de nos partenaires technologiques : les utilisateurs métier peuvent exécuter, à la demande, les requêtes de leur choix sur toutes les données à disposition, quelle que soit la fonction analytique choisie. Cette architecture associe des modules logiciels - Teradata Viewpoint, Teradata Connectors et Teradata Vital Infrastructure – et matériels – une suite complète d’appliances Teradata dédiées aux entrepôts de données, ainsi que les produits Teradata Aster Discovery et les solutions dédiées à Hadoop. Avec l’architecture UDA, les organisations accèdent, utilisent et gèrent toutes leurs données structurées ou non. Teradata QueryGrid™, dévoilé en 2014, constitue une innovation majeure qui propulse les utilisateurs d’UDA aux avant-postes des technologies de base de données. Elle leur offre un accès transparent et en self-service aux données et à des fonctions analytiques exécutables sur différents systèmes, à partir d’une seule instance de Teradata Database ou requête Aster Database. Teradata Database – notre plateforme logicielle phare est reconnue en tant que référence pour analyser et traiter des données toujours plus volumineuses et complexes, proposer des requêtes pertinentes, offrir des performances optimales et encourager la rentabilité d’un tel investissement.
  27. 27. © 2015 CXP Page 27/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics Les plateformes Teradata spécifiques à la gestion des charges de travail sont des systèmes pouvant être utilisés sur l’ensemble du périmètre d’entreprise: entrepôts de données actifs, entrepôts de donnés unifiés et multi-métiers, appliance d’entrepôts d’entrée de gamme, référentiels de données spécifiques ou environnements de type sandbox. Ces plateformes utilisent les technologies SMP (symmetrical multi- processing) ou MPP (Massively Parallel Processing), et sont reconnues pour leurs hautes-performances, leurs évolutivité et leur simplicité en matière de support. Teradata Aster Discovery Platform. Cette gamme de produits offre des fonctionnalités telles que Teradata Aster SQL-MapReduce®, Graph Analytics, Teradata Aster File Store ™, ainsi que le framework Teradata Aster SNAP (Seamless Network Analytic Processing)™. Ces innovations permettent une visibilité détaillée et riche au cœur de données aux structures différentes, issues de sources Web, de réseaux de capteurs, de réseaux sociaux, de travaux de génomique ou autres. Associées aux fonctions de traitement analytique et aux entrepôts de données de Teradata, ces solutions apportent à ses utilisateurs de nouveaux angles de visibilité qui font défaut aux outils des autres éditeurs : niveaux de détail plus précis sur les données, génération accélérée de cette visibilité détaillée, ainsi que de nouvelles fonctions de visualisation. Teradata Aster Big Analytics Appliance optimise la génération de valeur à partir des données. Cette appliance associe la plateforme open source Hadoop d’Apache et Teradata Aster Discovery Platform au sein d’une appliance unique, parfaitement intégrée et optimisée. Teradata Portfolio for Hadoop – Cette suite flexible de produits et de services permet d’intégrer Hadoop au sein d’un environnement Teradata et de l’adosser à une architecture d’entreprise élargie, tout en bénéficiant de services et d’un support de premier rang fournis par Teradata. Cette solution intègre des produits et services adaptés à tous les budgets et niveaux de maturité vis-à-vis de Hadoop : versions de distribution Hadoop, appliances intégrées, ainsi que des services de conseils et de support sur les matériels existants chez les clients. Services Teradata  Services de conseils professionnels Teradata - Nos centres d’expertises répartis dans le monde entier emploient des professionnels formés et complètent les équipes locales de conseil en exploitant notre base de connaissances accumulées et en fournissant des ressources de conseil à l'étranger le cas échéant.  Les services d'assistance à la clientèle Teradata - Cette assistance revêt une importance croissante pour les environnements d'entreposage de données stratégiques de nos clients, à savoir ceux qui fonctionnent 24 heures sur 24, 7 jours sur 7.
  28. 28. © 2015 CXP Page 28/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics A propos du CXP Le Groupe CXP est le premier cabinet européen indépendant d’analyse et de conseil dans le domaine des logiciels, des services informatiques et de la transformation numérique. Il offre à ses clients un service complet d’assistance pour l’évaluation, la sélection et l’optimisation de solutions logicielles et les accompagne dans leur transformation numérique. Le CXP intervient dans plus d’une dizaine de domaines (BI, gestion de contenu, ERP, finance, SIRH, CRM, BPM, IT management, sécurité du SI…). Le Groupe CXP assiste également les DSI dans l'évaluation et la sélection des ESN et les accompagne dans l’optimisation de leur stratégie de sourcing et dans leurs projets d'investissements. Enfin, le Groupe CXP aide les éditeurs et les ESN à optimiser leur stratégie et leur go-to-market à travers des analyses quantitatives et qualitatives ainsi que des prestations de conseil opérationnel et stratégique. Les organisations et les institutions publiques se réfèrent également à nos études pour développer leurs politiques informatiques. Capitalisant plus de 40 ans d’expérience, implanté dans 8 pays (et 17 bureaux dans le monde), fort de 140 collaborateurs, le Groupe CXP apporte chaque année son expertise à plus de 1 500 DSI et directions fonctionnelles de grands comptes et entreprises du mid-market et à ses fournisseurs. Le Groupe CXP est composé de 3 filiales : le CXP, BARC (Business Application Research Center) et PAC (Pierre Audoin Consultants). Le CXP et le Secteur Public c’est : Des Dossiers de recherche et des Études : - Portail citoyen - Dématérialisation dans les collectivités - Open Data - Etat d’avancement de la directive européenne INSPIRE - Réforme DIT & DICT versus SIG - GBCP & SI financier - SIRH pour le secteur public Un Club Secteur Public CXP Le CXP a créé en juin 2011 un Club Secteur Public destiné aux collectivités locales et territoriales, ministères, organismes et entreprises publiques pour mieux répondre aux demandes d’évolution et aux problématiques spécifiques en termes de progiciels (en mode licence, Cloud/SaaS, Open Source…). Le Club réunit actuellement près de 120 membres et propose tout au long de l’année des ateliers et Web Conférences sur des thématiques d’actualité (dématérialisation, portail citoyen, archivage, gestion de contenus, Big Data, ville connectée, mutualisation des services,…). Une rencontre entre décideurs du secteur public et éditeurs est également organisée chaque année, la prochaine Journée Secteur Public se déroulera Jeudi 5 novembre 2015 à Paris. Un vivier de répondants La notoriété du CXP sur le marché français nous permet d’avoir des relations suivies avec un grand nombre d’acteurs. Outre nos +1 500 clients utilisateurs (DSI et Directions fonctionnelles), notre lettre hebdomadaire est envoyée à plus de 30 000 contacts et notre site Web fait l’objet de plus de 50 000 visites par mois.
  29. 29. © 2015 CXP Page 29/30 Livre Blanc – Avril 2015 Les Big Data dans les services publics De nombreuses études dans le domaine des Services Publics Nous réalisons de nombreuses études dans ce domaine. Voici les dernières parutions du CXP qui évoluent avec l’état de l’art du marché : • La Performance dans les services publics, un livre blanc sur les enjeux et les pistes d’amélioration, réalisé à partir d’une enquête menée auprès des professionnels du Secteur Public. • Secteur Public – Le Portail Citoyen au service des usagers. Une étude complète sur les 8 principales solutions logicielles de portail web présentes en France pour les mairies et collectivités territoriales AUTRES PUBLICATIONS PROPOSÉES PAR LE CXP DOSSIERS DE RECHERCHE - ERP en open Source : une alternative crédible ? - GBCP : Impacts sur le Système d’Information - Pourquoi monter un projet MDM ? - Améliorer son BFR : méthodes et outils - Secteur public : les spécificités de la gestion des RH - Big Data : mesurer la performance des activités publiques AUTRES ETUDES ET BENCHMARKING DE SOLUTIONS - Gestion des achats et relations fournisseurs - Solutions de planification - Plates-formes décisionnelles Des prestations de conseil Le Consulting CXP propose un ensemble de prestations spécifiquement conçues pour vous aider à réussir vos projets : • Audit de vos outils informatiques et organisation • Etudes des objectifs, des besoins cibles et éléments d’opportunités de lancer le projet • Réalisation de cahier des charges et formalisation d’appel d’offres publics • Aide à la renégociation de contrats, dépouillement d’Appels d’Offres publics • Assistance à maîtrise d’ouvrage.
  30. 30. Pour toute information : Le Service Clients CXP relation_client@lecxp.com +33 (0)1 53 05 05 90 www.cxp.fr Le CXP – 13 rue le Sueur – 75116 PARIS – 01 53 05 05 53 – www.cxp.fr

×