Directeur de la Publication : Etienne Guyot ; Conseiller : Rémy Arthus
Rédactrice en Chef : Sandrine Rol
Mise en page/PAO ...
1L’édito.
L’édito.
Sandrine Rol
Rédactrice en chef d’Accomex
« e Big Data s’impose comme le concept contemporain incontour...
3
Big Data
Une nouvelle révolution industrielle ?
Sommaire
Sommaire n° 112 - Big Data
Analyses
5 Qu'est-ce que le Big Data...
L’interview !
56 Questions à... Florian Douetteau, Chief Executive Officer de Dataiku
En Pratique
61 Les entreprises face ...
5Qu'est-ce que le Big Data ?
nécessitait de nouvelles architectures techniques.
Face à ces enjeux, les approches tradition...
les pics de puissance de calcul requis), a permis
l’avènement du Big Data.
Mais avec du recul, la rupture de paradigme ne
...
sions sont guidées par la data (« data-centric »). Par
conséquent, ce nouveau socle technologique, ainsi
que les données q...
Accomex n° 112 - Big Data8
La révolution numérique du Big Data :
pour un écosystème français
exportateur et créateur d’emp...
9La révolution numérique du Big Data : pour un écosystème français exportateur et créateur d’emplois
AnalysesEnpratiqueL’i...
Accomex n° 112 - Big Data10
relle IT » de notre marché intérieur. L’effet de levier de
cette mesure est double et converge...
11
AnalysesEnpratiqueL’interview!Zoomsur...
Il doit aussi montrer l’exemple sur des thèmes comme
les data dans la santé, l...
La structuration du secteur du
Big Data français : le projet Alliance
Big Data
l’EGE, le SFIB, le CEA List, l’INRIA, pour ...
propre préoccupation en matière de collecte, de
traitement, de visualisation, d’analyse des données.
Elle fédère de multip...
L’Alliance Big Data travaille également à l’extension
de son réseau social à un réseau social européen.
Beaucoup de parten...
15
AnalysesEnpratiqueL’interview!Zoomsur...
Les initiatives gouvernementales en matière d’Open Data : la mission Etalab
Qu...
Accomex n° 112 - Big Data
La modernisation de l’action publique est en effet l’un
des enjeux majeurs de la politique d’Ope...
Les initiatives gouvernementales en matière d’Open Data : la mission Etalab
Quelles perspectives peut-on espérer pour l’in...
Accomex n° 112 - Big Data18
Pouvez-vous nous présenter Squid Solutions
en quelques mots ? 2
Nous sommes éditeurs de logici...
De la France aux États-Unis, la vision d’un entrepreneur français sur le développement du Big Data
Zoomsur...L’interview!E...
Accomex n° 112 - Big Data20
de nous benchmarker entre Français ou Européens, et
ainsi de nous conforter dans le bien-fondé...
On parle beaucoup de travaux pour structurer cet
écosystème avec une dynamique vertueuse, quel est
votre regard ?
On ne pe...
22
Les entreprises européennes sont-
elles matures pour le Big Data ?
è Elle révèle que 23 % des entreprises européennes
i...
23
AnalysesEnpratiqueL’interview!Zoomsur...
tactiques et opérationnels, avec une stratégie de ges-
tion de l’information d...
24
è Il convient tout d’abord de structurer les données
et les informations de l’entreprise à travers une
démarche d’urban...
25
AnalysesEnpratiqueL’interview!Zoomsur...
(1) Propos recueillis par Matthias Fille, International Development - ICT Advi...
Accomex n° 112 - Big Data26
À quelle clientèle, quels secteurs et métiers, la société
Enigma.io s’adresse-t-elle ?
Nous co...
27
AnalysesEnpratiqueL’interview!Zoomsur...
Nous allons prochainement rendre l’accès à notre
plate-forme et à la recherche...
Accomex n° 112 - Big Data28
Vue de France, la Silicon Alley 11
semble prendre sa
revanche sur la Californie en ce qui conc...
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Prochain SlideShare
Chargement dans…5
×

Livre blanc big data écosystème français

2 654 vues

Publié le

Livre blanc du big data et éclairage sur l'écosystème français (startup, enseignement data scientist, grands groupes, open innovation, US, accélérateur Techstars). « Le Big Data s’impose comme le concept contemporain incontournable dont chacun s’accorde à dire qu’il va révolutionner la manière de travailler de beaucoup d’entreprises […]. Mais il n’est pas facile d’y voir clair pour les néophytes ».

Les auteurs de ce numéro d’Accomex vous proposent « d’y voir plus clair » ; ils sauront vous convaincre que le Big Data est bien plus qu’une simple évolution technologique supplémentaire, qu’il concerne les entreprises de toute taille et de tout secteur, que le terrain de jeu du Big Data est mondial…

Stocker des quantités considérables de données est une chose ; les traiter en est une autre. Le Big Data offre cette possibilité d’analyser les données produites par les entreprises, les particuliers, les États, pour créer de nouveaux usages. C’est bien de valorisation des données dont il s’agit, et c’est là que se situe la révolution, une révolution déjà bien engagée aux États-Unis, à laquelle la France porte un intérêt croissant, stimulée par des startups innovantes & créatives.

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
2 654
Sur SlideShare
0
Issues des intégrations
0
Intégrations
121
Actions
Partages
0
Téléchargements
99
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Livre blanc big data écosystème français

  1. 1. Directeur de la Publication : Etienne Guyot ; Conseiller : Rémy Arthus Rédactrice en Chef : Sandrine Rol Mise en page/PAO : Karine Cazagou, Perpétue Francina ; Administration : Pascale Fachaux ; Fabrication : Angélique Roux Comité de rédaction Catherine Druez-Marie, Responsable du département « Information et Colloques », Institut de recherche en propriété intellectuelle (IRPI) ; Luc Dardaud, Responsable du département des Facilitations du Commerce Extérieur, CCI Paris Ile-de- France ; Alain Henriot, Adjoint au Responsable des Etudes économiques, La Banque Postale ; Laurent Jacquet, Directeur des études et des ressources d’information, Experts Partenaires pour l’Entreprise à l’Étranger (EPEE) ; Éric Lahille, Professeur d’économie internationale et industrielle, ESIEE Management ; Nicolas Meunier, Consultant risques-pays ; Daniel Solano, Consultant, éditeur de la lettre d’Amérique latine ; Martine Stepanek, Responsable du département Asie-Amériques, CCI Paris Ile-de-France ; Corinne Vadcar, Rédactrice en chef des Cahiers de Friedland ; Claudine Dagnet, Directrice générale déléguée départementale, CCI Paris. Contacter l’équipe Accomex Chambre de commerce et d’industrie de région Paris Ile-de-France Revue Accomex DGA AIE - Service produits éditoriaux et formation 2 rue de Viarmes - 75040 Paris cedex 01 Tél. 01 55 65 36 31 - Fax : 01 55 65 39 60 accomex@cci-paris-idf.fr Toute reproduction/traduction/adaptation est interdite sans l’accord de la rédaction. arce que l'horizon des entreprises s'étend au-delà des frontières et que l'activité économique s'inscrit dans un monde globalisé, la Chambre de commerce et d'industrie de région Paris Ile-de- France propose à ses ressortissants une revue exclusivement dédiée à l'approche des marchés extérieurs. Revue bimestrielle, Accomex s'adresse aux entreprises soucieuses de réussir leur développement à l'international, ainsi qu’à tous les acteurs attachés aux problématiques de la mondialisation économique : acteurs du système d'appui, think tanks, monde éducatif, etc. Sa spécificité repose sur la juxtaposition d'analyses approfondies sur les marchés extérieurs et d'articles plus pratiques consacrés à l'environnement réglementaire, fiscal et juridique de l'exportation et de l'investissement à l'étranger. Accomex propose, en alternance sur les six numéros de l'année, des approches géographiques, sectorielles et thématiques de l'environnement extérieur des entreprises. Elle fait appel à des chefs d'entreprise expérimentés, à des professionnels des marchés extérieurs (avocats spécialisés, consultants à l'international, agences de couverture des risques, conseillers du commerce extérieur, etc.) et à des experts -français ou étrangers- reconnus dans leur domaine de compétence (économistes, juristes, politologues, etc.), afin d'offrir à ses lecteurs des contributions de qualité. Accomex est éditée par la Direction générale adjointe - Actions internationales et européennes de la Chambre de commerce et d’industrie de région Paris Ile-de-France. P
  2. 2. 1L’édito. L’édito. Sandrine Rol Rédactrice en chef d’Accomex « e Big Data s’impose comme le concept contemporain incontournable dont cha- cun s’accorde à dire qu’il va révolutionner la manière de travailler de beaucoup d’entreprises […]. Mais entre circonspection, prosélytisme, promesses opérationnelles, fantasmes vertigineux et apports concrets, il n’est pas facile d’y voir clair pour les néophytes » nous dit Matthias Fille, conseiller en développement de la filière TIC à la CCI Paris Ile-de-France. Loin de vouloir surfer sur la vague d’un effet de mode, les auteurs de ce numéro d’Accomex vous proposent « d’y voir plus clair »... Ils sauront vous convaincre que le Big Data est bien plus qu’une simple évolution technologique supplémentaire, qu’il concerne les entreprises de toute taille et de tout secteur d’activité, que le terrain de jeu du Big Data est mondial… Stocker des quantités considérables de données est une chose ; les traiter en est une autre. Le Big Data offre cette possibilité de « nettoyer », d’analyser, de croiser les données - structurées ou non - produites par les entreprises, les particuliers (réseaux sociaux), les États (données publiques), pour créer de nouveaux usages : optimiser son processus de production, affiner sa connaissance clients, maîtriser sa e-reputation, rationaliser ses coûts d’approvisionnement, stimuler la recherche, etc. Les possibilités semblent infinies… C’est bien de valorisation des données (textes, images, statistiques, etc.) dont il s’agit, le plus souvent en temps réel (ou quasi réel)… Et c’est là que se situe la révolution, « où le nouvel or noir à raffiner serait la donnée » ! Une révolution déjà bien engagée aux États-Unis et à laquelle la France porte un intérêt croissant, stimulée par une multitude de startups innovantes, créatives & « Born Global ». “La qualité, c'est de la quantité assimilée”. Léon-Paul Fargue L
  3. 3. 3 Big Data Une nouvelle révolution industrielle ? Sommaire Sommaire n° 112 - Big Data Analyses 5 Qu'est-ce que le Big Data ? u Matthias Fille 8 La révolution numérique du Big Data : pour un écosystème français exportateur et créateur d’emplois u François Bourdoncle 12 La structuration du secteur du Big Data français : le projet Alliance Big Data u Charles Huot 15 Les initiatives gouvernementales en matière d’Open Data : la mission Etalab u Laure Lucchesi 18 De la France aux États-Unis, la vision d’un entrepreneur français sur le développement du Big Data u Adrien Schmidt 22 Les entreprises européennes sont-elles matures pour le Big Data ? u Hichem Dhrif Le marché du Big Data aux États-Unis : trois startups, trois regards 25 Démystifier l’Open Data grâce au design interactif : l’ambition d’une startup de la Silicon Alley u Raphaël Guillemot 29 S’implanter à Kansas City : le choix décalé d’une startup française u Rachel Delacour 33 Le Techstars de New-York : un « accélérateur » de startups u Alexandre Winter Exemples d’applications sectorielles du Big Data 37 Le Big Data au service de l’analyse des visuels u Frédéric Jahard 40 Le machine learning appliqué au secteur du e-commerce u David Bessis 43 Les apports du Big Data à la finance u Thanh-Long Huynh 46 Optimiser la performance énergétique des processus industriels grâce à la data u Arnaud Legrand 49 Big Data et santé : enjeux nationaux et illustrations empiriques de l’étranger u Matthias Fille 54 Pour aller plus loin ... /...
  4. 4. L’interview ! 56 Questions à... Florian Douetteau, Chief Executive Officer de Dataiku En Pratique 61 Les entreprises face aux risques du Big Data - Les enjeux sécuritaires u Christian Aghroum 65 « Big Data et Business Analytics » : former les nouveaux entrepreneurs de la data u Josiane Gain 68 La formation de Data Scientist, un enjeu complexe u Julien Pouget 71 Les perspectives technologiques du Big Data u Nicolas Liochon Zoom sur... 73 Cinq conseils pratiques pour gérer au mieux ses paiements en devises u Cyril Léger 76 L’essentiel - résumés des articles Big Data Une nouvelle révolution industrielle ? Sommaire (suite) ... /...
  5. 5. 5Qu'est-ce que le Big Data ? nécessitait de nouvelles architectures techniques. Face à ces enjeux, les approches traditionnelles de la gestion de bases de données relationnelles 2 , issues de l’informatique décisionnelle et de l’ingénierie statistique, étaient techniquement révolues. Elles ne permettaient plus d’interroger ces données par requêtes. De plus, les données non structurées (qui s’opposent aux données chiffrées ou transaction- nelles) sont venues perturber ces technologies de traitement traditionnel. Les calculs algorithmiques n’étaient pas assez parallélisés et distribués pour garantir une puissance de calcul d’interrogation suf- fisante. Ainsi, Google et Yahoo !, confrontés à ces probléma- tiques au début des années 2000, ont théorisé une nouvelle architecture de traitement analytique de l’in- formation. Elle s’appuie sur du traitement déporté, permettant de stocker et manipuler des bases de don- nées NoSQL 3 . Ce standard repose sur le déploiement des calculs sur un grand nombre de machines. Cette dynamique, conjuguée aux capacités de stockage, d’agilité et de calcul du cloud computing (pour gérer AnalysesEnpratiqueL’interview!Zoomsur... Les données s’abattent à rythme exponentiel sur les organisations. Les nouveaux systèmes d’informations, la mise à disposition d’outils numériques, les vecteurs d’expression, les systèmes de paiement et l’ouverture de multiples bases de données publiques et privées génèrent chaque jour des afflux soudains de milliards d’informations. De plus, chaque acteur (particulier, administration, organisation, entreprise, groupement communautaire) se fait lui-même, directement, pro- ducteur de nouveaux corpus d’informations non ou semi-structurés : données personnelles, applications géolocalisées (avec une dimension temporelle), conversations sur réseaux sociaux, évènements, contenus dématérialisés, photos, microblogs, etc. De surcroît, sur la dimension « passive », les communi- cations issues de la multiplicité des objets communicants numériques (Internet des objets, com- munication M2M, capteurs, sondes, RFID) génèrent de la donnée à grande échelle. En soi, ce déluge de données était prévisible au regard de la dynamique technologique existante. Mais requêter dessus s’avérait beaucoup plus complexe et Qu'est-ce que le Big Data ? e Big Data s’impose comme le concept contemporain incontournable dont chacun s’accorde à dire qu’il va révo- lutionner la manière de travailler de beaucoup d’entreprises. Mais il est complexe et difficile de lever l’opacité sur ce buzzword. Entre circonspection, prosélytisme, promesses opéra- tionnelles, fantasmes vertigineux et apports concrets, il n’est pas facile d’y voir clair pour les néophytes. Ainsi, les études de McKinsey et du Harvard Business Review nous assurent que la profession de Data Scientist sera l’eldorado de l’emploi « le plus sexy du 21ème siècle » et que le marché natif de ces technologies (les États-Unis) connaîtra une croissance supplémentaire de 1,7 % d’ici 2020 en s’appuyant sur le Big Data : ce dernier fera partie des cinq secteurs phare de la croissance américaine. Côté français, l’AFDEL 1 estime que le Big Data pourrait générer 2,8 milliards d’euros et 10 000 emplois directs, si les conditions d’un écosystème vertueux étaient déployées. Tous les early adopters s’accordent à dire que les possibilités d’usages qui en découlent ne se limitent pas à une simple révolution numérique mais posent les fondations d’une 3ème révolution industrielle, où le nouvel or noir à raffiner serait la donnée. L Matthias Fille mfille@cci-paris-idf.fr Matthias Fille est conseiller en développement de la filière TIC à la CCI Paris Ile-de-France. À ce titre, il s’intéresse tout particulièrement à l’écosystème du Big Data et de l’Analytics et aux startups qui le composent. L’émergence de cette filière, les initiatives et plans d’aide initiés par les pouvoirs publics et associations professionnelles retiennent également son attention. (1) Association Française des Éditeurs de Logiciels et Solutions internet. (2) Langage SQL, jusque-là le standard traditionnel. (3) NoSQL désigne une catégorie de systèmes de gestion de bases de données qui n'est plus fondée sur l'architecture classique des bases relation- nelles SQL.
  6. 6. les pics de puissance de calcul requis), a permis l’avènement du Big Data. Mais avec du recul, la rupture de paradigme ne repose pas sur ces nouvelles architectures et ce prisme technique. Ceux-ci ne sont « que » des exten- sions et innovations incrémentales. En d’autres termes, ces nouvelles architectures sont de nouveaux outils de production amenés à affiner la matière première : la donnée. Le Big Data n’est que la com- posante informatique de la révolution de la donnée et d’une nouvelle compréhension de son écosystème. Ainsi, il faut davantage chercher les gisements d’inno- vation dans les nouveaux modèles économiques et de relation client à inventer, pour aller chercher la per- formance économique et capter la valeur. En effet, la valeur et le rapport à la donnée bouleversent, par exemple, les perceptions, l’interaction ou la connais- sance clientèle que peut avoir une entreprise. Côté marché, les analystes de Gartner ont estimé que l’application des technologies du Big Data représen- tait un marché de l’ordre de 36 milliards de dollars en 2013, contre 28 milliards en 2012. Sans surprise, les fonds de capital-risque se multiplient et se spé- cialisent sur cette thématique. Ainsi, aux États-Unis, sur le seul 1er semestre 2013 4 , les entreprises ont levé au total 1,28 milliard de dollars. Ceci est à mettre en comparaison avec les 4,9 milliards de dollars cumulés entre 2008 et 2012. Sur ce créneau, on retrouve les Venture Capital tradi- tionnels comme Sequoia Capital, Igition Partners, New Enterprise Associate, IA Ventures, Andreessen Horowitz, Khosla Ventures et MDV-Mohr Davidow Ventures. Traduisant cet engouement, des fonds dédiés se position- nent exclusivement sur cet axe : Accel Big Data Fund, Data Collective ou encore Big data Boston Ventures. Ce mouvement s’accorde avec l’accélération de rachats de jeunes startups disruptives, observée aux États-Unis en 2013 5 . En avril 2014, Intel a investi 740 millions de dollars dans Cloudera, qui venait d’an- noncer une levée de 160 millions de dollars quelques jours auparavant ! Cette levée de fonds valorise la startup fondée en 2008, qui devrait bientôt s'intro- duire en bourse, à plus de 4 milliards de dollars. Dès lors, tout un écosystème s’est créé autour de la gestion de données : des fournisseurs technologiques qui ont développé une offre variée autour des technologies Hadoop 6 , aux utilisateurs finaux de ces architectures et solutions (ETI, institutionnels et grandes entreprises) qui cherchent à construire un avantage concurrentiel sur l’exploitation de leurs don- nées, en passant par des entreprises spécialistes de la valorisation et création de la donnée (startups). Que ce soit aux États-Unis ou en Europe, on observe le même phénomène d’émergence d’acteurs. D’un côté, ceux qui se spécialisent sur la fourniture d’équipements ou qui offrent des outils d’adoption et de prise en mains des technologies Big Data. De l’autre, ceux qui se position- nent sur les usages et l’analyse de données. Sur ce dernier point, cela se traduit par la mise en relief de solu- tions métier exploitables par des opérationnels, qui sont certes conscients de l’en- jeu de la statistique, mais néophytes en la matière. Intégrer une couche additionnelle d’applications métiers s’avérera incontournable pour que de nou- veaux acteurs se frayent une place sur l’échiquier des usages de demain. Au niveau organisationnel, le Big Data change le mode d’organisation intra-entreprise. En effet, le succès d’une démarche Big Data repose sur son universalité, sa pluridisciplinarité et sa transversalité. Elle « casse » les silos entre services, ce qui a des conséquences lourdes sur l’urbanisation des systèmes d’information, car les leviers de prise de décisions se doivent d’être en temps réel : les démarches et déci- Accomex n° 112 - Big Data6 (4) Source : CB Insights, août 2013. (5) Voir infographie page suivante : « Big Data acquisitions: per month and who acquired whom » (6) Hadoop est une architecture spécifique open source de bases de données, permettant de traiter en grand nombre tous types de données (y compris les données non structurées) sur un mode non-relationnel (les données ne sont pas triées en fonction de leurs relations entre elles). Elle constitue en quelque sorte la librairie à partir de laquelle pourront être effectués des calculs parallèles (via MapReduce). Tableau 1 Levées de fonds cumulées à fin 2013 (millions de $) Source : Crunchbase API. Entreprises Montant levé VMware 369 Palantir Technologies 343 MongoDB, Inc. 231 DataStax 167 Cloudera 141 Domo 123 Fusion-io 112 The Climate Corporation 109 Pivotal 105 Talend 102 “ Le succès d’une démarche Big Data repose sur son universalité, sa pluridisciplinarité et sa transversalité”.
  7. 7. sions sont guidées par la data (« data-centric »). Par conséquent, ce nouveau socle technologique, ainsi que les données que ce dernier exploite, sont devenus fondamentaux dans la refonte des processus de déci- sion. La magnitude d’impact pour appréhender le phénomène sera dès lors d’ordre économique, mana- gérial et organisationnel. Désormais, tous les secteurs sont impactés par le paradigme et la démarche du « data-driven » : santé, télécommunications, assurance, e-commerce, recrute- ment, distribution et optimisation énergétique, etc. À titre d’exemple, on détecte immédiatement l’appé- tence du marketing à s’approprier l’analyse de données, dans le but d’affiner des données comporte- mentales, comprendre le consommateur et son expérience utilisateur, prédire des attentes et propen- sions d’achat, etc. Or, force est de constater qu’à ce jour, la discipline du marketing s’appuie majoritairement sur des logiques de moyennes, d’échantillons et de segments, somme toute assez réductrices. En effet, les grilles de lecture basées sur une logique d’analyse par gamme, canal et silos (entrepôts de données) ne sont plus adaptées. Les effets conjugués de flux de données externes impactantes et la complexité à les synchroniser en temps réel échappent complètement au data mining et à la business intelligence traditionnels, quand bien même ces données sont les nouveaux leviers de différentiation et de création de valeur. Il est donc essentiel d’initier ce type de philosophie « data driven » au plus haut niveau de l’entreprise (les directions générales et les boards), car la data, ce nouvel actif stratégique, influera de façon certaine sur la stratégie globale de l’entité. 7Qu'est-ce que le Big Data ? AnalysesEnpratiqueL’interview!Zoomsur... Source : http://www.bigdata-startups.com
  8. 8. Accomex n° 112 - Big Data8 La révolution numérique du Big Data : pour un écosystème français exportateur et créateur d’emplois ous avons dépassé le simple prisme technologique du Big Data. S’attarder sur la primauté technologique est une illusion : le Big Data est désormais un enjeu de business transformation. Il faut l’appréhender par les impacts qu’il va avoir, ce qui aura le mérite d’exclure la vacuité de certains débats ambiants… Le centre de gravité du débat ne sera plus axé sur la masse de données (à partir de quel montant de masses de données peut-on considérer que l’on fait du Big Data ?) ou sur les enjeux techniques d’optimisation organisa- tionnelle, mais sur d’autres phénomènes tels que les enjeux de conception de produits, de nouveaux modèles d’affaires, d’organisation client et de gamme de produits. Sur la phase de développement des infrastructures et des solutions technologiques sous-jacentes, le terrain est balisé et l’on pourrait aisément dire : « Les dés sont déjà lancés, que le meilleur gagne ! ». Par conséquent, la bataille n’est plus sur l’infrastructure, mais bien sur les usages, sur le développement de nouveaux modèles économiques et sur les déclinaisons verticales. En matière de Big Data, il s’agit maintenant de passer du « comment ? » au « quoi ? » et au « pour quoi ? ». N François Bourdoncle @fbourdoncle François Bourdoncle est le cofondateur et actuel Directeur Technique d'Exalead, aujourd'hui filiale de Dassault Systèmes. Il est membre de la Commission Lauvergeon « Innovation 2030 », qui a remis son rapport à François Hollande en octobre 2013. F. Bourdoncle est également co-pilote (avec Paul Hermelin, PDG de Capgemini) du Plan d’action Big Data, qui compte parmi les 34 grands projets de la « Nouvelle France industrielle » du Ministère du Redressement Productif 1 . (1) http://www.redressement-productif.gouv.fr/nouvelle-france-industrielle À mes yeux, la vraie création de valeur réside dans des entreprises comme Withings ou Criteo, car celles-ci reposent sur un business model complètement intégré verticalement, qui crée, capte, analyse, valorise et monétise de la data. Pour faire de l'innovation intelli- gente, il faut placer au même endroit les données que l’on fabrique et celles que l’on recueille. La France a l’opportunité de se frayer un chemin sur l’échiquier mondial des usages, là où tout n’est finalement pas encore bien défini. Mais l’Hexagone doit composer avec son marché, qui n’a pas la taille du marché américain, ni la même capacité d’investissement. LE BIG DATA : UN ÉCOSYSTÈME PLUS QU’UNE FILIÈRE En tant que chefs de file de ce « chantier », avec Paul Hermelin, nous avons donc identifié les leviers que les pouvoirs publics peuvent actionner pour favoriser l’émergence d’un écosystème français du Big Data exportateur et créateur d’emplois. C’est avant tout un objectif économique, académique et industriel. Nous voulons rendre le terrain français fertile pour l’ensem- ble de l’écosystème Big Data, en « changeant le PH de l’aquarium ». Concernant le mode opératoire, l’ambi- tion de nos travaux n’est pas de bâtir une nouvelle filière industrielle au sens classique du terme, comme cela peut être le cas à titre d’exemple pour le plan « Avion électrique ». En effet, le Big Data est plus un écosystème qu’une filière au sens traditionnel du terme, car il n’a pas vocation à déboucher sur un produit industriel précis. Le Big Data est quelque chose de beaucoup plus écosystémique et horizontal, parce qu’il irrigue tous les secteurs. Le Big Data est donc un enjeu critique pour tous les secteurs de l’industrie et des services, notamment ceux qui n’ont pas encore été fortement impactés par la révolution numérique. Il ne faut pas que nos grands groupes ignorent cette révolution, comme cela a été le cas pour le commerce de proximité, la presse, l’indus- trie du disque ou, bientôt, la télévision et le cinéma, car le Big Data va être le moyen par lequel la révolu- tion numérique va s’inviter sur des secteurs qui n’étaient pas concernés à ce jour ; il faut éviter que ne se reproduise l’aveuglement de ces secteurs au sein
  9. 9. 9La révolution numérique du Big Data : pour un écosystème français exportateur et créateur d’emplois AnalysesEnpratiqueL’interview!Zoomsur... desquels les acteurs n’ont pas voulu appréhender la révolution numérique jusqu’à ce qu’elle devienne irréversible. SE RÉINVENTER POUR FAIRE FACE AUX PURE PLAYERS DU NUMÉRIQUE Le déni de réalité est à éviter : il correspond à une forme de défense extrêmement dangereuse. Le « jusque-là tout va bien » est également à éviter, car à vouloir refuser de se challenger sur son propre business model, de nombreux acteurs courent le risque de la désintermédiation par des pure players de la data comme le GAFA 2 , IBM, LinkedIn, ce que j’appelle les « barbares modernes 3 ». En effet, le succès de l’innovation orientée grand public de ces quinze dernières années (Internet, moteurs de recherche, téléphonie mobile, réseaux sociaux, etc.) confère à ces pure players un accès direct au grand public et à ses données. Cette connaissance de la relation client est leur outil pour se positionner dans tous les domaines. Comme le démontre l’actualité récente 4 , ces spécialistes de la data regardent les déclinaisons possibles dans d’autres secteurs traditionnels. Ainsi, le risque pour les grands groupes établis est lié à la menace que ces « barbares » s’imposent partout où il y a de l'ineffica- cité dans la relation clients : l'assurance, la santé, le crédit, le marché de l’électricité, les opérateurs de télécommunications, etc. Prenons une illustration dans le domaine de l’assu- rance : Avec Android sur votre terminal, Google dispose de votre géolocalisation et accéléro- mètre. Il connait votre mode de vie, type de conduite, oisiveté, mobilité, vos préférences, etc. En mixant ces datas et en faisant travailler un arsenal algo- rithmique, les pure players seront en mesure de proposer une offre assu- rantielle moins chère, granulaire, extrêmement sophis- tiquée quant au profil de risque d’un individu lambda. Puis ils capteront la valeur des bons clients, ceux dont la probabilité de sinistralité est faible. Ces nouveaux acteurs réinstaureront dès lors une nouvelle forme d’intermédiation. Or, qui dit intermé- diation, dit également sous-traitance et érosion des marges. Ces pure players du numérique auront la capacité d’imposer un diktat aux Brick and Mortar (acteurs traditionnels) et de les reléguer à un simple rôle d’opérateurs et de prestataires techniques inter- changeables. Ces derniers se verront confisquer la relation client, qui représente la grosse partie de la valeur de leurs activités ; celle-ci ne sera plus captée par celui qui détient la technicité de l'objet industriel, mais par celui qui détient la technicité de l'optimisa- tion de l'objet ou de la relation client grâce aux technologies du Big Data. Les entreprises françaises doivent absolument réinventer leurs services clients ou, à défaut, les exécuter mieux que les autres, d’au- tant qu’il y a une vraie demande de produits personnalisés dans ces domaines. Trop d’industries comme le crédit, l’assurance et la finance se sentent protégés, se considérant à la pointe avec leurs outils informatiques. Cela est illusoire. L’informatique pur n’est qu’un outil de production et de productivité, il n’a pas d’impact sur le business model et sur sa transformation. À cet égard, le capitalisme français a un problème : il est beaucoup trop dans l'entre-soi et la courtoisie. Plutôt que de subir cette 3ème révolution numérique, il faut anticiper sa dyna- mique et ses enjeux. Cette ouverture culturelle et l’acceptation de la compréhension de la désintermé- diation numérique sont critiques pour changer les logiciels de pensée. FAVORISER LA COLLABORATION ENTRE LES GRANDS GROUPES ET LES STARTUPS En conséquence, l’une des priorités est d’inciter les grandes entreprises françaises, aujourd’hui en retard sur leurs homologues américaines, à lancer des projets à grande échelle d’exploitation des données. Pour ce faire, dans le cadre de notre chantier, nous travaillons sur plusieurs pistes avec les grands groupes. Il s’agit d’abord d’annihiler jus- tement ce déni de réalité, puis de valoriser l’innovation ouverte. Il est aujourd’hui absolument vital, pour les grands groupes, de collaborer avec des startups : jusqu'à présent, la ten- dance était plutôt de les racheter pour les « tuer » avant qu'elles ne puissent devenir des concurrentes. Nous devons favoriser l’interaction vertueuse du tan- dem grands groupes (utilisatrices) et startups du Big Data (techno providers). Idéalement, il faudrait que les grands groupes payent trois fois ! Financer les startups en capital-risque, les aider à grandir (logique business) et les racheter au moment opportun. Sans cela, ces acteurs en herbe que sont les startups ont peu de chance de grandir, de démontrer la scalabilité de leur projet et de trouver les forces de s’attaquer à l’export pour contrer l’étroitesse et l’« aversion cultu- (2) GAFA : acronyme pour désigner Google, Amazon, Facebook et Apple. (3) Cf. Interview de François Bourdoncle dans Challenges, 20 janvier 2014. (4) Acquisitions récentes de Google dans le domaine de l’assurance et de la maison intelligente connectée ; investissement de 250 millions de dollars sur Uber, compagnie de VTC.
  10. 10. Accomex n° 112 - Big Data10 relle IT » de notre marché intérieur. L’effet de levier de cette mesure est double et convergeant pour ces deux typologies d’acteurs. CHANGER LA PERCEPTION DE L’INNOVATION FRANÇAISE J’ai l’obsession de changer la perception de l’innova- tion française. Comme chacun le sait, la R&D est généreusement financée par de nombreux véhicules de financement publics (FUI, Crédit d’Impôt Recherche, etc.). Il faut s’en féliciter. Mais au regard des investissements publics consentis, l’effet produit est trop minime. La R&D est trop peu impactante pour changer « les règles du jeu » et créer de la valeur. Au-delà de la dimension exploratoire des projets de R&D, les PME et startups ne doivent pas oublier qu’il leur faut un marché. D’où notre volonté de tirer l’éco- système par l’aval, en créant le marché. Il s’agit de stimuler les projets et les preuves de concept côté demandeurs. Nous serons ainsi confortés sur l’exis- tence potentielle d’un marché, l’expérimentation de ces projets par les grands groupes, l’aide aux PME et leur besoin de scalabilité de projets. Les PME ont davantage besoin d’un carnet de commande étoffé que de subventions (côte offre, en amont). Cette logique aura un effet de levier maximal : créer le mar- ché plutôt que l’offre, et réduire le time-to-market de nos startups. Avec le récent lancement de la plate-forme TeraLab 5 , les entreprises et chercheurs disposeront d’un environnement de recherche et d’expérimentation (briques technologiques, ressources de calcul grande échelle). Pour ce faire, il est essentiel que cette struc- ture recense les « bonnes volontés » en matière de mise à disposition de données de la part des entre- prises. FAIRE ÉVOLUER LE VOLET RÉGLEMENTAIRE FRANÇAIS Tout comme le logiciel de pensée, le volet réglemen- taire français doit évoluer. Sur le premier aspect, il faut permettre aux usages de s’installer, de s’expéri- menter. Concernant le volet réglementaire, nous pouvons être fiers d'avoir exporté notre modèle de la loi Informatique et Libertés au niveau européen. Mais cette loi comporte un biais : la finalité initiale de la col- lecte des données personnelles est « gravée dans le marbre » ; on ne peut pas la faire évoluer lors d’utilisa- tions ultérieures. Or le Big Data, en mouvement permanent, ne peut s’en satisfaire : la déferlante va faire craquer cette loi, c'est inévitable. Il s’agit donc de refondre le volet législatif en matière de réutilisation des données, afin de faciliter, sans lever toute forme de contrôle, l’usage des données. Ainsi, il faut pouvoir expérimenter avant de légiférer, et déplacer l’équilibre en faveur de l’innovation. À cet égard, il est illusoire de croire que s’interdire le droit d’expérimenter sur l’utilisation innovante des données serait un garde-fou contre les dérives potentielles. Ce principe d’audace, d’action et d’expérimentation doit pouvoir rééquilibrer le rapport de force avec notre « sacro-saint » principe de précaution inscrit dans la constitution française. Les usages innovants et disruptifs comportent une part de risque, de sorte qu’avant que la CNIL n’em- pêche d’expérimenter, nous devons appréhender ces usages, sectoriellement et de manière jurispruden- tielle. Or, actuellement, l’utilisateur des données doit respecter l’usage intentionnel pour lequel les données ont été collectées… Nous pourrions remplacer le prin- cipe d’intentionnalité par celui de réciprocité, passer d’une logique déclarative à une logique d’adhésion, grâce à la rédaction d’une charte d’adhésion à des valeurs de base, par secteur, avec sanction s’il y a un non-respect de la vie privée. L’ÉTAT COMME LOCOMOTIVE D’EXPÉRIMENTATION Il faut également observer l’évolution des usages et procéder systématiquement à une étude d’impact économique avant de légiférer « défensivement et mécaniquement ». Les entreprises ont besoin de ce gage de sécurité, tout comme elles ont besoin de stabilité fiscale. Sans ce droit à l’expérimentation, mis en avant par le rapport de la Commission Lauvergeon, il sera très difficile de faire émerger une filière Big Data dans notre pays. C’est de l’action et de l’expérimentation que naitront la réflexion et les usages, et non pas l’inverse. Mais comme toute révolution industrielle, l’entrée de notre civilisation dans l’ère du « tout numérique » ne se résume pas à ses risques potentiels ; et la crispation légitime sur la protection de la vie privée ne doit pas masquer les fantastiques enjeux économiques et citoyens que représente le traitement intelligent des données massives. À ce titre, l’État se doit d’être une locomotive d’expéri- mentation, d’autant que, comme pour les entreprises, les enjeux sont considérables (gestion des res- sources, des infrastructures, de l’énergie, des transports, du marché de l’emploi, des finances publiques, etc.). (5) Centre de ressources technologiques destiné à des projets de recherche, d’innovation et de prototypage dédiés aux Big Data, lancé par l’Institut Mines-Télécom et le Groupe des Écoles Nationales d’Économie et de Statistique (GENES).
  11. 11. 11 AnalysesEnpratiqueL’interview!Zoomsur... Il doit aussi montrer l’exemple sur des thèmes comme les data dans la santé, les données de la CNAM étant un fabuleux gisement de création de valeur avec de nouvelles applications et une nouvelle façon de concevoir les parcours de soins : passer d’une démarche curative à une logique préventive grâce au suivi et à une analyse en temps réel. Il en va de même dans l’évaluation et le pilotage des politiques d’action publiques. À l’heure où le niveau de défiance des citoyens vis-à-vis de la classe politique est le plus élevé de l’OCDE, voilà une formidable opportunité de recentrer le citoyen au cœur du débat sociétal et d’ac- croître le niveau d’exigence des citoyens sur l’exécutif central et les collectivités. DES ATOUTS QUE LA FRANCE SE DOIT D’EXPLOITER À titre conclusif, je dirais, d’une part, que nous ne sommes pas en retard et que, d’autre part, nous disposons de nombreux atouts, comme par exemple des ingénieurs généralistes de haut niveau, formés à l’informatique, aux mathématiques et aux statis- tiques, qui sont très largement plébiscités au niveau international, à commencer par la City et Wall Street. Ne serait-il pas plus vertueux de leur permettre de réussir en France en aidant nos entreprises à déployer le Big Data à grande échelle, en créant de nouveaux business model, en réinventant la relation client par la donnée ? Comme je l’ai évoqué, nous avons également la chance d’avoir quelques très belles success stories, comme Critéo ou Withings, l’un des leaders mondiaux de l’« Internet des Objets ». Véritable pourvoyeur de données dans le futur, cet « Internet des Objets », justement, va complètement révolutionner la manière dont les produits sont conçus et commercialisés, ainsi que la manière dont l’innovation va se nourrir de l’exploitation du suivi des produits en condition opéra- tionnelle. Espérons que les dossiers Big Data prochainement financés dans le cadre du « Concours Mondial de l’Innovation 2030 » accouchent de futures pépites ! Mais nous avons actuellement trop peu de champions numériques, ces « modernes » comme nous les appelons. J’ai en outre l’ambition de faire entrer les « anciens » (nos grands groupes) dans l’ère de cette 3ème révolution numérique. La révolution numérique du Big Data : pour un écosystème français exportateur et créateur d’emplois
  12. 12. La structuration du secteur du Big Data français : le projet Alliance Big Data l’EGE, le SFIB, le CEA List, l’INRIA, pour n’en citer que quelques-uns, ont également rejoint l’Alliance. Plus concrètement, les principaux objectifs de l’Alliance Big Data sont de : è rassembler les connaissances, expériences et technologies du Big Data et de les valoriser par une diffusion multicanal, è fédérer les associations, les offreurs de solutions et les utilisateurs pour construire une vision commune du Big Data et, à terme, englober d’autres tendances du numérique, è développer des dossiers thématiques en coordon- nant les associations, les sponsors/offreurs et les utilisateurs, è donner de la visibilité aux offreurs de solutions, è offrir un lieu de dialogues et d’échanges aux utilisa- teurs en leur donnant la possibilité de s’exprimer, de partager leurs expériences, d’améliorer leurs connais- sances du domaine. L’Alliance Big Data réunit à ce jour 5 000 membres, dont de grandes organisations avec chacune sa L’Alliance Big Data a été confortée par les récents travaux de la Commission Lauvergeon et les 34 plans industriels de la Nouvelle France Industrielle 2 du Ministère du redressement Productif, qui ont érigé le Big Data comme chantier prioritaire. Ces initiatives sous-entendent un besoin de structurer et d’ouvrir l’écosystème français. L’Alliance, par ses travaux, sa communication, ses livres blancs, œuvre dans ce sens. Elle peut être considérée comme un Do Tank de l’écosystème Big Data, qui vient en complément des réflexions menées par la Commission Big Data de l’AFDEL et l’ambitieux Plan Big Data présenté par le gouvernement. L’Alliance Big Data a été lancée en début d’année 2013. Elle constitue un carrefour unique d’acteurs industriels, services publics, associations profession- nelles, universités et laboratoires représentatifs du Big Data. Les composantes d’innovation et de business (Cap Digital), de contenants et outils docu- mentaires (Aproged), de gestion contenus (GFII), de transaction dématérialisée (APECA), d’enseignement, recherche et innovation (Mines-Télécom) et d’utilisa- teurs (ADBS) y sont représentés. L’ADETEM, le Cigref, e Big Data est un secteur à forte création de valeur. L’amplitude de choc, les secteurs impactés, les business model traditionnels « challengés » et toutes les applications qui en découleront ne sont, à ce jour, pas tous identifiés. À ce titre, il était important de créer une communauté d’échanges. La « ligne éditoriale » de l’Alliance Big Data est donc de fédérer des acteurs, construire une vision commune, partager des expé- riences et, in fine, de favoriser le développement et la mise en lumière de nouveaux services et applications. L’Alliance a également pour objectif d’expliquer à la communauté, que ce soit des citoyens, des politiques ou des industriels, ce qu’est le Big Data : pourquoi ce terme ? Comment en est-on arrivé là ? Quels sont les enjeux stratégiques en termes de développement économique, d’emplois, de compétitivité ? L’enjeu du Big Data pour la France est essentiel ; il néces- site la structuration de son écosystème, afin que la France trouve une place ambitieuse sur l’échiquier de la data et de cette révolution numérique. L Charles Huot contact@temis.fr Charles Huot a passé 10 ans chez IBM en tant que direc- teur international des ventes pour les logiciels de Text Mining. Co-fondateur de l’entreprise TEMIS, il en est également aujourd’hui le directeur général délégué en charge du développement stratégique et de l'innovation. À ce titre, il représente TEMIS auprès des industriels de son secteur et d'instances françaises et européennes. Charles Hulot est également Président du Comité Édito- rial du portail Alliance Big Data 1 . (1) http://www.alliancebigdata.com ; @AllianceBigData (2) http://www.redressement-productif.gouv.fr/nouvelle-france-industrielle 12 Accomex n° 112 - Big Data
  13. 13. propre préoccupation en matière de collecte, de traitement, de visualisation, d’analyse des données. Elle fédère de multiples institutions autour de la thématique Big Data et travaille à l’homogénéisation d’un discours sur le sujet : celui-ci n’est pas que l’af- faire des spécialistes de logiciels, sa diffusion est cross-channel et impacte tous les secteurs. La philosophie de l’Alliance n’est pas de se cloisonner entre « gens du sérail », entre pure players et techno- providers de solutions Big Data ; au contraire, elle se calque sur la dynamique du Big Data, qui synchronise, casse les vases clos et impacte toute une chaîne de valeurs. C’est pourquoi, l’espace est ouvert aux personnes ayant une sensibilité intellectuelle pour le sujet et à celles pour lesquelles cela peut représenter un enjeu et une vraie rupture de paradigme dans les métiers et secteurs (les verticaux). L’arrivée continue de nouveaux partenaires per- met d’élargir les horizons de réflexion de l’Alliance Big Data, de croiser les domaines de compétences et d’exper- tise. En fédérant des acteurs répartis sur l’ensemble de la chaîne de valeur, l’Alliance a mis en forme un continuum qui pourrait difficilement être dupliqué dans une association ou une entreprise classique. En termes de communication, l’Alliance dispose bien entendu d’un site web 3 et, comme le mouvement est par essence collaboratif, met à disposition, via son partenaire Jampespot, un réseau social de partage 4 et de mise en lumière d’expériences et de réalisa- tions. Une Big Data TV 5 complète ce dispositif. Plus récemment, des partenaires médias ont manifesté leur intérêt pour la démarche : 01 Business et Veille Magazine. Enfin, des sponsors viennent apporter leur soutien au développement de l’Alliance Big Data : Exalead, Capgemini, GDF SUEZ et Jamespot. En ce qui concerne les évènements notoires de la communauté, l’Alliance a organisé le Big Data Day dans le cadre du FAN 6 2013 de l’Aproged, le 14 novembre 2013. À cette occasion, se sont succé- dés conférences-débats, plateaux TV et décryptages des challenges concernant la problématique du Big Data. Cette mobilisation collective favorise la dyna- mique et la variété des thématiques traitées, ainsi que la richesse des compétences réunies entre les anima- teurs et les intervenants. En termes de livrables et de dossiers thématiques, l’Alliance a axé ses premiers travaux sur la rédaction d’une Charte Éthique & Big Data. Étant données la criticité et les nouvelles problématiques soulevées par les flux de data, cela apparaissait comme un chantier prioritaire. Cette charte énumère les principes directeurs (transparence, usage, rémunération) destinés à garantir le bon usage et la pérennité des données. La rédaction de la Charte a été pilotée par Alain Couillault, secrétaire de l’APIL et mem- bre de l’Aproged. La multiplicité de regards des contributeurs a abouti à faire émerger quatre volets : la description des don- nées, la traçabilité, la propriété intellectuelle et les réglementations spécifiques à la nature des données traitées. Ce socle éthique contribue à harmoniser les rapports entre producteurs, fournisseurs et utilisa- teurs de données sur le plan du respect des lois, de celui de l'éthique, et à garantir la confiance dans les rapports entre l'ensemble des acteurs impliqués. Cette charte constitue un recueil de bonnes pratiques en matière de traçabilité et d’exploitation des don- nées, et un guide pratique pour savoir comment traiter les données. (3) http://www.alliancebigdata.com (4) http://alliancebigdata.jamespot.pro (5) http://www.youtube.com/channel/UCUFUuT-s9mlAuak-SAI6kvg (6) Forum des Acteurs du Numérique. Glossaire Aproged : Association des professionnels pour l’économie numérique (http://www.aproged.org) AFDEL : Association Française des Éditeurs de Logiciels et Solutions Internet (http://www.afdel.fr) GFII : Groupement Français de l’Industrie de l’Information (http://www.gfii.fr/fr) APECA : Association de la Maîtrise et de la Valorisation des Contenus ADBS : Association des professionnels de l’information et de la documentation (http://www.adbs.fr) ADETEM : Association nationale des professionnels du marketing (http://www.adetem.org) Cigref : Réseau de Grandes Entreprises (http://www.cigref.fr) EGE : École de Guerre Économique (http://www.ege.fr) SFIB : Syndicat de l’industrie des technologies de l’information (http://www.sfib.org) CEA List, Systèmes numériques intelligents http://www-list.cea.fr INRIA, Inventeurs du monde numérique (http://www.inria.fr) APIL : Association des Professionnels des Industries de la Langue (fusionnée avec l’Aproged) Zoomsur...L’interview!EnpratiqueAnalyses La structuration du secteur du Big Data français : le projet Alliance Big Data 13
  14. 14. L’Alliance Big Data travaille également à l’extension de son réseau social à un réseau social européen. Beaucoup de partenaires, tel Cap Digital, ont d’ail- leurs des liens avec des clusters technologiques à travers l’Europe. Beaucoup d’intégrateurs, tel Capgemini, sont prêts à sponsoriser un réseau d’excellence européen sur le sujet, spécialement sur le thème épineux de la formation au traitement de données et aux nouveaux métiers de l’information. L’Alliance entretient également des échanges d’expé- riences avec la britannique Open Data Center Alliance. En 2014, elle poursuivra les chantiers entrepris et cherchera à développer les grands domaines émer- gents dans le Big Data comme la formation, la R&D, l’Industrie, les objets intelligents. Elle com- mence aussi à se positionner sur des chantiers verticaux comme la santé, l’assurance, les transports et la mobilité, car tous ces secteurs ont un dénomi- nateur commun : la data. L’objectif aujourd’hui est d’étendre l’Alliance et de toucher un maximum de personnes concernées par le Big Data. TEMIS TEMIS a été fondé il y a 13 ans. L’entreprise est membre du pôle de compétitivité Cap Digital 7 depuis sa création. Son cœur d’activité est la vente de logiciels dans le domaine de l’analyse automatique de textes dans le monde (filiale à New York, en Allemagne et au Canada). TEMIS est le leader français des logiciels d’enrichissement sémantique des contenus : il extrait les métadonnées des contenus non struc- turés afin d’optimiser les processus de recherche, d’exploration et d’analyse de contenu. Pour en savoir plus : contact@temis.fr ; http://www.temis.com/fr (7) Créé en 2006, Cap Digital est le pôle de compétitivité des industries des services et contenus numériques. Il a pour objectif de faire de la Région Île-de-France l’une des références mondiales du numérique (http://www.capdigital.com). 14 Accomex n° 112 - Big Data
  15. 15. 15 AnalysesEnpratiqueL’interview!Zoomsur... Les initiatives gouvernementales en matière d’Open Data : la mission Etalab Quels sont les objectifs qui portent et structurent le projet Etalab ? 1 Au sein du Secrétariat Général pour la Modernisation de l’Action Publique (SGMAP), la mission Etalab est chargée de soutenir l’ouverture et le partage des don- nées publiques (Open Data) au service de la transparence, de l’efficacité de l’action publique et du développement économique. Elle poursuit cet objectif conformément à la feuille de route du gouvernement en matière d’ouverture et de partage des données publiques définie en février 2013, ainsi qu’au principe général de réutilisation 2 libre, facile et gratuite, en mettant l'accent sur les données à fort impact socié- tal (santé, éducation, etc.) et/ou à fort potentiel d’innovation sociale et économique. La mission Etalab est en particulier responsable du développement du portail unique interministériel (http://www.etalab.gouv.fr/) destiné à rassembler et à mettre à disposition librement l’ensemble des infor- mations publiques de l’État, de ses établissements publics administratifs et, si elles le souhaitent, des collectivités territoriales et des personnes de droit public ou de droit privé chargées d’une mission de service public. Elle coordonne l’action des administrations de l’État et apporte son appui à ses établissements publics pour faciliter la réutilisation la plus large possible de leurs informations publiques. Elle s’est en outre engagée dans le processus de coordination interna- tionale des stratégies d’Open Data et de gouvernement ouvert (Open Government). Afin de stimuler l’innovation et les réutilisations, la mission Etalab travaille également à développer et structurer l’écosystème national de l’Open Data : innovateurs, start-ups, partenaires technologiques, chercheurs, etc. Le décret du 31 octobre 2012, créant le Secrétariat Général pour la Modernisation de l’Action Publique, a eu pour conséquence de dissoudre Etalab dans cette nouvelle structure. Cette réorganisation a-t-elle eu des conséquences dans l'approche de l'État quant au partage des données publiques ? Ce rattachement lui a donné plus de résonnance. En intégrant la mission Etalab au SGMAP, le gouverne- ment a constitué une force globale d’innovation, associant la conception des systèmes d’information de l’État, l’ouverture des données publiques, l’évalua- tion des politiques publiques et l’innovation en matière de politiques publiques. Etalab collabore désormais étroitement avec les services chargés de la modernisation de l’action publique. Les initiatives gouvernementales en matière d’Open Data : la mission Etalab “ (1) Propos recueillis par Victor Mourer, chargé d’études à la CCI Paris Ile-de-France. (2) La réutilisation est l’utilisation à d’autres fins que celles de la mission de service public en vue de laquelle les documents ont été élaborés ou sont détenus. Questions à… Laure Lucchesi, Directrice adjointe de la mission Etalab, rattachée au Secrétariat général pour la Modernisation de l’Action Publique
  16. 16. Accomex n° 112 - Big Data La modernisation de l’action publique est en effet l’un des enjeux majeurs de la politique d’Open Data : au fur et à mesure de l’ouverture d’une quantité crois- sante de données (et de leur montée en qualité grâce aux interactions avec toute une communauté de contributeurs), elle conduira au renforcement de la puissance publique, à la simplification administrative et à une plus grande efficacité des politiques publiques (mieux objectivées, avec une meilleure allo- cation des moyens engagés, des outils de mesure et de pilotage renforcés, etc.). Onze décisions relatives à l’Open Data ont d’ores et déjà été entérinées lors des trois premiers Comités interministériels pour la modernisation de l'action publique (CIMAP), qui reflètent les synergies créées et la contribution de l’Open Data à la modernisation de l’action publique. En quoi l’ouverture des données publiques peut-elle être bénéfique aux professionnels ? Etalab a-t-il établi des partenariats avec des entreprises du secteur privé ? C’est l’une des promesses de l’Open Data que de sou- tenir l’innovation - économique et sociale - grâce au potentiel de réutilisation des données partagées par l’État. Nous connaissons déjà des centaines d’entre- prises qui utilisent les données publiques et qui ont créé de nombreux emplois. Mais cette promesse ne se limite pas aux réutilisations… L’Open Data, c’est souvent un levier pour un État plus simple et plus efficace, ce qui est aussi une forme importante de soutien aux entreprises. À part les concours dataconnexions, Etalab n’a pas de partenariat spécifique avec les entreprises privées, puisque le principe même de l’Open Data est de permettre librement et gratuitement toutes les innova- tions que les entreprises pourront imaginer à partir de ces données non personnelles. En revanche, dans la nouvelle version du portail data.gouv.fr lancée en décembre 2013, et ouvert à toutes les contributions d’intérêt public, nous propo- sons à la société civile de s’impliquer dans la construction d’un « bien commun informationnel » que représentent les données. Les citoyens, les associa- tions, les entreprises peuvent ainsi consulter mais aussi mettre eux-mêmes à disposition des données d’intérêt général sur le portail. En quoi consiste le programme dataconnexions ? Dans quelle mesure pourrait-il servir de laboratoire aux entreprises françaises pour exporter ces solutions innovantes à l’étranger ? Le programme dataconnexions, qui compte une tren- taine de partenaires dont le groupe La Poste, la SNCF, Orange ou encore Microsoft, permet d’animer une communauté d’acteurs autour de l’Open Data, de favoriser le partage d’expérience et de mettre en valeur des projets qui réutilisent les données publiques et créent ainsi des services innovants. La 4ème édition de ce concours a eu lieu le 4 décembre 2013 et a récompensé 8 lauréats (parmi 65 dossiers reçus), et ce programme se poursuivra en 2014. L’ouverture des données publiques permet de soute- nir l’innovation économique et sociale. Elle participe à diffuser la culture de la donnée au sein des adminis- trations et à développer les stratégies fondées sur la donnée. Ces bénéfices s’appliquent tout autant aux acteurs du secteur privé. De nombreux acteurs ont ainsi d’ores et déjà mis en place des stratégies autour de l’ouverture de leurs données et de l’innovation ouverte. Nous pourrions ajouter que l’administration bénéficie elle-même de la rencontre avec ces innovateurs, qui apportent à ses données de nouveaux points de vue, de nouvelles technologies, voire de nouvelles straté- gies de création de valeur. Existe-t-il des initiatives similaires au projet Etalab dans d’autres pays ? Et si oui, Etalab a-t-il pour projet de coopérer avec d’autres administrations nationales ou internationales en matière d’Open Data ? De nombreux pays ont d’ores et déjà engagé, avec différents niveaux d’avancement, une politique d’Open Data. La France, par l’intermédiaire notamment d’Etalab, est en lien avec cette communauté interna- tionale, avec laquelle elle entretient des échanges réguliers, en travaillant avec ses homologues (Royaume-Uni, États-Unis, pays de la zone Euro- Méditerranée, Liban, Japon notamment), ainsi qu’au travers des instances internationales auxquelles elle participe. Le 18 juin 2013, le Président de la République et les chefs d’État et de gouvernement, réunis au Sommet de Lough Erne, ont ainsi adopté une Charte du G8 pour l’ouverture des données publiques qui marque l’ambition collective des États membres de promou- voir des économies ouvertes, des sociétés ouvertes et des gouvernements ouverts. Le Premier ministre a publié le 7 novembre 2013 le Plan d’action de la France pour la mise en application de cette Charte Open Data du G8 3 . L’Europe est donc un partenaire naturel pour l’Open Data français, même si les coopérations ne sont pas encore fortement établies avec les initiatives les plus récentes. 16 (3) http://www.etalab.gouv.fr/article-les-chefs-d-etat-reunis-a-loughe-erne-signent-une-charte-du-g8-pour-l-ouverture-des-donnees-publique- 118576420.html
  17. 17. Les initiatives gouvernementales en matière d’Open Data : la mission Etalab Quelles perspectives peut-on espérer pour l’initiative Etalab ? Une coopération renforcée avec le secteur privé en fait-elle partie ? En 2014, le nouveau site data.gouv.fr poursuivra sa dynamique d’innovation continue. Il s’enrichira en per- manence de nouveaux jeux de données, grâce à une expérience simplifiée de publication pour les acteurs publics. Favorisant le dialogue avec la société civile, ainsi que l’enrichissement et la réutilisation des données, cette plateforme continuera de s’enrichir et d’accueillir des contributions inédites. Elle est le pivot de la politique d’Open Data, qui doit contribuer à renouveler la confiance des citoyens et à stimuler l’inno- vation, tant au sein des administrations que de l’éco- nomie numérique dans son ensemble. Par ailleurs, Etalab a été chargée de coordonner les travaux de transposition de la Directive 2013/37/UE du Parlement européen et du Conseil du 26 juin 2013 modifiant la directive 2003/98/CE concernant la réutilisation des informations du secteur public. Ceux- ci se dérouleront dans l’année à venir, afin de respecter l’échéance de transposition en juillet 2015. Enfin, Etalab continuera à soutenir l’émergence d’un puissant écosystème de l’Open Data, incluant les collectivités locales et le secteur privé, à l’échelle nationale comme internationale. Zoomsur...L’interview!EnpratiqueAnalyses 17 Pourriez-vous expliquer en quoi consiste le projet CoDesign Data.gouv.fr ? L’objectif d’association du projet Etalab avec la communauté française de l’Open Data a-t-il été atteint ? Une profonde refonte du portail data.gouv.fr a été engagée à partir du printemps 2013, et a permis d’inaugurer, en décembre, une nouvelle version du portail, encore plus ouverte et plus collaborative. La conception de cette nouvelle plateforme a été conduite en étroite coordination avec la communauté de l’Open Data au travers d’une démarche de CoDesign. Une consultation publique menée au printemps 2013 a permis de recueillir une soixantaine de contributions, et neuf ateliers thématiques ont été conduits pour recueillir les retours d’expérience et les suggestions des utilisa- teurs et réutilisateurs du portail. Tout en conservant sa vocation de diffuser largement les données brutes, data.gouv.fr deviendra à terme un outil grand public pour une utilisation démocratique des données publiques, facilitant également la publi- cation, la réutilisation de ces données et leur enrichissement par tous types de contributeurs. “ Etalab continuera à soutenir l’émergence d’un écosystème de l’Open Data à l’échelle nationale et internationale”. “
  18. 18. Accomex n° 112 - Big Data18 Pouvez-vous nous présenter Squid Solutions en quelques mots ? 2 Nous sommes éditeurs de logiciel dans le domaine de la data. Nous fournissons une plateforme de gestion et d’analyse de données 3 aux entreprises qui souhai- tent exploiter leurs données, par exemple pour optimiser leur marketing en ligne. Comment cette aventure a-t-elle commencé ? Nous sommes quatre co-fondateurs à avoir travaillé dans une filiale de Gemplus 4 où nous travaillions sur les data télécom et, plus particulièrement, sur les tickets entrants. Cela nous a aidés à comprendre les comportements des clients. Nous étions en mesure de détecter les usages patterns des clients pour savoir si un client était sur le point de quitter un opérateur pour un autre. Puis nous nous sommes lancés dans l’édition de logi- ciels avec Squid. Nous avons identifié tout ce qui, dans la chaîne de valeur de l’analyse de données, prenait le plus de temps, était le plus complexe et le plus coûteux à réaliser, afin de mettre au point une technique. Grâce à nos premiers clients - notamment eBay et SFR -, qui comptaient parmi les plus grosses bases de données du marché, nous avons fait la preuve de notre technologie. Cela nous a permis de lever trois millions d’euros auprès des investisseurs en capital-risque en 2008, en pleine crise financière. Concrètement, comment fonctionne votre technologie ? L’objectif est de récupérer un maximum de données via des solutions dites de Big Data. Il s’agit de collec- ter, stocker et « historiser » ces données, afin de déterminer des tendances. Concrètement, nous utili- sons des bases de production de sites web, des bases de CRM, tout ce qui peut concerner les produits, les transactions, etc. Ces données sont alors couplées avec celles que nous remontent nos trackers, et par des accès à des sources de données que l’on va four- nir. Nos outils permettent ainsi de dépasser la logique en silos. Des modèles de données sont alors construits pour croiser toutes ces données. La levée de fonds effectuée en 2008 nous a permis de concevoir notre propre plate-forme, qui rassemble juste- ment toutes ces données. Au-dessus de cette plate-forme, nous aidons nos clients dans leurs problé- matiques métiers à concevoir des applications prédictives et analytiques afin, par exemple, de mieux allouer leurs ressources, d’optimiser leur yield manage- ment 5 , de comprendre comment sont utilisées la machines de distribution de tri (business case de la Poste) ou industrialiser certains processus opérationnels. De la France aux États-Unis, la vision d’un entrepreneur français sur le développement du Big Data “ Questions à… Adrien Schmidt, Chief Executive Officer chez Squid Solutions et Président de Silicon Sentier1 (1) Silicon Sentier est une association d’entreprises innovantes ayant pour objectif le développement du secteur numérique de la région Île-de-France. (2) Propos recueillis par Matthias Fille, International Development - ICT Advisor, CCI Paris Ile-de-France. (3) Data Management Platform ou DMP. (4) Devenue Gemalto. (5) Yield Management (« gestion fine » en français) est un système de gestion des capacités disponibles (telles que des sièges disponibles dans le transport aérien), qui a pour objectif l'optimisation du chiffre d'affaires.
  19. 19. De la France aux États-Unis, la vision d’un entrepreneur français sur le développement du Big Data Zoomsur...L’interview!EnpratiqueAnalyses 19 À quel(s) enjeu(x) ce type de solution répond-il ? Cela permet de déterminer et de mesurer ce qui s’est vraiment passé au-delà des tendances, en ayant une connaissance micro, une approche « granulaire ». Au niveau de chaque produit, de chaque client, de chaque session, au niveau de chaque source de don- nées, nous pouvons déterminer quel a été le chiffre d’affaires généré, le nombre de produits vus, le retour sur investissement (ROI) de chaque campagne marke- ting. Cette technologie est un outil de pilotage business très fin. En fait, le succès actuel de certains purs players com- merçants du web n’est pas uniquement lié à leur notoriété : ils procèdent à une analyse précise de leur activité sur de multiples axes et sur des volumes de données conséquents. Pour enclencher la démarche d’augmentation de la valeur client et combattre les effets d’attrition, il faut une approche exhaustive de la donnée ; il faut multiplier les sources pour obtenir la fameuse vision à 360° du client, comprendre ses usages. Cette analyse multi- dimensionnelle doit être rendue accessible de manière instantanée pour offrir compréhension et agilité : c’est ce que l’on offre. Vous avez mentionné le fait que vos clients pouvaient créer leurs propres applications analytiques ? Pouvez-vous nous en dire plus ? En fait, nos clients peuvent créer leurs propres applica- tions au-dessus de notre plate-forme, en couche haute, répondant ainsi à leur problématique métier. Mais ce marché n’est pas encore assez mature. C’est pourquoi nous accompagnons nos clients sur ce volet-là. À ce jour, 35 % de notre chiffre d’affaires vient de ce type de ser- vices associés. Même si notre technologie est mature pour créer de telles applications, il faudra encore atten- dre un peu avant que nos clients créent, à partir de notre plate-forme, leurs propres applications. Vous vous êtes rendu à plusieurs reprises aux États-Unis à titre individuel ou par le biais de missions. Où en est Squid sur le marché américain ? Nous avons depuis peu notre premier client 100 % américain au Michigan. Cela est d’autant plus valorisant qu’il s’agissait d’un lead entrant : il est venu nous cher- cher, nous, dans le 14ème arrondissement de Paris, pour monter un projet ensemble ! Ce projet a commencé au dernier trimestre 2013 et se poursuivra tout au long de l’année 2014. Ce type de démarche nous conforte sur nos choix et orientations technologiques. Quel regard portez-vous sur le marché américain ? Les Américains ont de toute évidence de très belles entreprises dans les infrastructures Big Data. Mais au niveau des usages, ils se questionnent sur les applica- tions à concevoir. Sur ce point, je dirais que le marché est naissant et qu’il y a de vraies places à prendre. L’écosystème français n’est pas tellement en retard sur cette composante. Mais quand un besoin émerge, les entreprises concernées ne doivent pas « se regar- der en chiens de faïence » mais au contraire se lancer, innover et réinventer leur industrie ! À l’inverse, à l’heure où trop d’entreprises françaises ne sont pas encore conscientes de leur patrimoine de la data, où le ROI doit encore être démon- tré en interne, où l’avancement stagne au stade de la curiosité intellectuelle, les projets et problématiques existent déjà aux États-Unis. La demande y est plus forte que l’offre technologique pertinente. Et si ces projets clients existent, j’observe une carence de dis- ponibilité, d’expérience, d’expertise technologique étant à-mêmes d’appréhender, de réaliser ces projets dans leur globalité et de monter une solution de bout en bout. Pour vous donner une idée, travailler sur Redshift d’Amazon (plate-forme assez avant-gardiste sur laquelle on travaille) requiert une expertise pointue et particulière dans le traitement massivement parallèle 6 . Vous devez également être en mesure de coupler cela avec une connaissance verticale : le métier de votre client. Pour abonder dans ce sens, je pense que c’est ce type de problématique rencontrée qui pousse une entreprise du Michigan à venir nous chercher à Paris. Donc l’intérêt pour Squid d’aller aux États-Unis repose sur cette demande existante à assouvir. Dans ce domaine, se pose toujours la question de l’arbitrage côte est/côte ouest. Quel est votre point de vue ? Les deux côtés se justifient complètement dès lors que l’on est éditeur de software. Mes cibles clientes sont plutôt sur la côte est. Par contre, mes concur- rents et partenaires potentiels sont sur la côte ouest. Ce qui compte le plus pour moi, c’est de me plonger dans ce qui se fait de mieux en termes de bain concur- rentiel et technologique. Cet écosystème unique vous challenge et vous fait progresser au quotidien. C’est forcément salvateur. Trop souvent, le danger qui nous guette en France est (6) L’architecture Massivement Parallèle repose sur la division du stockage et des traitements sur une grille de serveurs. Elle permet de stocker une quantité de données illimitée et de manière élastique. Plus la taille de la grille augmente, plus sa capacité de traitement augmente.
  20. 20. Accomex n° 112 - Big Data20 de nous benchmarker entre Français ou Européens, et ainsi de nous conforter dans le bien-fondé et l’excel- lence de notre technologie. En fait, nous ne sommes tout simplement pas, au quotidien, dans la ligue des meilleurs. Il est critique de confronter l’écosystème français à l’international… L’écosystème et l’ADN de la Silicon Valley sont imprégnés de cette fibre innovante qui combat continuellement la « sclérose technolo- gique » et les business model qui ne se remettent pas en cause. Ainsi, pour pas mal de raisons, nous opte- rons pour la côte ouest courant 2014. Mais choisir la côte ouest, pour une startup française, cela signifie de pouvoir appréhender le décalage horaire de neuf heures au quotidien. Dès lors, comment envisagez-vous la structuration interne de Squid ? Un modèle « classique » avec R&D en France et marketing & business development aux États-Unis ? Dans les grandes lignes, oui. On épousera ce modèle « classique » pour une startup française aux États- Unis, avec la base technique, le développement, la R&D et la compé- tence consulting en France : non seulement la R&D est soutenue par de nombreux dispositifs mais, surtout, nos compétences techniques locales sont excellentes. Par ricochet, le business develop- ment (voire le marketing) sera initié de là-bas à terme. Dans un premier temps, en tant que co-fondateur, je serai amené à m’y installer pour lancer l’entité améri- caine de Squid. Quels sont les différentes étapes du projet Squid en 2014 ? Un certain nombre de secteurs d’activité ont un inté- rêt à l’investissement dans la data. Je pense naturellement au secteur du publishing, qui est en métamorphose complète, avec une vraie rupture de paradigme, fortement challengé sur son modèle éco- nomique et qui nécessite de nouveaux ressorts qui passeront notamment par la data. Désormais, la monnaie d’échange entre les fournisseurs de contenu, les distributeurs de contenu et les consom- mateurs de contenu (universités, étudiants par exemple), c’est l’usage. Aujourd’hui, une université est prête à payer du contenu si ses étudiants le consom- ment ; c’est d’ailleurs une dynamique que j’observe aux États-Unis. La mesure de cet usage et sa segmentation sont devenues des variables vitales et critiques pour cette chaîne de valeurs. Cela représente des téraoctets de données, car cela concerne des milliers d’universités et donc, potentiellement, des centaines de milliers d’étu- diants et des millions d’articles. La combinatoire de ces trois dynamiques donne de la data à analyser. L’analyser et la transformer en leviers actionnables, pour que ce secteur puisse commercer, pourrait être un domaine de focalisation pour Squid en 2014-2015. Cela pas- sera inévitablement par une implantation aux États-Unis. Pour cela, notre technologie aura besoin d’être légèrement redimensionnée et notre produit repackagé pour ce marché. Le président de Silicon Sentier que vous êtes peut-il nous parler des initiatives entreprises par l’association dans le domaine du Big Data ? Nous disposons du premier programme d’accéléra- tion en France, le Camping, qui accompagne des projets startup à grosse dimension disruptive quant au service et à la technologie proposés. Nous accélé- rons, sur un espace-temps intensif, leur phase de transition, de la création de l’entreprise à la mise sur le marché. À ce titre, et ce pour la 1ère fois, Silicon Sentier a trois entreprises sur la promotion du premier semestre 2014, positionnées sur la data et l’analytics : è Realytics, plate-forme qui démocratise l’analyse de masses de données pour les PME, è Tastehit, outil de ciblage destiné aux sites de e-commerce qui permet de mieux connaitre les goûts des visi- teurs et de leur proposer des objets en fonction de leurs préférences, è Hublo, outil d'analyse web destiné aux spécialistes du marketing. Silicon Sentier vient également de lancer Data Shaker, un programme très innovant et ambitieux, qui a pour objectif de stimuler, via des partenariats, les projets Big Data des grands groupes. Prenons pour exemple la première entreprise partenaire de ce programme : la SNCF. Il s’agit de promouvoir la mise à disposition des données de cette entreprise, et en particulier les jeux de données récentes qu’elle n’a pas encore mis à disposition. La SNCF est ainsi au contact d’une communauté de startup, de développeurs, d’entrepreneurs, qui tirent parti de ces données et font naître de nouveaux usages et applications. Ces applica- tions dépassent le cœur de métier historique de la SNCF (exploitant de réseau) et sont à forte création de valeur : elles enrichissent l’offre voyageur, par exemple, sur la mobilité ou les services associés en gare. Le rôle de Data Shaker ne se limite pas à mettre en relations les deux parties : le programme stimule la démarche, est locomotive de réflexion, fait émerger les thématiques, mobilise cet écosystème et transforme l’essai : que ces applications béta se convertissent en création de startup. La démarche volontariste des grands comptes sur ce programme souligne leur intérêt à appréhender ces enjeux critiques. Il s’agit, certes, d’un lancement récent, mais nous recevons un écho très favorable de l’écosystème de la data.
  21. 21. On parle beaucoup de travaux pour structurer cet écosystème avec une dynamique vertueuse, quel est votre regard ? On ne peut que se féliciter des travaux en cours de la structuration de la filière (vision à long terme). En complément, et à plus court terme, les idées de Bertrand Diard (co-fondateur de Talend) complètent bien cette initiative : il cherche à créer un fonds de capital- risque (levée de fonds), couplé à un accélérateur (mise à disposition de ressources techniques), dédié aux phases aval d’exploitation de la data. 21De la France aux États-Unis, la vision d’un entrepreneur français sur le développement du Big Data AnalysesEnpratiqueL’interview!Zoomsur... Pour en savoir plus : http://squidsolutions.com ; @SquidSolutions ; @a_schm ; datashaker.numaparis.com “
  22. 22. 22 Les entreprises européennes sont- elles matures pour le Big Data ? è Elle révèle que 23 % des entreprises européennes interrogées (42 % des entreprises françaises) consi- dèrent que le Big Data leur permettrait d’améliorer leur planification et leur prévision ; 28 % une meilleure connaissance de leur business (34 % pour les françaises). Cependant, seulement 7 % des entre- prises européennes interrogées considèrent le Big Data comme un sujet d’actualité. Comment expliquer le décalage entre le potentiel représenté par le Big Data et la faible prise en compte de cette problématique par les organisations à l’heure actuelle ? è L’étude biMA® 2012/2013 montre que les niveaux de maturité de la Business Intelligence (BI) des entre- prises en Europe sont assez hétérogènes, avec une forte stagnation des entreprises au « niveau 3 », maté- rialisant l’intégration des informations au sein de l’entreprise (soit une harmonisation entre les départe- ments partageant un socle et un référentiel communs). L’atteinte du « niveau 5 », permettant l'intégration com- plète de la BI dans des processus stratégiques, Le Big Data est aujourd’hui une réalité, pas un mythe et surtout un succès médiatique. Il existe des gisements de données dans et à l’extérieur de l’entre- prise, représentant un incontestable levier de croissance et de compétitivité dans un contexte où les entreprises n’ont d’autre alternative que de se trans- former. On estime que les données structurées, généralement bien exploitées par les entreprises, constituent 20 % des informations disponibles en interne, contrairement aux informations non struc- turées qui en représentent 80 % et disposent d’un plus fort potentiel. L’enjeu est donc bien d’exploiter cette masse d’informations en évitant l’écueil de « l’infobésité ». LES ENTREPRISES EUROPÉENNES SONT-ELLES PRÊTES POUR LE BIG DATA ? è L’étude européenne biMA® 2 2012/2013 est une enquête en ligne comprenant 41 questions, menée par le groupe Steria auprès de 668 participants à tra- vers l'Europe entre novembre 2012 et janvier 2013. n 2011, 1 800 milliards de giga-octets de données ont été générés dans le monde, soit un volume supérieur à ce qui a été créé du début de l’humanité à 2003, et neuf fois plus que celui généré sur la seule année 2005, selon le cabinet d’études IDC 1 . Ce même cabinet estime que le volume de données généré par les entreprises pourrait être multiplié par 75 au cours de la prochaine décennie. Par extrapolation, le volume de l’univers numérique pourrait être, en 2020, jusqu’à 44 fois plus important qu’en 2009. Le Big Data (c’est-à-dire les technologies et les méthodes permettant d’analyser la masse des données produites par les organisations et individus) va ainsi décider de la réussite future des entreprises, en ayant un impact sur leur croissance, leur productivité et leur compétitivité. Les progrès réalisés en matière de collecte, de stockage et de traitement des données font d’Internet un véritable pilier de la société du 21eme siècle. Comment les entreprises européennes vont-elles pouvoir saisir les opportunités que promet le Big Data ? Quels sont les principaux obstacles qui les empêchent d’utiliser les données comme un outil stratégique, moteur de leur compétitivité ? E Hichem Dhrif hichem.dhrif@steria.com Hichem Dhrif est Directeur du domaine d’excellence Enterprise information management (EIM) au sein de Steria France et titulaire d’un MBA en systèmes d’infor- mation organisationnels. H. Dhrif a participé, durant sa carrière professionnelle en consulting, à plusieurs projets de transformation de solutions à vocation information- nelle au sein d’entreprises des secteurs public et privé en France et au Canada, en couvrant la chaîne du cadrage de projets au déploiement de solutions. (1) Gantz John, Reinsel David (2011), Extracting Value from Chaos, étude IDC, juin. (2) Carsten Dittmar, Volker Obendorf, Klaus Dieter Schultze (2013), Rapport Steria : Les Entreprises européennes sont-elles prêtes pour le Big Data ?, Enquête Européenne biMA® 2012/2013, http://www.steria.com/fr/ Accomex n° 112 - Big Data
  23. 23. 23 AnalysesEnpratiqueL’interview!Zoomsur... tactiques et opérationnels, avec une stratégie de ges- tion de l’information de bout en bout, reste semée d’embuches pour la majorité des entreprises en Europe. L’étude montre aussi que les entreprises n’ex- ploitent pas pleinement le potentiel d’analyse de leurs systèmes BI pour améliorer le ROI (Return On Investment) de la BI : mise en place de systèmes de planification, élaboration budgétaire, prévisions et simulations, costing, etc.). LES CONDITIONS PRÉLIMINAIRES À L’EXPLOITATION DU BIG DATA NE SONT PAS ENCORE REMPLIES En l'absence d’outils leur permettant d’extraire les renseignements utiles de cet océan d’informations, les entreprises risquent bien de se noyer. Malgré le poten- tiel offert par le Big Data, il reste difficile pour beaucoup d’entre elles de se doter des compétences et des moyens pour exploiter pleinement leurs données. Pour optimiser l’exploitation du Big Data, il faut dis- poser de bonnes assises en termes de Business Intelligence. Cela constitue en quelque sorte les fon- dations sur lesquelles va s’ériger l’exploitation du Big Data. Big Data et BI sont donc complémentaires. Quels sont donc ces obstacles qui empêchent les entreprises d’utiliser les données comme un outil stratégique ? QUALITÉ DES DONNÉES ET PÉNURIE D’EXPERTS : LES TALONS D’ACHILLE DES STRATÉGIES DE LA BUSINESS INTELLIGENCE Un niveau de qualité des données insuffisant est la principale difficulté des organisations au regard de leur stratégie BI, pour 38 % d’entre elles en Europe dont 34 % en France. Jusqu’ici, une trop forte emphase a été mise sur les solutions technologiques (le contenant), au détriment des données et de leur qualité (le contenu). Dans ces conditions, il est quasi impossible de traiter les gros volumes de données que les clients et prospects génèrent pour en extraire des informations précieuses, sur lesquelles fonder des décisions. Il est donc plus que nécessaire de travailler sur la qualité et la fiabilité des données, notamment en mettant en place une gouvernance dédiée, se maté- rialisant, entre autres, par une « autorité référente de la donnée », responsable de sa définition, de sa mise à jour, de sa diffusion, etc., soit la gestion de sa qualité et donc de sa pérennité. L’absence d’une stratégie formalisée et d’une gouvernance dédiée à la BI sont ainsi clairement mis en cause par les entre- prises européennes : 23 % (24 % en France) jugent les systèmes trop complexes et 19 % (21 % en France) estiment que la BI ne permet pas de donner une vision globale et consolidée de l’entreprise. Cette stratégie est indispensable mais d’autant plus difficile à mettre en place que les compétences dédiées à la gestion des données se font rares sur le marché ; trop rare pour les entreprises, qui relèvent une pénurie de compétences en BI, et particulière- ment en Data Scientists. Cette pénurie constitue un frein pour 24 % d’entre elles et 27 % en France. METTRE EN PLACE, EN AMONT, LES MÉCANISMES PÉRENNES DE GESTION DES DONNÉES Les organisations doivent, en amont, mettre en place les mécanismes pérennes de gestion des données et de leur qualité pour tirer pleinement avantage de leur analyse. Donner la priorité à la qualité des données Il est indispensable de partir de données de bonne qualité, préparées, triées et intégrées. Sans cette phase préalable, le traitement analytique ne produira pas les informations de performance justes et actuelles que l’entreprise attend, vitales pour le main- tien de sa compétitivité. (1) Allemagne, Suisse Source : Enquête européenne biMA® 2012/2013 Tableau 1 Potentialités du Big Data reconnues par les entreprises interviewées Les entreprises européennes sont-elles matures pour le Big Data ?
  24. 24. 24 è Il convient tout d’abord de structurer les données et les informations de l’entreprise à travers une démarche d’urbanisation de son système d’information, afin de l’aligner avec son modèle organisationnel, è Il faut ensuite « nettoyer » les données, pour les ren- dre fiables et intègres, è Il est important de standardiser ensuite ces infor- mations en travaillant sur les référentiels de données. Toutes ces étapes préalables mettent au service de l’environnement décisionnel une information fiable et de qualité. Adopter une approche tactique du Big Data, étape par étape Plusieurs étapes doivent être respectées : è Tout d’abord, former et sensibiliser : expliquer que le Big Data ne se résume pas à traiter davantage de données dans le format voulu. Il s’agit plutôt de créer de nouvelles structures. è Élaborer des cas d’utilisation pertinents, juridique- ment mais aussi en termes de contenus et de délais. Il faut également que les avantages fonctionnels envisagés justifient l’investissement dans la technolo- gie et l’acquisition d’expertise, et non le contraire. è Examiner chaque cas d’utilisation du Big Data issu d’autres secteurs d’activité et pertinent pour l’entre- prise. è Enfin, vérifier la validité des cas d’utilisation en ter- mes de valeur ajoutée et non simplement sous l’angle de la faisabilité technique. LA COMPÉTITIVITÉ DES ENTREPRISES PASSERA PAR LE BIG DATA Un certain nombre d’entreprises ont compris le poten- tiel du Big Data et s’y appliquent déjà. Dans le secteur de la santé, l’analyse du Big Data aide à stimuler l’in- novation et à accroître l’efficacité des soins ou des essais cliniques. Dans le commerce de détail, le Big Data peut aider à accroître les marges opéra- tionnelles, à réduire les gaspillages et à mieux cibler les consommateurs avec des produits et services davantage adaptés à leurs besoins. Même les agences gouvernementales appliquent les techniques d’analyse du Big Data à leurs vastes registres d’ad- ministrés pour guider leurs efforts législatifs. Le marché du Big Data (Software et IT Services) en France devrait être multiplié par quatre d’ici 2017, pour atteindre 1,7 million d’euros 3 . Le Big Data devient un véritable levier de croissance pour les économies du monde entier, tous secteurs et toutes tailles d’entreprises confondus. Dans les années à venir, il permettra de faire la différence entre les entreprises qui innovent et celles qui stag- nent, entre les entreprises rentables et les autres et, au final, entre celles qui réussissent et celles qui échouent. (3) Source PAC (2013). Accomex n° 112 - Big Data
  25. 25. 25 AnalysesEnpratiqueL’interview!Zoomsur... (1) Propos recueillis par Matthias Fille, International Development - ICT Advisor, CCI Paris Ile-de-France. Démystifier l’Open Data grâce au design interactif : l’ambition d’une startup de la Silicon Alley Pouvez-vous vous présenter en quelques mots ? 1 Je suis né en France mais y ai très peu vécu puisque j’ai effectué mon parcours dans le design industriel et interactif successivement au Canada, au Japon, en Suède… Puis, j’ai rencontré l’un des futurs co- fondateurs franco-marocain d’Enigma.io, Hicham Oudghiri, au lycée en France. Quant à l’autre co- fondateur, Marc Da Costa, j’ai fait sa connaissance à Columbia. À l’époque où je les ai rencontrés, ils avaient commencé le concept et le prototypage d’Enimga.io, mais étaient intéressés par l’intégration d’une expertise et d’une composante de design. C’est là que j’ai rejoint l’équipe d’Enigma.io, en phase très embryonnaire du projet. Comment le concept d’Enigma.io a-t-il émergé ? L’idée d’Enigma.io leur est venue en parcourant l’article d’une personne qui avait découvert avant tous les analystes politiques, qu’à la surprise générale, Sarah Palin serait nommée en colistière de John Mc Cain à l’élection présidentielle de 2008. Pour cela, elle avait consolidé et croisé des datasets publics (donc à la portée de tous) qui recensent les propriétaires d’avions, puis avait affiné ceux s’avérant être des donateurs républicains. Elle avait, par la suite, établi des corréla- tions d’appartenance ou d’influence entre eux et s’était ainsi rendu compte avant tout le monde que ces der- niers affluaient simultanément vers Wasilla, en Alaska (fief de Sarah Palin). Cet exemple symptomatique souligne l’ambition et la proposition de valeur d’Enigma.io à vouloir démystifier l’Open Data (qui est à ce jour trop énigmatique et « indi- geste »), en créant de l’usage, de la valeur et de la contextualisation à partir de ces données publiques. Comment se décline votre solution ? Nous proposons une plate-forme de recherche, de découverte et d’approvisionnement de données publiques, fournies par le gouvernement, des entre- prises privées et autres organisations que nous jugeons pertinentes. Notre outil permet de trouver des faits et des liens cachés, à travers des sources de données disparates et cloisonnées. Notre plate-forme fournit de la data et de l’intelligence à laquelle personne n’était « prédisposé ». Par exem- ple, sur un sujet qui intéresse un client, nous ne nous limitons pas à fournir des datas directement liées au sujet : nous procurons également des datas qui ont un impact sur le sujet d’étude du client, mais auquel celui-ci n’avait pas pensé, ou pour lesquelles il n’avait pas découvert la corrélation et l’impact d’influence. Nous sommes ainsi très positionnés sur les données qualitatives et la contextualisation. Notre solution est ainsi en mesure de s’appuyer, par exemple, sur des réseaux d’entité, des réseaux de filiales, de connexions contractuelles ou d’influence entre opérateurs. À ce titre, il faut avoir à l’esprit que la contextualisation est la philosophie de l’Open Data chez Enigma.io. Démystifier l’Open Data grâce au design interactif : l’ambition d’une startup de la Silicon Alley “ Questions à… Raphaël Guillemot, Design Manager chez Enigma.io
  26. 26. Accomex n° 112 - Big Data26 À quelle clientèle, quels secteurs et métiers, la société Enigma.io s’adresse-t-elle ? Nous collaborons avec de grosses entités de consul- ting, de crédit, d’assurance, de banques et hedge funds. Ces clients cherchent à étoffer leurs analyses, élaborer de nouveaux indicateurs connexes, améliorer leurs leviers décisionnels, faire de nouvelles projec- tions avec des modèles plus élaborés via de nouveaux jeux de données. À titre d’exemple, des banques auront recours à nos services pour améliorer les algo- rithmes dont elles disposent, afin de déterminer la solvabilité de leurs clients. Cette collaboration avec ces clients importants nous demande beaucoup d’ef- forts, étant donné que nous sommes partie prenante dans la recherche des datas. Nous avons une autre catégorie de clientèle profes- sionnelle qui, elle, souscrit un abonnement pour avoir accès à notre plate-forme d’outil de recherche de données et de représentation. De surcroît, notre API 5 fournit une infrastructure dédiée et accessible aux développeurs et professionnels. Ils peuvent ainsi intégrer nos corpus de data en temps réel, à grande échelle, afin d’étoffer leurs applications tierces, leurs services analytiques et leurs tableaux de bord. Le Président Barack Obama a retweeté vos travaux d’Open Data sur le shutdown 6 en octobre 2013. Sur quels autres types de projets travaillez-vous actuellement ? Nous avons récemment travaillé sur un projet d’import-export avec les douanes américaines, qui vise à recenser l’ensemble des containers et leurs contenus, entrant et sortant des États-Unis. Chaque semaine, les douanes nous envoient un CD de jeux de données à partir duquel, grâce à notre savoir-faire d’enrichissement et de contextualisation, nous pouvons par exemple déterminer le nombre de nouvelles Lamborghini sur le sol américain. À partir de là, nous pou- vons très simplement extrapoler sur l’évolution de la consommation intérieure ou du nombre de millionnaires ! Vous venez de réaliser une nouvelle levée de fonds. Quelles évolutions structurelles envisagez-vous ? Nous avons en effet levé, fin janvier 2014 (en série A) 4,5 millions de dollars auprès de Comcast Ventures, avec des participations d’American Express Ventures, Crosslink Capital et New York Times Company. Pour rappel, nous avions également levé, début 2013, 1,1 million de dollars en seed funding. (2) Robots d’indexation conçus pour collecter des ressources. (3) Le Freedom of Information Act est une loi américaine de 1966, fondée sur le principe de la liberté d'information, et qui oblige les agences fédérales à transmettre leurs documents à quiconque en fait la demande. (4) Moteur de recherche qui puise ses informations sur plusieurs moteurs de recherche généralistes. (5) Une Interface de programmation (API) est un protocole de communication en temps réel, par lequel un logiciel offre des services à d’autres logiciels, tels que la mise à disposition et l’actualisation de données en temps réel. (6) Mésentente parlementaire sur le budget 2014 qui a entraîné durant quelque semaine l’arrêt du financement des agences gouvernementales. À quel problème de l’Open Data Enigma.io cherche-t-il à répondre ? Le problème inhérent aux données publiques, aux États-Unis et de manière plus générale également, est qu’elles sont publiées par le gouvernement américain, des services décentralisés ou des agences marketing de manière indépendante et atomisée. De sorte qu’il est complexe de centraliser ces données et de déter- miner leur usage et leur intérêt. Par ailleurs, les données publiques navigant sur Internet ne sont pas facilement identifiables et uni- fiées en tant que telles, puisque par nature elles sont disséminées. En soi, les données publiques n’ont pas beaucoup de valeur. Or, c’est justement sur ce point que nous intervenons, en tant que créateur de valeur à partir de ces données. Comment allez-vous chercher ces données ? La première façon de collecter les données est d’im- plémenter des crawlers 2 , adossés à des domaines et portails gouvernementaux dédiés à l’Open Data afin d’aller chercher et indexer les données mises à disposition. La deuxième manière consiste, lorsqu’il s’agit de cibles et d’agences très particulières, sur des théma- tiques spécifiques, d’aller chercher nous-mêmes la donnée. Ainsi, en nous fondant sur le Freedom of Information Act 3 , qui impose aux agences fédérales de transmettre les données à leur disposition, nous avons la possibilité d’effectuer des requêtes auprès d’agences gouvernementales pour obtenir de nou- velles sources de données. Mais ces agences n’ont pas d’exigence de délai, peu- vent demander des coûts de publication auprès des demandeurs et nous publier sous n’importe quel for- mat ! Par conséquent, avec ce deuxième mode opératoire, nous devons faire face à une bureaucratie relativement lourde. Notre troisième méthode de collecte de données est fondée sur notre méta-moteur 4 qui se charge de regrouper des données disséminées sur Internet, par nature difficilement identifiables et consolidables.
  27. 27. 27 AnalysesEnpratiqueL’interview!Zoomsur... Nous allons prochainement rendre l’accès à notre plate-forme et à la recherche de données gratuit ! C’est quelque chose que nous avions en tête dès le départ dans notre feuille de route, mais l’intégrer dès le début de notre projet aurait été trop coûteux. Cela marque un tournant majeur dans notre stratégie et la montée en puissance de notre projet. L’idée est de démocratiser notre plate-forme, de démontrer notre scalabilité et de proposer davantage de services premium et d’outils analytiques. La combi-naison de ces deux éléments va nous permettre de nous adresser à davantage de « gros clients » et de poursuivre nos travaux sur les réseaux d’entités en web sémantique 7 . Quelles distinctions ou similitudes observez-vous entre les écosystèmes d’Open Data de France et des États-Unis ? Tout d’abord, je salue le travail qu’entreprend Henri Verdier 8 au sein d’Etalab. Je trouve que son agence fait un travail remarquable pour libérer la donnée et inciter les pouvoirs publics et les ministères à faire de même. Il a donné à Etalab un véritable second souf- fle, car pour opérer dans l’Open Data, il est inconcevable et impossible, pour une entreprise pri- vée, d’inciter les pouvoirs publics à libérer la donnée, sans le travail de sensibilisation que réalise une agence publique telle qu’Etalab. En effet, pour faire émerger un écosystème vertueux de l’Open Data, il faut que la dyna- mique soit insufflée au niveau des pouvoirs publics, ce que fait remar- quablement bien Etalab. Aux États-Unis, le mouvement s’est accéléré par le biais du Freedom of Information Act et de l’Open Government Initative 9 de l’Administration Obama. Le Freedom of Information Act relève d’un volet législatif qui stimule, certes, l’Open Data, mais qui dépasse largement ce périmètre. Cela résulte de la culture historique de la transparence aux États-Unis, même auprès des opérateurs privés, dont la libéralisation des données publiques est un axe central. Cette conjonc- tion permet de faire émerger un écosystème et une économie autour des applications et des usages. Notons également que la France est très stricte sur l’anonymisation et la mention de noms privés au sein de jeux de données. A contrario aux États-Unis, il est particulièrement aisé, notamment via le Gouvernement de New York, de savoir par exemple combien de propriétés immobilières Robert de Niro dispose dans cette ville ! Quel regard croisé transatlantique portez-vous sur le design interactif, quand on connait la primauté du marketing et du design aux États-Unis dans la com- posante produit ? Les français sont bons en design, et plus particulière- ment en graphisme, ce qui n’est pas tout à fait la même chose. Ainsi, je pense que trop de talents fran- çais se prédestinent au design industriel ou au graphisme, par exemple dans le domaine publicitaire et industriel. Il manque à la France une culture plus prononcée de l’interaction design 10 , discipline très imprégnée et très enseignée aux États-Unis. En effet, j’estime que le plus gros obstacle à la compréhension et à la démocratisa- tion des données, par le public, est lié à la difficulté à faire ressortir des cas d’usages et d’applications. Ainsi, le design interactif a émergé car nous étions jusqu’ici limités par les possi- bilités techniques très réduites de l’infographie et de la visualisation classique. À titre d’exemple, on ne pouvait mettre en relief qu’un seul sujet d’étude. Or, le design interactif permet justement de rendre les outils de recherche accessibles et d’offrir un cadre de contextualisation. (7) Recherche, structuration et exploitation de données sur le web. Le web sémantique permet de rendre du contenu des ressources web interprétables automatiquement par les machines. (8) Ancien entrepreneur dans la data et ancien Président du pôle de Compétitivité Digital, Henri Verdier est, depuis janvier 2013, Directeur d’Etalab - Voir l’article de Laure Lucchesi dans ce même numéro d’Accomex. (9) Cette « initiative » vise à créer un niveau sans précédent de transparence et d'ouverture du gouvernement dans la tendance de l'Open Source Governance et de l’Open Data, pour permettre à tout citoyen et entreprise intéressé de contribuer à créer les contenus de la politique. (10) Design numérique des systèmes interactifs. Démystifier l’Open Data grâce au design interactif : l’ambition d’une startup de la Silicon Alley
  28. 28. Accomex n° 112 - Big Data28 Vue de France, la Silicon Alley 11 semble prendre sa revanche sur la Californie en ce qui concerne l’entre- preneuriat numérique. Pouvez-vous nous livrer vos impressions ? En effet, le nombre de startups explose actuellement à New-York, la Silicon Alley étant un écosystème très vivifiant. Par rapport à la Californie, les business model des startups de New-York sont, dans une certaine mesure, peut-être moins nombreux, mais plus sérieux et réalisables. Par ailleurs, les startups new-yorkaises sont position- nées, pour la très grande majorité, sur le créneau du B2B, a contrario de la Silicon Valley. Elles sont égale- ment très portées sur le design interactif. On peut expliquer cet aspect par l’histoire de New-York dans les secteurs de l’industrie, de la publication et des médias. De surcroît, les Venture Capital locaux sont moins spéculatifs et préfèrent se positionner sur des business model plus « sérieux » comparativement à la Silicon Valley. Pour conclure, pourriez-vous me présenter quelques startups que vous appréciez ? En France, j’appréciais beaucoup Everpix 12 (soutenu par Index Ventures) que je considérais comme le meil- leur service de stockage de photos dans le cloud et ce, peu importe le terminal. Mais ils ont malheureusement dû stopper leur activité fin 2013, faute de financements suffisants. Everpix n’a pas eu le temps d’atteindre sa masse critique monétisable afin d’être rentable. Côté américain, je suis admiratif de Zendesk 13 au regard de l’excellence du niveau produit qu’ils ont atteint. Même chose pour GitHub 14 , qui a réussi à rendre accessible à tout un chacun la publication de codes et la construction d’applications (par essence très compliqué). (11) La Silicon Alley est un pendant de la Silicon Valley, située en plein cœur de Manhattan. C’est une technopole concentrant des startups spécialisées dans l’Internet, les médias, l'édition, la publicité. (12) Everpix a été créé en août 2011 par deux français, Pierre-Olivier Latour, ancien de chez Apple et fondateur de Quartz Composer, et Kevin Quennesson. (13) Zendesk propose aux entreprises les outils nécessaires à l’établissement d’un service de support auprès de leurs utilisateurs.. (14) GitHub est un service web d'hébergement et de gestion de développement de logiciels, utilisant le programme Git. Pour en savoir plus : contact@enigma.io ; @enigma_io ; @a_schm ; http://www.enigma.io “

×