Data scientist: le job le plus sexy du 21ème siècle

30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos
Page 1 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle
1 TweeterTweeter 22 Like 13
28/02/2013 | Bruno TEBOUL | Tendances-innovation | Tribune | Lu 2265 fois | aucun commentaire
Data Scientist: le job le plus sexy du 21ème
siècle ?
LE CERCLE. Analyse critique d'un article de la HBR d'Octobre 2012: "Data scientist : The Sexiest
Job of the 21st Century de Thomas H.Davenport (Professor à la Harvard Business school) et D.J
Pati (Data Scientist pour Greylock Partners)".
Tout d’abord, attardons-nous un peu sur le titre de l’article qui peut
surpendre pour un article de la HBR et semble quelque peu exagéré voire
galvaudé tant l’oxymoron formé par « scientist » et « sexiest » est
perceptible, excessif voire « cousu de fil blanc ».
En effet, l’archétype du scientifique comme du geek et sa représentation ne
correspond pas vraiment à une description glamour ou sexy, mais c’est
plutôt aux antipodes que nous renvoie l’opinion publique à propos des
geeks…
Certes, les auteurs jouent sur ce paradoxe pour réhabiliter l’image du
technico-scientifique, qu’est le Data Scientist et ainsi accélérer également
son intégration, sa réhabilitation au sein des entreprises américaines plus
ouvertes semble-t-il à ce type de profils, surtout en Californie.
A la différence de l’entreprise française, lieu où les mathématiciens,
statisticiens, économètres et autres linguistes souffrent d’un déficit d’image
certain et de préjugés encore aujourd’hui. Sans détour, ni langue de bois,
nous pouvons affirmer que les DRH ont toujours autant de réticence et
d’appréhension envers les universitaires (docteurs), les polytechniciens, les
normaliens (mises à part quelques groupes dans l’industrie ou les Telcos)
plutôt qu’à l’égard des Centraliens, HEC, ESSEC, ESCP, Sciences Po ou
même Enarques. A une certaine époque, on pouvait argumenter en disant
que nos docteurs, nos X, ou nos normaliens étaient peu ou prou préparés au monde du travail et notamment au
secteur privé. L’Université, l’Ecole Polytechnique et la Rue d’Ulm ont déployé beaucoup d’efforts pédagogiques et
financiers ces dernières années pour permettre à leurs diplômés d’être connectés voire immergés en entreprise
au cours de leur cursus d’excellence et ainsi pouvoir « sortir de leur laboratoire », « quitter leur paillasse » pour
comprendre les enjeux business, le management... Mais pour autant la « force du préjugé » demeure.
Un autre facteur d’influence négatif relayé largement par les médias explique le désarroi des recruteurs face aux
profils de scientifiques. En effet, depuis le scandale de la crise financière, des bulles spéculatives liées à
l’utilisation des mathématiques appliquées au monde de la finance et des marchés boursiers. Le monde des «
matheux » s’est vu assimilé à la dérive des mathématiques appliquées au service d’une spéculation folle qui a
conduit à la crise actuelle. Nombre de traders pris dans la tourmente de cette dérive spéculative et de ses
conséquences funestes furent très médiatisés et accusés de détourner les mathématiques au service de la
cupidité. Et l’on a longtemps considéré que les mathématiques, par la complexité et les lacunes de leurs formules
d'évaluation du risque, furent largement responsables de la crise financière qui a secoué le monde à partir de
septembre 2008.
L’école française de mathématique fut mise en cause directement car les étudiants de ces cursus spécialisés en
mathématiques financières ont offert une caution scientifique à des règles du jeu pathogènes. Nicole El Karoui,
RECHERCHER SUR LE CERCLE
Mots-Clés Auteur
ENTREPRENEUR
TENDANCES-INNOVATION
ShareShare 34
ÉCRIT PAR
Bruno TEBOUL
PhD Candidate.
Université Paris
Dauphine.
VOIR SON
PROFIL
SES 3 DERNIERS ARTICLES
05/04/2013 | 20:33
Text Mining, Sentiment Analysis, Big Data.
15/03/2013 | 17:07
"Big Ads" ou le déluge publicitaire…
12/03/2013 | 12:04
Big Data: une révolution managériale ?
TOUS SES ARTICLES
PUBLIEZ VOS ARTICLES
BONJOUR BRUNO TEBOUL
Déconnexion
PUBLIER UNE CONTRIBUTION
Mon profil public
Mon compte
Modifier mon profil
Mode d'emploi
LE CERCLE LES ECHOS SUR TWITTER

professeur de mathématiques appliquées et responsable du Mastère Probabilités et Finances co-délivré par
l’université Paris VI et l’École Polytechnique fut mise en cause personnellement, car c’est de son mastère que
sont sortis bon nombre des « quants » (quantitative analysts) qui ont ensuite gravi les échelons du « trading »
dans les grandes banques comme Goldman Sachs, Lehman Brothers, BNP Paribas ou la Société Générale, ainsi
que dans les agences de notation et les Hedge Funds. Le Professseur El Karoui rappelle pour sa défense que le
rôle de l’analyse mathématique appliquée à la finance est « une simple aide à la décision, comme un ordinateur.
Il faut que chacun prenne ses responsabilités. Observez bien la sociologie des banques, vous verrez que ce ne
sont pas les mathématiciens qui décident. Nous avions tous averti que le risque lié aux dérivés de crédit (CDO et
CDS) augmenterait de manière non linéaire en fonction de la quantité d’opérations, mais qui nous a écoutés ?
Face à la cupidité, ce qui a manqué le plus, ce ne sont pas les modèles, c’est le pragmatisme et le bon sens ».
La presse du monde entier s’est alors déchaînée sur les matheux, du Wall Street Journal au Monde en passant
par le magazine Wired.
Pour l’accusation, les ingénieurs financiers formés à la française ont contribué à pousser vers l’abîme la finance
américaine puis, par contagion, la finance mondiale, en proposant aux dirigeants de ces institutions des modèles
mathématiques qui étaient censés neutraliser le risque contenu dans les produits financiers, et qui n’ont pas tenu
leurs promesses. Car la crise de la fin des années 2000 a bien été déclenchée par une innovation des années
90, le dérivé de crédit, un produit dérivé dont le sous-jacent est une créance ou un titre représentatif d’une
créance (obligation).
CF article de Felix Salmon dans Wired le 23/02/09 “Recipe for Disaster: The Formula That Killed Wall Street” (ici
la fameuse “fonction gaussienne de copule de David X.Li). L'article proposait une séduisante formule pour
estimer les risques liés aux investissements hypothécaires. L'évaluation de ces risques a toujours été un
problème insoluble, parce que les corrélations entre les décisions individuelles, les variations des marchés, les
changements de valeurs des immeubles suites à des transformations de l'environnement rural ou urbain
transforme la science des corrélations des investissements à risques en une science appliquée très incertaine et
dont les effets seront dévastateurs. Comme ne pas penser et évoquer ici le postulat de la Théorie du Chaos («
l’effet papillon ») et donc de la dépendance sensitive aux conditions initiales : une très petite variation quantitative
locale (de l’ordre d’un dixième de un pourcent) peut provoquer de grandes modifications qualitatives sur
l’ensemble de l’évolution du système. C’est ce que Lorenz a illustré dans une conférence en 1979 dont le titre
était « Predictability: does the flap of a butterfly’s wing in Brazil set off a tornado in Texas?. Il semble que le
confort adopté par la finance en matière de modélisation emprunte de physique brownienne soit mise à mal et
sans doute beaucoup trop controversée pour perdurer… La formule de Li offrait pourtant une brillante
simplification et permettait d'attribuer un simple coefficient de risque sur les investissements basé sur les prix d'un
instrument financier connu en anglais sous l’acronyme CDS (Credit Default Swap) qui signifie « garanties contre
les cessations de paiement ». Mais au lieu d'étudier les variations de taux de cessations de paiement comme
base pour évaluer les risques, les compagnies financières utilisèrent les variations du prix des CDS comme base
d'évaluation des risques, en postulant que si les cessations de paiement augmentent, le prix des CDS
augmenterait aussi. Ils oubliaient un détail: les données dont ils disposaient reposaient sur une période historique
où les prix de l'immobilier avaient toujours été à la hausse ! Le résultat, on le connait : la formule de Li a permis
de donner une qualification de triple A (investissements sans risques) à des fonds hypothécaires qui ne
méritaient pas cette notation et qui entraîna inévitablement le fameux boom immobilier: à la fin de 2001, il existait
un marché des CDS évalué à 920 milliards de dollars. A la fin de 2007, le chiffre avait explosé dépassant les 60
000 milliards de dollars.
Dès lors, nous considérons que la comparaison qu’opèrent Devenport et Patil entre les « Quants » et les Data
Scientist est plutôt malheureuse, car les « Quants » ont cristallisés pour des années encore l’image de jeunes
irresponsables avides et cupides. A l’origine et même responsables de la diabolisation des mathématiques
appliquées, ils continuent toutefois à faire rêver certains étudiants en quête de fortune…
Par ailleurs, les étudiants sortis d’une grande école d’ingénieur et qui cumulent un diplôme en statistique sont
attirés par d’autres carrières plus classiques, plus rémunératrices qu’une mission de « Data Scientist ». La plupart
ayant à cœur et à l’esprit de choisir entre l’INSEE, un grand corps d’état ou bien de démarrer une carrière dans la
Silicon Valley, et même partir dans le monde de la banque et de la finance car très rémunérateur…
D’autre part, la fonction de « Data Scientist » est souvent assimilée à la fonction de Data Miner ou Data
Cruncher, mais version 2.0, alors qu’elle est selon nous le produit de l’évolution de l’entreprise face aux défis de
la digitalisation et où la ressource première est bien l’information ou en tout cas la transformation du bruit en
information pertinente, en connaissance.
En effet, nous pensons qu’avec l’avènement du quaternaire (économie du numérique) et la virtualisation des
biens, des services, de la communication : l’enjeu est bien de traiter, d’analyser, d’exploiter les données de plus
en plus nombreuses, complexes et d’en tirer une véritable valeur ajoutée pour aider les dirigeants à prendre de
bonnes décisions et à optimiser leur modèle d’organisation et de gouvernance.
Thomas R. Davenport et D.J Patil nous rappellent en introduction de leur article que dans les années 1990 à Wall
Street on s’arrachait à prix d’or les « Quants », ces analystes quantitatifs en salles de marchés, formés dans les
meilleures universités américaines et qui constituaient les profils les plus prisés et les plus recherchés à l’époque
à la bourse de New-York. Ce sont ces « Quants » qui prenaient en charge les considérations mathématiques qui
intervenaient dans les choix des traders. La complexité des produits vendus engendrait déjà une difficulté
croissante du métier de trader. De plus, le sujet était réellement difficile du point de vue mathématique et s'avèrait
très dynamique. Les Quants devaient donc se tenir au courant des avancées les plus récentes dans le domaine
des mathématiques financières, et rendre toujours plus sûre l'évaluation des différents produits comme suit :
• l'incorporation des nouveaux produits aux logiciels de pricing existants et la maintenance technique de ces
logiciels,
• l’étude et l’implémentation de nouveaux modèles de taux ou d'autres sous-jacents,
• l’étude et l’implémentation de nouvelles techniques numériques,
• la couverture des produits utilisés, à savoir les techniques permettant d’éliminer le risque associé à un produit
L’expérience client : (re)définition bit.ly/15TJmC3
Le Cercle Les Echos
@CercleLesEchos
Étendre
Conciliation vie privée/vie professionnelle : une
affaire de femmes ? bit.ly/15TJmBY
Le Cercle Les Echos
@CercleLesEchos
Étendre
La priorité au logiciel libre est-elle légitime ?
bit.ly/15TCepc
Le Cercle Les Echos
@CercleLesEchos
Étendre
Gérer une fortune au féminin bit.ly/15TCgxd
Le Cercle Les Echos
@CercleLesEchos
Qui dirige l'Europe ? bit.ly/13dGrrL
Le Cercle Les Echos
@CercleLesEchos
Étendre
The Resource Hope bit.ly/13dzdE8
Le Cercle Les Echos
@CercleLesEchos
29m
29m
1h
1h
28 Juin
28 Juin
Tweets SuivreSuivre @CercleLesEchos@CercleLesEchos
Tweeter à @CercleLesEchos
…LUS …COMMENTÉS
AUJOURD'HUI, LES ARTICLES LES PLUS...
Jean-Yves Archer | Finances| Tribune
L'oral très contrasté de DSK au Sénat
Jean-Charles Guibert | Organisation| Tribune
Pour leur compétitivité, les PME doivent pratiquer l’Open
Innovation
Marc Traverson | Autres| Tribune
L’exemplarité, inévitable outil du management
OFCE | Europe|
La Croatie dans l’Union européenne : une entrée sans
fanfare
Christophe Nguyen | RH|
La Qualité de Vie au Travail (QVT) en période de crise :
moins importante que la compétitivité ?
ABONNEZ-VOUS AU FLUX RSS
SUIVEZ-NOUS AVEC TWITTER

donné.
Il semblerait qu’aujourd’hui à l’ère du digital et du déluge informationnel (Big Data), les entreprises soient
désormais en recherche d’experts capables de traiter l’infobésité et d’en tirer toute la quintessence décisionnelle
et managériale tant attendue : c’est ainsi que le besoin en Data Scientist est né !
La situation est telle aux Etats-Unis que les auteurs évoquent le cas de Greylock Partners, la fameuse société de
capital-risque où travaille D.J Patil, et qui a soutenu Facebook et LinkedIn. En affirmant leur réelle préoccupation
quant à l’ampleur de la pénurie de talent aux US, de ce type de scientifiques capables de traiter ce phénomène «
Big Data » que Greylock Partners a décidé de créer une structure désormais dédiée à ce type de recrutement et
capable de canaliser ces rares ressources vers les entreprises de leur portefeuille.
Ce concept et titre de Data Scientist aurait été inventé dès 2008 et forgé à partir du concept de « Data Science »
(par analogie avec « Computer Science ») par D.J Patil et Jeff Hammerbacher, alors tous deux en charge du data
management et de la data analyse chez LinkedIn et Facebook. Période durant laquelle ils eurent l’idée de se
rencontrer régulièrement pour échanger sur leur métier et leur méthode d’investigation des données de plus en
plus complexe et s’apparentant grandement à la démarche scientifique.
Les Data Scientists apparaissent comme des acteurs clés en entreprise pouvant réaliser toutes les possibilités
offertes par le déluge informationnel. Ils apportent une méthodologie, une approche très structurée, trouvent des
modèles statistiques convaincants et ainsi conseillent les dirigeants sur les stratégies en matière de portefeuille
produits, de stratégie marketing et commerciale et les orientent dans leur processus de décision. Les auteurs
n’hésitent pas à comparer le travail du Data Scientist à celui d’un véritable scientifique, en prenant l’exemple d’un
Data Scientist qui travaille sur des problèmes de fraude et dont l’analyse des données s’apparenterait de manière
analogue à un problème de type séquençage de l'ADN. Les auteurs pensent sans doute au séquençage de
nouvelle génération (en anglais « next generation sequencing ») qui est un ensemble de méthodes apparues à
partir de 2005 pour réaliser du séquençage à très haut débit. Il se caractérise par l'utilisation d'approches
massivement parallèles, permettant de séquencer des centaines de milliers de fragments simultanément. Depuis
le séquençage du premier génome en 1995, la production de données de séquençage d'ADN a révolutionné les
possibilités de compréhension du vivant par la biologie moléculaire. Avec l'arrivée des technologies de
séquençage à très haut-débit, on assiste aujourd'hui à une explosion des volumes de données avec un
doublement des bases de données de séquence tous les 6 mois et une augmentation du débit d'acquisition d'un
facteur 1000.
Ce déluge de données ouvre de nouvelles perspectives scientifiques notamment dans le domaine de la « méta-
génomique » qui vise à caractériser l'ensemble des génomes bactériens d'un écosystème complexe: il est
désormais possible de quantifier les génomes, gènes et fonctions de ces écosystèmes. En effet, ce traitement est
un traitement « Big Data » qui constitue un défi majeur tant en matière d'optimisation des calculs qu'en matière
de stockage et de leur mise à disposition aux biologistes. Mais la comparaison entre la lutte contre la fraude et la
génomique et le super-séquençage du génome s’arrête là et tient au fait que le traitement massif parallèle des
données est rendu possible par l’utilisation notamment d’une petite invention logicielle due à Yahoo ! (framework
open source) Hadoop et de l’invention de Google (un framework open source) voulant optimiser sa puissance
d’indexation: MapReduce. Autre point que les auteurs passent sous silence : l’effort à consentir pour maitriser la
programmation MapReduce explicite (sans scripts) sous Hadoop semble relativement longue. En effet, une durée
comprise entre 6 mois à 1 an ne semble pas surestimée s’il s’agit d’acquérir une expérience significative. On
estime à ce jour en France à une petite centaine de personnes les « data scientists » potentiels et donc
possédant de réelles compétences informatiques et statistiques. En ce qui concerne les langages de plus haut
niveau Pig, Hive QL on peut estimer à quelques semaines le temps de formation et d’apprentissage nécessaires
pour parvenir à un niveau de compétences suffisant, vu la proximité avec les langages existants. En donnant ces
estimations, nous présupposons plusieurs problèmes et paradoxes ignorés par les auteurs de l’article :
- l’explosion des données non-struturées a permis aux géants Yahoo ! et Google de créer les outils nécessaires à
ce traitement de l’infobésité via des technologies et des process nouveaux et peu maîtrisés encore, faisant la part
belle au logiciel libre (Hadoop et MapReduce),
- la plupart des DSI des grands groupes sont encore réticents quant à l’utilisation de ces technologies jugées
encore « exotiques » dès lors que l’on parle de « framework applicatif open source »,
- les solutions logicielles packagées par les grands éditeurs atteignent des prix exhorbitants versus l’approche «
open source » des 2 briques indispensables au traitement du Big Data (Hadoop & MapReduce) elles-mêmes ré-
utilisées par les grands éditeurs de logiciels,
- bon nombre de grandes entreprises sont encore équipées de solution de CRM et de BI classiques et ne
perçoivent toujours pas le sens (signification et direction) de la révolution imposée par ce tsunami des data non
struturées à la fois techniquement et humainement,
- expliquer et comprendre comment dans les entreprises, les data miners ou data crunchers d’hier devront sans
aucun doute évoluer vers la « data science » pour pénétrer les mystères du Big Data,
- comment accompagner cette transformation du traitement des données qui implique une transformation des
méthodes et process de travail et qui conclut à une transformation organisationnelle et managériale en
entreprise,
- enfin, il n’existe pas de formation ou de cursus universitaire type « Data Scientist »,
- point spécifique à la France : les grandes écoles ne semblent pas vouloir répondre à cette demande et sont
encore hermétiques à l’idée de former des ingénieurs-statisticiens (type X/ENSAE par exemple) et devenir « Data
Scientist »,
- les étudiants eux-mêmes sont peu enclins aujourd’hui à opter pour ce type de job et de position « trop jeune »
en entreprise,
- l’effet de « mode » autour du phénomène Big Data semblerait desservir les intérêts pour le métier de « Data
Le Cercle Les Echos
Like You like this.
You and 6,748 others like Le Cercle Les Echos.
Facebook social plugin
NUAGE DE TAGS
2012 Allemagne Banque BCE Chine
Chômage Compétitivité conjoncture
CriseCroissance Dette dette
publique Developpement durable démocratie
développement Economie Emploi
Energie Entreprise Environnement Etats-
Unis Euro EuropeFiscalite
France grèce Hollande Immobilier Industrie
Innovation Internet
Management Marketing nucléaire
PME Politique Politique économique
présidentielle Santé société

Scientist ».
Pourtant dans cet article, Davenport et Patil se demandent comment repérer, attirer et développer ses nouveaux
talents qui devraient combiner une formation scientifique de type PhD (sciences dures ou appliquées) avec un
diplôme de statisticien dans le meilleur des cas ? Le Data Scientist serait un « oiseau rare », perçu souvent
comme un « martien » qui devra s’intégrer dans une entreprise où les méthodes et les process seront bousculés
par l’approche scientifique et la culture « data-driven » de ce nouveau profil…
Patil a été lui-même Head of Data Product pour le géant américain des réseaux sociaux professionnels Linkedin
avant de devenir le Data Scientist en chef chez Greylock Partners. Et il raconte alors l’histoire du recrutement et
de la difficile intégration de Jonathan Goldman (titulaire d'un doctorat en physique de Stanford) embauché en
Juin 2006 par Linkedin. Le réseau social professionnel était encore une start-up et la compagnie comptait un peu
moins de 8 millions de comptes utilisateurs (membres actifs). Le nombre de nouveaux membres grandissait
rapidement alors que les membres déjà inscrits ne développaient pas suffisamment leur réseau de contact (peu
d’invitations d’amis ou de collègues par les membres…), ce qui est le « facteur clé de succès » de tout réseau
social. En effet, les utilisateurs de l’époque montraient peu de connexions avec les autres membres du réseau,
alors que le niveau d’inscription individuelle sur le site augmentait…
C’est pour cette raison que Jonathan Goldman fut surpris par les faibles inter-connexions entre membres du
réseau Linkedin, et ne comprenait pas pourquoi un tel phénomène n’avait pas davantage intrigué la direction de
Linkedin… Lui avait déjà perçu la grande richesse d’informations disponibles sur les membres inscrits, mais
tâtonnait en terme d’analyse : alors il continua à chercher, analysa les connexions entre membres, forma des
hypothèses, testa des intuitions, trouva des modèles permettant de prédire les types de connexions entre
membres en fonction des critères relatif à l’entreprise, l’école fréquentée… pour proposer un moyen infaillible de
développer les inter-connexions entre membres. Il fallait être capable de suggérer aux membres des profils de
personnes connues par un membre en lien avec son secteur d’activité, son entreprise, ses diplômes, son lieu
d’habitation. Toutes ces données cruciales pour mieux connaitre les profils de chaque membre et par conséquent
les classer par cluster cohérent. Mais l'équipe d'ingénierie de LinkedIn, pris dans les défis techniques liés à
l’évolution de la plate-forme (scalabilité du site) semblaient peu intéressés par les découvertes de Goldman.
Certains de ses collègues furent même ouvertement dédaigneux aux idées du jeune Data Scientist selon Patil…
Heureusement, Reid Hoffman, co-fondateur de LinkedIn et PDG de l'époque, avait foi dans la puissance de
l'analyse statistique en raison de son expérience chez PayPal (plateforme de paiement appartenant à e-Bay) et il
avait accordé à Goldman une vraie confiance et un fort degré d'autonomie. Il donna à Goldman un moyen de
contourner le cycle classique des mises à jour du site, l’évolution des cycles de publications, en un mot
contourner le webmastering officiel du site, en testant des petits modules sous la forme d'annonces publiées sur
les pages les plus populaires du site.
Grâce à cette initiative et cette culture « test and learn », Goldman a commencé à tester avec succès la
présentation de profils (en mode « push ») en affinité avec chaque utilisateur pris individuellement. Ces profils
étaient sensés être connus par les membres destinataires de ces propositions de connexion. Par phase
successive, itération après itération Goldman arriva à trouver un modèle d’annonce personnalisée pour chaque
membre Linkedin en proposant de montrer les trois meilleurs profils le plus en affinité avec chaque utilisateur
basé sur son profil, son parcours professionnel, sa carrière décrit dans sa fiche Linkedin (type « CV détaillé »). En
quelques jours, quelque chose de remarquable se produisit : le taux de clic sur ces annonces était le plus élevé
du site, du jamais vu depuis l’arrivée de Goldman. Les annonces générèrent un taux de clic de 30% plus élevé
que le taux obtenu par les autres bannières invitant à visiter d'autres pages du site. Ces annonces générèrent au
final des dizaines de millions de nouvelles pages vues pour Linkedin et ont contribué à son incroyable succès
aujourd’hui. Aussi, Goldman continua à améliorer la façon dont les suggestions de profils furent recommandées
aux membres, s’inspirant des idées de réseautage telles que « la théorie du triangle fermé » (« triangle closing »),
l'idée selon laquelle si vous connaissez « Larry et Sue », il y a de grandes chances que « Larry et Sue » se
connaissent aussi !
Toutefois on peut regretter que les auteurs de donnent pas de définition claire et distincte du « Data Scientist »,
et ne dresse pas de portrait ou de profil type de ce nouveau métier en pleine pénurie ! Les prévisions les plus
pessimistes estiment qu’il manquera environ 100 000 Data Scientists en 2020 aux Etats-Unis pour répondre aux
besoins analytiques des entreprises. En généralisant ces estimations au monde entier et en incluant les
professions périphériques (data miners, spécialistes BI…), ce sont plus d’un million de spécialistes qu’il
conviendra de former dans les dix prochaines années.
Des analystes de Gartner ont appliqué une méthode d’analyse textuelle pour dresser le profil type du Data
Scientist. Sans surprise, les premiers titulaires de ce nouveau métier doivent savoir travailler en groupe, maîtriser
la gestion des Big Data et s’appuyer sur une réelle maîtrise de la communication. Mais qu’englobe exactement le
terme « Data Scientist » ? Les analystes de Gartner ont tenté de répondre à cette question en appliquant les
techniques d’analyse textuelle à un grand nombre de descriptions de postes et d’offres d’emplois publiées dans
la presse, puis de comparer les résultats ainsi obtenus pour les termes « Data Scientist », « statisticien » et «
expert en Business Intelligence ».
Les mots clés les plus fréquemment utilisés pour les Data Scientists sont : expérience, équipe, Hadoop,
modélisation, analyse… Les trois compétences principales qui se dégagent sont le management de données, la
modélisation analytique et l’analyse métier. D’autres termes apparaissent également fréquemment :
communication, collaboration, créativité. Le même type d’approche a été conduit par la société Indeed.com
(moteur de recherche d’offres d’emploi) qui publie le résultat de son étude en décembre 2011 (cf graphe «
Indeed.com » infra):
- les offres d’emplois comportant l’expression exacte « Data Scientist » sont pratiquement inexistantes avant
2010.
- la croissance des offres d’emploi de « Data Scientist » sont montés en flèche à partir de Février 2010 et
jusqu’en décembre 2011 (date de publication de l’étude) pour dépasser les 6500% !

Et pour cause, puisqu’il faudra attendre Mars 2011 pour que le phénomène « Big Data » soit révélé et évangélisé
auprès des entreprises américaines avec la parution du rapport McKinsey... A ce stade, il nous semble important
de nous pencher sur le profil et la rémunération des Data Scientist, sujet sur lesquels Davenport et Patil sont
silencieux.
Pour ce faire, nous avons repéré une étude disponible sur le web réalisée par l'éditeur SiSense (spécialiste de BI
Agile et qui se définit le spécialiste du logiciel d’analytics Big Data). Cette étude a été mené au mois de juillet
2012 et constitue une vaste enquête en ligne qui permis à plus de 400 professionnels de répondre à une série de
questions afin de comprendre : Qui sont les professionnels de la data analyse ? Où travaillent-ils ? Quel est leur
niveau de rémunération ? Quelles sont les perspectives du secteur ? Et enfin qui sont les Data Scientists ?
Source : Etude SiSense 2012
Cette étude a mis en évidence que 48 % des répondants étaient basés en Amérique du Nord et seulement 24 %
en Europe. L’étude révèle que les salaires des professionnels de l'analyse de données sont globalement assez
élevés, même si l'écart-type est important et surtout le niveau est très inférieur en Europe par rapport aux US. Un
analyste de données gagnera en moyenne 55 000 dollars, un Vice-Président Analytics gagnera en moyenne 132
000 dollars. Un « Data Scientist » sera entre les deux avec une moyenne de 89 000 dollars, soit 61 % de plus
qu'un « Data Analyst ».
L’effet de mode et la dite pénurie aura donc un effet haussier sur le salaire. La localisation géographique a
également un effet sur la rémunération. Les professionnels de la donnée gagnent en moyenne 32 000 dollars
seulement en Asie, et 96 000 dollars aux Etats-Unis, soit le triple ! Le Canada est assez proche des Etats-Unis
avec un salaire moyen de 82 000 dollars et l'Europe dans la moyenne avec 64 000 dollars.Concernant les
intitulés de postes, seuls 7 % des répondants à l'enquête portent le titre exact de « Data Scientist ». La majorité
se nomment « Business Analyst » pour 34 %, ou « Data Analyst » pour 27 %. Selon SiSense, une des raisons de
la faible proportion de Data Scientist serait l'absence de définition claire de cette profession. N'oublions pas
également que ces nouveaux termes datent de 2008 seulement. Si le métier de Data Scientist prend de l'ampleur
et gagne en reconnaissance, la part des professionnels qui en adopteront le titre ira grandissante.
Même si l'aide à la décision et l'analyse de données datent maintenant de quelques décennies, le marché semble
en forte croissance puisque 33 % des professionnels ayant répondu à cette étude affichent moins de 3 années
d'expérience professionnelle. Et ils ne sont pas sur-diplômés : 47 % des répondants ne disposent au maximum
que d'un « bachelor », correspondant à la licence en France. Seuls 5 % des professionnels de la donnée sont
des docteurs (PhD). Mais attention parmi les Data Scientists, le pourcentage de docteurs (PhD) monte à 35
%.D’après une étude d’EMC, les experts de la Business Intelligence ne formeront pas les futurs Data Scientists.
Seuls 12% seront des transfuges de la BI: « While most BI professionals do their analysis and data processing in
Excel, data science professionals are using SQL, advanced statistical packages, and NoSQL databases ». Les
entreprises attendent visiblement (à 34%) que les bataillons d’étudiants informatiques correctement formés
s’échappent de leurs écoles d’ingénieurs pour prendre leur programme Big Data en main. Les experts métiers
suivent à 27%, l’étudiant « lambda » à 24%.
Les professionnels de la donnée travaillent dans de petites équipes : 65 % des répondants travaillent dans des
équipes de moins de six personnes, mais pour les grandes sociétés, de plus de 1 milliard de dollars de chiffre
d'affaires, une équipe de plus de 50 professionnels de la donnée est constituée dans 30 % d'entre elles.
Après avoir vu leurs salaires progresser en 2012 (pour 61 % des répondants), les perspectives semblent encore
meilleures pour 2013. En effet, 78 % des répondants anticipent une augmentation de salaire en 2013; ils sont
même 25 % à espérer voir leur salaire augmenter de plus de 10 % l'an prochain.
A présent, nous aimerions distinguer entre les fonctions de Data Miner et de Data Scientist. Davenport et Patil
n’ayant pas jugés utile d’opérer cette démarche, afin d’éclairer la définition du nouveau métier de Data Scientist
et marquer fonctionnellement la rupture avec les professions de l’ancienne ou actuelle génération d’analyste de
données. Il semblerait qu’une majorité d’auteurs s’intéressant au « job description » des Data Scientist passent
sous silence cette distinction, ou bien l’ignore, ou alors considère que le Data Scientist s’inscrit dans une
continuité linéaire de l’évolution de la fonction de Data Miner et qu’un simple changement de titre ou de
dénomination suffirait à appréhender le déluge informationnel avec une rigueur scientifique et une vision
stratégique. Or cette approche distinctive sur le plan conceptuel est aussi cruciale que celle qui consiste à
distinguer le CRM, la BI traditionnelle, les données structurées avec le Big Data, les données non structurées, la
BI Agile !
Commençons par redéfinir le rôle du Data Miner et ce qu’est le Data Mining. Le Data Miner gère et optimise
l’ensemble des outils permettant à l’utilisateur d’accéder aux données de l’entreprise, de les analyser. Nous
restreindrons ici le terme de Data Mining aux outils ayant pour objet de générer des informations riches à partir
des données de l’entreprise, notamment des données historiques, de découvrir des modèles implicites dans les
données. Ils peuvent permettre par exemple dans le secteur de la distribution, à un magasin de dégager des
profils de client et des achats types et de prévoir ainsi les ventes futures sur l’analyse des transactions passées. Il
permet d’augmenter ainsi la valeur des données contenues dans le DataWarehouse. Les outils d’aide à la
décision, qu’ils soient relationnels ou OLAP, laissent l’initiative à l’utilisateur, qui choisit les éléments qu’il veut
observer ou analyser. Au contraire, dans le cas du Data Mining, le système a l’initiative et découvre lui-même les
associations entre données, sans que l’utilisateur ait à lui dire de rechercher plutôt dans telle ou telle direction ou
à poser des hypothèses. Il est alors possible de prédire l’avenir, par exemple le comportement d’un client, et de
détecter, dans le passé, les données inusuelles, exceptionnelles.
Ces outils ne sont plus destinés aux seuls experts statisticiens mais doivent pouvoir être employés par des
utilisateurs connaissant leur métier et voulant l’analyser, l’explorer. Seul un utilisateur connaissant le métier peut
déterminer si les modèles, les règles, les tendances trouvées par l’outil sont pertinents, intéressantes et utiles à
l’entreprise. Le succès du concept de Data Warehouse et le nombre croissant de bases de données
décisionnelles disponibles dans les entreprises, dynamise fortement l'offre Data Mining. Le terme de Data Mining

signifie littéralement forage de données. Comme dans tout forage, son but est de pouvoir extraire un élément : la
connaissance. Ces concepts s’appuient sur le constat qu’il existe au sein de chaque entreprise des informations
cachées dans le gisement de données. Ils permettent, grâce à un certain nombre de techniques spécifiques, de
faire apparaître des connaissances. Nous appellerons Data Mining l'ensemble des techniques qui permettent de
transformer les données en connaissances. L'exploration se fait sur l'initiative du système, par un utilisateur
métier, et son but est de remplir l'une des tâches suivantes : classification, estimation, prédiction, regroupement
par similitudes, segmentation (ou clusterisation), description et, dans une moindre mesure, l'optimisation.
Le Data Miner utilise donc des méthodes statistiques bien établies, mais aussi des développements récents issus
de la modélisation informatique. Sans prétendre à l’exhaustivité, on distinguera les méthodes exploratoires où il
s’agit pour le Data Miner de découvrir des structures ou des comportements inattendus, de la recherche de
modèles prédictifs où une « réponse » est à prédire. On dit alors que le Data Miner mène une « exploration non
supervisée » car il utilise des techniques de projection orthogonale sur des sous-espaces : analyse en
composantes principales, analyse des correspondances, permettent de réduire efficacement la dimension du
point de vue du nombre de variables. Les méthodes de classification visent à former des groupes homogènes
d’unités en maximisant des critères liés à la dispersion (« k-means »). Des extensions non-linéaires (« splines »,
« noyaux », etc.) étendent le champ de ces méthodes classiques.
Mais il peut également employer la méthode de recherche de règles d’association qui est une des innovations du
Data Mining : introduite en 1993 par des chercheurs en base de données d’IBM, elle a pour but de rechercher
des conjonctions significatives d’évènements. Typiquement une règle de décision s’exprime sous la forme : si (A
et B) alors C mais il s’agit d’une règle probabiliste et non déterministe. On définit le support de la règle comme la
probabilité d’observer à la fois la prémisse X et la conclusion Y : P(X∩Y) et la confiance comme P(Y/X). Parmi les
règles ayant un support et une confiance minimale on s’intéressera à celles où P(Y/X) est très supérieur à P(Y).
Les premières applications ont concerné les achats dans les grandes surfaces : parmi les milliers de références
disponibles et les millions de croisements, identifier les achats concomitants qui correspondent à des fréquences
importantes. Cette méthode s’étend bien au-delà de ce type d’application. L’originalité tient essentiellement à la
complexité algorithmique du problème.
Enfin, le Data Miner peut procéder à des prédictions ou « apprentissage supervisé ». Inutile d’évoquer ici les
techniques de régression bien connues. La méthode la plus typique est certainement celle des arbres de décision
: pour prédire une réponse Y, qu’elle soit numérique ou qualitative, on cherche tout d’abord la meilleure partition
de l’ensemble des données (en général en deux sous-ensembles) issue d’une partition effectuées sur les
prédicteurs et on itère dans chacun des sous-ensembles : la croissance exponentielle de l’arbre est contrôlée par
des critères d’arrêt de type coût-complexité ainsi que par l’usage de données de validation qui permettent
d’éliminer les branches non pertinentes.
Cette technique conduit à des règles de décision très lisibles, d’où son succès, et hiérarchise les facteurs
explicatifs. A l’opposé en termes de lisibilité, les logiciels de Data Mining proposent souvent des méthodes
hautement non-linéaires comme les réseaux de neurones, les machines à vecteurs de support (SVM). Même si
les règles de décision ont une forme mathématique explicite, celle-ci est en général très complexe et ces
méthodes sont utilisées comme des boîtes noires. Une autre approche consiste à complexifier des méthodes
simples : les arbres de décision étant souvent instables, le Data Miner va en utiliser plusieurs obtenus sur des
données « ré-échantillonnées » par « bootstrap » : la décision finale s’obtient par une procédure de vote s’il s’agit
d’un problème de classification, ou de moyenne pour un problème de régression : c’est le « bagging ». Citons
également le « boosting », qui consiste à améliorer des procédures.
Toutes ces méthodes d’analyse ou de « forage des données » par le Data Miner sont aujourd’hui utiles pour
optimiser la connaissance client à partir des données structurées, mais ne suffisent plus dans un contexte de
tsunami informationnel. Le rôle du Data Scientist va être justement de traiter ce phénomène, en étant capable
d’extraire tout le sens et la direction de l’information non structurée provenant du web, des réseaux sociaux, du
mobile, de fichiers multimédia (son, photo, vidéo) par une transformation des data brutes (raw data) en
connaissance actionnable… Le Data Scientist peut tout d’abord exister et travailler aux côtés de Data Miners et
même gérer un périmètre métier, fonctionnel, et technique déconnecté des missions des Data Miners classiques,
cantonnés aux traitements des datas structurées dans des environnements connus de l’IT et du métier (au
service du CRM, du marketing, du commercial…). Le Data Scientist pourrait être en charge dans le cas d’une
banque ou d’une compagnie d’assurance d’assurer le scoring prédictif de la fraude, ou anticiper le départ de
clients stratégiques par modélisation statistique avancée. Les Data Miners eux resteraient en charge de l’analyse,
du scoring bancaire clients, de la segmentation comportementale et de la gestion de la base de connaissance
standard (via les données structurées de l’entreprise).
L’intérêt de recruter un Data Scientist pour lui confier le rôle et les missions d’un Data Miner n’a donc aucun sens.
Le Data Scientist doit pouvoir travailler en toute autonomie et en exploitant pleinement ces compétences en
modélisation statistique, en exploitation et analyse des bases de données, pour faire de la segmentation clients,
produits à la demande. Il doit maitriser totalement le framework Map-Reduce, utiliser et comprendre les langages
Perl ou Python ou Java voir Pig qui s’impose. Bien entendu, il va devoir travailler avec les BDD SQL ou NoSQL,
et enfin il devra devenir le Michel-Ange de la Data Viz pour être tout à fait complet…On voit bien que le profil de
Data Scientist est très pointu, et qu’à l’heure actuelle, très peu de candidats peuvent répondre à ces nombreuses
exigences et compétences tout aussi récentes, nouvelles que rares… Et nous pensons que ce profil de Data
Scientist conduira inévitablement à créer et recruter un poste clé pour l’Exécutif de demain au sein de grands
groupes : le Chief Data Officer à ne pas confondre avec son homologue le « Chief Digital Officer ». Car avec une
telle position, le problème du « HIPPO » ne se posera plus dans les organisations qui n’auront pas levé ce
préjugé : le Chief Data Officer fera partie intégrante de la « C-suite » et sera considéré comme tel par ses
homologues CMO, CTO... Un profil que le cabinet de recrutement de cadres dirigeants Russell Reynolds
Associates voit comme critique pour les grands groupes et dont les embauches vont commencer dès 2013. Et il
ne s'agit pas d’un nouveau CIO ou CTO mais bien d'un nouveau poste à la jonction du marketing et l’IT. Leur

Bruno du Teilleul
L’expérience client :
(re)définition
Jérôme Lanoy
Les 6 grands principes de
l'innovation design (partie I) –
Pour positionner, innovez !
Olivier Mathiot
Identifier les raisons de la
croissance et réinventer les
règles de fonctionnement des
entreprises
Vihan Sharma, Acxiom
Les bénéfices multiples d’une
solution de marketing
personnalisé
PUBLIER CE COMMENTAIRE
hypothèse est qu'en 2015 la moitié des Fortune 100 auront recruté leur Chief Data Officer…
À LIRE ÉGALEMENT
COMMENTER L'ARTICLE
Il vous reste 2000 caractère(s) pour écrire votre commentaire.
POLITIQUE
Élections 2012
Vie politique
ÉCONOMIE & SOCIÉTÉ
Politique éco & Conjoncture
International
Société
Social
Immobilier
Recherche & Innovation
Énergies & Environnement
Assos & Fondations
Recherche éco
Dossiers spéciaux
LES ECONOMISTES DE PROJECT
SYNDICATE
Joseph E. Stiglitz
Nouriel Roubini
Kenneth Rogoff
J. Bradford DeLong
Jeffrey D. Sachs
Dominique Moïsi
Autres auteurs
ENTREPRISES & MARCHÉS
Finance & Marchés
High Tech & Médias
Industrie
Management
Services
Dossiers spéciaux
Stage d'été
ENTREPRENEUR
Création d'entreprise
Social RH
Fiscalité
Juridique
Compta-finances
Marketing
Internet
Développement
Innovation
Patrimoine
LE CERCLE +
Vidéos Livres Abécédaire
Sites web
PLAN DU SITE
Le Cercle Les Echos Aide Nous contacter Charte d'utilisation C.G.U/C.G.V
Les Echos Investir Enjeux Les Echos Capital Finance Les Echos Entrepreneur Bilansgratuits Eurostaf Conférences Salon des Entrepreneurs Les Echos

de la Franchise L'Institut Les Echos Les Echos Formation Série limitée Les Echos ePaper LeCrible.fr Radio Classique Connaissance des Arts La Fugue

Data scientist: le job le plus sexy du 21ème siècle

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (11)

Similaire à Data scientist: le job le plus sexy du 21ème siècle

Similaire à Data scientist: le job le plus sexy du 21ème siècle (20)

Plus de Bruno Teboul

Plus de Bruno Teboul (19)

Data scientist: le job le plus sexy du 21ème siècle