Le Metier de
Data Scientist
Thomas Delecroix - 2016
Le métier de Data Scientist
Thomas Delecroix 2016
Les origines du Data Scientist
Les compétences du Data Scientist
Le Data...
Les origines du Data Scientist
Le métier de Data Scientist
Les origines du Data Scientist
• Statisticien ?
• Informaticien ?
• Ingénieur ?
• Analyste ?
Tous exploitent les données…
...
Les origines du Data Scientist
Thomas Delecroix 2016
Évolution de l'intérêt pour le terme « Data Scientist »
Thomas Delecroix 2016
Source :
Au 11/02/2016
2012 : « Data Scienti...
Les compétences du Data Scientist
Le métier de Data Scientist
Compétences du Data Scientist
Thomas Delecroix 2016
MATHS & STATS
☆ Machine Learning
☆ Modélisation statistique
☆ Plan d'e...
Dimension mathématique & statistique
• Niveau de signification, correction de biais, calcul de probabilités
• Algo prédict...
Dimension technologique/informatique
• Excel, BO, SAS… OK mais pas suffisant
• Programmer afin de s’affranchir des limites...
Dimension technologique/informatique
Thomas Delecroix 2016
“Le Data Scientist ne connaîtra pas tous les rouages d’un langa...
Dimension Business
• Comprendre le business, analyser les enjeux
commerciaux/risques de son secteur
• Comprendre les subti...
Alors, mouton à 5 pattes ?
« Non ce ne sont pas des licornes, ce ne sont ni des intellectuels, ni des thésards
qui ont éch...
Le Data Scientist dans l’organisation
Le métier de Data Scientist
Recrutement & Formation
•Qui ?
Thomas Delecroix 2016
•Quel cursus ? •Où ? •Qualité ?
Recrutement ?
• Data scientist superstar : trop cher donc constitution d’une équipe pluridisciplinaire,
c’est le Data Lab
...
L’échec doit être envisagé comme une étape normale et inévitable de
l’acquisition de connaissance par l’expérimentation
Le...
Rattachement du Data Lab dans l’organisation
Thomas Delecroix 2016
• Idéal : rattachement transverse à l’orga
• Risque : i...
Le Workflow du Data Scientist
Le métier de Data Scientist
Workflow
Thomas Delecroix 2016
Imaginer un produit
Collecter les données
Préparer les données
Modélisation
Visualisation
O...
• Besoin / opportunité métier => formulation plus rigoureuse
potentiellement implémentable dans un modèle prédictif
• Pens...
Thomas Delecroix 2016
Imaginer un produit ou un service
Collecter les données
Thomas Delecroix 2016
Disponibilité des données ?
Thomas Delecroix 2016
Collecter les données
Qualité des données ?
Thomas Delecroix 2016
Collecter les données
Techniques ?
Thomas Delecroix 2016
Collecter les données
Enjeux politiques ? Enjeux juridiques ?
Préparation des données
Thomas Delecroix 2016
Homogénéiser
Nettoyer
Mise à l’échelle
Croisement
Thomas Delecroix 2016
Modélisation
« Better data outweighs clever maths »
Feature ingineering
Visualisation
Thomas Delecroix 2016
Une image
vaut
mille mots
Thomas Delecroix 2016
Visualisation avec les Web’dev
Thomas Delecroix 2016
Visualisation avec les métiers
Thomas Delecroix 2016
Visualisation avec ses clients
Thomas Delecroix 2016
Visualisation avec ses pairs
Thomas Delecroix 2016
Optimisation
Thomas Delecroix 2016
Thomas Delecroix 2016
Déploiement
Scaling
Industrialisation
Déploiement
Thomas Delecroix 2016
Thomas Delecroix 2016
Quelques « Succès story » de Data Scientist
En résumé
Le métier de Data Scientist
Le métier de Data Scientist
Plusieurs facettes
Mise en place d’un Data Lab : le Data
Scientist polycéphale
3 activités pri...
Thomas Delecroix 2016
http://thomasdelecroix.com/
Bonus
Le métier de Data Scientist
Recrutement & Formation
Thomas Delecroix 2016
Formations professionnelles :
• Certains ont des catalogues de formations
bi...
Lien vers le site web de la société >
Thomas Delecroix 2016
Prochain SlideShare
Chargement dans…5
×

Le métier de data scientist // The job of data scientist

1 179 vues

Publié le

Pour une meilleure visualisation préférez la version PowerPoint dispo içi : https://onedrive.live.com/redir?resid=89CAF7C6BA090178!420&authkey=!AK7aYz7rKgR_c1g&ithint=file%2cpptx
-----------------------------------------------------------------------------------
Vue d'ensemble de ce qu'est un Data Scientist en 2016
Overview of what is a Data Scientist in 2016

Publié dans : Données & analyses

Le métier de data scientist // The job of data scientist

  1. 1. Le Metier de Data Scientist Thomas Delecroix - 2016
  2. 2. Le métier de Data Scientist Thomas Delecroix 2016 Les origines du Data Scientist Les compétences du Data Scientist Le Data Scientist dans l’organisation Le Workflow du Data Scientist Résumé
  3. 3. Les origines du Data Scientist Le métier de Data Scientist
  4. 4. Les origines du Data Scientist • Statisticien ? • Informaticien ? • Ingénieur ? • Analyste ? Tous exploitent les données… Alors le Data Scientist, qu’est-ce que c’est ? Thomas Delecroix 2016
  5. 5. Les origines du Data Scientist Thomas Delecroix 2016
  6. 6. Évolution de l'intérêt pour le terme « Data Scientist » Thomas Delecroix 2016 Source : Au 11/02/2016 2012 : « Data Scientist : The Sexiest Job of the 21st Century »
  7. 7. Les compétences du Data Scientist Le métier de Data Scientist
  8. 8. Compétences du Data Scientist Thomas Delecroix 2016 MATHS & STATS ☆ Machine Learning ☆ Modélisation statistique ☆ Plan d'expérience ☆ Inférence bayésienne ☆ Apprentissage supervisé : arbres de décision , forêt aléatoire , la régression logistique ☆ Apprentissage non supervisé : classification, réduction de dimensions ☆ Optimisation : algorithme du gradient et variantes PROGRAMMATION & BASES DE DONNEES ☆ Fondamentaux d'informatique ☆ Langage de script par exemple Python ☆ Packages de calcul statistique (ex : R) ☆ Bases de données: SQL et NoSQL ☆ Algèbre relationnelle ☆ Bases de données parallèles et traitement des requêtes parallèles ☆ Concepts MapReduce ☆ Reducer personnalisés ☆ Hadoop et Hive/Pig ☆ Expérience avec xaaS comme AWS DOMAINE DE CONNAISSANCES & QUALITES HUMAINES ☆ Passionné par l'entreprise ☆ Curieux sur les données ☆ Persuasif & convainquant ☆ Hacker dans l’âme ☆ Résolveur de problèmes ☆ Stratégique, proactive, créatif, innovant et collaboratif COMMUNICATION & VISUALISATION ☆ Apte à coopérer avec les managers seniors ☆ Compétences en story telling ☆ Traduire des concepts pilotés par les données en décisions et actions ☆ Design visuel ☆ Packages R comme ggplot ou lattice ☆ La connaissance d’un outil de visualisation comme Flare, d3.js ou Tableau Expertise mathématique Sens du Business & de la stratégie Compétences en « Hacking » DATA SCIENCE
  9. 9. Dimension mathématique & statistique • Niveau de signification, correction de biais, calcul de probabilités • Algo prédictifs, clustering • Quelle différence entre statisticien et Data Scientist ? Thomas Delecroix 2016 “Il déniche de nouvelles sources de données : Open Data, API tierces, données payantes, logs, etc… ”
  10. 10. Dimension technologique/informatique • Excel, BO, SAS… OK mais pas suffisant • Programmer afin de s’affranchir des limites logicielles • Plusieurs langages • Passage à l’échelle (scaling) • Machines et leurs limites • Parallélisations de traitements (cluster) • Notions d’optimisation Thomas Delecroix 2016
  11. 11. Dimension technologique/informatique Thomas Delecroix 2016 “Le Data Scientist ne connaîtra pas tous les rouages d’un langage, il relève plus d’un hacker, c’est à dire qu’il aura tendance à bricoler, à prototyper, à se débrouiller pour obtenir ce qu’il veut, coûte que coûte ” • L’écosystème Big Data & Data Science est en cours de construction, il faudra donc jongler en permanence entre les différents langages • Tout cela motive ce profil de « bidouilleur » et de « détective » qui doit arriver à ses fins au détriment de la manière ou des conventions
  12. 12. Dimension Business • Comprendre le business, analyser les enjeux commerciaux/risques de son secteur • Comprendre les subtilités • Construire des applications « data products » , prototyper rapidement & expérimenter en mode agile • Tourné vers l’action et non sur une étude ponctuelle • Bonne communication (graphique, présentations dynamiques, animations, story teller) • Collaboration avec les managers & décideurs Thomas Delecroix 2016
  13. 13. Alors, mouton à 5 pattes ? « Non ce ne sont pas des licornes, ce ne sont ni des intellectuels, ni des thésards qui ont échoués mais tout simplement des personnes avec des compétences en statistiques acquises au cours de leur parcours scolaire. Ils utilisent Hadoop, des modèles prédictifs et des graphes et c’est généralement ce qui les distingue des analystes BI. Enfin, ils ont pour objectif de créer des applications métiers. Les modèles prédictifs et les technologies qu’ils utilisent sont en permanente évolution, ce qui les amène à travailler sur un mode proche de celui de chercheurs en sciences expérimentales, par élaborations successives de prototypes, donnant parfois la fausse impression de se faire plaisir avec les dernières technologies en vogue. » Thomas Delecroix 2016 James Kobielus, Big Data Evangelist chez IBM :
  14. 14. Le Data Scientist dans l’organisation Le métier de Data Scientist
  15. 15. Recrutement & Formation •Qui ? Thomas Delecroix 2016 •Quel cursus ? •Où ? •Qualité ?
  16. 16. Recrutement ? • Data scientist superstar : trop cher donc constitution d’une équipe pluridisciplinaire, c’est le Data Lab • Il s’agit d’1 ou +ieurs équipes selon la taille de l’entreprise, travaillant en mode agile sur des projets stratégiques, innovants et créateurs de valeur pour l’entreprise à court et moyen terme (Quick Win) • Ce sont des • Architectes logiciels : conception de systèmes prédictifs • Analystes métiers : identification des use case • Data scientist : optimisation de processus d’apprentissage automatiques et conception des modèles prédictifs • Développeurs back/front : réalisation des systèmes conçus par les architectes et data scientists • Designers web : représentations graphiques dynamiques des résultats d’analyses Thomas Delecroix 2016
  17. 17. L’échec doit être envisagé comme une étape normale et inévitable de l’acquisition de connaissance par l’expérimentation Le Data Lab Thomas Delecroix 2016 Il ne faut pas sous-estimer l’importance des qualités humaines
  18. 18. Rattachement du Data Lab dans l’organisation Thomas Delecroix 2016 • Idéal : rattachement transverse à l’orga • Risque : inopérant & sans pouvoir réel sur l’orientation stratégique des métiers • Important : adhésion des métiers pour tester les prototypes innovants dans des conditions réelles Data Lab Département Métier IT Innovation Organisation Le Data Lab doit être sponsorisé auprès du comité exécutif. Le rôle du Data Chief Officer est précisément de faciliter le déploiement des innovations à toute l’entreprise
  19. 19. Le Workflow du Data Scientist Le métier de Data Scientist
  20. 20. Workflow Thomas Delecroix 2016 Imaginer un produit Collecter les données Préparer les données Modélisation Visualisation Optimisation Industrialisation
  21. 21. • Besoin / opportunité métier => formulation plus rigoureuse potentiellement implémentable dans un modèle prédictif • Penser produit c’est se demander ce que l’on veut impacter au niveau des métiers ? => la/les variable(s) cible(s) souvent novatrice. => variables prédictives grâce à la connaissance des métiers et du marketing sur nos clients. => comment mesurer le succès d’une prédiction ? Thomas Delecroix 2016 Imaginer un produit ou un service
  22. 22. Thomas Delecroix 2016 Imaginer un produit ou un service
  23. 23. Collecter les données Thomas Delecroix 2016 Disponibilité des données ?
  24. 24. Thomas Delecroix 2016 Collecter les données Qualité des données ?
  25. 25. Thomas Delecroix 2016 Collecter les données Techniques ?
  26. 26. Thomas Delecroix 2016 Collecter les données Enjeux politiques ? Enjeux juridiques ?
  27. 27. Préparation des données Thomas Delecroix 2016 Homogénéiser Nettoyer Mise à l’échelle Croisement
  28. 28. Thomas Delecroix 2016 Modélisation « Better data outweighs clever maths » Feature ingineering
  29. 29. Visualisation Thomas Delecroix 2016 Une image vaut mille mots
  30. 30. Thomas Delecroix 2016 Visualisation avec les Web’dev
  31. 31. Thomas Delecroix 2016 Visualisation avec les métiers
  32. 32. Thomas Delecroix 2016 Visualisation avec ses clients
  33. 33. Thomas Delecroix 2016 Visualisation avec ses pairs
  34. 34. Thomas Delecroix 2016
  35. 35. Optimisation Thomas Delecroix 2016
  36. 36. Thomas Delecroix 2016 Déploiement Scaling Industrialisation
  37. 37. Déploiement Thomas Delecroix 2016
  38. 38. Thomas Delecroix 2016 Quelques « Succès story » de Data Scientist
  39. 39. En résumé Le métier de Data Scientist
  40. 40. Le métier de Data Scientist Plusieurs facettes Mise en place d’un Data Lab : le Data Scientist polycéphale 3 activités principales : Conception de services prédictifs innovants Conception de prototypes de services prédictifs. Conseil auprès des équipes métiers Thomas Delecroix 2016
  41. 41. Thomas Delecroix 2016 http://thomasdelecroix.com/
  42. 42. Bonus Le métier de Data Scientist
  43. 43. Recrutement & Formation Thomas Delecroix 2016 Formations professionnelles : • Certains ont des catalogues de formations bien étoffés mais… • Il faut pouvoir mettre activement cet apprentissage en pratique • Participer à des concours de Data Science est le meilleur moyen • L’autoformation est une brique du métier pour rester constemment à jour, on peut la réaliser grâce à de nombreux MOOC comme openclassrooms, Coursera, edX • Cours de référence : « L’apprentissage automatique » de Andrew Ng de l’université de Standford Filières académiques : • Telecom ParisTech (master Spécialisé Big Data) • Université Pierre et Marie Curie (filière Big Data du Master de Mathéatiques et Applications) • ENSAE : spécialisation Data science • ENSAI : master Big Data • ENS Cachan : M2 MVA Mathématiques / Vision / Apprentissage • Polytech Lille génie informatique et statistique • Lille 1 : Master Ingénierie Statistique et Numérique)
  44. 44. Lien vers le site web de la société > Thomas Delecroix 2016

×