Le métier de data scientist // The job of data scientist

747 vues

Publié le

Pour une meilleure visualisation préférez la version PowerPoint dispo içi : https://onedrive.live.com/redir?resid=89CAF7C6BA090178!420&authkey=!AK7aYz7rKgR_c1g&ithint=file%2cpptx
-----------------------------------------------------------------------------------
Vue d'ensemble de ce qu'est un Data Scientist en 2016
Overview of what is a Data Scientist in 2016

Publié dans : Données & analyses
1 commentaire
3 j’aime
Statistiques
Remarques
Aucun téléchargement
Vues
Nombre de vues
747
Sur SlideShare
0
Issues des intégrations
0
Intégrations
119
Actions
Partages
0
Téléchargements
0
Commentaires
1
J’aime
3
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • En 2008
    Au début le temre « Data Scientist » a été inventé lors d’une converstion privé entre DJ et Jeff
    DJ Patil à Gauche (à l’époque LinkedIn) aujourd’hui « U.S. Chief Data Scientist » au bureau de Politique des sciences et technologies de la Maison Blanche 
    Jeff Hammerbacher (à l’époque Facebook) aujourd’hui « Fondateur & Chief Scientist » chez Cloudera
    Pour info, ces deux là ont été classé 2ième au classement «  the most powerfull Data Scientist »  du magazine forbes
  • Le buzz word Data Scientist
  • Le travail le plus sexy du 21ième siècle nécessite un mélange de compétences pluridisciplinaires à la confluence des mathématiques , des statistiques , de l'informatique , de la com’ et du business.
    Trouver un Data Scientist est difficile . Trouver des personnes qui comprennent ce qu’est un Data Scientist, est tout aussi difficile .
    Voici donc un mémo​de ce qu’est vraiment un Data Scientist moderne
  • Une des différence entre un statisticien et un data scientist dans son acceptation moderne est que…
    Le Data Scientist accorde moins d’importance à la pureté statistique d’un indicateur ou d’un algorithme qu’à son utilité Business

    A ce stade la créativité et la curiosité sont essentielles pour incorporer les bons facteurs dans un modèle et pour partir à lan chasse aux données endogènes
  • 1)C’est içi que le terme scientist prend tout son sens…
    2)Les contraintes 3V l’amène à devoir utiliser un éventail de technologies et de languages de programmation bien plus vaste que par le passé
    3) Récupérer maîtrisés pour récupérer, agréger, nettoyer, transformer, prototyper et modéliser. PHP pour scraping
    Agréger : SQL
    3) Familier des problématiques de
    Néttoyer : Bash/Shell
    Transformer : Python/Ruby
    Prototyper : ?
    Modéliser : Python, C++
    (Hadoop, Spark, Python)
    6) Hadoop, Grid
    7) pour les temps de calculs
  • Alors, en quoi est-il différent des informaticiens ?

    Google est mon amis
    Adepte de openclass rooms (ancien site du zéro)
  • Beaucoup d’attente de la part de ce nouveau métier
    2) pour en extraire les informations pertinentes pour son entreprise
    3) pour obtenir un feedback rapide des utilisateurs
    Exemple : Un système de recommandation de produit n’a pas de raison d’être s’il demeure à l’état expérimentation interne, il faut le confronter au client, le lancer en production et l’améliorer en temps réel
    4) La complexité des données manipulées implique une bonne communication et un esprit de synthèse pour convaincre ses collaborateurs et son management de la pertinence de ses analyses (graphique, présentations dynamiques, animations => story telling)
    5)Aide à la décision
  • Ce sont des hommes, des femmes, ayant un Background Statistique, ce sont des utilisateurs curieux des nouvelles technologies informatiques qui veulent profondément améliorer les métiers avec et pour eux. Ils travaillent dans un environnement mouvant, expérimental, à la pointe de la technologie ce qui donne la fausse impression d’être testeur de nouveaux gadgets
  • 2) Nouveau métier donc profils rares : Connaissez-vous une personne qui a 10 années d’expérience sur Hadoop ou en NoSQL

    Formations & diplômes sous-dimensionnés mais Il est possible de se former à Hadoop, à des méthodes stats ou des langages (R ou Python par exemple)
    Concours et/ou reconversions (DBA, développeurs, BI, Web’A)

    3)  L’imagination est plus importante que le savoir » - A. Einstein. (Kaggle.com, datascience.net)
  • Ils sont tous data scientist, le data scientist du point 2 est à prendre au sens strict
  • curiosité, sociabilité, enthousiasme à l’idée de quitter les sentiers battus
    Prérequis indispensables :
    Large autonomie technique (administrateur de sa machine pour installer des composants sans avoir de lourds processus de validation)
    Favoriser les échanges et la réutilisation de code
    Conditions de travail : créativité individuelle & échange d’idées (espace production calme & espace brainstorming
    Instaurer une culture de l’expérimentation et du prototypage
    plutôt que de créer des planifications détaillées/ des gestions
    lourdes de projets en décalage avec les projets IT innovants.
  • De cette question vont découler les… On peut citer le churn/attrition sur un service : La variable cible « le client se désabonne » se transforme en « A partir de quand un client se désintéresse d’un service ? »
    combinaison de différentes données parfois inexploitées pour leur conférer de la valeur ajoutée
    test, seuil, efficacité, ROI
  • Le management doit savoir que l’élaboration d’un modèle prédictif implique de travailler sur un mode expérimental et qu’une grande part du code développé sera jetable
    (Un leader c’est quelqu’un qui montre ce qu’il est possible de faire)

    La réticence du management à abandonner les démarches traditionnelles, rigoureusement et planifiées au profit d’une approche plus agile et plus expérimentale de l’IT qui n’est que la contrepartie de l’innovation authentique, reste à l’heure actuelle l’un des principaux freins aux projet de data science
  • Volume suffisant ?
    Quel coût ?
    Peut-on en acheter? (organisme tiers, recensement, etc…)
  • Précision suffisante ?
    Sources d’erreurs ? Correction ? Y’a-t-’il un biais ?
    Représentativité des données ?
    Richesse des données ? Rareté de l’évènement à prédire ?
  • Formats ? Technologies utilisées ?
    CSV, DB, fichier plats, XML, log, Hadoop
    transaction et log web par exemple

    Compétences des personnes ?
  • Enjeux informatiques : Réticences de l’IT à ouvrir les accès par souci de stabilité des applications

    Enjeux politiques : Données libres de droit ? Législation ? Lieu de stockage géographique des données ? (vie privée, désanonymisation)
  • Homogénéiser les formats des différentes sources & Différentes unités
    Nettoyer les données pour
    supprimer les enregistrements comportant des données manquantes
    ou les combler avec des estimations
    ou les combler avec des sources tierces
    Mise à l’échelle
    Croisement de données
  • Choix d’un nombre restreint de variables prédictives
    Feature engineering : utilisation de l’expertise métier pour imaginer de nouvelles variables prédictives. Le feature engineering fait appelle à la créativité et la connaissance métier des data scientist => partie noble et grtifiante de leur métier en contraste avec la préparation de données, brainstorming

    Potentiellement réduction dimensionnelle
    Choix de l’algorithme d’apprentissage selon le type de variable cible, Analyse factorielle, Random forest
    Modèle paramétrique ou non ?
    l’intuition et l’expérience sont de mise. Identification d’un problème à un autre sur lequel la méthode a fait ses preuves

    Apprentissage « on line » ou d’apprentissage statique ? Enrichissement permanent en fonction de l’accroissement du volume des données ou données figées

  • La visualisation intervient à toute les étapes. De l’étude d’opportunité au retour sur investissement en passant par la récolte et l’analyse. Elle est au service de la communication et de la pédagogie
    Il faut par conséquent l’adapter à notre publique
  • Avec les web’dev : vocabulaire technique HTML5, JavaScript, D3.JS
    D3 est une synthèse de l’ensemble des langages que nous devons aborder avec les web developpers, il synthétise HTML5, CSS3, Javascript, Jquery, SVG
  • Avec les utilisateurs métiers nous utiliserons des plutôt des graphiques statiques ou dynamiques pour le développement d’application back office
  • Avec les clients, il faut penser produit pour développer une application front office. Customer centric
    Plus que de l’interface homme-machine appelée UI, il faudra prendre en compte une dimension « UX », acronymie de User Experience est centré sur le l’utilisateur et son utilisation par son feedback
    Ex système de recommandation de produits, de parrainage, de lien social
  • Avec ses pairs, graphs technique (corrélation, ROC, des représentations graphiques de random forest etc…)
  • Monté en complexité de manière incrémentale et en accord avec les parties prenantes du projet
    Démarche agile pour mener rapidement de bout en bout une solution simple & fonctionnelle.

    Types d’optimisation :
    Sur paramètres
    Sur la taille des échantillons
    Ajustement de la complexité
    Exclusion de valeurs aberrantes
    Omissions de variables prédictives
    Création de nouvelles variables
    Pénalisation des observations trop bruitées
    Une analyse n’est jamais définitive et devra être challengée en permanence
    L’optimisation déborde sur le déploiement

    (3.1) compromis apprentissage/précision des prédictions
    (3.3) éviter le surapprentissage
    (3.4) biais
    (5) biais insoupçonnés, découverte de l’indisponibilité des données a posteriori
  • 2 problèmes
    1 Passage à l’échelle : dans un contexte Big Data la réalité dépasse les volumes de conception & test => réécriture pour gain de fiabilité & performance. (2) Python => Java, SQL=>Hive, Scikit-Learn=>Mahout

    2 Industrialisation : tous les algo ne sont pas parallélisables.
    Toute la chaîne doit être industrialisée collecte, nettoyage, transformation, enrichissement, représentation graphique

  • Une nouvelle classe d’outils de productivité qui facilite l’industrialisation existe, ex :
  • Sears : groupe de distribution américain ayant un centre de  75 981 m2 à Toronto
    Ils veulent aller plus loin que le stockage des bons d’achat et personnaliser les magasins. Leur process de pricing prenait 5 semaines avec des logiques de batch. Ils ne pouvaient pas le faire tourner souvent et impossible de différencier les prix selon les magasins. Ils ont tout descendu sur Hadoop, Le processus, de 5 semaines est tombé à 3 jours ;

    Exemple français avec Veolia qui met des capteurs sur les compteurs pour éviter les fuites et les fraudes. Toutes les heures ils ont une vue instantanée sur leur réseau. Ainsi la plupart du temps ça ne sert à rien, mais en cas de problème, ils sont capables d’agir vite et aussi de prévenir le client final et lui permettre d’agir en conséquence. Ils contruisent la ville intélligente de demain sur base du Big Data

    The climate Corp, est une startup fondée par des anciens de Google et ils proposent des assurances personnalisées et à distance aux agriculteurs, grâce à des capteurs, pour suivre les risques sur une récolte. Pour les sinistres c’est facile aussi, il y a une mesure. Cette Startup a été rachetée près d’un milliard de $ par Monsanto.

    Infinity : toujours de l’assurance, ils récupèrent toutes les données de déclaration de fraudes et en déduisent les signes avant-coureurs. Exemple : si vous déclarez que la voiture à brûlé mais il n’y avait rien à l’intérieur, donc cela permet de faire du scoring beaucoup plus précis et sans lancer des enquêtes pour rien car ça coûte cher. 85% des cas transmis au service des enquêtes sont un succès donc il y a un gain rapide de ROI. Text Mining
    William Dibble, senior vice president of Infinity Property & Casualty Co : « There’s no end to what data analytics is capable of doing. Every time we come up with ideas, holy mackerel, it just leads to others! »
  • Programmation informatique, analyste statistique, analyste métier & marketing
    Difficile de trouver des profils complets donc
    1) veille technologique sur les outils IT, avancées algorithmiques ou nouvelles méthodes d’analyse statistique
    2) avec workflow : collecte de données, préparation des données, modélisation, visualisation, optimisation
    3) anticipation des phénomènes sociaux ou économiques en apparence aléatoires.
  • Concours de data science : Kaggle, datascience.net
    Ex : En 2007 1M$ proposé par NetFlix en 2007 pour le meilleurs system de recommandation de film (remporté par 7 ingénieures en 2009)
  • Le métier de data scientist // The job of data scientist

    1. 1. Le Metier de Data Scientist Thomas Delecroix - 2016
    2. 2. Le métier de Data Scientist Thomas Delecroix 2016 Les origines du Data Scientist Les compétences du Data Scientist Le Data Scientist dans l’organisation Le Workflow du Data Scientist Résumé
    3. 3. Les origines du Data Scientist Le métier de Data Scientist
    4. 4. Les origines du Data Scientist • Statisticien ? • Informaticien ? • Ingénieur ? • Analyste ? Tous exploitent les données… Alors le Data Scientist, qu’est-ce que c’est ? Thomas Delecroix 2016
    5. 5. Les origines du Data Scientist Thomas Delecroix 2016
    6. 6. Évolution de l'intérêt pour le terme « Data Scientist » Thomas Delecroix 2016 Source : Au 11/02/2016 2012 : « Data Scientist : The Sexiest Job of the 21st Century »
    7. 7. Les compétences du Data Scientist Le métier de Data Scientist
    8. 8. Compétences du Data Scientist Thomas Delecroix 2016 MATHS & STATS ☆ Machine Learning ☆ Modélisation statistique ☆ Plan d'expérience ☆ Inférence bayésienne ☆ Apprentissage supervisé : arbres de décision , forêt aléatoire , la régression logistique ☆ Apprentissage non supervisé : classification, réduction de dimensions ☆ Optimisation : algorithme du gradient et variantes PROGRAMMATION & BASES DE DONNEES ☆ Fondamentaux d'informatique ☆ Langage de script par exemple Python ☆ Packages de calcul statistique (ex : R) ☆ Bases de données: SQL et NoSQL ☆ Algèbre relationnelle ☆ Bases de données parallèles et traitement des requêtes parallèles ☆ Concepts MapReduce ☆ Reducer personnalisés ☆ Hadoop et Hive/Pig ☆ Expérience avec xaaS comme AWS DOMAINE DE CONNAISSANCES & QUALITES HUMAINES ☆ Passionné par l'entreprise ☆ Curieux sur les données ☆ Persuasif & convainquant ☆ Hacker dans l’âme ☆ Résolveur de problèmes ☆ Stratégique, proactive, créatif, innovant et collaboratif COMMUNICATION & VISUALISATION ☆ Apte à coopérer avec les managers seniors ☆ Compétences en story telling ☆ Traduire des concepts pilotés par les données en décisions et actions ☆ Design visuel ☆ Packages R comme ggplot ou lattice ☆ La connaissance d’un outil de visualisation comme Flare, d3.js ou Tableau Expertise mathématique Sens du Business & de la stratégie Compétences en « Hacking » DATA SCIENCE
    9. 9. Dimension mathématique & statistique • Niveau de signification, correction de biais, calcul de probabilités • Algo prédictifs, clustering • Quelle différence entre statisticien et Data Scientist ? Thomas Delecroix 2016 “Il déniche de nouvelles sources de données : Open Data, API tierces, données payantes, logs, etc… ”
    10. 10. Dimension technologique/informatique • Excel, BO, SAS… OK mais pas suffisant • Programmer afin de s’affranchir des limites logicielles • Plusieurs langages • Passage à l’échelle (scaling) • Machines et leurs limites • Parallélisations de traitements (cluster) • Notions d’optimisation Thomas Delecroix 2016
    11. 11. Dimension technologique/informatique Thomas Delecroix 2016 “Le Data Scientist ne connaîtra pas tous les rouages d’un langage, il relève plus d’un hacker, c’est à dire qu’il aura tendance à bricoler, à prototyper, à se débrouiller pour obtenir ce qu’il veut, coûte que coûte ” • L’écosystème Big Data & Data Science est en cours de construction, il faudra donc jongler en permanence entre les différents langages • Tout cela motive ce profil de « bidouilleur » et de « détective » qui doit arriver à ses fins au détriment de la manière ou des conventions
    12. 12. Dimension Business • Comprendre le business, analyser les enjeux commerciaux/risques de son secteur • Comprendre les subtilités • Construire des applications « data products » , prototyper rapidement & expérimenter en mode agile • Tourné vers l’action et non sur une étude ponctuelle • Bonne communication (graphique, présentations dynamiques, animations, story teller) • Collaboration avec les managers & décideurs Thomas Delecroix 2016
    13. 13. Alors, mouton à 5 pattes ? « Non ce ne sont pas des licornes, ce ne sont ni des intellectuels, ni des thésards qui ont échoués mais tout simplement des personnes avec des compétences en statistiques acquises au cours de leur parcours scolaire. Ils utilisent Hadoop, des modèles prédictifs et des graphes et c’est généralement ce qui les distingue des analystes BI. Enfin, ils ont pour objectif de créer des applications métiers. Les modèles prédictifs et les technologies qu’ils utilisent sont en permanente évolution, ce qui les amène à travailler sur un mode proche de celui de chercheurs en sciences expérimentales, par élaborations successives de prototypes, donnant parfois la fausse impression de se faire plaisir avec les dernières technologies en vogue. » Thomas Delecroix 2016 James Kobielus, Big Data Evangelist chez IBM :
    14. 14. Le Data Scientist dans l’organisation Le métier de Data Scientist
    15. 15. Recrutement & Formation •Qui ? Thomas Delecroix 2016 •Quel cursus ? •Où ? •Qualité ?
    16. 16. Recrutement ? • Data scientist superstar : trop cher donc constitution d’une équipe pluridisciplinaire, c’est le Data Lab • Il s’agit d’1 ou +ieurs équipes selon la taille de l’entreprise, travaillant en mode agile sur des projets stratégiques, innovants et créateurs de valeur pour l’entreprise à court et moyen terme (Quick Win) • Ce sont des • Architectes logiciels : conception de systèmes prédictifs • Analystes métiers : identification des use case • Data scientist : optimisation de processus d’apprentissage automatiques et conception des modèles prédictifs • Développeurs back/front : réalisation des systèmes conçus par les architectes et data scientists • Designers web : représentations graphiques dynamiques des résultats d’analyses Thomas Delecroix 2016
    17. 17. L’échec doit être envisagé comme une étape normale et inévitable de l’acquisition de connaissance par l’expérimentation Le Data Lab Thomas Delecroix 2016 Il ne faut pas sous-estimer l’importance des qualités humaines
    18. 18. Rattachement du Data Lab dans l’organisation Thomas Delecroix 2016 • Idéal : rattachement transverse à l’orga • Risque : inopérant & sans pouvoir réel sur l’orientation stratégique des métiers • Important : adhésion des métiers pour tester les prototypes innovants dans des conditions réelles Data Lab Département Métier IT Innovation Organisation Le Data Lab doit être sponsorisé auprès du comité exécutif. Le rôle du Data Chief Officer est précisément de faciliter le déploiement des innovations à toute l’entreprise
    19. 19. Le Workflow du Data Scientist Le métier de Data Scientist
    20. 20. Workflow Thomas Delecroix 2016 Imaginer un produit Collecter les données Préparer les données Modélisation Visualisation Optimisation Industrialisation
    21. 21. • Besoin / opportunité métier => formulation plus rigoureuse potentiellement implémentable dans un modèle prédictif • Penser produit c’est se demander ce que l’on veut impacter au niveau des métiers ? => la/les variable(s) cible(s) souvent novatrice. => variables prédictives grâce à la connaissance des métiers et du marketing sur nos clients. => comment mesurer le succès d’une prédiction ? Thomas Delecroix 2016 Imaginer un produit ou un service
    22. 22. Thomas Delecroix 2016 Imaginer un produit ou un service
    23. 23. Collecter les données Thomas Delecroix 2016 Disponibilité des données ?
    24. 24. Thomas Delecroix 2016 Collecter les données Qualité des données ?
    25. 25. Thomas Delecroix 2016 Collecter les données Techniques ?
    26. 26. Thomas Delecroix 2016 Collecter les données Enjeux politiques ? Enjeux juridiques ?
    27. 27. Préparation des données Thomas Delecroix 2016 Homogénéiser Nettoyer Mise à l’échelle Croisement
    28. 28. Thomas Delecroix 2016 Modélisation « Better data outweighs clever maths » Feature ingineering
    29. 29. Visualisation Thomas Delecroix 2016 Une image vaut mille mots
    30. 30. Thomas Delecroix 2016 Visualisation avec les Web’dev
    31. 31. Thomas Delecroix 2016 Visualisation avec les métiers
    32. 32. Thomas Delecroix 2016 Visualisation avec ses clients
    33. 33. Thomas Delecroix 2016 Visualisation avec ses pairs
    34. 34. Thomas Delecroix 2016
    35. 35. Optimisation Thomas Delecroix 2016
    36. 36. Thomas Delecroix 2016 Déploiement Scaling Industrialisation
    37. 37. Déploiement Thomas Delecroix 2016
    38. 38. Thomas Delecroix 2016 Quelques « Succès story » de Data Scientist
    39. 39. En résumé Le métier de Data Scientist
    40. 40. Le métier de Data Scientist Plusieurs facettes Mise en place d’un Data Lab : le Data Scientist polycéphale 3 activités principales : Conception de services prédictifs innovants Conception de prototypes de services prédictifs. Conseil auprès des équipes métiers Thomas Delecroix 2016
    41. 41. Thomas Delecroix 2016 http://thomasdelecroix.com/
    42. 42. Bonus Le métier de Data Scientist
    43. 43. Recrutement & Formation Thomas Delecroix 2016 Formations professionnelles : • Certains ont des catalogues de formations bien étoffés mais… • Il faut pouvoir mettre activement cet apprentissage en pratique • Participer à des concours de Data Science est le meilleur moyen • L’autoformation est une brique du métier pour rester constemment à jour, on peut la réaliser grâce à de nombreux MOOC comme openclassrooms, Coursera, edX • Cours de référence : « L’apprentissage automatique » de Andrew Ng de l’université de Standford Filières académiques : • Telecom ParisTech (master Spécialisé Big Data) • Université Pierre et Marie Curie (filière Big Data du Master de Mathéatiques et Applications) • ENSAE : spécialisation Data science • ENSAI : master Big Data • ENS Cachan : M2 MVA Mathématiques / Vision / Apprentissage • Polytech Lille génie informatique et statistique • Lille 1 : Master Ingénierie Statistique et Numérique)
    44. 44. Lien vers le site web de la société > Thomas Delecroix 2016

    ×