01 Le Rôle du Data Scientist

91 vues

Publié le

Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.

Publié dans : Données & analyses
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
91
Sur SlideShare
0
Issues des intégrations
0
Intégrations
8
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

01 Le Rôle du Data Scientist

  1. 1. Le rôle du Data Scientist 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 1
  2. 2. Objectifs  Comprendre le rôle et les missions d’un Data Scientist  Connaître les enjeux du Big Data pour les entreprises  Donner un cadre économique et technologique à l’émergence du profil Data Scientist  Comprendre la problématique de la scalabilité des algorithmes  Connaître les caractéristiques d’une entreprise data-driven ou pilotée par les données  Comprendre les différences entre un Data Lake, un Data Hub et un Data Lab  Comprendre le rôle de chacun des membres d’une équipe Data Science 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 2
  3. 3. Sommaire • Qu’est-ce qu’un Data Scientist ? et la Data Science ? • Les enjeux du Big Data • Nouveau modèle économique • Scalabilité des méthodes et algorithmes • Le modèle data-driven • Le Data Lake, Data Hub et Data Lab • L’équipe Data Science • Bibliographie 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 3
  4. 4. Qu’est-ce qu’un Data Scientist ? • « Mouton à 5 pattes » • Combinaison de plusieurs compétences • mathématiques • statistiques et probabilités • programmation informatique, algorithmique • technologies Big Data • connaissance business, en ligne avec les objectifs de l’entreprise • bon communicant • La Data Science … • est-ce vraiment une nouvelle science ? • y a-t-il un nouveau paradigme ? 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 4 Source: Les Echos « Les 6 métiers porteurs dans la data en une infographie », 6/4/2016
  5. 5. Qu’est-ce qu’un Data Scientist ? EXEMPLE PROFIL RECHERCHÉ 1  Vous disposez de solides connaissances dans les domaines suivants : Apprentissage Statistique (Expertise), Mathématiques Appliquées (Expertise), Algorithmique (maîtrise),  Vous disposez de compétences en programmation en Python, R, SAS (Expertise), et Java serait un plus.  Vous possédez de bonnes compétences techniques sur des technologies Big Data de type Cloudera (Hadoop, Impala, Spark, …).  Outre les compétences techniques, vous êtes doté d'un esprit d'analyse et de synthèse, d'une bonne aptitude à la restitution d'information et à la communication. EXEMPLE PROFIL RECHERCHÉ 2  Vous maitrisez les techniques de référence en terme d’apprentissage supervisé et non supervisé et vous avez un « sens » de la donnée  Vous possédez des bases solides sous un langage de programmation statistique (R, Python, SAS, …) et sous SQL  Vous avez été en contact avec des technologies Big Data et NoSQL (Hive, Pig, Spark, MongoDB…)  Vous disposez d’une sensibilité business vous permettant d’appréhender le besoin du client  Vous êtes doté(e) d’une excellente capacité de communication et de pédagogie vous permettant d’évoluer dans un cadre pluridisciplinaire 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 5
  6. 6. Qu’est-ce qu’un Data Scientist ? • « Le métier est récent et il n’y a pas de formations pour ce poste. Ce sont souvent des anciens ingénieurs qui sont là par hasard et qui ont eu une vocation. Mais il ne suffit pas d’être techniquement fort. Il faut avoir de la vision, être en capacité de considérer la donnée comme une fin et pas comme un moyen ». Jakubowicz L, Journal du Net, 30/05/2016 • Objectif : la résolution des problématiques dans l’entreprise avec la donnée • contextualiser la donnée • implémentation des méthodes d’apprentissage statistique • modèle data-driven : un rôle déterminant dans le « changement de culture » de l’entreprise • Les missions en 4 axes: 1. compréhension de la problématique métier 2. modélisation statistique pour répondre à la problématique 3. identification des données pertinentes dont il a besoin 4. analyser les données et restituer les résultats 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 6
  7. 7. Qu’est-ce la Data Science ? • Ensemble des méthodes et des concepts jouant un rôle de guide pour la prise de décisions et l’avancement d’un projet centré données (data-centric) » • La Data Science … • est-ce vraiment une nouvelle science ? • y a-t-il un nouveau paradigme ? 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 7 Godsey B., Think Like a Data Scientist, Manning Publications, MEAP V01, 2015
  8. 8. 1 2 3 4 5 6 Qu’est-ce que la Data Science ? • Utilisation d’un process, PARTIE 2 de la formation: 1. Définir l’objectif 2. Collecter et traiter de données 3. Construire le modèle 4. Evaluer et valider le modèle 5. Présenter et documenter les résultats 6. Déployer le modèle 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 8
  9. 9. Big Data • Définition 1: « Ensemble de données numériques volumineuses qu’il n’est plus possible d’exploiter avec des outils classiques de gestion de base de données (SGBD) » M. Combes « Vous n’échapperez pas au Big Data ! », Techniques de l’Ingénieur [en ligne] Techniques de l’Ingénieur [en ligne], 9 avril 2013. • Volume • Stockage et traitement distribué • Vélocité • Batch, Streaming • Variété • données structurées • issues des systèmes transactionnels • données semi-structurées • URL, log file, fichiers XML, capteurs • données non structurées • flux vidéo, flux audio, voix, document texte, SMS, Twitts, blogs 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 9 http://www.astrosurf.com/luxorion/big-data-mining.htm
  10. 10. Big Data / NoSQL • Définition 2:« Ensemble de technologies et de méthodes consistant à analyser, à des fins généralement prédictives, le flot de données produites par les entreprises, les organisations et les individus, mais aussi les objets connectés, dans des volumes et à des vitesses sans précédent » D. Cuny, « Big Data is big business. Vraiment! », La Tribune [en ligne], 3 avril 2013 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 10
  11. 11. Les enjeux du Big Data • « Une arme concurrentielle redoutable pour qui se dote des bons outils. ROI et rentabilité sont à portée de mains. » Levin, M.-J., « Big data, un gisement d'opportunités », ecommercemag.fr, 23 janvier 2013 • « Les entreprises françaises sont assises sur une mine d’or. » • « L’exploitation de leur gisement de données par les techniques du Big Data leur offre un potentiel de gain économique de 54 milliards d’euros sur quatre ans (2014- 2017) ... Ce résultat représente 0,6% du PIB français » Loukil R., « Le Big Data représenterait un gain économique de 54 milliards d’euros pour les entreprises », L’Usine Digitale; 19 mai 2014 • Enjeu stratégique, ouvrant la perspective de développement • de nouveaux produits et services, • de nouvelles formes de relations clients, • ou de gains d’efficacité opérationnelle 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 11 http://www.wsj.com/articles/SB10001424052702303714704576382873703482758
  12. 12. Les enjeux du Big Data • Cas d’usage 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 12 MARKETING & VENTES • Recommandations • Fidélisation, analyse du churn • Prévision des ventes • Promotions ciblées • Localisation nouveau magasin ou agence • E-réputation, réseaux sociaux • Layout du produit RESEAUX • Cyber sécurité • Optimisation réseau • Analyse des défaillances OPERATIONNEL • Maintenance prédictive • Détection de fraudes • Réduction de non qualité • Demand-driven supply chain
  13. 13. Nouveau modèle économique • Data Mining: les années 1990s/2000s • Quelle est la nouvelle donne ? • Quelle est donc la nouvelle problématique ? • Reconversion des acteurs majeurs du Datamining ? 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 13
  14. 14. Nouveau modèle économique • Production de code sous licence Open Source e.g., Apache • Apparition des services à forte valeur ajouté • Cloud Computing 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 14
  15. 15. Scalabilité des méthodes et algorithmes • Seuils technologiques liés au volume 1. La mémoire interne (RAM) de l’ordinateur 2. Que faire lorsque le volume dépasse la capacité de stockage d’un seul ordinateur? • La problématique « données massives » et ses implications méthodologiques et algorithmiques • Méthodes échelonnables (scalables) • classifieurs naïfs bayésiens • algorithme stochastique (descente du gradient) • régression logistiques • SVM 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 15 http://www.makeuseof.com/tag/64-bit-computing/
  16. 16. Data Science: alors, nouvelle science ? • Nouvelle science ou la conséquence de plusieurs facteurs, lesquels ? • Le métier de Data Scientist est-il nouveau ? • Peut-on obtenir une valorisation optimale des données sans les compétences approfondies en modélisation statistique et apprentissage machine? • Quels sont les nouveaux défis pour un statisticien ? et pour un développeur ? 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 16 http://weusemath.org/?career=statistician http://tpe-ia-2012-2013.e-monsite.com/
  17. 17. Le modèle data-driven • Une solution aux problématiques business et opérationnelles • Une approche par la formulation d’hypothèses et la résolution des problèmes • Un moyen de développer la performance de l’entreprise • Découvrir de nouvelles opportunités commerciales : nouveaux services, nouvelles fonctionnalités • Améliorer vos process internes, créer des « outils data » pour vos collaborateurs • Une méthodologie flexible • Création des tableaux de bord adaptés et adaptables suivis et discutés par le data scientist et les experts métiers pour prendre des décisions rapides et efficientes 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 17 « Une entreprise pilotée par les données regarde ses données chaque matin »
  18. 18. Le Data Lake, Data Hub et Data Lab • Qu’apporte le Data Lake comme valeur ? • stockage en tant que commodité • stockage de la totalité des données • Modèle de stockage en étoile • « On Premise » ou « Cloud » • Ressources nécessaires • Sécurité de la donnée • Facilité de déploiement • Gouvernance de la donnée • Scalabilité 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 18 Données comportementales • Web analytics • Média • DMP Données clients • CRM • référentiel personnes Données produits • catalogues • capteurs, logs Données cross-canal • call centers • agences, magasins Données exogènes • 3rd party • Open data
  19. 19. • L’intelligence -> création de la valeur • Le Data Hub • Traitement et transformation de l’information • Informatique décisionnelle exploratoire • Fonctions analytiques avancées • Distribution • Partage • Filtrage/Projection Le Data Lake, Data Hub et Data Lab 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 19 http://www.informationweek.com/big-data/software-platforms/cloudera-trash-talks-with-enterprise- data-hub-release/d/d-id/1113677 Marketing Sales SI Data Eng Data Scientist Opérationnel Direction
  20. 20. • « Tester avant de vous engager ! » • Le Data Lab • espaces de travail ou les environnements analytiques en libre-service • offrir à chaque service un environnement privé pour la création de modèles expérimentaux • sans gros investissements sur infrastructure • opportunité pour calculer ROI sans perturbation du système d’information actuel Le Data Lake, Data Hub et Data Lab 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 20 http://blog.xebia.fr/2015/03/19/le-nouveau-techtrends-dedie-au-data-lab- debarque-avec-son-mini-site/
  21. 21. L’équipe Data Science • Le Data Science Manager ~Chef de projet • Le Data Scientist • Le Data Engineer 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 21 Data Science Manager Data Engineer Data Scientist Data Analyst Administrateur Système Lead Data Scientist dépendant de la taille de l’entreprise un spécialiste avec un rôle de leadership et même de chef de projet …
  22. 22. L’équipe Data Science • Le Data Science Manager : • Garant du bon déroulement du process Data Science de bout en bout • Monter une équipe qui soit opérationnelle au plus vite • Mes attentes en tant que Data Scientist (Junior) ? • Réunion on-boarding • Communication des contacts et du process interne • Disponibilité des outils, procédures d’acquisition de HW et SW • Faciliter / accélérer l’accès à l’infrastructure de données • Permettre un démarrage rapide avec un problème concret et petit 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 22
  23. 23. L’équipe Data Science • Le rôle du Data Engineer est dépendant de la taille de l’entreprise • infrastructure data, on premise ou cloud • support ou décideur • gestion du data lake + data hub (data pipelines) • Mes attentes en tant que Data Scientist (Junior) ? • support à l’extraction et collecte de données • support à l’implémentation des produits de données • (possible) collaboration à la préparation des données pour l’analytique • Qu’est-ce qu’il attend de moi ? • explication sur les problématiques de scalabilté des algorithmes 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 23
  24. 24. Bibliographie • Patil D., Mason H, Data Driven - Creating a Culture, O’Reilly Media, 2015 • Godsey B., Think Like a Data Scientist, Manning Publications, MEAP V01, 2015 • Laude H., Data Scientist et Langage R, Editions ENI, ISBN 9782409001284, mars 2016 • WikiStat, INSA de Toulouse, De Statisticien au Data Scientist • Leek J., Building a Data Science Team, Coursera MOOC – Johns Hopkins University • Gautheron T., Le Data Lake : et si, sans le savoir vous aviez déjà constitué le vôtre ?, https://www.numergy.com/centre-de-ressources/article/le-data-lake-et-si-sans-le-savoir-vous- aviez-deja-constitue-le-votre , Numergy • Converteo, Comprendre les data-lakes, http://fr.slideshare.net/Converteo/livre-blanc- comprendre-les-datalakes , avril 2016 05/09/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE RÔLE DU DATA SCIENTIST 24

×