Le process Data Science
31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 1
Objectifs
 Savoir situer un projet Data Science dans un contexte de pilotage de projets
 Comprendre la particularité d’u...
Sommaire
• Les étapes d’un projet Data Science
• Le pilotage des projets Data Science
• Le funnel d’innovation
• Etape 1: ...
Les étapes d’un projet Data Science
1. Définition l’objectif
2. Collecte et traitement de données
3. Construction du modèl...
Pilotage des projets Data Science
31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 5
1
Pilot...
Pilotage des projets Data Science
• Pilotage tactique
• Traduction des décisions stratégiques aux niveaux opérationnels, d...
1. Définition des objectifs
Quel est le problème que l’on essaie de résoudre ?
• Se poser les bonnes questions, par exempl...
Agile … mais pas trop
• Cadre itératif d’engagement progressif
• cycle « agile »
• cependant il n’est pas conseillé d’util...
Le funnel d’innovation
• Source: Quantmetry (voir Bibliographie)
• Résultat du projet Data Science: un modèle qui sera dép...
2. Collecte et traitement de données
« Ce dont j’ai besoin »
• Identifier les variables (features),
• Explorer, visualiser...
3. Construction du modèle
Trouver des schémas (patterns) dans les données qui mènent vers des solutions
• Des « va-et-vien...
4. Evaluation et « critique » du modèle
Est-ce que le modèle résout mon problème ?
• Quelle est la différence entre l’éval...
5. Présentation et documentation des
résultats
Etablir que l’on peut résoudre le problème et comment
• Quel audience ?
• c...
6. Déploiement du modèle
Déployer le modèle afin de résoudre le modèle dans le monde réel
• C’est bon !, le modèle tourne ...
Bibliographie
• Mount J., Zumel N., Practical Data Science with R, ISBN 9781617291562, Manning Publications,
2014
• Laude ...
Prochain SlideShare
Chargement dans…5
×

02 Le Process Data Science

119 vues

Publié le

Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.

Publié dans : Données & analyses
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
119
Sur SlideShare
0
Issues des intégrations
0
Intégrations
0
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

02 Le Process Data Science

  1. 1. Le process Data Science 31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 1
  2. 2. Objectifs  Savoir situer un projet Data Science dans un contexte de pilotage de projets  Comprendre la particularité d’un projet Data Science dans un contexte d’innovation (Big Data)  Avoir une vision de bout en bout d’un projet Data Science  Connaître et décrire chaque étape d’un projet Data Science 31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 2
  3. 3. Sommaire • Les étapes d’un projet Data Science • Le pilotage des projets Data Science • Le funnel d’innovation • Etape 1: Définition des objectifs • Etape 2: Collecte et traitement de données • Etape 3: Construction du modèle • Etape 4: Evaluation et « critique » du modèle • Etape 5: Présentation et documentation du modèle • Etape 6: Déploiement du modèle • Bibliographie 31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 3
  4. 4. Les étapes d’un projet Data Science 1. Définition l’objectif 2. Collecte et traitement de données 3. Construction du modèle 4. Evaluation et « critique » du modèle 5. Présentation et documentation des résultats 6. Déploiement du modèle … mais avant, • situation dans un contexte de pilotage de projets … 31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 4 1 1 2 3 4 5 6
  5. 5. Pilotage des projets Data Science 31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 5 1 Pilotage stratégique Pilotage tactique Pilotage opérationnel Conduite et suivi • coûts • performances internes • satisfaction clients, perception externe • parts de marché, positionnement vis-à-vis de la concurrence • … objectifs Chantier 1 Chantier N définition de chantiers … …… chantiers avec des objectifs précis ou plus « exploratoires »
  6. 6. Pilotage des projets Data Science • Pilotage tactique • Traduction des décisions stratégiques aux niveaux opérationnels, définition des chantiers • Responsabilité du « Champion » ou « Sponsor » du projet • Assisté par le « Client » et le Data Science Manager (~chef de projet) • Pilotage opérationnel • Utilisation du process Data Science • Data Science Manager: conduire les chantiers • Assisté par l’équipe Data Science • Conduite et suivi • Utilisation par le « Client » du modèle déployé • Maintenance du modèle par l’équipe Data Science 31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 6 1 …
  7. 7. 1. Définition des objectifs Quel est le problème que l’on essaie de résoudre ? • Se poser les bonnes questions, par exemple (à vous!) • Après les réponses, définir précisément l’objectif mesurable et quantifiable du projet • L’expression du besoin: • une démarche d’ajustement mutuel entre le Client, le Data Science Manager et le Data Scientist : 1. critères de réussite communs + conditions arrêt 2. compréhension commune de ce qui peut être espéré ◦ contrôle, nouvelles connaissances, prédiction, optimisation, décision, … 3. des cas d’utilisation de ce que sera produit par le projet 4. compréhension commune des données nécessaires à la mise en œuvre du projet ◦ nature, volume, fiabilité, provenance, … 5. les éléments logistique du projet (budget, architecture, plan projet) 31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 7 livrable: note de cadrage + présentation synthétique au Sponsor
  8. 8. Agile … mais pas trop • Cadre itératif d’engagement progressif • cycle « agile » • cependant il n’est pas conseillé d’utiliser toutes les techniques de l’agilité • stand-up meetings, SCRUM, etc. • le cycle de réflexion des Data Scientists (~R&D) ne se prête pas aux méthodes agiles d’un projet développement informatique • c’est une démarche ouverte, scientifique et créative de nature aléatoire ! • Plan projet simple géré avec rigueur et pragmatisme • définition des grands jalons + éventuels jalons importants de l’itération • objectifs de prochaine itération avec liste et état de finition des livrables + RACI minimum • Livrables de nature • opérationnelle • informationnelle • décisionnelle 31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 8
  9. 9. Le funnel d’innovation • Source: Quantmetry (voir Bibliographie) • Résultat du projet Data Science: un modèle qui sera déployé sur une infrastructure Big Data 31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 9 définir le mandat (idée, sponsor, budget, cas d’usage, valorisation des apports, technologie) et une équipe capable de le porter explorer certaines hypothèses (valorisation d’un business case, choix de technologie, identification des features, approche de machine learning) projet de data science: valider le fonctionnement dans des conditions réelles d’utilisation avec un périmètre limité en matière de déploiement et une mise en production sur une infrastructure pérenne déployer une application informatique contenant les modèles de data science du pilote à l’échelle de l’entreprise avec un niveau de fiabilité et de qualité à même de satisfaire les contraintes opérationnelles de l’organisation Un modèle de machine learning doit prendre en compte les dérives temporelles et s’adapter en continu. Faire en sorte que le modèle continue à apprendre et progresser, contrôler sa dérive (prédit il toujours aussi bien) et ajuster si nécessaire.
  10. 10. 2. Collecte et traitement de données « Ce dont j’ai besoin » • Identifier les variables (features), • Explorer, visualiser les données • Mise en forme pour la prochaine étape • Se poser les bonnes questions, par exemple (à vous!) • Utiliser des information qui peuvent être mesurées directement et pas dérivées à partir d’autres informations • Qualité de la donnée; sont-elles biaisées ? • Feature engineering 31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 10
  11. 11. 3. Construction du modèle Trouver des schémas (patterns) dans les données qui mènent vers des solutions • Des « va-et-vient » avec l’étape précédente seraient nécessaires, pour quoi ? • Tâches de modélisation • Discrimination (ou Classification en anglais) • Prévision (ou Scoring, Predicting) • Classement (ou Ranking) • Partitionnement ou Segmentation (ou Clustering) • Trouver des associations, corrélations • Exemples de méthodes pour un problème de discrimination: • Régression logistique, Naïve Bayes, Arbres de décision, … 31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 11 pour chacune de ses tâches il existe plusieurs approches ou méthodes (PARTIE 5)
  12. 12. 4. Evaluation et « critique » du modèle Est-ce que le modèle résout mon problème ? • Quelle est la différence entre l’évaluation et la validation d’un modèle ? • Est-il « précis » selon les besoins ?, est-ce qu’il généralise bien ? • Est-ce qu’il est meilleur que « le résultat évident » ou modèle « de base » ? • Est-ce que les résultats ont du sens dans le contexte du problème ? • Il est important de connaître les mesures d’évaluation et de validation pour chacune des tâches de modélisation décrite à l’étape précédente ? (PARTIE 3) 31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 12
  13. 13. 5. Présentation et documentation des résultats Etablir que l’on peut résoudre le problème et comment • Quel audience ? • champion ou sponsor du projet • client ou utilisateur du modèle • équipe Data Science • Pour quoi documenter le modèle pour le Client ? • Communiquer les « découvertes » 31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 13
  14. 14. 6. Déploiement du modèle Déployer le modèle afin de résoudre le modèle dans le monde réel • C’est bon !, le modèle tourne sur un pilote, quelle responsabilité pour le Data Scientist ? • Que peut-il arriver … de plutôt négatif ou de positif ? 31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 14
  15. 15. Bibliographie • Mount J., Zumel N., Practical Data Science with R, ISBN 9781617291562, Manning Publications, 2014 • Laude H., Data Scientist et Langage R, Editions ENI, ISBN 9782409001284, mars 2016 • Pillet M., Six Sigma - Comment l’appliquer, ISBN 2708130293, Editions d’Organisation, 2004 • Manceau E., Agilité et Data Science: ce n’est pas si simple, https://quantmetry- blog.com/2016/02/03/agilite-et-datascience-ce-nest-pas-si-simple/, Quantmetry, février 2016 31/08/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - LE PROCESS DATA SCIENCE 15

×