Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris 2017

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité

Consultez-les par la suite

1 sur 57 Publicité

Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris 2017

-- session présentée dans le cadre du MS Cloud Summit Paris 2017 avec Emmanuel Frenod --
L’approche Data Science des données révolutionne l’analyse traditionnelle. La façon d’appréhender les questions, la méthodologie à suivre ainsi que l’outillage à utiliser sont différents de la BI traditionnelle. Nous aborderons dans cette session ces différences et pointeront les bonnes pratiques de la Data Science avec les outils Microsoft au travers d’un cas d’utilisation concret. Ce « retour d’expérience » expliquera, en illustrant le propos à travers des applications réalisées pour des entreprises de transport, des réparateurs et des grossistes en bâtiment, comment la Data Science aide à la mise au point des prix pendant leur négociation

-- session présentée dans le cadre du MS Cloud Summit Paris 2017 avec Emmanuel Frenod --
L’approche Data Science des données révolutionne l’analyse traditionnelle. La façon d’appréhender les questions, la méthodologie à suivre ainsi que l’outillage à utiliser sont différents de la BI traditionnelle. Nous aborderons dans cette session ces différences et pointeront les bonnes pratiques de la Data Science avec les outils Microsoft au travers d’un cas d’utilisation concret. Ce « retour d’expérience » expliquera, en illustrant le propos à travers des applications réalisées pour des entreprises de transport, des réparateurs et des grossistes en bâtiment, comment la Data Science aide à la mise au point des prix pendant leur négociation

Publicité
Publicité

Plus De Contenu Connexe

Diaporamas pour vous (20)

Les utilisateurs ont également aimé (20)

Publicité

Similaire à Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris 2017 (20)

Plus par Jean-Pierre Riehl (20)

Publicité

Plus récents (20)

Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris 2017

  1. 1. @EmmanuelFrenod - @djeepy1 Data Science : Méthodologie, Outillage et Application Emmanuel Frenod -Jean-Pierre Riehl
  2. 2. Merci beaucoup à nos sponsors! Thank you to all our sponsors! Join the conversation #MSCloudSummit @MSCloudSummit
  3. 3. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Qui sommes nous ? Jean-Pierre Riehl Practice Manager Data & BI MVP Data Platform Local Group Leader– GUSS @djeepy1 http://blog.djeepy1.net Emmanuel Frenod Directeur Scientifique @emmanuelfrenod http://www.see-d.fr/
  4. 4. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Data Science Data science, also known as data-driven science, is an interdisciplinary field about scientific processes and systems to extract knowledge or insights from data in various forms, either structured or unstructured, which is a continuation of some of the data analysis fields such as statistics, machine learning, data mining, and predictive analytics. Définition Wikipedia
  5. 5. MÉTHODOLOGIE
  6. 6. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Méthodologies existantes • CRISP-DM • KDD • SEMMA par SAS© • Cortana Analytics Process (CAP) par Microsoft© (deprecated) Processus “Data Science” TDSP : Team Data Science Process https://github.com/Azure/Microsoft-TDSP
  7. 7. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Team Data Science Process
  8. 8. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Processus “Data Science” Source : AZEO Data Science Process
  9. 9. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS TDSP: Business Understanding Approche technique Développement Approche scientifique Modélisation Approche métier
  10. 10. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS TDSP: Data Understanding Buzz words : Data Crunching Data Wrangling Statistique descriptive : remise en cause d’idées reçues Regard agnostique sur les données Nettoyage et préparation des données Objectif : Featurization
  11. 11. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS TDSP: Modeling Données Connaissance Modèles mathématiques et statistiques Aide à la décision Information Reporting BI Traditionnelle Statistique descriptive Advanced Analytics
  12. 12. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Modélisation mathématique et statistique Advanced Analytics : Extraire depuis les données une connaissance de haute valeur (prévision, information non évidente, etc.) en utilisant des modèles mathématiques et/ou statistiques sophistiqués et des mécanismes d’apprentissage automatique (Machine Learning). Modèle mathématique et/ou statistique sophistiqué : Un ensemble d’équations reliant des objets mathématiques avancés (des fonctions, des densités de probabilités, des séries temporelles, des graphes (arbres, grilles, réseaux, etc.), des hyper-surfaces, des maillages, des vecteurs, des matrices, etc.)
  13. 13. OUTILLAGE
  14. 14. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Outillage de la comprehension des données Langage R RTVS (R Tools for Visual Studio) R + SQLServer IDEAR Azure Machine Learning HDInsight (Books) VM Data Science Power BI Quick Insights
  15. 15. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS R / RTVS
  16. 16. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS TDSP : IDEAR
  17. 17. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Power BI Quick Insights
  18. 18. APPLICATION
  19. 19. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Mise en œuvre par l’équipe See-d sur un problème de pricing chez un transporteur
  20. 20. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS TDSP a été mise en œuvre par l’équipe See-d sur un problème de pricing Gains de marge
  21. 21. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS La problématique du Pricing Question de notre client : ses clients paient-ils le prix optimum ?
  22. 22. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Business Understanding Apports de See-d à cette compréhension Compréhension du business par See-d
  23. 23. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Business Understanding • Des membres de l’équipe See-d ont fait le parcours d’intégration des personnes recrutées chez le client • Echanges fréquents avec – Les chefs de quai – Le marketing – La DSI – La Direction du commerce • Apport de See-d – Formalisation des questions – Un regard sans a priori sur l’activité et les données
  24. 24. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Compréhension des données Statistique descriptive : remise en cause d’idées reçues Regard agnostique sur les données Nettoyages des données
  25. 25. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS La table de données Table de positions Une position : toutes les informations concernant un transport : date, jour, type, poids, client, prix, etc.
  26. 26. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS La table de données Date Jour Heure départ Heure arrivée poids … … Prix Prix/tonne … … Position 1 Position 2 Position 3 … … Position n … …
  27. 27. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS La table de données Date Jour Heure départ Heure arrivée poids … … Prix Prix/tonne … … Position 1 Position 2 Position 3 … … Position n … … Explicatives Conséquences
  28. 28. STATISTIQUE DESCRIPTIVE
  29. 29. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Identification de sujets de questionnement et/ou d’étonnement : • Des tendances linéaires • Problèmes dans les faibles poids : • Prix très faibles • Prix très forts • Grande variabilité des prix pour un poids donné
  30. 30. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Identification de sujets de questionnement et/ou d’étonnement : • Des tendances linéaires • Problèmes dans les faibles poids : • Prix très élevés • Prix très faibles • Grande variabilité des prix pour un poids donné
  31. 31. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Identification de sujets de questionnement et/ou d’étonnement : • Des tendances linéaires • Problèmes dans les faibles poids : • Prix très faibles • Prix très forts • Grande variabilité des prix pour un poids donné
  32. 32. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Passage en €/tonne
  33. 33. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS log € 𝑡𝑜𝑛𝑛𝑒 = − log 𝐾𝑔 + 12,09 Poids (kg) €/tonne 30 5 936,1 40 4 452,1 50 3 561,6 70 2 544,0 100 1 780,8 200 890,4 300 593,6 500 356,2 800 222,6 1 500 118,7 3 000 59,4 5 000 35,6 10 000 17,8 20 000 8,9
  34. 34. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS34 Poids (kg) €/tonne 30 5 936,1 40 4 452,1 50 3 561,6 70 2 544,0 100 1 780,8 200 890,4 300 593,6 500 356,2 800 222,6 1 500 118,7 3 000 59,4 5 000 35,6 10 000 17,8 20 000 8,9 Règle utilisée pour calculer le prix au forfait 100 kg Tendance cohérente: pente = -1 (Tarifs Généraux) Pas cohérent log € 𝑡𝑜𝑛𝑛𝑒 = − log 𝐾𝑔 + 12,09
  35. 35. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS35 Poids (kg) €/tonne 30 5 936,1 40 4 452,1 50 3 561,6 70 2 544,0 100 1 780,8 200 890,4 300 593,6 500 356,2 800 222,6 1 500 118,7 3 000 59,4 5 000 35,6 10 000 17,8 20 000 8,9 Règle utilisée pour calculer le prix au forfait 100 kg log € 𝑡𝑜𝑛𝑛𝑒 = − log 𝐾𝑔 + 12,09 Tendance cohérente: pente négative quasi nulle Pas cohérent
  36. 36. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Données Connaissance Aide à la décision Modèles mathématiques et statistiques Information • Reporting • BI Traditionnelle • Statistique descriptive Point crucial pour la pleine valorisation des données Modélisation mathématique et statistique Advanced Analytics
  37. 37. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Modélisation mathématique et statistique Implémentation, déploiement Création de modèles spécifiques, tests Recherche parmi le modèles existants, tests
  38. 38. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Modélisation mathématique et statistique Classifications statistiques croisées clients / positions
  39. 39. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Que se cache-t-il derrière l’application développée ? Le coeur de l′ outil repose sur des classes de positions qui se ressemblent Cl. 1 Classe 2 … Cl. n La construction de ces classes est le challenge ∶ - car le nombre de positions est très élevé - car il faut choisir les caractéristiques des positions - car il faut choisir le nombre de classes Ensemble de positions
  40. 40. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Le coeur de l′ outil repose sur des classes de positions qui se ressemblent Cl. 1 Classe 2 … Cl. n La construction de ces classes est le challenge ∶ - car le nombre de positions est très élevé - car il faut choisir les caractéristiques des positions - car il faut choisir le nombre de classes Ensemble de positions Que se cache-t-il derrière l’application développée ?
  41. 41. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Cl. 1 Classe 2 … Cl. n La construction de ces classes est le challenge ∶ - car le nombre de positions est très élevé - car il faut choisir les caractéristiques des positions - car il faut choisir le nombre de classes Les méthodes classiques de classification ne sont pas adaptées … • utilisation d’une hybrid clustering (CLara : Clustering of Large Application) • Partition around medoids : construction de 50 classes • Sur les 50 classes, Hierarchical clustering with euclidean distance with Ward criterion : construction de n classes Que se cache-t-il derrière l’application développée ? - Méthodes utilisées
  42. 42. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Cl. 1 Classe 2 … Cl. n La construction de ces classes est le challenge ∶ - car le nombre de positions est très élevé - car il faut choisir les caractéristiques des positions - car il faut choisir le nombre de classes Les méthodes classiques de classification ne sont pas adaptées … • utilisation d’une hybrid clustering (CLara : Clustering of Large Application) • Partition around medoids : construction de 50 classes • Sur les 50 classes, Hierarchical clustering with euclidean distance with Ward criterion : construction de n classes avec choix de n sur l’interprétation par See-d d’un critère de minimisation de la perte de la variance inter-classe (2 classes ne seront pas regroupées si elles sont jugées trop différentes) Que se cache-t-il derrière l’application développée ? - Méthodes utilisées
  43. 43. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Cl. 1 Classe 2 … Cl. n La construction de ces classes est le challenge ∶ - car le nombre de positions est très élevé - car il faut choisir les caractéristiques des positions - car il faut choisir le nombre de classes L’interprétation des différentes classifications obtenues selon les différents uplets de caractéristiques testés est la clé de l’obtention d’une typologie de positions utilisables dans l’outil : • Exemple : le poids moyen d’une palette n’a pas d’utilité (en l’occurrence) • Une caractéristique utilisée pour la construction des classes doit être facilement accessible ensuite via le système d’information du client car cette caractéristique est utilisée, entre autres, pour classer les nouvelles positions. Que se cache-t-il derrière l’application développée ? - Méthodes utilisées
  44. 44. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Cl. 1 Classe 2 … Cl. n Pour ce faire See-d a construit un modèle de classement : • Qui est performant i.e. faire tomber une nouvelle position dans la bonne classe avec une forte probabilité, via les random forest • Ceci grâce au bon choix par le statisticien des variables prédicteurs (fort pouvoir de prédiction ET disponibilité via le SI du client) La mise à jour de l’application se fait par l’alimentation avec les nouvelles positions à fréquence régulière Nouvelle position 1, nouvelle position 2 , …., nouvelle position p Que se cache-t-il derrière l’application développée ? - Méthodes utilisées
  45. 45. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Que se cache-t-il derrière l’application développée ? - Random Forest Couleur Vert Jaune Rouge Taille Taille Forme Petit MoyenGros Taille PetitMoyen Goût Acide Sucré Pastèque Pomme Raisin Rond Raisin Citron Long Banane Raisin Cerise Petit Moyen Pomme 1/ Arbre de Décision – Exemple 1
  46. 46. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Que se cache-t-il derrière l’application développée ? - Random Forest Val(Col2) < 3 3 < …< 7 >7 Val(Col1) + 4 * Val(Col4) Val(Col1) + 2 * Val(Col4) Val(Col5) > 1710 < …< 17< 10 Val(Col1) + 3 * Val(Col4) > 11<11 Val(Col5) - Val(Col7) > 100< 100 Classe 1 Classe 2 Classe 3 > 5 Classe 2 Classe5 > 5 Classe 4 Classe 6 Classe 2 < 12 > 12 Classe 2 2/ Arbre de Décision – Exemple avec un tableau comme le notre
  47. 47. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Que se cache-t-il derrière l’application développée ? - Random Forest A1*Val(Col c1) + …+ A10*Val(Col c10) < S1 S2 < …< S3 > S4 > S7S5 < …< S6< S5 > S10< S10 > S11< S11 Classe 1 Classe 2 Classe 3 > S8 Classe 2 Classe5 > S8 Classe 4 Classe 6 Classe 2 < S9 > S9 Classe 2 3/ Connaissant les classes trouver l’arbre qui les donne A11*Val(Col c11) + …+ A30*Val(Col c30) A31*Val(Col c31) + …+ A37*Val(Col c37) A38*Val(Col c38) + …+ A50*Val(Col c50) A51*Val(Col c51) + …+ A60*Val(Col c60) A61*Val(Col c61) + …+ A67*Val(Col c67)
  48. 48. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Que se cache-t-il derrière l’application développée ? - Random Forest A1*Val(Col c1) + …+ A10*Val(Col c10) < S1 S2 < …< S3 > S4 > S7S5 < …< S6< S5 > S10< S10 > S11< S11 Classe 1 Classe 2 Classe 3 > S8 Classe 2 Classe5 > S8 Classe 4 Classe 6 Classe 2 < S9 > S9 Classe 2 3/ Connaissant les classes trouver l’arbre qui les donne A11*Val(Col c11) + …+ A30*Val(Col c30) A31*Val(Col c31) + …+ A37*Val(Col c37) A38*Val(Col c38) + …+ A50*Val(Col c50) A51*Val(Col c51) + …+ A60*Val(Col c60) A61*Val(Col c61) + …+ A67*Val(Col c67)
  49. 49. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Que se cache-t-il derrière l’application développée ? - Random Forest A1*Val(Col c1) + …+ A10*Val(Col c10) < S1 S2 < …< S3 > S4 > S7S5 < …< S6< S5 > S10< S10 > S11< S11 Classe 1 Classe 2 Classe 3 > S8 Classe 2 Classe5 > S8 Classe 4 Classe 6 Classe 2 < S9 > S9 Classe 2 4/ Connaissant les classes trouver l’arbre qui les donne au mieux pour une extraction de 80% de lignes A11*Val(Col c11) + …+ A30*Val(Col c30) A31*Val(Col c31) + …+ A37*Val(Col c37) A38*Val(Col c38) + …+ A50*Val(Col c50) A51*Val(Col c51) + …+ A60*Val(Col c60) A61*Val(Col c61) + …+ A67*Val(Col c67)
  50. 50. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS La matérialisation de l’outil via une Web App est le produit fini, utilisable, et est très importante mais ne constitue que la face émergée de l’outil statistique … Que se cache-t-il derrière l’application développée ? C l. 1 Cla sse 2 … C l. n Ensemble de positions
  51. 51. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Déploiement d’applications Une application qui répond exactement aux besoins, demandes et attentes Du sur-mesure également dans le déploiement Une méthode de travail qui facilite le déploiement
  52. 52. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Déploiement d’applications • Impliquer fortement les équipes terrain – Facilite le déploiement – Les outils développés sont attendus • Déployer les outils – Que vous désire le client – Dans l’environnement que souhaite le client – Selon la méthode que souhaite le client
  53. 53. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Conclusions Avec une expertise rare en Advanced Analytics Une équipe qui maîtrise toute la chaine du traitement des données
  54. 54. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Données Connaissance Aide à la décision Modèles mathématiques et statistiques Information • Reporting • BI Traditionnelle • Statistique descriptive Point crucial pour la pleine valorisation des données Conclusions Avec une expertise rare en Advanced Analytics Une équipe qui maîtrise toute la chaine du traitement des données
  55. 55. #MSCloudSummit - MS Cloud Summit Paris 2017 Un événement proposé par Agile.Net, aOS, AZUG FR, CMD, GUSS Conclusions Demande une expertise de haut niveau : • Docteurs - Ingénieurs • Mathématiques - Statistique • Modélisation Avec une expertise rare en Advanced Analytics Une équipe qui maîtrise toute la chaine du traitement des données
  56. 56. http://bit.ly/MSCSevalJ2 Evaluez les sessions… …et tentez de gagner une Surface Pro 4
  57. 57. Merci Beaucoup! Thank you! Join the conversation #MSCloudSummit @MSCloudSummit

Notes de l'éditeur

  • CRISP-DM : Cross Industry Standard Process for Data Mining
    SEMMA : Sample, Explore, Modify, Model, and Assess

×