SlideShare une entreprise Scribd logo
1  sur  21
Data Science Bootcamp
8 semaines de formation à temps
partiel
Notre Speaker
—
Machine Learning et DataViz
Kent Aquereburu,
Data Scientist chez Société Générale
SOMMAIRE
—
• Phase préliminaire d’un projet de machine learning
• Les grandes étapes d’un projet de machine learning
• Quelques « Bonnes » pratiques en datavisualisation
• Eléments de restitution et de visualisation des résultats d’un
modèle
Machine learning : phase préliminaire
—
 Compréhension et formalisation de la question « business » ou du
besoin métier
 Définition précise de la variable cible et choix d’une métrique à
optimiser
 Cadre d’utilisation du modèle :
 Prédire avec précision le phénomène d’intérêt
OU/ET
 Expliquer les causes du phénomène d’intérêt
Machine learning : Prédire ou expliquer ?
—
Machine learning : Prédire ou expliquer ?
—
Les grandes étapes d’un projet de machine learning
— Récupération des
données brutes
Prétraitement
Feature Engineering
Base d’apprentissage
Choix de l’algorithme
Apprentissage et
optimisation
Prédiction
Base de validation
Restitution
des résultats
Dataviz
Dataviz
Les principaux types de problèmes en machine
learning
— Machine learning
Recommandation
Semi-Supervisé
RenforcementRegression
Arbres de décision
Forêts aléatoires
Classification
Clustering
• Segmentation clients
• Catégorisation de produits
• Détection de thématiques
•Etc
• Ciblage,
• Score d’appétence,
• Score d’attrition
•Analyse de sentiments
•Etc
Supervisé Non supervisé
Boosting
Détection d’anomalies
•Détection de fraude
Quelques « bonnes » pratiques en
datavisualisation
— La DataViz consiste à transformer des données brutes en information
visuelle afin de communication d’un message
 La DataViz privilégie la mise en lumière de certains aspects
spécifiques de la donnée à une présentation exhaustive de
l’information disponible
 Le message doit être clair, précis et fiable (i.e. cohérent avec la réalité
des données)
 Préférez un simple texte à un
graphe lorsqu’il y a très peu
d’informations à visualiser
=> 237 répondants préfèrent le
produit A tandis que seulement
112 préfèrent le produit B
Source : www.infragistics.com
Une image vaut 1000 mots , pas 2 !
—
Source : www.infragistics.com
Evitez de tronquer les axes
=> Démarrez les axes à 90 au lieu de 0 rend la comparaison visuelle
des barres « trompeuse » sur le graphique de gauche :
Evitez les graphiques à double axe des ordonnées
—
 Les graphiques à
double axe peuvent
créer des corrélations
fallacieuses
 => Privilégiez deux
graphiques distincts
pour représenter
chacune des
grandeurs
Source : www.infragistics.com
Evitez les éléments visuels non informatifs
(couleurs superflues)
Source : www.infragistics.com
Evitez les graduations superflues
Source : www.infragistics.com
Facilitez la compréhension de la visualisation en triant
vos données
Source : www.infragistics.com
Affichez le moins de courbes possible en fonction
du message de la viz
 Visualisation des zones de prédiction où le modèle est plus ou moins
performant ( Taux de prédiction par quantile de risque)
 Visualisation des variables d’importance du modèle
 Visualisation des effets marginaux par variable
Source : www.infragistics.com
Restitution et Visualisation des résultats d’un
modèle de machine learning
Nos Prochains Workshops
—
11 Juillet
—
Adrien Acquistapace, Data Consultant chez
Axionable
Nos Prochaines Sessions
—
4 Sept - 25 Oct
Mardis / Jeudis
18h30 - 21h00
Semaine
—
7 Juil - 1 Sept
Samedis
9h30 - 15h30
Weekend
—
Nos Prochaines Sessions
—
6 au 17 Août
Tous les jours
9h30 - 15h30
Intensives
—
Data Science Bootcamp
Merci ! A la prochaine :)

Contenu connexe

Similaire à Convaincre grâce aux données - Kent Aquereburu Data Scientist chez Société Générale

Gaib19 ai intudstrialisation - azure machine learning services
Gaib19   ai intudstrialisation - azure machine learning servicesGaib19   ai intudstrialisation - azure machine learning services
Gaib19 ai intudstrialisation - azure machine learning servicesFabien Adato
 
Conception d’un outil décisionnel pour la gestion de la relation client dans ...
Conception d’un outil décisionnel pour la gestion de la relation client dans ...Conception d’un outil décisionnel pour la gestion de la relation client dans ...
Conception d’un outil décisionnel pour la gestion de la relation client dans ...usthbmilsded
 
Big Data Developers in Paris presentation : Social Data
Big Data Developers in Paris presentation : Social DataBig Data Developers in Paris presentation : Social Data
Big Data Developers in Paris presentation : Social DataAbdellah Lamrani Alaoui
 
Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...
Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...
Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...Minitab, LLC
 
Morning tech #2 - Démarche performance slides
Morning tech #2 - Démarche performance slidesMorning tech #2 - Démarche performance slides
Morning tech #2 - Démarche performance slidesOxalide
 
Oxalide Morning tech #2 - démarche performance
Oxalide Morning tech #2 - démarche performanceOxalide Morning tech #2 - démarche performance
Oxalide Morning tech #2 - démarche performanceLudovic Piot
 
Datastudio : du basique au connecteur TEKNSEO 2018
Datastudio : du basique au connecteur TEKNSEO 2018Datastudio : du basique au connecteur TEKNSEO 2018
Datastudio : du basique au connecteur TEKNSEO 2018Vincent Lahaye
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerMajdi Hannachi
 
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2CERTyou Formation
 
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2CERTyou Formation
 
modèle de scoring pour la clientèle
modèle de scoring pour la clientèle modèle de scoring pour la clientèle
modèle de scoring pour la clientèle Oulaya CHOUAY
 
Paris Tug - Session d'octobre
Paris Tug - Session d'octobreParis Tug - Session d'octobre
Paris Tug - Session d'octobreGeoffrey Felix
 
B5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olap
B5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olapB5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olap
B5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olapCERTyou Formation
 
Mappingobjetrelationnel[1]
Mappingobjetrelationnel[1]Mappingobjetrelationnel[1]
Mappingobjetrelationnel[1]linasafaa
 
Impression 3D : Repenser les business models et la capture de valeur [Marcus ...
Impression 3D : Repenser les business models et la capture de valeur [Marcus ...Impression 3D : Repenser les business models et la capture de valeur [Marcus ...
Impression 3D : Repenser les business models et la capture de valeur [Marcus ...Thierry Rayna
 
Big Data by Soft Computing - Lille
Big Data by Soft Computing - LilleBig Data by Soft Computing - Lille
Big Data by Soft Computing - LilleSoft Computing
 
0 a055g formation-preparation-des-donnees-avec-ibm-spss-modeler-v16-cours-avance
0 a055g formation-preparation-des-donnees-avec-ibm-spss-modeler-v16-cours-avance0 a055g formation-preparation-des-donnees-avec-ibm-spss-modeler-v16-cours-avance
0 a055g formation-preparation-des-donnees-avec-ibm-spss-modeler-v16-cours-avanceCERTyou Formation
 
Architecture, bonnes pratiques et recettes pour la réussite de vos projets av...
Architecture, bonnes pratiques et recettes pour la réussite de vos projets av...Architecture, bonnes pratiques et recettes pour la réussite de vos projets av...
Architecture, bonnes pratiques et recettes pour la réussite de vos projets av...Microsoft Technet France
 

Similaire à Convaincre grâce aux données - Kent Aquereburu Data Scientist chez Société Générale (20)

Gaib19 ai intudstrialisation - azure machine learning services
Gaib19   ai intudstrialisation - azure machine learning servicesGaib19   ai intudstrialisation - azure machine learning services
Gaib19 ai intudstrialisation - azure machine learning services
 
Faites parler vos données avec des visualisations convaincantes
Faites parler vos données avec des visualisations convaincantesFaites parler vos données avec des visualisations convaincantes
Faites parler vos données avec des visualisations convaincantes
 
Conception d’un outil décisionnel pour la gestion de la relation client dans ...
Conception d’un outil décisionnel pour la gestion de la relation client dans ...Conception d’un outil décisionnel pour la gestion de la relation client dans ...
Conception d’un outil décisionnel pour la gestion de la relation client dans ...
 
Big Data Developers in Paris presentation : Social Data
Big Data Developers in Paris presentation : Social DataBig Data Developers in Paris presentation : Social Data
Big Data Developers in Paris presentation : Social Data
 
Debuteraveclesmls
DebuteraveclesmlsDebuteraveclesmls
Debuteraveclesmls
 
Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...
Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...
Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...
 
Morning tech #2 - Démarche performance slides
Morning tech #2 - Démarche performance slidesMorning tech #2 - Démarche performance slides
Morning tech #2 - Démarche performance slides
 
Oxalide Morning tech #2 - démarche performance
Oxalide Morning tech #2 - démarche performanceOxalide Morning tech #2 - démarche performance
Oxalide Morning tech #2 - démarche performance
 
Datastudio : du basique au connecteur TEKNSEO 2018
Datastudio : du basique au connecteur TEKNSEO 2018Datastudio : du basique au connecteur TEKNSEO 2018
Datastudio : du basique au connecteur TEKNSEO 2018
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
 
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
 
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
 
modèle de scoring pour la clientèle
modèle de scoring pour la clientèle modèle de scoring pour la clientèle
modèle de scoring pour la clientèle
 
Paris Tug - Session d'octobre
Paris Tug - Session d'octobreParis Tug - Session d'octobre
Paris Tug - Session d'octobre
 
B5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olap
B5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olapB5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olap
B5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olap
 
Mappingobjetrelationnel[1]
Mappingobjetrelationnel[1]Mappingobjetrelationnel[1]
Mappingobjetrelationnel[1]
 
Impression 3D : Repenser les business models et la capture de valeur [Marcus ...
Impression 3D : Repenser les business models et la capture de valeur [Marcus ...Impression 3D : Repenser les business models et la capture de valeur [Marcus ...
Impression 3D : Repenser les business models et la capture de valeur [Marcus ...
 
Big Data by Soft Computing - Lille
Big Data by Soft Computing - LilleBig Data by Soft Computing - Lille
Big Data by Soft Computing - Lille
 
0 a055g formation-preparation-des-donnees-avec-ibm-spss-modeler-v16-cours-avance
0 a055g formation-preparation-des-donnees-avec-ibm-spss-modeler-v16-cours-avance0 a055g formation-preparation-des-donnees-avec-ibm-spss-modeler-v16-cours-avance
0 a055g formation-preparation-des-donnees-avec-ibm-spss-modeler-v16-cours-avance
 
Architecture, bonnes pratiques et recettes pour la réussite de vos projets av...
Architecture, bonnes pratiques et recettes pour la réussite de vos projets av...Architecture, bonnes pratiques et recettes pour la réussite de vos projets av...
Architecture, bonnes pratiques et recettes pour la réussite de vos projets av...
 

Plus de Jedha Bootcamp

DataScientist Job : Between Myths and Reality.pdf
DataScientist Job : Between Myths and Reality.pdfDataScientist Job : Between Myths and Reality.pdf
DataScientist Job : Between Myths and Reality.pdfJedha Bootcamp
 
L'IA face à l'épreuve du covid-19 - Jedha x Kardinal
L'IA face à l'épreuve du covid-19 - Jedha x KardinalL'IA face à l'épreuve du covid-19 - Jedha x Kardinal
L'IA face à l'épreuve du covid-19 - Jedha x KardinalJedha Bootcamp
 
Générer une image à partir d'un texte - Fullstack Paris #5
Générer une image à partir d'un texte - Fullstack Paris #5Générer une image à partir d'un texte - Fullstack Paris #5
Générer une image à partir d'un texte - Fullstack Paris #5Jedha Bootcamp
 
Recommander des films - Andreea - Fullstack Lyon #1
Recommander des films - Andreea - Fullstack Lyon #1Recommander des films - Andreea - Fullstack Lyon #1
Recommander des films - Andreea - Fullstack Lyon #1Jedha Bootcamp
 
Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1
Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1
Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1Jedha Bootcamp
 
Construction d'une voiture autonome - Adrien Dodinet, alumni Fullstack
Construction d'une voiture autonome - Adrien Dodinet, alumni FullstackConstruction d'une voiture autonome - Adrien Dodinet, alumni Fullstack
Construction d'une voiture autonome - Adrien Dodinet, alumni FullstackJedha Bootcamp
 
Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...
Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...
Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...Jedha Bootcamp
 
Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De ForzanzEstimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De ForzanzJedha Bootcamp
 
Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed ZebliTrouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed ZebliJedha Bootcamp
 
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed ZebliOptimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed ZebliJedha Bootcamp
 
Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle GuyotReconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle GuyotJedha Bootcamp
 
Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie RossEstimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie RossJedha Bootcamp
 
Workshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha ParisWorkshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha ParisJedha Bootcamp
 
Les applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha LyonLes applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha LyonJedha Bootcamp
 
Optimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data ScienceOptimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data ScienceJedha Bootcamp
 
Connaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiConnaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiJedha Bootcamp
 
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...Jedha Bootcamp
 
Automatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéoAutomatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéoJedha Bootcamp
 
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...Jedha Bootcamp
 

Plus de Jedha Bootcamp (20)

DataScientist Job : Between Myths and Reality.pdf
DataScientist Job : Between Myths and Reality.pdfDataScientist Job : Between Myths and Reality.pdf
DataScientist Job : Between Myths and Reality.pdf
 
L'IA face à l'épreuve du covid-19 - Jedha x Kardinal
L'IA face à l'épreuve du covid-19 - Jedha x KardinalL'IA face à l'épreuve du covid-19 - Jedha x Kardinal
L'IA face à l'épreuve du covid-19 - Jedha x Kardinal
 
Générer une image à partir d'un texte - Fullstack Paris #5
Générer une image à partir d'un texte - Fullstack Paris #5Générer une image à partir d'un texte - Fullstack Paris #5
Générer une image à partir d'un texte - Fullstack Paris #5
 
Recommander des films - Andreea - Fullstack Lyon #1
Recommander des films - Andreea - Fullstack Lyon #1Recommander des films - Andreea - Fullstack Lyon #1
Recommander des films - Andreea - Fullstack Lyon #1
 
Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1
Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1
Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1
 
Construction d'une voiture autonome - Adrien Dodinet, alumni Fullstack
Construction d'une voiture autonome - Adrien Dodinet, alumni FullstackConstruction d'une voiture autonome - Adrien Dodinet, alumni Fullstack
Construction d'une voiture autonome - Adrien Dodinet, alumni Fullstack
 
Slide portes ouvertes
Slide portes ouvertesSlide portes ouvertes
Slide portes ouvertes
 
Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...
Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...
Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...
 
Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De ForzanzEstimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
 
Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed ZebliTrouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
 
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed ZebliOptimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
 
Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle GuyotReconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot
 
Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie RossEstimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross
 
Workshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha ParisWorkshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha Paris
 
Les applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha LyonLes applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha Lyon
 
Optimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data ScienceOptimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data Science
 
Connaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiConnaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessi
 
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
 
Automatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéoAutomatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéo
 
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
 

Convaincre grâce aux données - Kent Aquereburu Data Scientist chez Société Générale

  • 1. Data Science Bootcamp 8 semaines de formation à temps partiel
  • 2. Notre Speaker — Machine Learning et DataViz Kent Aquereburu, Data Scientist chez Société Générale
  • 3. SOMMAIRE — • Phase préliminaire d’un projet de machine learning • Les grandes étapes d’un projet de machine learning • Quelques « Bonnes » pratiques en datavisualisation • Eléments de restitution et de visualisation des résultats d’un modèle
  • 4. Machine learning : phase préliminaire —  Compréhension et formalisation de la question « business » ou du besoin métier  Définition précise de la variable cible et choix d’une métrique à optimiser  Cadre d’utilisation du modèle :  Prédire avec précision le phénomène d’intérêt OU/ET  Expliquer les causes du phénomène d’intérêt
  • 5. Machine learning : Prédire ou expliquer ? —
  • 6. Machine learning : Prédire ou expliquer ? —
  • 7. Les grandes étapes d’un projet de machine learning — Récupération des données brutes Prétraitement Feature Engineering Base d’apprentissage Choix de l’algorithme Apprentissage et optimisation Prédiction Base de validation Restitution des résultats Dataviz Dataviz
  • 8. Les principaux types de problèmes en machine learning — Machine learning Recommandation Semi-Supervisé RenforcementRegression Arbres de décision Forêts aléatoires Classification Clustering • Segmentation clients • Catégorisation de produits • Détection de thématiques •Etc • Ciblage, • Score d’appétence, • Score d’attrition •Analyse de sentiments •Etc Supervisé Non supervisé Boosting Détection d’anomalies •Détection de fraude
  • 9. Quelques « bonnes » pratiques en datavisualisation — La DataViz consiste à transformer des données brutes en information visuelle afin de communication d’un message  La DataViz privilégie la mise en lumière de certains aspects spécifiques de la donnée à une présentation exhaustive de l’information disponible  Le message doit être clair, précis et fiable (i.e. cohérent avec la réalité des données)
  • 10.  Préférez un simple texte à un graphe lorsqu’il y a très peu d’informations à visualiser => 237 répondants préfèrent le produit A tandis que seulement 112 préfèrent le produit B Source : www.infragistics.com Une image vaut 1000 mots , pas 2 ! —
  • 11. Source : www.infragistics.com Evitez de tronquer les axes => Démarrez les axes à 90 au lieu de 0 rend la comparaison visuelle des barres « trompeuse » sur le graphique de gauche :
  • 12. Evitez les graphiques à double axe des ordonnées —  Les graphiques à double axe peuvent créer des corrélations fallacieuses  => Privilégiez deux graphiques distincts pour représenter chacune des grandeurs
  • 13. Source : www.infragistics.com Evitez les éléments visuels non informatifs (couleurs superflues)
  • 14. Source : www.infragistics.com Evitez les graduations superflues
  • 15. Source : www.infragistics.com Facilitez la compréhension de la visualisation en triant vos données
  • 16. Source : www.infragistics.com Affichez le moins de courbes possible en fonction du message de la viz
  • 17.  Visualisation des zones de prédiction où le modèle est plus ou moins performant ( Taux de prédiction par quantile de risque)  Visualisation des variables d’importance du modèle  Visualisation des effets marginaux par variable Source : www.infragistics.com Restitution et Visualisation des résultats d’un modèle de machine learning
  • 18. Nos Prochains Workshops — 11 Juillet — Adrien Acquistapace, Data Consultant chez Axionable
  • 19. Nos Prochaines Sessions — 4 Sept - 25 Oct Mardis / Jeudis 18h30 - 21h00 Semaine — 7 Juil - 1 Sept Samedis 9h30 - 15h30 Weekend —
  • 20. Nos Prochaines Sessions — 6 au 17 Août Tous les jours 9h30 - 15h30 Intensives —
  • 21. Data Science Bootcamp Merci ! A la prochaine :)