Convaincre grâce aux données - Kent Aquereburu Data Scientist chez Société Générale

•Télécharger en tant que PPTX, PDF•

0 j'aime•234 vues

Savoir analyser des données et en tirer des résultats une partie du travail du Data Scientist mais pas la totalité. Présenter des résultats de manière synthétique et pertinente fait aussi partie de l'arsenal des compétences nécessaire dans le métier. C'est ce qu'on appelle la Data Visualisation. Durant ce workshop, nous vous présenteront les best-practices à connaître pour exceller dans ce domaine.

Données & analyses

Data Science Bootcamp
8 semaines de formation à temps
partiel

Notre Speaker
—
Machine Learning et DataViz
Kent Aquereburu,
Data Scientist chez Société Générale

SOMMAIRE
—
• Phase préliminaire d’un projet de machine learning
• Les grandes étapes d’un projet de machine learning
• Quelques « Bonnes » pratiques en datavisualisation
• Eléments de restitution et de visualisation des résultats d’un
modèle

Machine learning : phase préliminaire
—
 Compréhension et formalisation de la question « business » ou du
besoin métier
 Définition précise de la variable cible et choix d’une métrique à
optimiser
 Cadre d’utilisation du modèle :
 Prédire avec précision le phénomène d’intérêt
OU/ET
 Expliquer les causes du phénomène d’intérêt

Machine learning : Prédire ou expliquer ?
—

Les grandes étapes d’un projet de machine learning
— Récupération des
données brutes
Prétraitement
Feature Engineering
Base d’apprentissage
Choix de l’algorithme
Apprentissage et
optimisation
Prédiction
Base de validation
Restitution
des résultats
Dataviz
Dataviz

Les principaux types de problèmes en machine
learning
— Machine learning
Recommandation
Semi-Supervisé
RenforcementRegression
Arbres de décision
Forêts aléatoires
Classification
Clustering
• Segmentation clients
• Catégorisation de produits
• Détection de thématiques
•Etc
• Ciblage,
• Score d’appétence,
• Score d’attrition
•Analyse de sentiments
•Etc
Supervisé Non supervisé
Boosting
Détection d’anomalies
•Détection de fraude

Quelques « bonnes » pratiques en
datavisualisation
— La DataViz consiste à transformer des données brutes en information
visuelle afin de communication d’un message
 La DataViz privilégie la mise en lumière de certains aspects
spécifiques de la donnée à une présentation exhaustive de
l’information disponible
 Le message doit être clair, précis et fiable (i.e. cohérent avec la réalité
des données)

 Préférez un simple texte à un
graphe lorsqu’il y a très peu
d’informations à visualiser
=> 237 répondants préfèrent le
produit A tandis que seulement
112 préfèrent le produit B
Source : www.infragistics.com
Une image vaut 1000 mots , pas 2 !
—

Source : www.infragistics.com
Evitez de tronquer les axes
=> Démarrez les axes à 90 au lieu de 0 rend la comparaison visuelle
des barres « trompeuse » sur le graphique de gauche :

Evitez les graphiques à double axe des ordonnées
—
 Les graphiques à
double axe peuvent
créer des corrélations
fallacieuses
 => Privilégiez deux
graphiques distincts
pour représenter
chacune des
grandeurs

Source : www.infragistics.com
Evitez les éléments visuels non informatifs
(couleurs superflues)

Source : www.infragistics.com
Evitez les graduations superflues

Source : www.infragistics.com
Facilitez la compréhension de la visualisation en triant
vos données

Source : www.infragistics.com
Affichez le moins de courbes possible en fonction
du message de la viz

 Visualisation des zones de prédiction où le modèle est plus ou moins
performant ( Taux de prédiction par quantile de risque)
 Visualisation des variables d’importance du modèle
 Visualisation des effets marginaux par variable
Source : www.infragistics.com
Restitution et Visualisation des résultats d’un
modèle de machine learning

Nos Prochains Workshops
—
11 Juillet
—
Adrien Acquistapace, Data Consultant chez
Axionable

Nos Prochaines Sessions
—
4 Sept - 25 Oct
Mardis / Jeudis
18h30 - 21h00
Semaine
—
7 Juil - 1 Sept
Samedis
9h30 - 15h30
Weekend
—

Nos Prochaines Sessions
—
6 au 17 Août
Tous les jours
9h30 - 15h30
Intensives
—

Data Science Bootcamp
Merci ! A la prochaine :)

Recommandé

Comment piloter votre activité à l’aide de SAP Analytics Cloud ?Axys

Astuces pttMartine Dubreucq

Tech days 2012 mvvm de a à zArnaud Auroux

MVVM de A à ZMicrosoft

B5252 g formation-ibm-cognos-framework-manager-concevoir-des-modeles-de-metad...CERTyou Formation

#WLS17 / We Love SEO 2017 : Data & Digital Analytics Michael Vuillaume

0 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v16CERTyou Formation

Recommandé

Comment piloter votre activité à l’aide de SAP Analytics Cloud ?Axys

Astuces pttMartine Dubreucq

Tech days 2012 mvvm de a à zArnaud Auroux

MVVM de A à ZMicrosoft

B5252 g formation-ibm-cognos-framework-manager-concevoir-des-modeles-de-metad...CERTyou Formation

#WLS17 / We Love SEO 2017 : Data & Digital Analytics Michael Vuillaume

0 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v16CERTyou Formation

Gaib19 ai intudstrialisation - azure machine learning servicesFabien Adato

Faites parler vos données avec des visualisations convaincantesSophie Marchand, M.Sc., CPA, CGA, MVP

Conception d’un outil décisionnel pour la gestion de la relation client dans ...usthbmilsded

Big Data Developers in Paris presentation : Social DataAbdellah Lamrani Alaoui

DebuteraveclesmlsIBRAHIM Ali MAHADI 🇷🇴🇺🇸🇬🇦🇨🇦

Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...Minitab, LLC

Morning tech #2 - Démarche performance slidesOxalide

Oxalide Morning tech #2 - démarche performanceLudovic Piot

Datastudio : du basique au connecteur TEKNSEO 2018Vincent Lahaye

Apprentissage automatique avec RapidMinerMajdi Hannachi

B5270 g formation-essentials-for-ibm-cognos-bi-v10-2CERTyou Formation

modèle de scoring pour la clientèle Oulaya CHOUAY

Paris Tug - Session d'octobreGeoffrey Felix

B5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olapCERTyou Formation

Mappingobjetrelationnel[1]linasafaa

Impression 3D : Repenser les business models et la capture de valeur [Marcus ...Thierry Rayna

Big Data by Soft Computing - LilleSoft Computing

0 a055g formation-preparation-des-donnees-avec-ibm-spss-modeler-v16-cours-avanceCERTyou Formation

Architecture, bonnes pratiques et recettes pour la réussite de vos projets av...Microsoft Technet France

DataScientist Job : Between Myths and Reality.pdfJedha Bootcamp

L'IA face à l'épreuve du covid-19 - Jedha x KardinalJedha Bootcamp

Contenu connexe

Similaire à Convaincre grâce aux données - Kent Aquereburu Data Scientist chez Société Générale

Gaib19 ai intudstrialisation - azure machine learning servicesFabien Adato

Faites parler vos données avec des visualisations convaincantesSophie Marchand, M.Sc., CPA, CGA, MVP

Conception d’un outil décisionnel pour la gestion de la relation client dans ...usthbmilsded

Big Data Developers in Paris presentation : Social DataAbdellah Lamrani Alaoui

DebuteraveclesmlsIBRAHIM Ali MAHADI 🇷🇴🇺🇸🇬🇦🇨🇦

Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...Minitab, LLC

Morning tech #2 - Démarche performance slidesOxalide

Oxalide Morning tech #2 - démarche performanceLudovic Piot

Datastudio : du basique au connecteur TEKNSEO 2018Vincent Lahaye

Apprentissage automatique avec RapidMinerMajdi Hannachi

B5270 g formation-essentials-for-ibm-cognos-bi-v10-2CERTyou Formation

modèle de scoring pour la clientèle Oulaya CHOUAY

Paris Tug - Session d'octobreGeoffrey Felix

B5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olapCERTyou Formation

Mappingobjetrelationnel[1]linasafaa

Impression 3D : Repenser les business models et la capture de valeur [Marcus ...Thierry Rayna

Big Data by Soft Computing - LilleSoft Computing

0 a055g formation-preparation-des-donnees-avec-ibm-spss-modeler-v16-cours-avanceCERTyou Formation

Architecture, bonnes pratiques et recettes pour la réussite de vos projets av...Microsoft Technet France

Similaire à Convaincre grâce aux données - Kent Aquereburu Data Scientist chez Société Générale (20)

Gaib19 ai intudstrialisation - azure machine learning services

Faites parler vos données avec des visualisations convaincantes

Conception d’un outil décisionnel pour la gestion de la relation client dans ...

Big Data Developers in Paris presentation : Social Data

Debuteraveclesmls

Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...

Morning tech #2 - Démarche performance slides

Oxalide Morning tech #2 - démarche performance

Datastudio : du basique au connecteur TEKNSEO 2018

Apprentissage automatique avec RapidMiner

B5270 g formation-essentials-for-ibm-cognos-bi-v10-2

modèle de scoring pour la clientèle

Paris Tug - Session d'octobre

B5282 g formation-ibm-cognos-transformer-concevoir-des-modeles-olap

Mappingobjetrelationnel[1]

Impression 3D : Repenser les business models et la capture de valeur [Marcus ...

Big Data by Soft Computing - Lille

0 a055g formation-preparation-des-donnees-avec-ibm-spss-modeler-v16-cours-avance

Architecture, bonnes pratiques et recettes pour la réussite de vos projets av...

Plus de Jedha Bootcamp

DataScientist Job : Between Myths and Reality.pdfJedha Bootcamp

L'IA face à l'épreuve du covid-19 - Jedha x KardinalJedha Bootcamp

Générer une image à partir d'un texte - Fullstack Paris #5Jedha Bootcamp

Recommander des films - Andreea - Fullstack Lyon #1Jedha Bootcamp

Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1Jedha Bootcamp

Construction d'une voiture autonome - Adrien Dodinet, alumni FullstackJedha Bootcamp

Slide portes ouvertesJedha Bootcamp

Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...Jedha Bootcamp

Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De ForzanzJedha Bootcamp

Trouver des offres d'emploi grâce au traitement de texte - Mohamed ZebliJedha Bootcamp

Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed ZebliJedha Bootcamp

Reconnaître du mobilier design sur une photographie - Emmanuelle GuyotJedha Bootcamp

Estimer le prix de bijou lors d'une vente aux enchères - Katie RossJedha Bootcamp

Workshop Data Visualisation - Jedha ParisJedha Bootcamp

Les applications du Deep Learning - Jedha LyonJedha Bootcamp

Optimiser ses publicités grâce à la Data ScienceJedha Bootcamp

Connaître son audience grâce à la Data - Parisa MAjlessiJedha Bootcamp

ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...Jedha Bootcamp

Automatiser la classification d'un jeu vidéoJedha Bootcamp

Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...Jedha Bootcamp

Plus de Jedha Bootcamp (20)

DataScientist Job : Between Myths and Reality.pdf

L'IA face à l'épreuve du covid-19 - Jedha x Kardinal

Générer une image à partir d'un texte - Fullstack Paris #5

Recommander des films - Andreea - Fullstack Lyon #1

Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1

Construction d'une voiture autonome - Adrien Dodinet, alumni Fullstack

Slide portes ouvertes

Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...

Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz

Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli

Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli

Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot

Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross

Workshop Data Visualisation - Jedha Paris

Les applications du Deep Learning - Jedha Lyon

Optimiser ses publicités grâce à la Data Science

Connaître son audience grâce à la Data - Parisa MAjlessi

ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...

Automatiser la classification d'un jeu vidéo

Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...

Convaincre grâce aux données - Kent Aquereburu Data Scientist chez Société Générale

1. Data Science Bootcamp 8 semaines de formation à temps partiel

2. Notre Speaker — Machine Learning et DataViz Kent Aquereburu, Data Scientist chez Société Générale

3. SOMMAIRE — • Phase préliminaire d’un projet de machine learning • Les grandes étapes d’un projet de machine learning • Quelques « Bonnes » pratiques en datavisualisation • Eléments de restitution et de visualisation des résultats d’un modèle

4. Machine learning : phase préliminaire —  Compréhension et formalisation de la question « business » ou du besoin métier  Définition précise de la variable cible et choix d’une métrique à optimiser  Cadre d’utilisation du modèle :  Prédire avec précision le phénomène d’intérêt OU/ET  Expliquer les causes du phénomène d’intérêt

5. Machine learning : Prédire ou expliquer ? —

6. Machine learning : Prédire ou expliquer ? —

7. Les grandes étapes d’un projet de machine learning — Récupération des données brutes Prétraitement Feature Engineering Base d’apprentissage Choix de l’algorithme Apprentissage et optimisation Prédiction Base de validation Restitution des résultats Dataviz Dataviz

8. Les principaux types de problèmes en machine learning — Machine learning Recommandation Semi-Supervisé RenforcementRegression Arbres de décision Forêts aléatoires Classification Clustering • Segmentation clients • Catégorisation de produits • Détection de thématiques •Etc • Ciblage, • Score d’appétence, • Score d’attrition •Analyse de sentiments •Etc Supervisé Non supervisé Boosting Détection d’anomalies •Détection de fraude

9. Quelques « bonnes » pratiques en datavisualisation — La DataViz consiste à transformer des données brutes en information visuelle afin de communication d’un message  La DataViz privilégie la mise en lumière de certains aspects spécifiques de la donnée à une présentation exhaustive de l’information disponible  Le message doit être clair, précis et fiable (i.e. cohérent avec la réalité des données)

10.  Préférez un simple texte à un graphe lorsqu’il y a très peu d’informations à visualiser => 237 répondants préfèrent le produit A tandis que seulement 112 préfèrent le produit B Source : www.infragistics.com Une image vaut 1000 mots , pas 2 ! —

11. Source : www.infragistics.com Evitez de tronquer les axes => Démarrez les axes à 90 au lieu de 0 rend la comparaison visuelle des barres « trompeuse » sur le graphique de gauche :

12. Evitez les graphiques à double axe des ordonnées —  Les graphiques à double axe peuvent créer des corrélations fallacieuses  => Privilégiez deux graphiques distincts pour représenter chacune des grandeurs

13. Source : www.infragistics.com Evitez les éléments visuels non informatifs (couleurs superflues)

14. Source : www.infragistics.com Evitez les graduations superflues

15. Source : www.infragistics.com Facilitez la compréhension de la visualisation en triant vos données

16. Source : www.infragistics.com Affichez le moins de courbes possible en fonction du message de la viz

17.  Visualisation des zones de prédiction où le modèle est plus ou moins performant ( Taux de prédiction par quantile de risque)  Visualisation des variables d’importance du modèle  Visualisation des effets marginaux par variable Source : www.infragistics.com Restitution et Visualisation des résultats d’un modèle de machine learning

18. Nos Prochains Workshops — 11 Juillet — Adrien Acquistapace, Data Consultant chez Axionable

19. Nos Prochaines Sessions — 4 Sept - 25 Oct Mardis / Jeudis 18h30 - 21h00 Semaine — 7 Juil - 1 Sept Samedis 9h30 - 15h30 Weekend —

20. Nos Prochaines Sessions — 6 au 17 Août Tous les jours 9h30 - 15h30 Intensives —

21. Data Science Bootcamp Merci ! A la prochaine :)