Savoir analyser des données et en tirer des résultats une partie du travail du Data Scientist mais pas la totalité. Présenter des résultats de manière synthétique et pertinente fait aussi partie de l'arsenal des compétences nécessaire dans le métier. C'est ce qu'on appelle la Data Visualisation. Durant ce workshop, nous vous présenteront les best-practices à connaître pour exceller dans ce domaine.
3. SOMMAIRE
—
• Phase préliminaire d’un projet de machine learning
• Les grandes étapes d’un projet de machine learning
• Quelques « Bonnes » pratiques en datavisualisation
• Eléments de restitution et de visualisation des résultats d’un
modèle
4. Machine learning : phase préliminaire
—
Compréhension et formalisation de la question « business » ou du
besoin métier
Définition précise de la variable cible et choix d’une métrique à
optimiser
Cadre d’utilisation du modèle :
Prédire avec précision le phénomène d’intérêt
OU/ET
Expliquer les causes du phénomène d’intérêt
7. Les grandes étapes d’un projet de machine learning
— Récupération des
données brutes
Prétraitement
Feature Engineering
Base d’apprentissage
Choix de l’algorithme
Apprentissage et
optimisation
Prédiction
Base de validation
Restitution
des résultats
Dataviz
Dataviz
8. Les principaux types de problèmes en machine
learning
— Machine learning
Recommandation
Semi-Supervisé
RenforcementRegression
Arbres de décision
Forêts aléatoires
Classification
Clustering
• Segmentation clients
• Catégorisation de produits
• Détection de thématiques
•Etc
• Ciblage,
• Score d’appétence,
• Score d’attrition
•Analyse de sentiments
•Etc
Supervisé Non supervisé
Boosting
Détection d’anomalies
•Détection de fraude
9. Quelques « bonnes » pratiques en
datavisualisation
— La DataViz consiste à transformer des données brutes en information
visuelle afin de communication d’un message
La DataViz privilégie la mise en lumière de certains aspects
spécifiques de la donnée à une présentation exhaustive de
l’information disponible
Le message doit être clair, précis et fiable (i.e. cohérent avec la réalité
des données)
10. Préférez un simple texte à un
graphe lorsqu’il y a très peu
d’informations à visualiser
=> 237 répondants préfèrent le
produit A tandis que seulement
112 préfèrent le produit B
Source : www.infragistics.com
Une image vaut 1000 mots , pas 2 !
—
11. Source : www.infragistics.com
Evitez de tronquer les axes
=> Démarrez les axes à 90 au lieu de 0 rend la comparaison visuelle
des barres « trompeuse » sur le graphique de gauche :
12. Evitez les graphiques à double axe des ordonnées
—
Les graphiques à
double axe peuvent
créer des corrélations
fallacieuses
=> Privilégiez deux
graphiques distincts
pour représenter
chacune des
grandeurs
17. Visualisation des zones de prédiction où le modèle est plus ou moins
performant ( Taux de prédiction par quantile de risque)
Visualisation des variables d’importance du modèle
Visualisation des effets marginaux par variable
Source : www.infragistics.com
Restitution et Visualisation des résultats d’un
modèle de machine learning