SlideShare une entreprise Scribd logo
1  sur  27
ARBRES DE DÉCISION
& FORÊTS ALÉATOIRES
JULIEN BLAIZE
Responsable R&D SPAD
12/10/2018
LES ARBRES : GÉNÉRALITÉS
1
2© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
3© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
LES ARBRES DE DÉCISION
 Avantages :
 Interprétable (le modèle est facilement lisible)
 Gère naturellement les variables inutiles (impact = 0)
 Gère correctement les données manquantes
 Modèle compact et rapide à appliquer (complexité : O(profondeur de l’arbre))
 Fonctionne pour les continues et les nominales mixées
 Possibilité d’utiliser des poids et/ou matrices de coûts.
 Inconvénients :
 Découpe selon 1 seule variable dans chaque nœud
 Utilise un algorithme glouton qui ne trouve pas l’arbre optimal
 Difficile de choisir la bonne profondeur pour éviter le sur-apprentissage.
4© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
DIFFÉRENTS ALGORITHMES
Méthode CHAID CART C4.5
Critère de
découpage
Chi-2 (T de
Tschuprow)
Gini Gain informationnel
Regroupement
des modalités
Optimale par test Arbre binaire 1 modalité = 1 feuille
Élagage Pré-élagage (Chi-2) Post-élagage avec
échantillon
Post-élagage avec estimation
pessimiste
Recommandé Phase exploratoire
Gros volume
Performance en
classement
simplicité
Petits effectifs
Non recommandé Performances en
classements
Difficile à paramétrer
Petits effectifs
Binarisation pas
toujours appropriée
Post-élagage peu performant
sur grand volume
http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html
LES ARBRES : PROFONDEUR ET
EFFECTIFS MINIMAUX2
5© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
6© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
TEST DE LA TAILLE DE L’ARBRE (1/2)
 Limiter la taille de l’arbre
 En utilisant la profondeur maximale
 En utilisant les tailles minimums pour découper et dans les feuilles
 Mettre une profondeur assez grande au début
 Risque de sur-apprentissage
 Mais permet de trouver la borne supérieure à partir de laquelle on va réduire
 Moins de 100 milles lignes  Passer en effectif plutôt que %
 Évite le sous-apprentissage dû a un arrêt prématuré
 Garder à l’esprit la façon de découper des arbres
 CART à besoin d’un arbre plus profond à cause du découpage binaire (surtout quand
il y a des variables nominales).
7© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
TEST DE LA TAILLE DE L’ARBRE (2/2)
80.00
82.00
84.00
86.00
88.00
90.00
92.00
94.00
96.00
98.00
100.00
3 5 7 10 12 15 20 25 30 35 40 45
app : CART % app : CART eff app : CHAID % app : CHAID eff app : C4.5 % app : C4.5 eff
test : CART % test : CART eff test : CHAID % test : CHAID eff test : C4.5 % test : C4.5 eff
8© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
PRÉDICTION VS INTERPRÉTATION
CART max 20 (Effectifs)
Bien classé : 93.56 %
CART max 7 (Effectifs)
Bien classé : 93.24 %
CART max 5 (Pourcentages)
Bien classé : 90.88 %
CHAID max 10 (Effectifs)
Bien classé : 91.48 %
Petit rappel : On part de
83% de bien classé comme
plus mauvais arbre avec
profondeur 3
LES ARBRES : MODALITÉS ET
DATASET DÉSÉQUILIBRÉ3
9© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
10© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
PRÉSENTATION DU DATASET
 Adult Data Set (UCI)
 Population américaine de l’année 1994
 On cherche à prédire le revenu (+/- 50 000)
 Cible déséquilibré
 - 50000 (76 %)
 50000+ (24 %)
 Variables continues et nominales
 6 continues
 8 nominales
 1 nominales avec 42 modalités  mais ce n’est pas une ordinale (native country).
11© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
UTILISATION DES PROBAS À PRIORI
Classement Global > 50 000
Méthode Basique Probas Basique Probas
CART 85.9 84.9 58.8 69.8
C4.5 84.2 81.5 63.0 76.5
CHAID 85.8 81.2 61.9 83.5
 On classe globalement mieux sans les probabilités à priori
 Mais on passe à côté des "> 50 000"
12© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
CARACTÉRISTIQUES DES ARBRES
Méthode CART C4.5 CHAID
Nbre de nœuds 379 5292 709
Nbre de feuilles 190 3735 431
Profondeur max 30 30 16
Nbre de variables utilisées 12 14 14
 Construction complétement différentes des arbres
 Le découpage binaire de CART créer moins de nœuds/feuilles pour une
même profondeur
 Le découpage total de C4.5 fait un nombre extrême de nœuds/feuilles
 La fusion intelligente de CHAID fait un arbre plus compact et naturellement
moins profond
13© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
FUSION DES MODALITÉS PAR CHAID
 Fusion "intelligente"
des modalités de
native country
14© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
DÉCOUPAGES DES MODALITÉS PAR C4.5
 Découpage complet des modalités de Native Country
 De nombreuses feuilles ont ensuite trop peu
d’individus pour continuer
15© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
SYNTHÈSE
 Penser à changer les probabilités à priori quand on n’arrive pas à classer les
différentes modalités de la cible de façon équivalente
 Dans le cas de variables avec un grand nombre de modalités, on peut
privilégier CHAID
 Si les variables avec beaucoup de modalités sont en fait Ordinales, alors les
typer comme telle.
 Peut-on avoir un arbre plus profond, donc plus précis, mais qui ne risque
pas le sur-apprentissage ?
 1 arbre non (en tout cas personne n’a trouvé)
 Plusieurs arbres ? Oui  Idée forte des forêts aléatoires
LES FORÊTS
4
16© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
17© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
DÉFINITION
 Modèle ensembliste
 Utilise N arbre (classificateur faible)
 Agrège leur prédiction (moyenne ou vote) pour obtenir la prédiction finale
 Les arbres ne sont pas élagués
 Utilise CART par défaut
 Ajoute de l’aléatoire
 Sélection aléatoire (avec remise) des individus
 Sélection aléatoire des variables pour chaque arbre
18© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
POURQUOI AJOUTER DE L’ALÉATOIRE ?
 Concepts de biais et variance
 Biais : L’algorithme ne trouve pas de relations pertinentes entre les données en
entrée et les sorties prévues (sous-apprentissage).
 Variance : La sensibilité aux petites fluctuations de l’échantillon d'apprentissage (sur-
apprentissage).
biais varianceAlgorithme
Algorithme
aléatoire
Algorithme
agrégé
biais variance
biais variance
Ajout d’aléa
agrégation
 On équilibre mieux le biais et la variance : On obtient un meilleur modèle.
19© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
AVANTAGES / INCONVÉNIENTS
 Avantages
 Réduit le sur-apprentissage pour gagner en précision
 Plus stable
 Gère encore mieux un très grand nombre de variables
 Donne naturellement un indicateur d’importance des variables
 Donne naturellement l’équivalent de la validation croisée (out of bag)
 Inconvénients
 Plus complexe (temps de calcul plus long)
 Impossible à visualiser (vrai aussi pour un très grand arbre)
20© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
TAUX DE CLASSEMENT
dataset Arbres Forêts 50 Forêts 200
Spam (learn) 94.7 99.0 99.2
Spam (test) 93.2 94.2 94.4
Adult (learn) 83.3 81.3 81.5
Adult (test) 81.2 81.4 81.1
Adult (learn)
>50 000
88.2 86.0 85.9
Adult (test)
>50 000
83.5 85.3 85.1
 On voit un gain sur Spam (léger).
 Par contre, on perd un peu sur Adult (en partie car il y a peu de variables 14)
21© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
NOMBRE D’ARBRES
 Pour les forêts aléatoires, le nombre d’arbres est un paramètre très
important.
58.0%
60.0%
62.0%
64.0%
66.0%
68.0%
70.0%
72.0%
Nombre d'arbres
Forêts Aléatoires nombre d'arbres
Recall
 Dataset : The caravan insurance data
 5822 individus
 86 variables
 Déséquilibré (6% de modalité cible)
 On utilise le rappel comme indicateur
22© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
NOMBRE DE VARIABLES
 Effet pervers si on augmente trop le nombre de variables candidates pour
chaque découpage.
 Dataset wave (2 classes à prédire - 122 variables explicatives nominales)
 100 arbres
85.0
86.0
87.0
88.0
89.0
90.0
91.0
5 10 15 20 50 70 100 200
Tauxdeclassement
Nbr de variable testées par découpage
Évolution du nombre de variables
apprentissage
test
oob
ENCORE PLUS D’ALÉATOIRE
5
23© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
24© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
EXTREMELY RANDOMIZED TREES (XRT)
 Le gain de l’aléatoire dans les forêts est visible.
 Extremely Randomized Trees (traduction en cours)
 La valeur de découpage des continues est choisi au hasard
 Les groupes formés pour les nominales sont aussi au hasard
 Les calculs de critères pour comparer les candidats restent les mêmes (Chi-2, Gini,
Gain informationnel)
 Avantages espérés
 Gain de temps car la recherche du meilleur découpage est longue
 Modèle encore plus stable
 Inconvénient attendu
 Perte de précision dû à trop d’aléatoire
25© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
XRT VS FORÊTS ALEATOIRES
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
10 20 30 50 100 200 500 1000 1500 2000 2500 3000 4000 10000
Nombre d'arbres
Forêts Aléatoires Vs Extremely randomized trees (X)
Recall X
Recall
Precision X
Precision
 Dataset : The caravan insurance data
 5822 individus
 86 variables
 Déséquilibré (6% de modalité cible)
 On utilise le rappel comme indicateur
26© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
NOMBRE DE VARIABLES
 Dataset Wave (2 classes à prédire - 122 variables explicatives nominales)
 100 arbres
 Quel comportement pour les XRT ?
82.0
83.0
84.0
85.0
86.0
87.0
88.0
89.0
90.0
91.0
92.0
5 10 15 20 50 70 100 200
Tauxdeclassement
Nbr de variables testées par découpage
Évolution du nombre de variables
apprentissage
test
oob
X apprentissage
X test
X oob
27© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
TEST SUR DATASET BRUITÉ
 Un autre avantage des XRT est leur plus grande tolérance aux données
bruités.
 Dataset WaveForm
 3 classes de vagues
 40 variables, plus ou moins bruités
 Les 19 dernières sont uniquement du bruit (moyenne 0 et variance 1)
 5 000 individus
méthode Sans bruit Bruité
Échantillon Apprentissage Test Apprentissage Test
Forêts 85.3 85.2 85.9 83.8
XRTree 83.8 85.0 85.1 85.7

Contenu connexe

En vedette

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 

En vedette (20)

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 

Coheris webinar - Arbres de décisions et forêts aléatoires

  • 1. ARBRES DE DÉCISION & FORÊTS ALÉATOIRES JULIEN BLAIZE Responsable R&D SPAD 12/10/2018
  • 2. LES ARBRES : GÉNÉRALITÉS 1 2© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
  • 3. 3© TOUS DROITS RÉSERVÉS – CONFIDENTIEL LES ARBRES DE DÉCISION  Avantages :  Interprétable (le modèle est facilement lisible)  Gère naturellement les variables inutiles (impact = 0)  Gère correctement les données manquantes  Modèle compact et rapide à appliquer (complexité : O(profondeur de l’arbre))  Fonctionne pour les continues et les nominales mixées  Possibilité d’utiliser des poids et/ou matrices de coûts.  Inconvénients :  Découpe selon 1 seule variable dans chaque nœud  Utilise un algorithme glouton qui ne trouve pas l’arbre optimal  Difficile de choisir la bonne profondeur pour éviter le sur-apprentissage.
  • 4. 4© TOUS DROITS RÉSERVÉS – CONFIDENTIEL DIFFÉRENTS ALGORITHMES Méthode CHAID CART C4.5 Critère de découpage Chi-2 (T de Tschuprow) Gini Gain informationnel Regroupement des modalités Optimale par test Arbre binaire 1 modalité = 1 feuille Élagage Pré-élagage (Chi-2) Post-élagage avec échantillon Post-élagage avec estimation pessimiste Recommandé Phase exploratoire Gros volume Performance en classement simplicité Petits effectifs Non recommandé Performances en classements Difficile à paramétrer Petits effectifs Binarisation pas toujours appropriée Post-élagage peu performant sur grand volume http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html
  • 5. LES ARBRES : PROFONDEUR ET EFFECTIFS MINIMAUX2 5© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
  • 6. 6© TOUS DROITS RÉSERVÉS – CONFIDENTIEL TEST DE LA TAILLE DE L’ARBRE (1/2)  Limiter la taille de l’arbre  En utilisant la profondeur maximale  En utilisant les tailles minimums pour découper et dans les feuilles  Mettre une profondeur assez grande au début  Risque de sur-apprentissage  Mais permet de trouver la borne supérieure à partir de laquelle on va réduire  Moins de 100 milles lignes  Passer en effectif plutôt que %  Évite le sous-apprentissage dû a un arrêt prématuré  Garder à l’esprit la façon de découper des arbres  CART à besoin d’un arbre plus profond à cause du découpage binaire (surtout quand il y a des variables nominales).
  • 7. 7© TOUS DROITS RÉSERVÉS – CONFIDENTIEL TEST DE LA TAILLE DE L’ARBRE (2/2) 80.00 82.00 84.00 86.00 88.00 90.00 92.00 94.00 96.00 98.00 100.00 3 5 7 10 12 15 20 25 30 35 40 45 app : CART % app : CART eff app : CHAID % app : CHAID eff app : C4.5 % app : C4.5 eff test : CART % test : CART eff test : CHAID % test : CHAID eff test : C4.5 % test : C4.5 eff
  • 8. 8© TOUS DROITS RÉSERVÉS – CONFIDENTIEL PRÉDICTION VS INTERPRÉTATION CART max 20 (Effectifs) Bien classé : 93.56 % CART max 7 (Effectifs) Bien classé : 93.24 % CART max 5 (Pourcentages) Bien classé : 90.88 % CHAID max 10 (Effectifs) Bien classé : 91.48 % Petit rappel : On part de 83% de bien classé comme plus mauvais arbre avec profondeur 3
  • 9. LES ARBRES : MODALITÉS ET DATASET DÉSÉQUILIBRÉ3 9© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
  • 10. 10© TOUS DROITS RÉSERVÉS – CONFIDENTIEL PRÉSENTATION DU DATASET  Adult Data Set (UCI)  Population américaine de l’année 1994  On cherche à prédire le revenu (+/- 50 000)  Cible déséquilibré  - 50000 (76 %)  50000+ (24 %)  Variables continues et nominales  6 continues  8 nominales  1 nominales avec 42 modalités  mais ce n’est pas une ordinale (native country).
  • 11. 11© TOUS DROITS RÉSERVÉS – CONFIDENTIEL UTILISATION DES PROBAS À PRIORI Classement Global > 50 000 Méthode Basique Probas Basique Probas CART 85.9 84.9 58.8 69.8 C4.5 84.2 81.5 63.0 76.5 CHAID 85.8 81.2 61.9 83.5  On classe globalement mieux sans les probabilités à priori  Mais on passe à côté des "> 50 000"
  • 12. 12© TOUS DROITS RÉSERVÉS – CONFIDENTIEL CARACTÉRISTIQUES DES ARBRES Méthode CART C4.5 CHAID Nbre de nœuds 379 5292 709 Nbre de feuilles 190 3735 431 Profondeur max 30 30 16 Nbre de variables utilisées 12 14 14  Construction complétement différentes des arbres  Le découpage binaire de CART créer moins de nœuds/feuilles pour une même profondeur  Le découpage total de C4.5 fait un nombre extrême de nœuds/feuilles  La fusion intelligente de CHAID fait un arbre plus compact et naturellement moins profond
  • 13. 13© TOUS DROITS RÉSERVÉS – CONFIDENTIEL FUSION DES MODALITÉS PAR CHAID  Fusion "intelligente" des modalités de native country
  • 14. 14© TOUS DROITS RÉSERVÉS – CONFIDENTIEL DÉCOUPAGES DES MODALITÉS PAR C4.5  Découpage complet des modalités de Native Country  De nombreuses feuilles ont ensuite trop peu d’individus pour continuer
  • 15. 15© TOUS DROITS RÉSERVÉS – CONFIDENTIEL SYNTHÈSE  Penser à changer les probabilités à priori quand on n’arrive pas à classer les différentes modalités de la cible de façon équivalente  Dans le cas de variables avec un grand nombre de modalités, on peut privilégier CHAID  Si les variables avec beaucoup de modalités sont en fait Ordinales, alors les typer comme telle.  Peut-on avoir un arbre plus profond, donc plus précis, mais qui ne risque pas le sur-apprentissage ?  1 arbre non (en tout cas personne n’a trouvé)  Plusieurs arbres ? Oui  Idée forte des forêts aléatoires
  • 16. LES FORÊTS 4 16© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
  • 17. 17© TOUS DROITS RÉSERVÉS – CONFIDENTIEL DÉFINITION  Modèle ensembliste  Utilise N arbre (classificateur faible)  Agrège leur prédiction (moyenne ou vote) pour obtenir la prédiction finale  Les arbres ne sont pas élagués  Utilise CART par défaut  Ajoute de l’aléatoire  Sélection aléatoire (avec remise) des individus  Sélection aléatoire des variables pour chaque arbre
  • 18. 18© TOUS DROITS RÉSERVÉS – CONFIDENTIEL POURQUOI AJOUTER DE L’ALÉATOIRE ?  Concepts de biais et variance  Biais : L’algorithme ne trouve pas de relations pertinentes entre les données en entrée et les sorties prévues (sous-apprentissage).  Variance : La sensibilité aux petites fluctuations de l’échantillon d'apprentissage (sur- apprentissage). biais varianceAlgorithme Algorithme aléatoire Algorithme agrégé biais variance biais variance Ajout d’aléa agrégation  On équilibre mieux le biais et la variance : On obtient un meilleur modèle.
  • 19. 19© TOUS DROITS RÉSERVÉS – CONFIDENTIEL AVANTAGES / INCONVÉNIENTS  Avantages  Réduit le sur-apprentissage pour gagner en précision  Plus stable  Gère encore mieux un très grand nombre de variables  Donne naturellement un indicateur d’importance des variables  Donne naturellement l’équivalent de la validation croisée (out of bag)  Inconvénients  Plus complexe (temps de calcul plus long)  Impossible à visualiser (vrai aussi pour un très grand arbre)
  • 20. 20© TOUS DROITS RÉSERVÉS – CONFIDENTIEL TAUX DE CLASSEMENT dataset Arbres Forêts 50 Forêts 200 Spam (learn) 94.7 99.0 99.2 Spam (test) 93.2 94.2 94.4 Adult (learn) 83.3 81.3 81.5 Adult (test) 81.2 81.4 81.1 Adult (learn) >50 000 88.2 86.0 85.9 Adult (test) >50 000 83.5 85.3 85.1  On voit un gain sur Spam (léger).  Par contre, on perd un peu sur Adult (en partie car il y a peu de variables 14)
  • 21. 21© TOUS DROITS RÉSERVÉS – CONFIDENTIEL NOMBRE D’ARBRES  Pour les forêts aléatoires, le nombre d’arbres est un paramètre très important. 58.0% 60.0% 62.0% 64.0% 66.0% 68.0% 70.0% 72.0% Nombre d'arbres Forêts Aléatoires nombre d'arbres Recall  Dataset : The caravan insurance data  5822 individus  86 variables  Déséquilibré (6% de modalité cible)  On utilise le rappel comme indicateur
  • 22. 22© TOUS DROITS RÉSERVÉS – CONFIDENTIEL NOMBRE DE VARIABLES  Effet pervers si on augmente trop le nombre de variables candidates pour chaque découpage.  Dataset wave (2 classes à prédire - 122 variables explicatives nominales)  100 arbres 85.0 86.0 87.0 88.0 89.0 90.0 91.0 5 10 15 20 50 70 100 200 Tauxdeclassement Nbr de variable testées par découpage Évolution du nombre de variables apprentissage test oob
  • 23. ENCORE PLUS D’ALÉATOIRE 5 23© TOUS DROITS RÉSERVÉS – CONFIDENTIEL
  • 24. 24© TOUS DROITS RÉSERVÉS – CONFIDENTIEL EXTREMELY RANDOMIZED TREES (XRT)  Le gain de l’aléatoire dans les forêts est visible.  Extremely Randomized Trees (traduction en cours)  La valeur de découpage des continues est choisi au hasard  Les groupes formés pour les nominales sont aussi au hasard  Les calculs de critères pour comparer les candidats restent les mêmes (Chi-2, Gini, Gain informationnel)  Avantages espérés  Gain de temps car la recherche du meilleur découpage est longue  Modèle encore plus stable  Inconvénient attendu  Perte de précision dû à trop d’aléatoire
  • 25. 25© TOUS DROITS RÉSERVÉS – CONFIDENTIEL XRT VS FORÊTS ALEATOIRES 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% 10 20 30 50 100 200 500 1000 1500 2000 2500 3000 4000 10000 Nombre d'arbres Forêts Aléatoires Vs Extremely randomized trees (X) Recall X Recall Precision X Precision  Dataset : The caravan insurance data  5822 individus  86 variables  Déséquilibré (6% de modalité cible)  On utilise le rappel comme indicateur
  • 26. 26© TOUS DROITS RÉSERVÉS – CONFIDENTIEL NOMBRE DE VARIABLES  Dataset Wave (2 classes à prédire - 122 variables explicatives nominales)  100 arbres  Quel comportement pour les XRT ? 82.0 83.0 84.0 85.0 86.0 87.0 88.0 89.0 90.0 91.0 92.0 5 10 15 20 50 70 100 200 Tauxdeclassement Nbr de variables testées par découpage Évolution du nombre de variables apprentissage test oob X apprentissage X test X oob
  • 27. 27© TOUS DROITS RÉSERVÉS – CONFIDENTIEL TEST SUR DATASET BRUITÉ  Un autre avantage des XRT est leur plus grande tolérance aux données bruités.  Dataset WaveForm  3 classes de vagues  40 variables, plus ou moins bruités  Les 19 dernières sont uniquement du bruit (moyenne 0 et variance 1)  5 000 individus méthode Sans bruit Bruité Échantillon Apprentissage Test Apprentissage Test Forêts 85.3 85.2 85.9 83.8 XRTree 83.8 85.0 85.1 85.7

Notes de l'éditeur

  1. Optimum à 20 sur 120 ?
  2. Beaucoup moins important pour les XRT