Arbres de décision

Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Arbres de Décision
Ichraf Khalfaoui
March 29, 2021
Ichraf Khalfaoui Arbres de Décision 1 / 38

Plan
Introduction
conclusion
1 Introduction
2 Classification supervisée par arbre de décision
formalisation
discrètisation
échantillon
apprentissage
3 Arbre de décision de risque empirique minimal
Qu’est-ce qu’on peut faire ?
4 Algorithmes d’apprentissage d’arbres de décision
Les trois opérateurs
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
5 Avantage/inconvénients des arbres de décision
6 conclusion

Plan
Introduction
conclusion
1 Introduction
6 conclusion

Plan
Introduction
conclusion
Introduction
Un arbre de décision est un arbre orienté dont :
Les noeuds internes sont étiquetés par un test applicable à tout individu,
généralement sur un attribut de description.
Les arcs contiennent les résultats du test.
Les feuilles sont étiquetés par une classe par défaut.

Plan
Introduction
conclusion
Introduction
Une feuille est repérable par sa position : la liste (unique) des valeur des
arcs qui permettent d’y accéder.
Un arbre de décision est donc un classifieur organisé de manière
arborescente.
Ce classifieur a une traduction immédiate en terme de règles de décision,
mutuellement exclusives et ordonnées (si ... alors ... sinon ...).
2 qualités principales :
Facilement interprétables.
Classification rapide.

Plan
Introduction
conclusion
formalisation
discrètisation
échantillon
apprentissage
1 Introduction
formalisation
discrètisation
échantillon
apprentissage

Plan
Introduction
conclusion
formalisation
discrètisation
échantillon
apprentissage
Problème :
Construire un arbre de décision à partir d’un échantillon de données
Caractéristiques des données :
Apprentissage supervisé : nécessite un expert Attributs à valeurs
discrètes .
Question : quel attribut choisir en premier ? En second ? ...

Plan
Introduction
conclusion
formalisation
discrètisation
échantillon
apprentissage
formalisation
Exemple : Evaluation du risque cardiaque à partir d’une table Individu
contenant les attributs :
Age (entier positif).
Fumeur (O ou N).
Taille (entier positif).
Poids (entier positif).
Sexe (H ou F).
On demande à un cardiologue d’étiqueter une partie de la base
(disons 5%) en 2 classes : individu à risque ou non.

Plan
Introduction
conclusion
formalisation
discrètisation
échantillon
apprentissage
discrètisation
Ces attributs doivent être discrètisés :
Age (entier positif).
Taille (entier positif).
Poids (entier positif).
Proposition :
Age en trois catégories : jeune (<20 ans), actif (entre 21 et 50), senior
(>50)
On applique une formule liant taille et poids et on obtient un
attribut Corpulence prenant trois valeurs : faible, moyenne, forte.

Plan
Introduction
conclusion
formalisation
discrètisation
échantillon
apprentissage
échantillon
Voici les données étiquetées par le cardiologue :

Plan
Introduction
conclusion
formalisation
discrètisation
échantillon
apprentissage
apprentissage
Choix de la racine de l’arbre : le pivot qui “disperse” le mieux les 2
classes

Plan
Introduction
conclusion
formalisation
discrètisation
échantillon
apprentissage
apprentissage
On continue récursivement sur chacune des branches à partir de :
On a (première branche à gauche) :

Plan
Introduction
conclusion
formalisation
discrètisation
échantillon
apprentissage
apprentissage
Après calcul, en testant sur l’attribut Sexe (puis corpulence) dans la
branche restant à déterminer on disperse entièrement les classes.

Plan
Introduction
conclusion
formalisation
discrètisation
échantillon
apprentissage
apprentissage
On peut alors classer toutes les données d’apprentissage

Plan
Introduction
conclusion
1 Introduction
6 conclusion

Plan
Introduction
conclusion
Il est toujours possible de trouver un arbre de décision minimisant le risque
empirique (= erreur sur l’échantillon) sur un jeu de données. Mais cet
arbre est bien souvent un mauvais classifieur. Pourquoi ?
Le plus petit arbre de décision compatible avec les données est l’hypothèse
la meilleure en généralisation. Pourquoi ?
La théorie de l’apprentissage statistique de Vapnick permet de répondre
formellement à ces questions. Trouver le plus petit arbre de décision
compatible avec un échantillon est un problème NP-complet :-(

Plan
Introduction
conclusion
Construire un petit arbre de décision compatible avec le maximum
de données.
Conforme à 2 principes :
Le rasoir d’Occam (XIV siècle) : “Les multiples ne doivent pas être
utilisés sans nécessité” (pluralitas non est ponenda sine necessitate)
Autrement dit : entre deux représentations équivalentes, il faut
choisir la moins complexe.
Le principe MDL (Minimum Description Length) : Soit D
l’échantillon. Apprendre c’est trouver l’hypothèse H minimisant
||H|| + ||D|H||, c’est à dire un compromis entre la taille de
l’hypothèse et celle du codage des données par cette hypothèse.

Plan
Introduction
conclusion
Indice de Gini
1 Introduction
Indice de Gini

Plan
Introduction
conclusion
Indice de Gini
Plusieurs algorithmes :
ID3[Iterative Dichotomiser 3]
CART [Breiman84]
C4.5[Quinlan94]
Algorithmes en deux étapes : Construction d’un petit arbre de décision
compatible Elagage de l’arbre.
Idée principale : Diviser récursivement et le plus effcacement possible
l’échantillon d’apprentissage par des tests défnis à l’aide des attributs
jusqu’à obtenir des sous-échantillons ne contenant (presque) que des
exemples appartenant à une même classe. Méthodes de construction
Top-Down, gloutonnes et récursives.

Plan
Introduction
conclusion
Indice de Gini
On a besoin de trois opérateurs permettant de :
Décider si un noeud est terminal
Si un noeud n’est pas terminal, lui associer un test
Si un noeud est terminal, lui affecter une classe
Algorithme générique :
arbre ← arbre vide
noeud courant ← racine
Répéter
Décider si le noeud courant est terminal
Si le noeud est terminal alors lui affecter une classe
Sinon sélectionner un test et créer autant de noeuds fils qu’il
y a de réponses au test
Passer au noeud suivant (si il existe)
Jusqu’à obtenir un arbre de décision consistant

Plan
Introduction
conclusion
Indice de Gini
Un noeud est terminal lorsque :
Soit (presque) tous les exemples correspondant à ce noeud
sont dans la même classe,
Soit il n’y a plus d’attribut non utilisé dans la branche correspondante,
On attribue à un noeud terminal la classe majoritaire (en cas de conflit, on
peut choisir la classe majoritaire dans l’échantillon, ou en choisir une au
hasard),
On sélectionne le test qui fait le plus progresser la classification des
données d’apprentissage. Comment mesurer cette progression ? CART
utilise l’indice de Gini et C4.5 utilise le calcul d’entropie.

Plan
Introduction
conclusion
Indice de Gini
Indice de Gini
Soit S l’échantillon et S1 , S2 , ... Sk sa partition suivant les classes (S1
sont les données de S de la classe 1, etc.)
Supposons qu’on a un problème à 2 classes (k=2), et posons x = |S1|/|S|.
Alors |S2|/|S| = 1-x. On a donc :
Gini(S) = 2x(1-x)
Cette fonction (idem pour k quelconque) :
a des valeurs dans [0,1]
S’annule pour x = 0 et x= 1 (tous éléments d’une seule classes)
Sont maximales pour x = 1/2 (autant d’éléments de chaque classe)

Plan
Introduction
conclusion
Indice de Gini
Soit p la position courante de l’arbre en construction et T un test. On
définit :
Gainf (p,T) = Gini(Sp ) -
P
j Pj * Gini(Spj )
où Sp est l’échantillon associé à p et Pj est la proportion des éléments de
Sp qui satisfont la j-ème branche de T.
Maximiser le gain revient à minimiser
P
j Pj * f(Spj )
Gain maximal : l’attribut permet de classer correctement toutes les
données
Gain nul : données sont aussi mal classées après le test qu’avant
Sélectionner l’attribut dont le gain est maximal correspond à une stratégie
gloutonne : rechercher le test faisant le plus progresser la classification
localement.

Plan
Introduction
conclusion
Indice de Gini

Plan
Introduction
conclusion
Indice de Gini
Sur l’exemple des matchs
Avec le critère de Gini et en désignant les attributs descriptifs Dom, Bal,
MCC et MPG nous avons :

Plan
Introduction
conclusion
Indice de Gini

Plan
Introduction
conclusion
Indice de Gini
Gain(,Dom) = Gini(S) - 7/15
Gain(,Bal) = Gini(S) - 3/8
Gain(,MCC) = Gini(S) - 7/15
Gain(,MPG) = Gini(S) - 1/2
Le gain maximal est obtenu pour le test sur les attributs Balance positive
et Mauvaises conditions climatiques. Il faut alors faire un choix (aléatoire)
entre ces deux attributs.

Plan
Introduction
conclusion
Indice de Gini
Supposons que l’on choisisse l’attribut “balance positive” à la racine.
L’arbre courant est alors :
Il faut alors recommencer récursivement (et indépendamment) le calcul du
gain en position 1 et en position 2 pour choisir les tests à ces niveaux.

Plan
Introduction
conclusion
Indice de Gini
résultat:

Plan
Introduction
conclusion
1 Introduction
6 conclusion

Plan
Introduction
conclusion
avantage:
Facilité à manipuler des données « symboliques »
OK avec variables d’amplitudes très différentes
Multi-classe par nature
Interprétabilité de l’arbre !
Identification des inputs « importants »
Classification très efficace (en particulier sur inputs de grande
dimension)
inconvénients:
Sensibilité au bruit et points aberrants
Stratégie d’élagage délicate

Plan
Introduction
conclusion
1 Introduction
6 conclusion

Plan
Introduction
conclusion
conclusion
Pour conclure l’arbre de décision est un moyen puissant de prendre des
décisions quand on fait face à un gros volume d’informations et que nos
choix sont à plusieurs niveaux.
Pour l’appliquer il suffit de suivre 6 étapes simples :
Etape 1 : Définition de la problématique (Quelle est votre décision ?)
Etape 2 : Définition des branches porteuses (Quels sont vos choix ?)
Etape 3 : Définition des sous-branches (Quels sont vos sous-choix ?)
Etape 4 : Choix du/des critères discriminant(s) (Quels sont le ou les
critères important(s) à choisir pour différencier vos choix ?)
Etape 5 : Calculs (Calculez le score de vos choix en utilisant vos
critères)
Etape 6 : Prise de décision (Basez-vous sur les scores pour déterminer
quel est le meilleur choix)

Plan
Introduction
conclusion
reference
reference:
L. Breiman, J. Friedman, R. Olshen, C. Stone: CART: Classification
and Regression Trees, Wadsworth International, 1984.
R. Quinlan: C4.5: Programs for Machine Learning, Morgan
Kaufmann Publishers Inc., 1993.
D. Zighed, R. Rakotomalala: Graphes d’Induction – Apprentissage et
Data Mining, Hermes, 2000
Daniel T. Larose (adaptation française T. Vallaud): Des données à la
connaissance : Une introduction au data-mining (1Cédérom), Vuibert,
2005.

Plan
Introduction
conclusion

Arbres de décision

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Arbres de décision