SlideShare une entreprise Scribd logo
1  sur  38
Télécharger pour lire hors ligne
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Arbres de Décision
Ichraf Khalfaoui
March 29, 2021
Ichraf Khalfaoui Arbres de Décision 1 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
1 Introduction
2 Classification supervisée par arbre de décision
formalisation
discrètisation
échantillon
apprentissage
3 Arbre de décision de risque empirique minimal
Qu’est-ce qu’on peut faire ?
4 Algorithmes d’apprentissage d’arbres de décision
Les trois opérateurs
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
5 Avantage/inconvénients des arbres de décision
6 conclusion
Ichraf Khalfaoui Arbres de Décision 2 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
1 Introduction
2 Classification supervisée par arbre de décision
3 Arbre de décision de risque empirique minimal
4 Algorithmes d’apprentissage d’arbres de décision
5 Avantage/inconvénients des arbres de décision
6 conclusion
Ichraf Khalfaoui Arbres de Décision 3 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Introduction
Un arbre de décision est un arbre orienté dont :
Les noeuds internes sont étiquetés par un test applicable à tout individu,
généralement sur un attribut de description.
Les arcs contiennent les résultats du test.
Les feuilles sont étiquetés par une classe par défaut.
Ichraf Khalfaoui Arbres de Décision 4 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Introduction
Une feuille est repérable par sa position : la liste (unique) des valeur des
arcs qui permettent d’y accéder.
Un arbre de décision est donc un classifieur organisé de manière
arborescente.
Ce classifieur a une traduction immédiate en terme de règles de décision,
mutuellement exclusives et ordonnées (si ... alors ... sinon ...).
2 qualités principales :
Facilement interprétables.
Classification rapide.
Ichraf Khalfaoui Arbres de Décision 5 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
formalisation
discrètisation
échantillon
apprentissage
1 Introduction
2 Classification supervisée par arbre de décision
formalisation
discrètisation
échantillon
apprentissage
3 Arbre de décision de risque empirique minimal
4 Algorithmes d’apprentissage d’arbres de décision
5 Avantage/inconvénients des arbres de décision
Ichraf Khalfaoui Arbres de Décision 6 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
formalisation
discrètisation
échantillon
apprentissage
Problème :
Construire un arbre de décision à partir d’un échantillon de données
Caractéristiques des données :
Apprentissage supervisé : nécessite un expert Attributs à valeurs
discrètes .
Question : quel attribut choisir en premier ? En second ? ...
Ichraf Khalfaoui Arbres de Décision 7 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
formalisation
discrètisation
échantillon
apprentissage
formalisation
Exemple : Evaluation du risque cardiaque à partir d’une table Individu
contenant les attributs :
Age (entier positif).
Fumeur (O ou N).
Taille (entier positif).
Poids (entier positif).
Sexe (H ou F).
On demande à un cardiologue d’étiqueter une partie de la base
(disons 5%) en 2 classes : individu à risque ou non.
Ichraf Khalfaoui Arbres de Décision 8 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
formalisation
discrètisation
échantillon
apprentissage
discrètisation
Ces attributs doivent être discrètisés :
Age (entier positif).
Taille (entier positif).
Poids (entier positif).
Proposition :
Age en trois catégories : jeune (<20 ans), actif (entre 21 et 50), senior
(>50)
On applique une formule liant taille et poids et on obtient un
attribut Corpulence prenant trois valeurs : faible, moyenne, forte.
Ichraf Khalfaoui Arbres de Décision 9 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
formalisation
discrètisation
échantillon
apprentissage
échantillon
Voici les données étiquetées par le cardiologue :
Ichraf Khalfaoui Arbres de Décision 10 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
formalisation
discrètisation
échantillon
apprentissage
apprentissage
Choix de la racine de l’arbre : le pivot qui “disperse” le mieux les 2
classes
Ichraf Khalfaoui Arbres de Décision 11 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
formalisation
discrètisation
échantillon
apprentissage
apprentissage
Choix de la racine de l’arbre : le pivot qui “disperse” le mieux les 2
classes
Ichraf Khalfaoui Arbres de Décision 12 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
formalisation
discrètisation
échantillon
apprentissage
apprentissage
On continue récursivement sur chacune des branches à partir de :
On a (première branche à gauche) :
Ichraf Khalfaoui Arbres de Décision 13 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
formalisation
discrètisation
échantillon
apprentissage
apprentissage
Après calcul, en testant sur l’attribut Sexe (puis corpulence) dans la
branche restant à déterminer on disperse entièrement les classes.
Ichraf Khalfaoui Arbres de Décision 14 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
formalisation
discrètisation
échantillon
apprentissage
apprentissage
On peut alors classer toutes les données d’apprentissage
Ichraf Khalfaoui Arbres de Décision 15 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Qu’est-ce qu’on peut faire ?
1 Introduction
2 Classification supervisée par arbre de décision
3 Arbre de décision de risque empirique minimal
Qu’est-ce qu’on peut faire ?
4 Algorithmes d’apprentissage d’arbres de décision
5 Avantage/inconvénients des arbres de décision
6 conclusion
Ichraf Khalfaoui Arbres de Décision 16 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Qu’est-ce qu’on peut faire ?
Arbre de décision de risque empirique minimal
Il est toujours possible de trouver un arbre de décision minimisant le risque
empirique (= erreur sur l’échantillon) sur un jeu de données. Mais cet
arbre est bien souvent un mauvais classifieur. Pourquoi ?
Le plus petit arbre de décision compatible avec les données est l’hypothèse
la meilleure en généralisation. Pourquoi ?
La théorie de l’apprentissage statistique de Vapnick permet de répondre
formellement à ces questions. Trouver le plus petit arbre de décision
compatible avec un échantillon est un problème NP-complet :-(
Ichraf Khalfaoui Arbres de Décision 17 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Qu’est-ce qu’on peut faire ?
Qu’est-ce qu’on peut faire ?
Construire un petit arbre de décision compatible avec le maximum
de données.
Conforme à 2 principes :
Le rasoir d’Occam (XIV siècle) : “Les multiples ne doivent pas être
utilisés sans nécessité” (pluralitas non est ponenda sine necessitate)
Autrement dit : entre deux représentations équivalentes, il faut
choisir la moins complexe.
Le principe MDL (Minimum Description Length) : Soit D
l’échantillon. Apprendre c’est trouver l’hypothèse H minimisant
||H|| + ||D|H||, c’est à dire un compromis entre la taille de
l’hypothèse et celle du codage des données par cette hypothèse.
Ichraf Khalfaoui Arbres de Décision 18 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
1 Introduction
2 Classification supervisée par arbre de décision
3 Arbre de décision de risque empirique minimal
4 Algorithmes d’apprentissage d’arbres de décision
Les trois opérateurs
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
5 Avantage/inconvénients des arbres de décision
Ichraf Khalfaoui Arbres de Décision 19 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
Algorithmes d’apprentissage d’arbres de décision
Plusieurs algorithmes :
ID3[Iterative Dichotomiser 3]
CART [Breiman84]
C4.5[Quinlan94]
Algorithmes en deux étapes : Construction d’un petit arbre de décision
compatible Elagage de l’arbre.
Idée principale : Diviser récursivement et le plus effcacement possible
l’échantillon d’apprentissage par des tests défnis à l’aide des attributs
jusqu’à obtenir des sous-échantillons ne contenant (presque) que des
exemples appartenant à une même classe. Méthodes de construction
Top-Down, gloutonnes et récursives.
Ichraf Khalfaoui Arbres de Décision 20 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
On a besoin de trois opérateurs permettant de :
Décider si un noeud est terminal
Si un noeud n’est pas terminal, lui associer un test
Si un noeud est terminal, lui affecter une classe
Algorithme générique :
arbre ← arbre vide
noeud courant ← racine
Répéter
Décider si le noeud courant est terminal
Si le noeud est terminal alors lui affecter une classe
Sinon sélectionner un test et créer autant de noeuds fils qu’il
y a de réponses au test
Passer au noeud suivant (si il existe)
Jusqu’à obtenir un arbre de décision consistant
Ichraf Khalfaoui Arbres de Décision 21 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
Les trois opérateurs
Un noeud est terminal lorsque :
Soit (presque) tous les exemples correspondant à ce noeud
sont dans la même classe,
Soit il n’y a plus d’attribut non utilisé dans la branche correspondante,
On attribue à un noeud terminal la classe majoritaire (en cas de conflit, on
peut choisir la classe majoritaire dans l’échantillon, ou en choisir une au
hasard),
On sélectionne le test qui fait le plus progresser la classification des
données d’apprentissage. Comment mesurer cette progression ? CART
utilise l’indice de Gini et C4.5 utilise le calcul d’entropie.
Ichraf Khalfaoui Arbres de Décision 22 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
Indice de Gini
Soit S l’échantillon et S1 , S2 , ... Sk sa partition suivant les classes (S1
sont les données de S de la classe 1, etc.)
Supposons qu’on a un problème à 2 classes (k=2), et posons x = |S1|/|S|.
Alors |S2|/|S| = 1-x. On a donc :
Gini(S) = 2x(1-x)
Cette fonction (idem pour k quelconque) :
a des valeurs dans [0,1]
S’annule pour x = 0 et x= 1 (tous éléments d’une seule classes)
Sont maximales pour x = 1/2 (autant d’éléments de chaque classe)
Ichraf Khalfaoui Arbres de Décision 23 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
Gain et sélection du test avec Gini
Soit p la position courante de l’arbre en construction et T un test. On
définit :
Gainf (p,T) = Gini(Sp ) -
P
j Pj * Gini(Spj )
où Sp est l’échantillon associé à p et Pj est la proportion des éléments de
Sp qui satisfont la j-ème branche de T.
Maximiser le gain revient à minimiser
P
j Pj * f(Spj )
Gain maximal : l’attribut permet de classer correctement toutes les
données
Gain nul : données sont aussi mal classées après le test qu’avant
Sélectionner l’attribut dont le gain est maximal correspond à une stratégie
gloutonne : rechercher le test faisant le plus progresser la classification
localement.
Ichraf Khalfaoui Arbres de Décision 24 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
Ichraf Khalfaoui Arbres de Décision 25 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
Sur l’exemple des matchs
Avec le critère de Gini et en désignant les attributs descriptifs Dom, Bal,
MCC et MPG nous avons :
Ichraf Khalfaoui Arbres de Décision 26 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
Sur l’exemple des matchs
Avec le critère de Gini et en désignant les attributs descriptifs Dom, Bal,
MCC et MPG nous avons :
Ichraf Khalfaoui Arbres de Décision 27 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
Sur l’exemple des matchs
Avec le critère de Gini et en désignant les attributs descriptifs Dom, Bal,
MCC et MPG nous avons :
Ichraf Khalfaoui Arbres de Décision 28 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
Sur l’exemple des matchs
Avec le critère de Gini et en désignant les attributs descriptifs Dom, Bal,
MCC et MPG nous avons :
Ichraf Khalfaoui Arbres de Décision 29 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
Sur l’exemple des matchs
Avec le critère de Gini et en désignant les attributs descriptifs Dom, Bal,
MCC et MPG nous avons :
Gain(,Dom) = Gini(S) - 7/15
Gain(,Bal) = Gini(S) - 3/8
Gain(,MCC) = Gini(S) - 7/15
Gain(,MPG) = Gini(S) - 1/2
Le gain maximal est obtenu pour le test sur les attributs Balance positive
et Mauvaises conditions climatiques. Il faut alors faire un choix (aléatoire)
entre ces deux attributs.
Ichraf Khalfaoui Arbres de Décision 30 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
Sur l’exemple des matchs
Supposons que l’on choisisse l’attribut “balance positive” à la racine.
L’arbre courant est alors :
Il faut alors recommencer récursivement (et indépendamment) le calcul du
gain en position 1 et en position 2 pour choisir les tests à ces niveaux.
Ichraf Khalfaoui Arbres de Décision 31 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Indice de Gini
Gain et sélection du test avec Gini
Exemple d’utilisation de l’algo de CART avec Gini
Sur l’exemple des matchs
résultat:
Ichraf Khalfaoui Arbres de Décision 32 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
1 Introduction
2 Classification supervisée par arbre de décision
3 Arbre de décision de risque empirique minimal
4 Algorithmes d’apprentissage d’arbres de décision
5 Avantage/inconvénients des arbres de décision
6 conclusion
Ichraf Khalfaoui Arbres de Décision 33 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Avantage/inconvénients des arbres de décision
avantage:
Facilité à manipuler des données « symboliques »
OK avec variables d’amplitudes très différentes
Multi-classe par nature
Interprétabilité de l’arbre !
Identification des inputs « importants »
Classification très efficace (en particulier sur inputs de grande
dimension)
inconvénients:
Sensibilité au bruit et points aberrants
Stratégie d’élagage délicate
Ichraf Khalfaoui Arbres de Décision 34 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
1 Introduction
2 Classification supervisée par arbre de décision
3 Arbre de décision de risque empirique minimal
4 Algorithmes d’apprentissage d’arbres de décision
5 Avantage/inconvénients des arbres de décision
6 conclusion
Ichraf Khalfaoui Arbres de Décision 35 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
conclusion
Pour conclure l’arbre de décision est un moyen puissant de prendre des
décisions quand on fait face à un gros volume d’informations et que nos
choix sont à plusieurs niveaux.
Pour l’appliquer il suffit de suivre 6 étapes simples :
Etape 1 : Définition de la problématique (Quelle est votre décision ?)
Etape 2 : Définition des branches porteuses (Quels sont vos choix ?)
Etape 3 : Définition des sous-branches (Quels sont vos sous-choix ?)
Etape 4 : Choix du/des critères discriminant(s) (Quels sont le ou les
critères important(s) à choisir pour différencier vos choix ?)
Etape 5 : Calculs (Calculez le score de vos choix en utilisant vos
critères)
Etape 6 : Prise de décision (Basez-vous sur les scores pour déterminer
quel est le meilleur choix)
Ichraf Khalfaoui Arbres de Décision 36 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
reference
reference:
L. Breiman, J. Friedman, R. Olshen, C. Stone: CART: Classification
and Regression Trees, Wadsworth International, 1984.
R. Quinlan: C4.5: Programs for Machine Learning, Morgan
Kaufmann Publishers Inc., 1993.
D. Zighed, R. Rakotomalala: Graphes d’Induction – Apprentissage et
Data Mining, Hermes, 2000
Daniel T. Larose (adaptation française T. Vallaud): Des données à la
connaissance : Une introduction au data-mining (1Cédérom), Vuibert,
2005.
Ichraf Khalfaoui Arbres de Décision 37 / 38
Plan
Introduction
Classification supervisée par arbre de décision
Arbre de décision de risque empirique minimal
Algorithmes d’apprentissage d’arbres de décision
Avantage/inconvénients des arbres de décision
conclusion
Ichraf Khalfaoui Arbres de Décision 38 / 38

Contenu connexe

En vedette

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 

En vedette (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

Arbres de décision

  • 1. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Arbres de Décision Ichraf Khalfaoui March 29, 2021 Ichraf Khalfaoui Arbres de Décision 1 / 38
  • 2. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion 1 Introduction 2 Classification supervisée par arbre de décision formalisation discrètisation échantillon apprentissage 3 Arbre de décision de risque empirique minimal Qu’est-ce qu’on peut faire ? 4 Algorithmes d’apprentissage d’arbres de décision Les trois opérateurs Indice de Gini Gain et sélection du test avec Gini Exemple d’utilisation de l’algo de CART avec Gini 5 Avantage/inconvénients des arbres de décision 6 conclusion Ichraf Khalfaoui Arbres de Décision 2 / 38
  • 3. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion 1 Introduction 2 Classification supervisée par arbre de décision 3 Arbre de décision de risque empirique minimal 4 Algorithmes d’apprentissage d’arbres de décision 5 Avantage/inconvénients des arbres de décision 6 conclusion Ichraf Khalfaoui Arbres de Décision 3 / 38
  • 4. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Introduction Un arbre de décision est un arbre orienté dont : Les noeuds internes sont étiquetés par un test applicable à tout individu, généralement sur un attribut de description. Les arcs contiennent les résultats du test. Les feuilles sont étiquetés par une classe par défaut. Ichraf Khalfaoui Arbres de Décision 4 / 38
  • 5. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Introduction Une feuille est repérable par sa position : la liste (unique) des valeur des arcs qui permettent d’y accéder. Un arbre de décision est donc un classifieur organisé de manière arborescente. Ce classifieur a une traduction immédiate en terme de règles de décision, mutuellement exclusives et ordonnées (si ... alors ... sinon ...). 2 qualités principales : Facilement interprétables. Classification rapide. Ichraf Khalfaoui Arbres de Décision 5 / 38
  • 6. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion formalisation discrètisation échantillon apprentissage 1 Introduction 2 Classification supervisée par arbre de décision formalisation discrètisation échantillon apprentissage 3 Arbre de décision de risque empirique minimal 4 Algorithmes d’apprentissage d’arbres de décision 5 Avantage/inconvénients des arbres de décision Ichraf Khalfaoui Arbres de Décision 6 / 38
  • 7. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion formalisation discrètisation échantillon apprentissage Problème : Construire un arbre de décision à partir d’un échantillon de données Caractéristiques des données : Apprentissage supervisé : nécessite un expert Attributs à valeurs discrètes . Question : quel attribut choisir en premier ? En second ? ... Ichraf Khalfaoui Arbres de Décision 7 / 38
  • 8. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion formalisation discrètisation échantillon apprentissage formalisation Exemple : Evaluation du risque cardiaque à partir d’une table Individu contenant les attributs : Age (entier positif). Fumeur (O ou N). Taille (entier positif). Poids (entier positif). Sexe (H ou F). On demande à un cardiologue d’étiqueter une partie de la base (disons 5%) en 2 classes : individu à risque ou non. Ichraf Khalfaoui Arbres de Décision 8 / 38
  • 9. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion formalisation discrètisation échantillon apprentissage discrètisation Ces attributs doivent être discrètisés : Age (entier positif). Taille (entier positif). Poids (entier positif). Proposition : Age en trois catégories : jeune (<20 ans), actif (entre 21 et 50), senior (>50) On applique une formule liant taille et poids et on obtient un attribut Corpulence prenant trois valeurs : faible, moyenne, forte. Ichraf Khalfaoui Arbres de Décision 9 / 38
  • 10. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion formalisation discrètisation échantillon apprentissage échantillon Voici les données étiquetées par le cardiologue : Ichraf Khalfaoui Arbres de Décision 10 / 38
  • 11. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion formalisation discrètisation échantillon apprentissage apprentissage Choix de la racine de l’arbre : le pivot qui “disperse” le mieux les 2 classes Ichraf Khalfaoui Arbres de Décision 11 / 38
  • 12. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion formalisation discrètisation échantillon apprentissage apprentissage Choix de la racine de l’arbre : le pivot qui “disperse” le mieux les 2 classes Ichraf Khalfaoui Arbres de Décision 12 / 38
  • 13. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion formalisation discrètisation échantillon apprentissage apprentissage On continue récursivement sur chacune des branches à partir de : On a (première branche à gauche) : Ichraf Khalfaoui Arbres de Décision 13 / 38
  • 14. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion formalisation discrètisation échantillon apprentissage apprentissage Après calcul, en testant sur l’attribut Sexe (puis corpulence) dans la branche restant à déterminer on disperse entièrement les classes. Ichraf Khalfaoui Arbres de Décision 14 / 38
  • 15. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion formalisation discrètisation échantillon apprentissage apprentissage On peut alors classer toutes les données d’apprentissage Ichraf Khalfaoui Arbres de Décision 15 / 38
  • 16. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Qu’est-ce qu’on peut faire ? 1 Introduction 2 Classification supervisée par arbre de décision 3 Arbre de décision de risque empirique minimal Qu’est-ce qu’on peut faire ? 4 Algorithmes d’apprentissage d’arbres de décision 5 Avantage/inconvénients des arbres de décision 6 conclusion Ichraf Khalfaoui Arbres de Décision 16 / 38
  • 17. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Qu’est-ce qu’on peut faire ? Arbre de décision de risque empirique minimal Il est toujours possible de trouver un arbre de décision minimisant le risque empirique (= erreur sur l’échantillon) sur un jeu de données. Mais cet arbre est bien souvent un mauvais classifieur. Pourquoi ? Le plus petit arbre de décision compatible avec les données est l’hypothèse la meilleure en généralisation. Pourquoi ? La théorie de l’apprentissage statistique de Vapnick permet de répondre formellement à ces questions. Trouver le plus petit arbre de décision compatible avec un échantillon est un problème NP-complet :-( Ichraf Khalfaoui Arbres de Décision 17 / 38
  • 18. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Qu’est-ce qu’on peut faire ? Qu’est-ce qu’on peut faire ? Construire un petit arbre de décision compatible avec le maximum de données. Conforme à 2 principes : Le rasoir d’Occam (XIV siècle) : “Les multiples ne doivent pas être utilisés sans nécessité” (pluralitas non est ponenda sine necessitate) Autrement dit : entre deux représentations équivalentes, il faut choisir la moins complexe. Le principe MDL (Minimum Description Length) : Soit D l’échantillon. Apprendre c’est trouver l’hypothèse H minimisant ||H|| + ||D|H||, c’est à dire un compromis entre la taille de l’hypothèse et celle du codage des données par cette hypothèse. Ichraf Khalfaoui Arbres de Décision 18 / 38
  • 19. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Indice de Gini Gain et sélection du test avec Gini Exemple d’utilisation de l’algo de CART avec Gini 1 Introduction 2 Classification supervisée par arbre de décision 3 Arbre de décision de risque empirique minimal 4 Algorithmes d’apprentissage d’arbres de décision Les trois opérateurs Indice de Gini Gain et sélection du test avec Gini Exemple d’utilisation de l’algo de CART avec Gini 5 Avantage/inconvénients des arbres de décision Ichraf Khalfaoui Arbres de Décision 19 / 38
  • 20. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Indice de Gini Gain et sélection du test avec Gini Exemple d’utilisation de l’algo de CART avec Gini Algorithmes d’apprentissage d’arbres de décision Plusieurs algorithmes : ID3[Iterative Dichotomiser 3] CART [Breiman84] C4.5[Quinlan94] Algorithmes en deux étapes : Construction d’un petit arbre de décision compatible Elagage de l’arbre. Idée principale : Diviser récursivement et le plus effcacement possible l’échantillon d’apprentissage par des tests défnis à l’aide des attributs jusqu’à obtenir des sous-échantillons ne contenant (presque) que des exemples appartenant à une même classe. Méthodes de construction Top-Down, gloutonnes et récursives. Ichraf Khalfaoui Arbres de Décision 20 / 38
  • 21. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Indice de Gini Gain et sélection du test avec Gini Exemple d’utilisation de l’algo de CART avec Gini On a besoin de trois opérateurs permettant de : Décider si un noeud est terminal Si un noeud n’est pas terminal, lui associer un test Si un noeud est terminal, lui affecter une classe Algorithme générique : arbre ← arbre vide noeud courant ← racine Répéter Décider si le noeud courant est terminal Si le noeud est terminal alors lui affecter une classe Sinon sélectionner un test et créer autant de noeuds fils qu’il y a de réponses au test Passer au noeud suivant (si il existe) Jusqu’à obtenir un arbre de décision consistant Ichraf Khalfaoui Arbres de Décision 21 / 38
  • 22. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Indice de Gini Gain et sélection du test avec Gini Exemple d’utilisation de l’algo de CART avec Gini Les trois opérateurs Un noeud est terminal lorsque : Soit (presque) tous les exemples correspondant à ce noeud sont dans la même classe, Soit il n’y a plus d’attribut non utilisé dans la branche correspondante, On attribue à un noeud terminal la classe majoritaire (en cas de conflit, on peut choisir la classe majoritaire dans l’échantillon, ou en choisir une au hasard), On sélectionne le test qui fait le plus progresser la classification des données d’apprentissage. Comment mesurer cette progression ? CART utilise l’indice de Gini et C4.5 utilise le calcul d’entropie. Ichraf Khalfaoui Arbres de Décision 22 / 38
  • 23. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Indice de Gini Gain et sélection du test avec Gini Exemple d’utilisation de l’algo de CART avec Gini Indice de Gini Soit S l’échantillon et S1 , S2 , ... Sk sa partition suivant les classes (S1 sont les données de S de la classe 1, etc.) Supposons qu’on a un problème à 2 classes (k=2), et posons x = |S1|/|S|. Alors |S2|/|S| = 1-x. On a donc : Gini(S) = 2x(1-x) Cette fonction (idem pour k quelconque) : a des valeurs dans [0,1] S’annule pour x = 0 et x= 1 (tous éléments d’une seule classes) Sont maximales pour x = 1/2 (autant d’éléments de chaque classe) Ichraf Khalfaoui Arbres de Décision 23 / 38
  • 24. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Indice de Gini Gain et sélection du test avec Gini Exemple d’utilisation de l’algo de CART avec Gini Gain et sélection du test avec Gini Soit p la position courante de l’arbre en construction et T un test. On définit : Gainf (p,T) = Gini(Sp ) - P j Pj * Gini(Spj ) où Sp est l’échantillon associé à p et Pj est la proportion des éléments de Sp qui satisfont la j-ème branche de T. Maximiser le gain revient à minimiser P j Pj * f(Spj ) Gain maximal : l’attribut permet de classer correctement toutes les données Gain nul : données sont aussi mal classées après le test qu’avant Sélectionner l’attribut dont le gain est maximal correspond à une stratégie gloutonne : rechercher le test faisant le plus progresser la classification localement. Ichraf Khalfaoui Arbres de Décision 24 / 38
  • 25. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Indice de Gini Gain et sélection du test avec Gini Exemple d’utilisation de l’algo de CART avec Gini Exemple d’utilisation de l’algo de CART avec Gini Ichraf Khalfaoui Arbres de Décision 25 / 38
  • 26. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Indice de Gini Gain et sélection du test avec Gini Exemple d’utilisation de l’algo de CART avec Gini Sur l’exemple des matchs Avec le critère de Gini et en désignant les attributs descriptifs Dom, Bal, MCC et MPG nous avons : Ichraf Khalfaoui Arbres de Décision 26 / 38
  • 27. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Indice de Gini Gain et sélection du test avec Gini Exemple d’utilisation de l’algo de CART avec Gini Sur l’exemple des matchs Avec le critère de Gini et en désignant les attributs descriptifs Dom, Bal, MCC et MPG nous avons : Ichraf Khalfaoui Arbres de Décision 27 / 38
  • 28. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Indice de Gini Gain et sélection du test avec Gini Exemple d’utilisation de l’algo de CART avec Gini Sur l’exemple des matchs Avec le critère de Gini et en désignant les attributs descriptifs Dom, Bal, MCC et MPG nous avons : Ichraf Khalfaoui Arbres de Décision 28 / 38
  • 29. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Indice de Gini Gain et sélection du test avec Gini Exemple d’utilisation de l’algo de CART avec Gini Sur l’exemple des matchs Avec le critère de Gini et en désignant les attributs descriptifs Dom, Bal, MCC et MPG nous avons : Ichraf Khalfaoui Arbres de Décision 29 / 38
  • 30. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Indice de Gini Gain et sélection du test avec Gini Exemple d’utilisation de l’algo de CART avec Gini Sur l’exemple des matchs Avec le critère de Gini et en désignant les attributs descriptifs Dom, Bal, MCC et MPG nous avons : Gain(,Dom) = Gini(S) - 7/15 Gain(,Bal) = Gini(S) - 3/8 Gain(,MCC) = Gini(S) - 7/15 Gain(,MPG) = Gini(S) - 1/2 Le gain maximal est obtenu pour le test sur les attributs Balance positive et Mauvaises conditions climatiques. Il faut alors faire un choix (aléatoire) entre ces deux attributs. Ichraf Khalfaoui Arbres de Décision 30 / 38
  • 31. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Indice de Gini Gain et sélection du test avec Gini Exemple d’utilisation de l’algo de CART avec Gini Sur l’exemple des matchs Supposons que l’on choisisse l’attribut “balance positive” à la racine. L’arbre courant est alors : Il faut alors recommencer récursivement (et indépendamment) le calcul du gain en position 1 et en position 2 pour choisir les tests à ces niveaux. Ichraf Khalfaoui Arbres de Décision 31 / 38
  • 32. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Indice de Gini Gain et sélection du test avec Gini Exemple d’utilisation de l’algo de CART avec Gini Sur l’exemple des matchs résultat: Ichraf Khalfaoui Arbres de Décision 32 / 38
  • 33. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion 1 Introduction 2 Classification supervisée par arbre de décision 3 Arbre de décision de risque empirique minimal 4 Algorithmes d’apprentissage d’arbres de décision 5 Avantage/inconvénients des arbres de décision 6 conclusion Ichraf Khalfaoui Arbres de Décision 33 / 38
  • 34. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Avantage/inconvénients des arbres de décision avantage: Facilité à manipuler des données « symboliques » OK avec variables d’amplitudes très différentes Multi-classe par nature Interprétabilité de l’arbre ! Identification des inputs « importants » Classification très efficace (en particulier sur inputs de grande dimension) inconvénients: Sensibilité au bruit et points aberrants Stratégie d’élagage délicate Ichraf Khalfaoui Arbres de Décision 34 / 38
  • 35. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion 1 Introduction 2 Classification supervisée par arbre de décision 3 Arbre de décision de risque empirique minimal 4 Algorithmes d’apprentissage d’arbres de décision 5 Avantage/inconvénients des arbres de décision 6 conclusion Ichraf Khalfaoui Arbres de Décision 35 / 38
  • 36. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion conclusion Pour conclure l’arbre de décision est un moyen puissant de prendre des décisions quand on fait face à un gros volume d’informations et que nos choix sont à plusieurs niveaux. Pour l’appliquer il suffit de suivre 6 étapes simples : Etape 1 : Définition de la problématique (Quelle est votre décision ?) Etape 2 : Définition des branches porteuses (Quels sont vos choix ?) Etape 3 : Définition des sous-branches (Quels sont vos sous-choix ?) Etape 4 : Choix du/des critères discriminant(s) (Quels sont le ou les critères important(s) à choisir pour différencier vos choix ?) Etape 5 : Calculs (Calculez le score de vos choix en utilisant vos critères) Etape 6 : Prise de décision (Basez-vous sur les scores pour déterminer quel est le meilleur choix) Ichraf Khalfaoui Arbres de Décision 36 / 38
  • 37. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion reference reference: L. Breiman, J. Friedman, R. Olshen, C. Stone: CART: Classification and Regression Trees, Wadsworth International, 1984. R. Quinlan: C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers Inc., 1993. D. Zighed, R. Rakotomalala: Graphes d’Induction – Apprentissage et Data Mining, Hermes, 2000 Daniel T. Larose (adaptation française T. Vallaud): Des données à la connaissance : Une introduction au data-mining (1Cédérom), Vuibert, 2005. Ichraf Khalfaoui Arbres de Décision 37 / 38
  • 38. Plan Introduction Classification supervisée par arbre de décision Arbre de décision de risque empirique minimal Algorithmes d’apprentissage d’arbres de décision Avantage/inconvénients des arbres de décision conclusion Ichraf Khalfaoui Arbres de Décision 38 / 38