Techniques d’arbre de classification et de
régression
GT Big Data, sous GT 2
Maison des actuaires, le 5 mai 2014
Xavier Mil...
Plan de l’exposé
1 Introduction à la problématique
2 Exemples d’utilisation
3 Construction de l’arbre
4 Procédure d’élagag...
Contexte classique d’étude des risques en assurance
Pour prévoir le futur, un assureur essaie généralement d’avoir la
meil...
Objectif : prévision individualisée d’une quantité
d’intérêt
Pour cela, on va regrouper des individus homogènes...
∃ de no...
Quelques références sur l’utilisation des arbres en
actuariat (pas du tout exhaustif)
Prévision de taux de mortalité par t...
Arbre et clustering : quelques premiers éléments
Pour estimer notre quantité d’intérêt, on choisit d’utiliser un arbre...
...
2 Exemples d’utilisation
Une méthode populaire : un premier exemple
Application à la classification du statut propriétaire
...
Aparté sur la lecture d’un arbre
Un arbre de classification / régression se lit de la racine vers les
feuilles.
A chaque ra...
Exemple 1 : prévisions des résultats des primaires aux US
Il s’agit de déterminer les facteurs clefs qui ont joué sur les
...
Exemple 2 : prévisions propriétaire | salaire et surface
! )*'+,-./01,*2'3#'456/71&#8',/$#.,/2'2.914#.'
1*'$9:#*'3#'7&,88#...
Partitionnement et arbre correspondant
Partitionnement qui maximise l’homogénéité dans chq rectangle.
11 / 37
Voici l'arbre complet. On a représenté par des cercles les noeuds qui ont des successeurs.
nombres à l'intérieur des cercl...
3 Construction de l’arbre
Croissance de l’arbre pour estimer une moyenne
Lien avec le problème de régression classique
Arr...
Notations utilisées dans l’exposé
→ i ∈ 1, n : identifiant de l’individu / l’assuré ;
→ j ∈ 1, k : identifiant du facteur de...
Arbre de régression : cas classique avec Y continue
Dans le cas d’une régression classique, la quantité d’intérêt est
π0(x...
Construction de l’arbre : critère de division
La ramification de l’arbre est basée sur la définition d’un critère de
divisio...
Lien entre régression et arbre : la notion de “règles”
Tout arbre de régression est un ensemble de règles. Pour chaque
noe...
Cela équivaut en régression classique à chercher
ˆβtree
= arg min
βtree
En Y − βtree
m Rm(x)
2
.
A partir de (3) et en som...
(4) généralisable qlq soit la quantité d’intérêt. Ainsi, tout arbre peut
être vu comme un estimateur par morceaux.
Interpr...
A K fixé, on cherche πK
0
tq πK
0
(x) = arg min
π(x)∈ΠK
E0[Φ(Y, π(x)) | X = x].
En pratique on cherche la version empirique...
Arrêt de la procédure de division
Le principe de l’algorithme CART est de ne pas fixer de règle
d’arrêt arbitraire pour la ...
Généralisation et extensions avec Φ fonction de perte
π0(x) = arg min
π(x)
E0[Φ(Y, π(x)) | X = x]
Estimation de moyenne : ...
4 Procédure d’élagage de l’arbre
Critère d’élagage de l’arbre
Algorithme d’élagage de l’arbre
23 / 37
Elagage : critère coût-complexité
Une fois l’arbre maximal construit (de taille K(n)), on obtient une
suite d’estimateurs ...
Elagage : procédure de sélection de modèle et estimateur final
On fait croître itérativement α : 0 = α1 < ... < αz < ... < ...
5 Robustesse de la méthode CART
26 / 37
Un mot sur la robustesse de la méthode CART
Certaines techniques ont été développées afin de stabiliser la
prévision donnée...
Exemple le plus connu : les forêts aléatoires
L’objectif des forêts aléatoires est de proposer un estimateur de
type “boot...
6 Application sur un cas concret d’assurance
29 / 37
Exemple illustratif : prévisions de taux de mortalité
Résultats suivants extraits de l’article [Olb12].
C’est un portefeui...
Arbre obtenu par algorithme CART
Fig. 8 Final tree for the standard life table example. For each terminal node the number ...
Courbe de mortalité
Fig. 8 Final tree for the standard life table example. For each terminal node the number of cases and ...
Performance de la prévision par arbre CART
in any case. Thus, the phenomenon underscores the importance to use a selection...
Conclusion
Pourquoi cette technique est-elle intéressante pour le big data ?
→ Algorithme naturellement adapté à la gestio...
→ Classement naturel du pouvoir discriminant des facteurs de
risque ;
→ Multiples extensions possibles en travaillant sur ...
Bibliographie
J.P. Baudry.
Sélection de modèle pour la classification non supervisée. Choix du nombre de
classes.
PhD thesi...
Nicolai Meinshausen.
Quantile regression forests.
Journal of Machine Learning Research, 7 :983–999, 2006.
Nicolai Meinshau...
Xavier Milaud - Techniques d'arbres de classification et de régression
Prochain SlideShare
Chargement dans…5
×

Xavier Milaud - Techniques d'arbres de classification et de régression

1 072 vues

Publié le

Publié dans : Données & analyses
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 072
Sur SlideShare
0
Issues des intégrations
0
Intégrations
142
Actions
Partages
0
Téléchargements
15
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Xavier Milaud - Techniques d'arbres de classification et de régression

  1. 1. Techniques d’arbre de classification et de régression GT Big Data, sous GT 2 Maison des actuaires, le 5 mai 2014 Xavier Milhaud1,2 1 ENSAE ParisTech, département d’actuariat 2 CREST, Laboratoire de Finance et d’Assurance 1 / 37
  2. 2. Plan de l’exposé 1 Introduction à la problématique 2 Exemples d’utilisation 3 Construction de l’arbre 4 Procédure d’élagage de l’arbre 5 Robustesse de la méthode CART 6 Application sur un cas concret d’assurance 2 / 37
  3. 3. Contexte classique d’étude des risques en assurance Pour prévoir le futur, un assureur essaie généralement d’avoir la meilleure connaissance possible du coût de ses sinistres. Les bases de données des assureurs comportent un ensemble d’informations sur les caractéristiques de l’assuré, les options du contrat, les conditions de marché. Ces informations jouent un rôle crucial dans les prévisions de sinistralité ⇒ il faut conserver les caractéristiques individuelles. 3 / 37
  4. 4. Objectif : prévision individualisée d’une quantité d’intérêt Pour cela, on va regrouper des individus homogènes... ∃ de nombreuses techniques de classification (création de groupes d’assurés homogènes), parmi lesquelles : pour la classification non-supervisée : → les algorithmes dits des k-plus proches voisins ; → les techniques ascendantes d’arbre de classification (CAH) ; → la classification par model-based clustering : [Bau09]. pour la classification supervisée : → les modèles de choix (LOGIT) ; → les réseaux de neurones ; → les méthodes descendantes d’arbre (CART, CHAID, ...) ; 4 / 37
  5. 5. Quelques références sur l’utilisation des arbres en actuariat (pas du tout exhaustif) Prévision de taux de mortalité par tranche d’âge : [Olb12] Prévision des comportements de rachat : [MMDL11] Applications en assurance non vie de techniques d’arbre : R.A. DERRIG et L. FRANCIS, Casualty Actuarial Society (CAS), Variance, vol. 2 issue 2. Lien entre scoring d’assurés par arbre et pertes : GUSZCZA, WU et CHENG-SHENG, Casualty Actuarial Society Forum, 2003 5 / 37
  6. 6. Arbre et clustering : quelques premiers éléments Pour estimer notre quantité d’intérêt, on choisit d’utiliser un arbre... Mais qu’est-ce qu’un arbre ? 1 Une racine : contient l’ensemble de la population à segmenter (le portefeuille global) ⇒ c’est le point de départ ; 2 Un tronc et des branches : contiennent les règles de division qui permettent de segmenter la population ; 3 Des feuilles : contiennent les sous-populations homogènes créées, fournissent l’estimation de la quantité d’intérêt. 6 / 37
  7. 7. 2 Exemples d’utilisation Une méthode populaire : un premier exemple Application à la classification du statut propriétaire 7 / 37
  8. 8. Aparté sur la lecture d’un arbre Un arbre de classification / régression se lit de la racine vers les feuilles. A chaque ramification, une règle de division apparait : dans CART, cette règle ( question) admet une réponse binaire, elle n’est basée que sur un facteur de risque. Un noeud est l’intersection d’un ensemble de règles. L’estimation de la quantité d’intérêt se lit dans les noeuds terminaux (feuilles). N’importe quel individu de la population initiale appartient à une unique feuille : les sous-populations créées sont disjointes. 8 / 37
  9. 9. Exemple 1 : prévisions des résultats des primaires aux US Il s’agit de déterminer les facteurs clefs qui ont joué sur les résultats des primaires de 2008 aux USA : Qui de H. Clinton ou B. Obama remportera tel ou tel état ? Entre Clinton et Obama, deux critères de population de votants apparaissent comme essentiels : 1 la couleur de peau des votants, 2 leur niveau d’éducation. On peut visualiser ces résultats sur la publication suivante du NY Times... 9 / 37
  10. 10. Exemple 2 : prévisions propriétaire | salaire et surface ! )*'+,-./01,*2'3#'456/71&#8',/$#.,/2'2.914#.' 1*'$9:#*'3#'7&,88#.'&#8'+,$/&&#8'3,*8'1*#' 4/&&#'01/'89*2';'$<$#'3=,76#2#.'1*'456/71&#' #2'7#&&#8'01/'*#'89*2'%,8'%.<2#*2';'#*',76#2#.>' )*'576,*2/&&9*'3#'(?'%.9%./52,/.#8'#2'(?'*9*@ %.9%./52,/.#8'#82'769/8/>'A#8'3#1"'4,./,-&#8' /*35%#*3,*2#8'89*2'B'"('C!"#$%&'91'.#4#*18D' #2'"?'C'$()*!+&'91'81.+,7#'#*'%/#38'%,.'$?D 10 / 37
  11. 11. Partitionnement et arbre correspondant Partitionnement qui maximise l’homogénéité dans chq rectangle. 11 / 37
  12. 12. Voici l'arbre complet. On a représenté par des cercles les noeuds qui ont des successeurs. nombres à l'intérieur des cercles sont les valeurs de division et le nom de la variable cho 12 / 37
  13. 13. 3 Construction de l’arbre Croissance de l’arbre pour estimer une moyenne Lien avec le problème de régression classique Arrêt de la ramification Généralisation et extensions 13 / 37
  14. 14. Notations utilisées dans l’exposé → i ∈ 1, n : identifiant de l’individu / l’assuré ; → j ∈ 1, k : identifiant du facteur de risque (continu ou discret) ; → Yi : variable réponse du ième individu (continue ou discrète) ; → Xi = (Xi1, ..., Xik ) : vecteur des facteurs de risque de l’indiv. i ; → X : espace des covariables (facteurs de risque) ; → l ∈ 1, L : identifiant des feuilles de l’arbre ; → Xl : ensemble de la partition correspondant à la feuille l ; → π0(x) : quantité d’intérêt à estimer. 14 / 37
  15. 15. Arbre de régression : cas classique avec Y continue Dans le cas d’une régression classique, la quantité d’intérêt est π0(x) = E0[Y | X = x] (1) En supposant une relation linéaire (dc se restreignant à une classe d’estimateurs), on estime les paramètres de régression par MCO. En toute généralité, on ne peut pas considérer ts les estimateurs potentiels de π0(x) ⇒ arbres sont 1 autre classe d’estimateurs : ce sont des fonct. constantes par morceaux pour le problème (1). Construire un arbre génére une suite d’estimateurs selon une procédure spécifique : divisions successives de l’espace X. 15 / 37
  16. 16. Construction de l’arbre : critère de division La ramification de l’arbre est basée sur la définition d’un critère de division cohérent avec l’estimation de la quantité d’intérêt. Dans l’estimation de (1), les MCO sont utilisés car la solution est donnée par π0(x) = arg min π(x) E0[Φ(Y, π(x)) | X = x], (2) où Φ(Y, π(x)) = (Y − π(x))2 . La fonction de perte Φ correspond donc à l’erreur quadratique, et le critère est la minimisation de l’EQM. 16 / 37
  17. 17. Lien entre régression et arbre : la notion de “règles” Tout arbre de régression est un ensemble de règles. Pour chaque noeud m, une règle Rm est associée à un ss-ensemble Xm ⊆ X. Notation : dans la suite, En[Y] désigne la moyenne empirique de Y, et Xpa(m) est le sous-ensemble associé au noeud parent de m. L’arbre est associé à la fonction de régression ˆπ(x) = M m=1 ˆβtree m Rm(x) (3) où ˆβtree m = En[Y | x ∈ Xm] − En[Y | x ∈ Xpa(m)] si m racine, ˆβtree m = En[Y] sinon. 17 / 37
  18. 18. Cela équivaut en régression classique à chercher ˆβtree = arg min βtree En Y − βtree m Rm(x) 2 . A partir de (3) et en sommant sur ts les noeuds : ˆπ(x) := ˆπL (x) = L l=1 ˆγl Rl(x) (4) avec L est le nombre de feuilles de l’arbre, l leur indice, Rl(x) = 11(x ∈ Xl) : une “règle” de division, ˆγl = En[Y | x ∈ Xl] : moyenne empirique de Y dans la feuille l, les sous-ensembles Xl ⊆ X de la partition sont disjoints (Xl ∩ Xl = ∅, l l ), exhaustifs (X = ∪l Xl). 18 / 37
  19. 19. (4) généralisable qlq soit la quantité d’intérêt. Ainsi, tout arbre peut être vu comme un estimateur par morceaux. Interprétation : chaque morceau est une feuille, dont la valeur est la moyenne empirique des valeurs de Y de cette feuille, chaque division vise à minimiser la somme des variances intra-noeuds résultantes. Idée : maximiser l’homogénéité... La construction étant récursive, on génère une suite d’estimateurs depuis le nd racine : soit une suite {ΠK } de ss-espaces t.q. ΠK ⊆ Π, ΠK = πL (.) = L l=1 γl Rl(.) : L ∈ N∗ , L ≤ K . (5) 19 / 37
  20. 20. A K fixé, on cherche πK 0 tq πK 0 (x) = arg min π(x)∈ΠK E0[Φ(Y, π(x)) | X = x]. En pratique on cherche la version empirique, ˆπK , telle que ˆπK (x) = arg min π(x)∈ΠK En[ Φ(Y, π(x)) ]. ou encore ˆπK (x) = arg min γ=(γ1,...,γL ) En[ Φ(Y, πL (x)) ]. (6) Les estimateurs par arbre ne cherchent pas tous les estimateurs possibles avec L ≤ K : ils approchent ce minimum récursivement. 20 / 37
  21. 21. Arrêt de la procédure de division Le principe de l’algorithme CART est de ne pas fixer de règle d’arrêt arbitraire pour la procédure. L’algorithme arrête ainsi de diviser les feuilles quand : il n’y a qu’une observation dans la feuille, ou les individus de la feuille ont les mêmes valeurs de facteurs de risque. On construit ainsi l’arbre “maximal”, qui sera ensuite élagué. Cet arbre maximal est donc l’estimateur par morceaux final le plus complexe de la suite d’estimateurs construits : sa convergence est garantie (voir [BFOS84]). 21 / 37
  22. 22. Généralisation et extensions avec Φ fonction de perte π0(x) = arg min π(x) E0[Φ(Y, π(x)) | X = x] Estimation de moyenne : π0(x) = E0[Y | X = x] → critère de division (MCO) : Φ(Y, π(x)) = (Y − π(x))2 . Estim. quantile : π0(x) = QY (α|X = x) = inf{y : F(y|X = x) ≥ α} → critère de division : Φα(y, π(x)) = α|y−π(x)|11(y > π(x)) + (1−α)|y−π(x)|11(y ≤ π(x)) Estimation de densité de la loi de Y → Φ(Y, π(x)) = − log π(Y, x), avec π la densité jointe de (Y, X). 22 / 37
  23. 23. 4 Procédure d’élagage de l’arbre Critère d’élagage de l’arbre Algorithme d’élagage de l’arbre 23 / 37
  24. 24. Elagage : critère coût-complexité Une fois l’arbre maximal construit (de taille K(n)), on obtient une suite d’estimateurs (ˆπK (x))K=1,...,K(n). Eviter estimateur trop complexe ⇒ trouver le meilleur sous-arbre de l’arbre maximal selon un critère “adéquation - complexité” : Rα(ˆπK (x)) = En[ Φ(Y, ˆπK (x)) ] + α (K/n). Pour α fixé, l’estimateur retenu satisfait ˆπK α (x) = arg min (ˆπK )K=1,...,K(n) Rα(ˆπK (x)). (7) 24 / 37
  25. 25. Elagage : procédure de sélection de modèle et estimateur final On fait croître itérativement α : 0 = α1 < ... < αz < ... < αZ−1 < αZ , et on choisit pour chaque αz le meilleur estimateur donné par (7). Par construction, on a une suite décroissante de sous-arbres optimaux de l’arbre maximal vers la racine. Dans cette liste d’estimateurs, on choisit finalement ˆα tel que ˆπK ˆα (x) = arg min (ˆπK αz )α=α1,...,αZ Rαz (ˆπK αz (x)). (8) Consistance : voir [MDvdL04] and [GN05]. 25 / 37
  26. 26. 5 Robustesse de la méthode CART 26 / 37
  27. 27. Un mot sur la robustesse de la méthode CART Certaines techniques ont été développées afin de stabiliser la prévision donnée par un estimateur arbre. En effet, la construction d’un arbre optimal peut varier fortement quand bien même le jeu de données initial varie peu. D’où l’idée de proposer des procédures avec 1 choix aléatoire des facteurs de risque considérés lors d’une division : il s’agit de la méthode dite de “bagging”. 2 tirage aléatoire de sous-jeux de données ( valid. croisées). 27 / 37
  28. 28. Exemple le plus connu : les forêts aléatoires L’objectif des forêts aléatoires est de proposer un estimateur de type “bootstrap” afin d’améliorer la robustesse de l’estimation de la quantité d’intérêt. Il s’agit de moyenner les prévisions obtenues. Cette approche est intéressante pour deux raisons principales : on peut dégager un classement du pouvoir explicatif de chacun des facteurs de risque, sa consistance a été démontrée récemment dans plusieurs articles récents : [IK10], [Mei09], [Mei06]... 28 / 37
  29. 29. 6 Application sur un cas concret d’assurance 29 / 37
  30. 30. Exemple illustratif : prévisions de taux de mortalité Résultats suivants extraits de l’article [Olb12]. C’est un portefeuille de SwissRe avec les carsctéristiques suivantes : comprenant 1 463 964 enregistrements, couvrant une période de 4 ans, les variables explicatives en jeu sont le sexe et l’âge. Les résultats obtenus par CART sont comparés à la table de mortalité actuelle “German standard life table DAV 2008 T”. 30 / 37
  31. 31. Arbre obtenu par algorithme CART Fig. 8 Final tree for the standard life table example. For each terminal node the number of cases and the mortality rate (per mille) are given (the numbers in brackets are the labels for the nodes used in Table 6) 0.012 male 142 W. Olbricht 31 / 37
  32. 32. Courbe de mortalité Fig. 8 Final tree for the standard life table example. For each terminal node the number of cases and the mortality rate (per mille) are given (the numbers in brackets are the labels for the nodes used in Table 6) 0 10 20 30 40 50 60 70 0.0000.0020.0040.0060.0080.0100.012 Age Mortalityrate male female both Fig. 9 Visualization of the final tree for the standard life table example 32 / 37
  33. 33. Performance de la prévision par arbre CART in any case. Thus, the phenomenon underscores the importance to use a selection of years as an independent test set (and not just a sample of all data records) in order to get some idea of the real extent of this type of variability. Table 6 Performance of the tree from Fig. 8 Node Learning set Independent test set No. of elements in node No. of deaths in node Estimated mortality rate (per mille) No. of elements in node No. of deaths in node Tree prediction (Fig. 8) Classical prediction (DAV 2008 T) 1 286,298 137 0.479 254,995 143 122 127 2 77,812 96 1.234 75,882 60 94 79 3 78,792 118 1.498 79,202 146 119 116 4 163,197 406 2.488 155,912 361 388 389 5 32,293 92 2.849 33,163 119 94 96 6 7,315 37 5.058 7,440 26 38 36 7 36,921 176 4.767 41,759 163 199 188 8 24,515 148 6.037 20,708 118 125 118 9 9,835 68 6.914 8,354 59 58 55 10 36,046 305 8.461 33,525 219 284 299 Total 753,024 1,583 710,940 1,414 1,521 1,503 33 / 37
  34. 34. Conclusion Pourquoi cette technique est-elle intéressante pour le big data ? → Algorithme naturellement adapté à la gestion de grandes bases de données : → Technique non-paramétrique : pas d’hypothèses sur le lien entre quantité d’intérêt et facteurs de risque. Capte bien les structures de dépendance non linéaires ; → Simplicité de l’estimateur final : faible dimension, interprétation de l’arbre et visionnage des résultats ; → Consistance de la procédure théoriquement prouvée ; 34 / 37
  35. 35. → Classement naturel du pouvoir discriminant des facteurs de risque ; → Multiples extensions possibles en travaillant sur les propriétés de la fonction de perte. Quels en sont les points faibles ? → Hypothèses sous-jacentes pouvant parfois être remises en cause ; → Manque de résultats théoriques dans des cas moins classiques ; → Instabilité : nécessité de la compléter avec des techniques de type forêts aléatoires. 35 / 37
  36. 36. Bibliographie J.P. Baudry. Sélection de modèle pour la classification non supervisée. Choix du nombre de classes. PhD thesis, Univ. Paris Sud XI, 2009. L. Breiman, J. Friedman, R. A. Olshen, and C. J. Stone. Classification and Regression Trees. Chapman and Hall, 1984. Servane Gey and Elodie Nedelec. Model selection for cart regression trees. IEEE Transactions on Information Theory, 51(2) :658–670, 2005. Hemant Ishwaran and Udaya B. Kogalur. Consistency of random survival forests. Statistics and Probability Letters, 80(13-14) :1056–1064, 2010. Annette M. Molinaro, Sandrine Dudoit, and Mark J. van der Laan. Tree-based multivariate regression and density estimation with right-censored data. JMVA, 90(1) :154–177, 2004. 36 / 37
  37. 37. Nicolai Meinshausen. Quantile regression forests. Journal of Machine Learning Research, 7 :983–999, 2006. Nicolai Meinshausen. Forest garrote. Electronic Journal of Statistics, 3 :1288–1304, 2009. X. Milhaud, V. Maume-Deschamps, and S. Loisel. Surrender triggers in life insurance : what main features affect the surrender behavior in a classical economic context ? Bulletin Français d’Actuariat, 22 :5–48, 2011. Walter Olbricht. Tree-based methods : a useful tool for life insurance. European Actuarial Journal, 2(1) :129–147, 2012. 37 / 37

×