Apprentissage automatique, Régression Ridge et LASSO

Quand le cowboy fait le tour de
la montagne

Apprentissage automatique,
régression Ridge et LASSO

Plan
 La prédiction pour mieux comprendre
 Régression linéaire et sélection de modèle
 Régression Ridge
 LASSO
 Comparaison des méthodes de sélection
par simulation
 Comparaison des méthodes sur un
exemple pratique

La prédiction pour mieux comprendre

 Inférence basée sur la signification
statistique des paramètres d’un
modèle
 Inférence basée sur la précision des
prédictions d’un modèle
 Biais des prédictions
 Variance des prédictions

La prédiction pour mieux comprendre

 Sélection de modèle pour la
prédiction
 Critère d’information d’Akaike (AIC)
 Données d’entraînement vs Données de
test
 Validation Croisée (CV)

Régression linéaire et sélection de
modèle

Y = bX + e

modèle

 On trouve β qui minimise:

2
Ν  π

∑  ι ϕ=1 
 ψ − ∑ ξιϕβ ϕ
ι=1  

modèle

 Estimation par moindres carrés
 Sélection de modèle
 Procédure « stepwise »
 Conserver seulement les variables
significatives à chaque étape
 Conserver seulement la variable qui réduit

au maximum l’AIC

Régression Ridge
 On trouve β qui minimise:

2
N  p
 p

∑  j =1 
 yi − ∑ xij b j  + l
i =1 
∑b 2
j
 j =1

Régression Ridge
 Estimation des β par moindres
carrés
 Estimation du λ par CV
 Ce choix fait effectivement la sélection
du modèle.

Régression Ridge
 La condition de minimalisation
énoncée ci-haut correspond à une
contrainte sur la taille maximale des
β
p

å β £s
2
j
j =1

Régression Ridge
 Permet d’estimer un modèle en
présence de covariables fortement
corrélées.
 Estimation dépendante de l’échelle
des variables
 Centrer et réduire toutes les variables
continues

LASSO
 On trouve β qui
minimise:

2
N  p
 p

∑  j =1 
 yi − ∑ xij b j  + l
i =1 
∑b j
 j =1

LASSO
 À cause de la valeur absolue,
l’estimation des β ne peut se faire
par les moindres carrés
 Algorithme quadratique employé pour
l’estimation
 Estimation du λ par CV
 Ce choix fait effectivement la sélection
du modèle

LASSO
 Comme pour la régression Ridge,
centrer et réduire les variables
continues

Comparaison des méthodes
 Avantage de la régression Ridge
 Les effets de variables explicatrices très
corrélées se combinent pour se
renforcer mutuellement
 Avantage du LASSO
 Les effets peu important sont estimés à
0, donc le modèle sélectionné aura un
nombre de variables d < p.

 Désavantage de la régression Ridge
 Toutes les variables incluses
initialement se retrouvent dans le
modèle final, pas moyen de dire quelles
variables sont les plus importantes.
 Désavantage du LASSO
 En présence de variables explicatrices
corrélées, le LASSO en choisit une
arbitrairement et met les autres à 0.

 La pénalité du filet élastique (Elastic
Net) permet de combiner les avantages
des deux méthodes
 On cherche β qui minimise:

2
N  p
 p
1 
∑  yi − ∑ xij b j  + l

i =1 
 ∑  2 (1 − a )b j + a b j 
j =1 
2


j =1 

Comparaison des méthodes par
simulation

 Jeu d’entraînement: 100 individus,
modèle linéaire, erreur normale, 20
variables explicatrices candidates
 Jeu de test: 50 individus, même
modèle que pour le jeu
d’entraînement

Variable Modèle Régression Stepwise Ridge LASSO Elastic Net
Intercepte 2.4 -1.34 -2.58 -3.88 -2.40 -2.38
X2 -0.71 -0.42
X3 0.68 0.06
X4 -0.35 -0.60
X5 -5 -17.13 -17 -15.18 -15.63 -15.58
X6 1.66 1.83 0.63 0.35 0.33
X7 5 14.42 14.43 12.26 12.81 12.75
X8 0.17 -0.54
X9 -1.26 -1.21 -1.14 -0.24 -0.24
X10 1.43 1.48 0.89
X11 -3 -46.22 -46.21 -42.46 -44.72 -44.62
X12 1.30 1.30 1.18
X13 -0.06 0.08
X14 3 46.71 46.47 42.86 44.52 44.42
X15 -0.45 -0.68
X16 0.02 0.84
X17 3.48 3.04 2.96 0.71 0.71
X18 -3 -6.38 -6.21 -6.66 -4.13 -4.16
X19 -1.68 -0.81
X20 -1.24 0.14
X21 0.15 0.15
Erreur Test -0.86 -0.76 -0.66 -1.14 -1.14
Écart-type 18.59 18.29 18.87 17.23 17.24

Comparaison de méthodes
Trajectoire Ridge

Trajectoire LASSO

Trajectoire Elastic Net

Exemple pratique:
Polychlorobiphényles et pesticides organochlorés

 Données du CSHA: 1848 sujets
 28 Covariables, dont 5 variables
dichotomiques et 1 variables
catégoriques
 Variable réponse: maladie
d’Alzheimer
 Échantillon séparé: 185 sujets
« test » sélectionnés aléatoirement
et 1663 sujets d’entraînement

Variable Régression Stepwise Ridge LASSO Elastic Net

Intercepte -1.64 0.23 -1.29 -1.45 -1.45

BPC105 -0.38 0.001

BPC118 0.35 0.003

BPC138 -0.25 0.003

BPC153 -0.56 -0.10 0.004

BPC156 0.17 0.004

BPC163 0.74 0.11 0.005

BPC170 -0.14 0.001

BPC180 0.02 0.0001

BPC183 0.77 0.10 0.004

BPC187 -0.61 -0.08 0.0009

BPC99 0.08 0.003

cisNonachlor -0.63 -0.04 -0.005

Hexachlorobenzene 0.01 0.0004

Oxychlordane -0.43 -0.001

ppDDE 0.13 0.004

ppDDT -0.07 -0.002

BetaHCH -0.09 -0.003

transNonachlor 0.68 -0.003

Éducation -0.26 -0.04 -0.006 -0.03 -0.04

Âge 0.52 0.08 0.02 0.39 0.4

Lipides totaux -0.02 -0.007

IMC -0.16 -0.03 -0.01 -0.09 -0.1

Sexe 0.38 0.04 0.02 0.08 0.09

Région 2 -0.88 -0.14 -0.03 -0.2 -0.23

Région3 0.18 0.03 0.16 0.17

Région4 -0.05 -0.05 0.005

Région5 -1.20 -0.18 -0.04 -0.51 -0.54

APOE4 0.88 0.14 0.04 0.55 0.57

Area -0.01 0.004

Cigarette 0.22 -0.01

Alcohol -0.25 -0.03 -0.02 -0.006 -0.02

Erreur Entraînement 20% 20% 21% 21% 21%

Erreur Test 26% 25% 25% 26% 25%

Exemple pratique
Trajectoire Ridge

Exemple pratique
Trajectoire LASSO

Exemple pratique
Trajectoire Elastic Net

Exemple pratique
Comparaison des courbes ROC: Entraînement

Exemple pratique
Comparaison des courbes ROC: Test

Logiciels
 R
 glmnet (Friedman, Hastie, Tibshirani)
 SAS
 Proc GLMSELECT (LASSO et Stepwise)
 Proc REG, MIXED, LOGISTIC, PHREG,
etc… (Ridge)

Référence
 Trevor Hastie, Robert Tibshirani,
Jerome Friedman. The Elements of
Statistical Learning, 2nd ed., 2008

Apprentissage automatique, Régression Ridge et LASSO

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Apprentissage automatique, Régression Ridge et LASSO

Notes de l'éditeur