Quand le cowboy fait le tour dela montagneApprentissage automatique,régression Ridge et LASSO
Plan   La prédiction pour mieux comprendre   Régression linéaire et sélection de modèle   Régression Ridge   LASSO   ...
La prédiction pour mieux comprendre   Inférence basée sur la signification    statistique des paramètres d’un    modèle ...
La prédiction pour mieux comprendre   Sélection de modèle pour la    prédiction       Critère d’information d’Akaike (AI...
Régression linéaire et sélection demodèle  Y = bX + e
Régression linéaire et sélection demodèle   On trouve β qui minimise:                                2          Ν       ...
Régression linéaire et sélection demodèle   Estimation par moindres carrés   Sélection de modèle       Procédure « step...
Régression Ridge   On trouve β qui minimise:                          2     N        p                                 ...
Régression Ridge   Estimation des β par moindres    carrés   Estimation du λ par CV       Ce choix fait effectivement l...
Régression Ridge   La condition de minimalisation    énoncée ci-haut correspond à une    contrainte sur la taille maximal...
Régression Ridge   Permet d’estimer un modèle en    présence de covariables fortement    corrélées.   Estimation dépenda...
LASSO   On trouve β qui    minimise:                          2     N         p                                  p    ∑...
LASSO   À cause de la valeur absolue,    l’estimation des β ne peut se faire    par les moindres carrés       Algorithme...
LASSO   Comme pour la régression Ridge,    centrer et réduire les variables    continues
Comparaison des méthodes   Avantage de la régression Ridge       Les effets de variables explicatrices très        corré...
Comparaison des méthodes   Désavantage de la régression Ridge       Toutes les variables incluses        initialement se...
Comparaison des méthodes   La pénalité du filet élastique (Elastic    Net) permet de combiner les avantages    des deux m...
Comparaison des méthodes parsimulation   Jeu d’entraînement: 100 individus,    modèle linéaire, erreur normale, 20    var...
Données simulées
Variable      Modèle   Régression   Stepwise   Ridge    LASSO    Elastic NetIntercepte    2.4      -1.34        -2.58     ...
Comparaison de méthodesTrajectoire Ridge
Comparaison des méthodesTrajectoire LASSO
Comparaison des méthodesTrajectoire Elastic Net
Exemple pratique:Polychlorobiphényles et pesticides organochlorés   Données du CSHA: 1848 sujets       28 Covariables, d...
Données pratiques
Variable              Régression   Stepwise   Ridge    LASSO    Elastic NetIntercepte            -1.64        0.23       -...
Exemple pratiqueTrajectoire Ridge
Exemple pratiqueTrajectoire LASSO
Exemple pratiqueTrajectoire Elastic Net
Exemple pratiqueComparaison des courbes ROC: Entraînement
Exemple pratiqueComparaison des courbes ROC: Test
Logiciels   R       glmnet (Friedman, Hastie, Tibshirani)   SAS       Proc GLMSELECT (LASSO et Stepwise)       Proc R...
Référence   Trevor Hastie, Robert Tibshirani,    Jerome Friedman. The Elements of    Statistical Learning, 2nd ed., 2008
Prochain SlideShare
Chargement dans…5
×

Apprentissage automatique, Régression Ridge et LASSO

13 676 vues

Publié le

Présentation des notions de base pour la régression pénalisée et comparaison de divers méthodes.

0 commentaire
7 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
13 676
Sur SlideShare
0
Issues des intégrations
0
Intégrations
14
Actions
Partages
0
Téléchargements
80
Commentaires
0
J’aime
7
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • 1- Les variables qui ont une corrélation significative sont jugées pertinentes au processus à l’étude, mais lien de causalité pas toujours évident ou réel. 2- Les variables importantes pour faire des prédictions ont peut- être plus de chances d’être des causes, ou du moins d’avoir un effet réel.
  • Critère d’Akaike: Estimé de l’erreur de prédiction intra-échantillon pour les modèles de régression, entre autres. Avoir deux échantillons, un pour estimé le modèle, le second pour valider le modèle CV: Un seul échantillon partitionné pour faire l’estimation et la validation du modèle
  • Que ce passe-t-il dans le cas de variables explicatrices corrélées ? Et si nous avons beaucoup plus de variables que d’observations ?
  • Les coefficients des variables fortement corrélées vont tous allé dans le m ême sens et approchés la même valeur. Ex: 3 variables parfaitement corrélées : Coeff = 1/3*b
  • Les variables éventuellement peu importantes auront un coefficient = 0.
  • 20 variables candidates: 6 variables dichotomiques…
  • Apprentissage automatique, Régression Ridge et LASSO

    1. 1. Quand le cowboy fait le tour dela montagneApprentissage automatique,régression Ridge et LASSO
    2. 2. Plan La prédiction pour mieux comprendre Régression linéaire et sélection de modèle Régression Ridge LASSO Comparaison des méthodes de sélection par simulation Comparaison des méthodes sur un exemple pratique
    3. 3. La prédiction pour mieux comprendre Inférence basée sur la signification statistique des paramètres d’un modèle Inférence basée sur la précision des prédictions d’un modèle  Biais des prédictions  Variance des prédictions
    4. 4. La prédiction pour mieux comprendre Sélection de modèle pour la prédiction  Critère d’information d’Akaike (AIC)  Données d’entraînement vs Données de test  Validation Croisée (CV)
    5. 5. Régression linéaire et sélection demodèle Y = bX + e
    6. 6. Régression linéaire et sélection demodèle On trouve β qui minimise: 2 Ν  π  ∑  ι ϕ=1   ψ − ∑ ξιϕβ ϕ ι=1  
    7. 7. Régression linéaire et sélection demodèle Estimation par moindres carrés Sélection de modèle  Procédure « stepwise »  Conserver seulement les variables significatives à chaque étape  Conserver seulement la variable qui réduit au maximum l’AIC
    8. 8. Régression Ridge On trouve β qui minimise: 2 N  p  p ∑  j =1   yi − ∑ xij b j  + l i =1  ∑b 2 j  j =1
    9. 9. Régression Ridge Estimation des β par moindres carrés Estimation du λ par CV  Ce choix fait effectivement la sélection du modèle.
    10. 10. Régression Ridge La condition de minimalisation énoncée ci-haut correspond à une contrainte sur la taille maximale des β p å β £s 2 j j =1
    11. 11. Régression Ridge Permet d’estimer un modèle en présence de covariables fortement corrélées. Estimation dépendante de l’échelle des variables  Centrer et réduire toutes les variables continues
    12. 12. LASSO On trouve β qui minimise: 2 N  p  p ∑  j =1   yi − ∑ xij b j  + l i =1  ∑b j  j =1
    13. 13. LASSO À cause de la valeur absolue, l’estimation des β ne peut se faire par les moindres carrés  Algorithme quadratique employé pour l’estimation Estimation du λ par CV  Ce choix fait effectivement la sélection du modèle
    14. 14. LASSO Comme pour la régression Ridge, centrer et réduire les variables continues
    15. 15. Comparaison des méthodes Avantage de la régression Ridge  Les effets de variables explicatrices très corrélées se combinent pour se renforcer mutuellement Avantage du LASSO  Les effets peu important sont estimés à 0, donc le modèle sélectionné aura un nombre de variables d < p.
    16. 16. Comparaison des méthodes Désavantage de la régression Ridge  Toutes les variables incluses initialement se retrouvent dans le modèle final, pas moyen de dire quelles variables sont les plus importantes. Désavantage du LASSO  En présence de variables explicatrices corrélées, le LASSO en choisit une arbitrairement et met les autres à 0.
    17. 17. Comparaison des méthodes La pénalité du filet élastique (Elastic Net) permet de combiner les avantages des deux méthodes On cherche β qui minimise: 2N  p  p 1 ∑  yi − ∑ xij b j  + l i =1   ∑  2 (1 − a )b j + a b j  j =1  2  j =1 
    18. 18. Comparaison des méthodes parsimulation Jeu d’entraînement: 100 individus, modèle linéaire, erreur normale, 20 variables explicatrices candidates Jeu de test: 50 individus, même modèle que pour le jeu d’entraînement
    19. 19. Données simulées
    20. 20. Variable Modèle Régression Stepwise Ridge LASSO Elastic NetIntercepte 2.4 -1.34 -2.58 -3.88 -2.40 -2.38X2 -0.71 -0.42X3 0.68 0.06X4 -0.35 -0.60X5 -5 -17.13 -17 -15.18 -15.63 -15.58X6 1.66 1.83 0.63 0.35 0.33X7 5 14.42 14.43 12.26 12.81 12.75X8 0.17 -0.54X9 -1.26 -1.21 -1.14 -0.24 -0.24X10 1.43 1.48 0.89X11 -3 -46.22 -46.21 -42.46 -44.72 -44.62X12 1.30 1.30 1.18X13 -0.06 0.08X14 3 46.71 46.47 42.86 44.52 44.42X15 -0.45 -0.68X16 0.02 0.84X17 3.48 3.04 2.96 0.71 0.71X18 -3 -6.38 -6.21 -6.66 -4.13 -4.16X19 -1.68 -0.81X20 -1.24 0.14X21 0.15 0.15Erreur Test -0.86 -0.76 -0.66 -1.14 -1.14Écart-type 18.59 18.29 18.87 17.23 17.24
    21. 21. Comparaison de méthodesTrajectoire Ridge
    22. 22. Comparaison des méthodesTrajectoire LASSO
    23. 23. Comparaison des méthodesTrajectoire Elastic Net
    24. 24. Exemple pratique:Polychlorobiphényles et pesticides organochlorés Données du CSHA: 1848 sujets  28 Covariables, dont 5 variables dichotomiques et 1 variables catégoriques Variable réponse: maladie d’Alzheimer Échantillon séparé: 185 sujets « test » sélectionnés aléatoirement et 1663 sujets d’entraînement
    25. 25. Données pratiques
    26. 26. Variable Régression Stepwise Ridge LASSO Elastic NetIntercepte -1.64 0.23 -1.29 -1.45 -1.45BPC105 -0.38 0.001BPC118 0.35 0.003BPC138 -0.25 0.003BPC153 -0.56 -0.10 0.004BPC156 0.17 0.004BPC163 0.74 0.11 0.005BPC170 -0.14 0.001BPC180 0.02 0.0001BPC183 0.77 0.10 0.004BPC187 -0.61 -0.08 0.0009BPC99 0.08 0.003cisNonachlor -0.63 -0.04 -0.005Hexachlorobenzene 0.01 0.0004Oxychlordane -0.43 -0.001ppDDE 0.13 0.004ppDDT -0.07 -0.002BetaHCH -0.09 -0.003transNonachlor 0.68 -0.003Éducation -0.26 -0.04 -0.006 -0.03 -0.04Âge 0.52 0.08 0.02 0.39 0.4Lipides totaux -0.02 -0.007IMC -0.16 -0.03 -0.01 -0.09 -0.1Sexe 0.38 0.04 0.02 0.08 0.09Région 2 -0.88 -0.14 -0.03 -0.2 -0.23Région3 0.18 0.03 0.16 0.17Région4 -0.05 -0.05 0.005Région5 -1.20 -0.18 -0.04 -0.51 -0.54APOE4 0.88 0.14 0.04 0.55 0.57Area -0.01 0.004Cigarette 0.22 -0.01Alcohol -0.25 -0.03 -0.02 -0.006 -0.02Erreur Entraînement 20% 20% 21% 21% 21%Erreur Test 26% 25% 25% 26% 25%
    27. 27. Exemple pratiqueTrajectoire Ridge
    28. 28. Exemple pratiqueTrajectoire LASSO
    29. 29. Exemple pratiqueTrajectoire Elastic Net
    30. 30. Exemple pratiqueComparaison des courbes ROC: Entraînement
    31. 31. Exemple pratiqueComparaison des courbes ROC: Test
    32. 32. Logiciels R  glmnet (Friedman, Hastie, Tibshirani) SAS  Proc GLMSELECT (LASSO et Stepwise)  Proc REG, MIXED, LOGISTIC, PHREG, etc… (Ridge)
    33. 33. Référence Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning, 2nd ed., 2008

    ×