SlideShare une entreprise Scribd logo
1  sur  33
Quand le cowboy fait le tour de
la montagne


Apprentissage automatique,
régression Ridge et LASSO
Plan
   La prédiction pour mieux comprendre
   Régression linéaire et sélection de modèle
   Régression Ridge
   LASSO
   Comparaison des méthodes de sélection
    par simulation
   Comparaison des méthodes sur un
    exemple pratique
La prédiction pour mieux comprendre

   Inférence basée sur la signification
    statistique des paramètres d’un
    modèle
   Inférence basée sur la précision des
    prédictions d’un modèle
       Biais des prédictions
       Variance des prédictions
La prédiction pour mieux comprendre

   Sélection de modèle pour la
    prédiction
       Critère d’information d’Akaike (AIC)
       Données d’entraînement vs Données de
        test
       Validation Croisée (CV)
Régression linéaire et sélection de
modèle




  Y = bX + e
Régression linéaire et sélection de
modèle

   On trouve β qui minimise:


                                2
          Ν          π
                           
         ∑  ι ϕ=1 
              ψ − ∑ ξιϕβ ϕ
         ι=1              
Régression linéaire et sélection de
modèle

   Estimation par moindres carrés
   Sélection de modèle
       Procédure « stepwise »
          Conserver seulement les variables
           significatives à chaque étape
          Conserver seulement la variable qui réduit

           au maximum l’AIC
Régression Ridge
   On trouve β qui minimise:


                          2
     N        p
                                  p

    ∑  j =1 
          yi − ∑ xij b j  + l
    i =1 
                                  ∑b     2
                                         j
                                 j =1
Régression Ridge
   Estimation des β par moindres
    carrés
   Estimation du λ par CV
       Ce choix fait effectivement la sélection
        du modèle.
Régression Ridge
   La condition de minimalisation
    énoncée ci-haut correspond à une
    contrainte sur la taille maximale des
    β
               p

              å       β £s
                      2
                      j
               j =1
Régression Ridge
   Permet d’estimer un modèle en
    présence de covariables fortement
    corrélées.
   Estimation dépendante de l’échelle
    des variables
       Centrer et réduire toutes les variables
        continues
LASSO
   On trouve β qui
    minimise:

                          2
     N         p
                                  p

    ∑  j =1 
          yi − ∑ xij b j  + l
    i =1 
                                  ∑b     j
                                 j =1
LASSO
   À cause de la valeur absolue,
    l’estimation des β ne peut se faire
    par les moindres carrés
       Algorithme quadratique employé pour
        l’estimation
   Estimation du λ par CV
       Ce choix fait effectivement la sélection
        du modèle
LASSO
   Comme pour la régression Ridge,
    centrer et réduire les variables
    continues
Comparaison des méthodes
   Avantage de la régression Ridge
       Les effets de variables explicatrices très
        corrélées se combinent pour se
        renforcer mutuellement
   Avantage du LASSO
       Les effets peu important sont estimés à
        0, donc le modèle sélectionné aura un
        nombre de variables d < p.
Comparaison des méthodes
   Désavantage de la régression Ridge
       Toutes les variables incluses
        initialement se retrouvent dans le
        modèle final, pas moyen de dire quelles
        variables sont les plus importantes.
   Désavantage du LASSO
       En présence de variables explicatrices
        corrélées, le LASSO en choisit une
        arbitrairement et met les autres à 0.
Comparaison des méthodes
   La pénalité du filet élastique (Elastic
    Net) permet de combiner les avantages
    des deux méthodes
   On cherche β qui minimise:

                   2
N        p
                           p
                                1                   
∑  yi − ∑ xij b j  + l
     
i =1 
                          ∑  2 (1 − a )b j + a b j 
                           j =1 
                                           2

                                                     
         j =1      
Comparaison des méthodes par
simulation

   Jeu d’entraînement: 100 individus,
    modèle linéaire, erreur normale, 20
    variables explicatrices candidates
   Jeu de test: 50 individus, même
    modèle que pour le jeu
    d’entraînement
Données simulées
Variable      Modèle   Régression   Stepwise   Ridge    LASSO    Elastic Net
Intercepte    2.4      -1.34        -2.58      -3.88    -2.40    -2.38
X2                     -0.71                   -0.42
X3                     0.68                    0.06
X4                     -0.35                   -0.60
X5            -5       -17.13       -17        -15.18   -15.63   -15.58
X6                     1.66         1.83       0.63     0.35     0.33
X7            5        14.42        14.43      12.26    12.81    12.75
X8                     0.17                    -0.54
X9                     -1.26        -1.21      -1.14    -0.24    -0.24
X10                    1.43         1.48       0.89
X11           -3       -46.22       -46.21     -42.46   -44.72   -44.62
X12                    1.30         1.30       1.18
X13                    -0.06                   0.08
X14           3        46.71        46.47      42.86    44.52    44.42
X15                    -0.45                   -0.68
X16                    0.02                    0.84
X17                    3.48         3.04       2.96     0.71     0.71
X18           -3       -6.38        -6.21      -6.66    -4.13    -4.16
X19                    -1.68                   -0.81
X20                    -1.24                   0.14
X21                    0.15                    0.15
Erreur Test            -0.86        -0.76      -0.66    -1.14    -1.14
Écart-type             18.59        18.29      18.87    17.23    17.24
Comparaison de méthodes
Trajectoire Ridge
Comparaison des méthodes
Trajectoire LASSO
Comparaison des méthodes
Trajectoire Elastic Net
Exemple pratique:
Polychlorobiphényles et pesticides organochlorés

   Données du CSHA: 1848 sujets
       28 Covariables, dont 5 variables
        dichotomiques et 1 variables
        catégoriques
    Variable réponse: maladie
    d’Alzheimer
   Échantillon séparé: 185 sujets
    « test » sélectionnés aléatoirement
    et 1663 sujets d’entraînement
Données pratiques
Variable              Régression   Stepwise   Ridge    LASSO    Elastic Net

Intercepte            -1.64        0.23       -1.29    -1.45    -1.45

BPC105                -0.38                   0.001

BPC118                0.35                    0.003

BPC138                -0.25                   0.003

BPC153                -0.56        -0.10      0.004

BPC156                0.17                    0.004

BPC163                0.74         0.11       0.005

BPC170                -0.14                   0.001

BPC180                0.02                    0.0001

BPC183                0.77         0.10       0.004

BPC187                -0.61        -0.08      0.0009

BPC99                 0.08                    0.003

cisNonachlor          -0.63        -0.04      -0.005

Hexachlorobenzene     0.01                    0.0004

Oxychlordane          -0.43                   -0.001

ppDDE                 0.13                    0.004

ppDDT                 -0.07                   -0.002

BetaHCH               -0.09                   -0.003

transNonachlor        0.68                    -0.003

Éducation             -0.26        -0.04      -0.006   -0.03    -0.04

Âge                   0.52         0.08       0.02     0.39     0.4

Lipides totaux        -0.02                   -0.007

IMC                   -0.16        -0.03      -0.01    -0.09    -0.1

Sexe                  0.38         0.04       0.02     0.08     0.09

Région 2              -0.88        -0.14      -0.03    -0.2     -0.23

Région3               0.18                    0.03     0.16     0.17

Région4               -0.05        -0.05      0.005

Région5               -1.20        -0.18      -0.04    -0.51    -0.54

APOE4                 0.88         0.14       0.04     0.55     0.57

Area                  -0.01                   0.004

Cigarette             0.22                    -0.01

Alcohol               -0.25        -0.03      -0.02    -0.006   -0.02

Erreur Entraînement   20%          20%        21%      21%      21%


Erreur Test           26%          25%        25%      26%      25%
Exemple pratique
Trajectoire Ridge
Exemple pratique
Trajectoire LASSO
Exemple pratique
Trajectoire Elastic Net
Exemple pratique
Comparaison des courbes ROC: Entraînement
Exemple pratique
Comparaison des courbes ROC: Test
Logiciels
   R
       glmnet (Friedman, Hastie, Tibshirani)
   SAS
       Proc GLMSELECT (LASSO et Stepwise)
       Proc REG, MIXED, LOGISTIC, PHREG,
        etc… (Ridge)
Référence
   Trevor Hastie, Robert Tibshirani,
    Jerome Friedman. The Elements of
    Statistical Learning, 2nd ed., 2008

Contenu connexe

Tendances

FormationPython2019.pptx
FormationPython2019.pptxFormationPython2019.pptx
FormationPython2019.pptxLamissGhoul1
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_amanMehdi Aman
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learningQuentin Ambard
 
Analyse de régression linéaire
Analyse de régression linéaire Analyse de régression linéaire
Analyse de régression linéaire Adad Med Chérif
 
Python avancé : Ensemble, dictionnaire et base de données
Python avancé : Ensemble, dictionnaire et base de donnéesPython avancé : Ensemble, dictionnaire et base de données
Python avancé : Ensemble, dictionnaire et base de donnéesECAM Brussels Engineering School
 
Gbph restauration-collective
Gbph restauration-collectiveGbph restauration-collective
Gbph restauration-collectiveMounir El Ourak
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning Niji
 
Partie 1 - Assainissement sur AutoCad 2007 et 2004
Partie 1  -  Assainissement sur AutoCad 2007 et 2004Partie 1  -  Assainissement sur AutoCad 2007 et 2004
Partie 1 - Assainissement sur AutoCad 2007 et 2004Ahmed EL ATARI
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfAnassFarkadi
 
Présentation python
Présentation pythonPrésentation python
Présentation pythonSarah
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite completChahrawoods Dmz
 
Algorithme Colonie de fourmis
Algorithme Colonie de fourmisAlgorithme Colonie de fourmis
Algorithme Colonie de fourmiskamar MEDDAH
 
Chapitre 2 le recuit simulé
Chapitre 2 le recuit simuléChapitre 2 le recuit simulé
Chapitre 2 le recuit simuléAchraf Manaa
 
Chp1 - Introduction aux méthodologies de Conception
Chp1 - Introduction aux méthodologies de ConceptionChp1 - Introduction aux méthodologies de Conception
Chp1 - Introduction aux méthodologies de ConceptionLilia Sfaxi
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfZizoAziz
 

Tendances (20)

FormationPython2019.pptx
FormationPython2019.pptxFormationPython2019.pptx
FormationPython2019.pptx
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_aman
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
Stat8 Anova
Stat8  AnovaStat8  Anova
Stat8 Anova
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
Analyse de régression linéaire
Analyse de régression linéaire Analyse de régression linéaire
Analyse de régression linéaire
 
Hydrologie générale
Hydrologie générale Hydrologie générale
Hydrologie générale
 
Présentation pfe
Présentation pfePrésentation pfe
Présentation pfe
 
Python avancé : Ensemble, dictionnaire et base de données
Python avancé : Ensemble, dictionnaire et base de donnéesPython avancé : Ensemble, dictionnaire et base de données
Python avancé : Ensemble, dictionnaire et base de données
 
Gbph restauration-collective
Gbph restauration-collectiveGbph restauration-collective
Gbph restauration-collective
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning
 
Partie 1 - Assainissement sur AutoCad 2007 et 2004
Partie 1  -  Assainissement sur AutoCad 2007 et 2004Partie 1  -  Assainissement sur AutoCad 2007 et 2004
Partie 1 - Assainissement sur AutoCad 2007 et 2004
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
 
Td2 pg2-corrige
Td2 pg2-corrigeTd2 pg2-corrige
Td2 pg2-corrige
 
Présentation python
Présentation pythonPrésentation python
Présentation python
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite complet
 
Algorithme Colonie de fourmis
Algorithme Colonie de fourmisAlgorithme Colonie de fourmis
Algorithme Colonie de fourmis
 
Chapitre 2 le recuit simulé
Chapitre 2 le recuit simuléChapitre 2 le recuit simulé
Chapitre 2 le recuit simulé
 
Chp1 - Introduction aux méthodologies de Conception
Chp1 - Introduction aux méthodologies de ConceptionChp1 - Introduction aux méthodologies de Conception
Chp1 - Introduction aux méthodologies de Conception
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
 

Apprentissage automatique, Régression Ridge et LASSO

  • 1. Quand le cowboy fait le tour de la montagne Apprentissage automatique, régression Ridge et LASSO
  • 2. Plan  La prédiction pour mieux comprendre  Régression linéaire et sélection de modèle  Régression Ridge  LASSO  Comparaison des méthodes de sélection par simulation  Comparaison des méthodes sur un exemple pratique
  • 3. La prédiction pour mieux comprendre  Inférence basée sur la signification statistique des paramètres d’un modèle  Inférence basée sur la précision des prédictions d’un modèle  Biais des prédictions  Variance des prédictions
  • 4. La prédiction pour mieux comprendre  Sélection de modèle pour la prédiction  Critère d’information d’Akaike (AIC)  Données d’entraînement vs Données de test  Validation Croisée (CV)
  • 5. Régression linéaire et sélection de modèle Y = bX + e
  • 6. Régression linéaire et sélection de modèle  On trouve β qui minimise: 2 Ν  π  ∑  ι ϕ=1   ψ − ∑ ξιϕβ ϕ ι=1  
  • 7. Régression linéaire et sélection de modèle  Estimation par moindres carrés  Sélection de modèle  Procédure « stepwise »  Conserver seulement les variables significatives à chaque étape  Conserver seulement la variable qui réduit au maximum l’AIC
  • 8. Régression Ridge  On trouve β qui minimise: 2 N  p  p ∑  j =1   yi − ∑ xij b j  + l i =1  ∑b 2 j  j =1
  • 9. Régression Ridge  Estimation des β par moindres carrés  Estimation du λ par CV  Ce choix fait effectivement la sélection du modèle.
  • 10. Régression Ridge  La condition de minimalisation énoncée ci-haut correspond à une contrainte sur la taille maximale des β p å β £s 2 j j =1
  • 11. Régression Ridge  Permet d’estimer un modèle en présence de covariables fortement corrélées.  Estimation dépendante de l’échelle des variables  Centrer et réduire toutes les variables continues
  • 12. LASSO  On trouve β qui minimise: 2 N  p  p ∑  j =1   yi − ∑ xij b j  + l i =1  ∑b j  j =1
  • 13. LASSO  À cause de la valeur absolue, l’estimation des β ne peut se faire par les moindres carrés  Algorithme quadratique employé pour l’estimation  Estimation du λ par CV  Ce choix fait effectivement la sélection du modèle
  • 14. LASSO  Comme pour la régression Ridge, centrer et réduire les variables continues
  • 15. Comparaison des méthodes  Avantage de la régression Ridge  Les effets de variables explicatrices très corrélées se combinent pour se renforcer mutuellement  Avantage du LASSO  Les effets peu important sont estimés à 0, donc le modèle sélectionné aura un nombre de variables d < p.
  • 16. Comparaison des méthodes  Désavantage de la régression Ridge  Toutes les variables incluses initialement se retrouvent dans le modèle final, pas moyen de dire quelles variables sont les plus importantes.  Désavantage du LASSO  En présence de variables explicatrices corrélées, le LASSO en choisit une arbitrairement et met les autres à 0.
  • 17. Comparaison des méthodes  La pénalité du filet élastique (Elastic Net) permet de combiner les avantages des deux méthodes  On cherche β qui minimise: 2 N  p  p 1  ∑  yi − ∑ xij b j  + l  i =1   ∑  2 (1 − a )b j + a b j  j =1  2  j =1 
  • 18. Comparaison des méthodes par simulation  Jeu d’entraînement: 100 individus, modèle linéaire, erreur normale, 20 variables explicatrices candidates  Jeu de test: 50 individus, même modèle que pour le jeu d’entraînement
  • 20. Variable Modèle Régression Stepwise Ridge LASSO Elastic Net Intercepte 2.4 -1.34 -2.58 -3.88 -2.40 -2.38 X2 -0.71 -0.42 X3 0.68 0.06 X4 -0.35 -0.60 X5 -5 -17.13 -17 -15.18 -15.63 -15.58 X6 1.66 1.83 0.63 0.35 0.33 X7 5 14.42 14.43 12.26 12.81 12.75 X8 0.17 -0.54 X9 -1.26 -1.21 -1.14 -0.24 -0.24 X10 1.43 1.48 0.89 X11 -3 -46.22 -46.21 -42.46 -44.72 -44.62 X12 1.30 1.30 1.18 X13 -0.06 0.08 X14 3 46.71 46.47 42.86 44.52 44.42 X15 -0.45 -0.68 X16 0.02 0.84 X17 3.48 3.04 2.96 0.71 0.71 X18 -3 -6.38 -6.21 -6.66 -4.13 -4.16 X19 -1.68 -0.81 X20 -1.24 0.14 X21 0.15 0.15 Erreur Test -0.86 -0.76 -0.66 -1.14 -1.14 Écart-type 18.59 18.29 18.87 17.23 17.24
  • 24. Exemple pratique: Polychlorobiphényles et pesticides organochlorés  Données du CSHA: 1848 sujets  28 Covariables, dont 5 variables dichotomiques et 1 variables catégoriques  Variable réponse: maladie d’Alzheimer  Échantillon séparé: 185 sujets « test » sélectionnés aléatoirement et 1663 sujets d’entraînement
  • 26. Variable Régression Stepwise Ridge LASSO Elastic Net Intercepte -1.64 0.23 -1.29 -1.45 -1.45 BPC105 -0.38 0.001 BPC118 0.35 0.003 BPC138 -0.25 0.003 BPC153 -0.56 -0.10 0.004 BPC156 0.17 0.004 BPC163 0.74 0.11 0.005 BPC170 -0.14 0.001 BPC180 0.02 0.0001 BPC183 0.77 0.10 0.004 BPC187 -0.61 -0.08 0.0009 BPC99 0.08 0.003 cisNonachlor -0.63 -0.04 -0.005 Hexachlorobenzene 0.01 0.0004 Oxychlordane -0.43 -0.001 ppDDE 0.13 0.004 ppDDT -0.07 -0.002 BetaHCH -0.09 -0.003 transNonachlor 0.68 -0.003 Éducation -0.26 -0.04 -0.006 -0.03 -0.04 Âge 0.52 0.08 0.02 0.39 0.4 Lipides totaux -0.02 -0.007 IMC -0.16 -0.03 -0.01 -0.09 -0.1 Sexe 0.38 0.04 0.02 0.08 0.09 Région 2 -0.88 -0.14 -0.03 -0.2 -0.23 Région3 0.18 0.03 0.16 0.17 Région4 -0.05 -0.05 0.005 Région5 -1.20 -0.18 -0.04 -0.51 -0.54 APOE4 0.88 0.14 0.04 0.55 0.57 Area -0.01 0.004 Cigarette 0.22 -0.01 Alcohol -0.25 -0.03 -0.02 -0.006 -0.02 Erreur Entraînement 20% 20% 21% 21% 21% Erreur Test 26% 25% 25% 26% 25%
  • 30. Exemple pratique Comparaison des courbes ROC: Entraînement
  • 31. Exemple pratique Comparaison des courbes ROC: Test
  • 32. Logiciels  R  glmnet (Friedman, Hastie, Tibshirani)  SAS  Proc GLMSELECT (LASSO et Stepwise)  Proc REG, MIXED, LOGISTIC, PHREG, etc… (Ridge)
  • 33. Référence  Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning, 2nd ed., 2008

Notes de l'éditeur

  1. 1- Les variables qui ont une corrélation significative sont jugées pertinentes au processus à l’étude, mais lien de causalité pas toujours évident ou réel. 2- Les variables importantes pour faire des prédictions ont peut- être plus de chances d’être des causes, ou du moins d’avoir un effet réel.
  2. Critère d’Akaike: Estimé de l’erreur de prédiction intra-échantillon pour les modèles de régression, entre autres. Avoir deux échantillons, un pour estimé le modèle, le second pour valider le modèle CV: Un seul échantillon partitionné pour faire l’estimation et la validation du modèle
  3. Que ce passe-t-il dans le cas de variables explicatrices corrélées ? Et si nous avons beaucoup plus de variables que d’observations ?
  4. Les coefficients des variables fortement corrélées vont tous allé dans le m ême sens et approchés la même valeur. Ex: 3 variables parfaitement corrélées : Coeff = 1/3*b
  5. Les variables éventuellement peu importantes auront un coefficient = 0.
  6. 20 variables candidates: 6 variables dichotomiques…