SlideShare une entreprise Scribd logo
Quand le cowboy fait le tour de
la montagne


Apprentissage automatique,
régression Ridge et LASSO
Plan
   La prédiction pour mieux comprendre
   Régression linéaire et sélection de modèle
   Régression Ridge
   LASSO
   Comparaison des méthodes de sélection
    par simulation
   Comparaison des méthodes sur un
    exemple pratique
La prédiction pour mieux comprendre

   Inférence basée sur la signification
    statistique des paramètres d’un
    modèle
   Inférence basée sur la précision des
    prédictions d’un modèle
       Biais des prédictions
       Variance des prédictions
La prédiction pour mieux comprendre

   Sélection de modèle pour la
    prédiction
       Critère d’information d’Akaike (AIC)
       Données d’entraînement vs Données de
        test
       Validation Croisée (CV)
Régression linéaire et sélection de
modèle




  Y = bX + e
Régression linéaire et sélection de
modèle

   On trouve β qui minimise:


                                2
          Ν          π
                           
         ∑  ι ϕ=1 
              ψ − ∑ ξιϕβ ϕ
         ι=1              
Régression linéaire et sélection de
modèle

   Estimation par moindres carrés
   Sélection de modèle
       Procédure « stepwise »
          Conserver seulement les variables
           significatives à chaque étape
          Conserver seulement la variable qui réduit

           au maximum l’AIC
Régression Ridge
   On trouve β qui minimise:


                          2
     N        p
                                  p

    ∑  j =1 
          yi − ∑ xij b j  + l
    i =1 
                                  ∑b     2
                                         j
                                 j =1
Régression Ridge
   Estimation des β par moindres
    carrés
   Estimation du λ par CV
       Ce choix fait effectivement la sélection
        du modèle.
Régression Ridge
   La condition de minimalisation
    énoncée ci-haut correspond à une
    contrainte sur la taille maximale des
    β
               p

              å       β £s
                      2
                      j
               j =1
Régression Ridge
   Permet d’estimer un modèle en
    présence de covariables fortement
    corrélées.
   Estimation dépendante de l’échelle
    des variables
       Centrer et réduire toutes les variables
        continues
LASSO
   On trouve β qui
    minimise:

                          2
     N         p
                                  p

    ∑  j =1 
          yi − ∑ xij b j  + l
    i =1 
                                  ∑b     j
                                 j =1
LASSO
   À cause de la valeur absolue,
    l’estimation des β ne peut se faire
    par les moindres carrés
       Algorithme quadratique employé pour
        l’estimation
   Estimation du λ par CV
       Ce choix fait effectivement la sélection
        du modèle
LASSO
   Comme pour la régression Ridge,
    centrer et réduire les variables
    continues
Comparaison des méthodes
   Avantage de la régression Ridge
       Les effets de variables explicatrices très
        corrélées se combinent pour se
        renforcer mutuellement
   Avantage du LASSO
       Les effets peu important sont estimés à
        0, donc le modèle sélectionné aura un
        nombre de variables d < p.
Comparaison des méthodes
   Désavantage de la régression Ridge
       Toutes les variables incluses
        initialement se retrouvent dans le
        modèle final, pas moyen de dire quelles
        variables sont les plus importantes.
   Désavantage du LASSO
       En présence de variables explicatrices
        corrélées, le LASSO en choisit une
        arbitrairement et met les autres à 0.
Comparaison des méthodes
   La pénalité du filet élastique (Elastic
    Net) permet de combiner les avantages
    des deux méthodes
   On cherche β qui minimise:

                   2
N        p
                           p
                                1                   
∑  yi − ∑ xij b j  + l
     
i =1 
                          ∑  2 (1 − a )b j + a b j 
                           j =1 
                                           2

                                                     
         j =1      
Comparaison des méthodes par
simulation

   Jeu d’entraînement: 100 individus,
    modèle linéaire, erreur normale, 20
    variables explicatrices candidates
   Jeu de test: 50 individus, même
    modèle que pour le jeu
    d’entraînement
Données simulées
Variable      Modèle   Régression   Stepwise   Ridge    LASSO    Elastic Net
Intercepte    2.4      -1.34        -2.58      -3.88    -2.40    -2.38
X2                     -0.71                   -0.42
X3                     0.68                    0.06
X4                     -0.35                   -0.60
X5            -5       -17.13       -17        -15.18   -15.63   -15.58
X6                     1.66         1.83       0.63     0.35     0.33
X7            5        14.42        14.43      12.26    12.81    12.75
X8                     0.17                    -0.54
X9                     -1.26        -1.21      -1.14    -0.24    -0.24
X10                    1.43         1.48       0.89
X11           -3       -46.22       -46.21     -42.46   -44.72   -44.62
X12                    1.30         1.30       1.18
X13                    -0.06                   0.08
X14           3        46.71        46.47      42.86    44.52    44.42
X15                    -0.45                   -0.68
X16                    0.02                    0.84
X17                    3.48         3.04       2.96     0.71     0.71
X18           -3       -6.38        -6.21      -6.66    -4.13    -4.16
X19                    -1.68                   -0.81
X20                    -1.24                   0.14
X21                    0.15                    0.15
Erreur Test            -0.86        -0.76      -0.66    -1.14    -1.14
Écart-type             18.59        18.29      18.87    17.23    17.24
Comparaison de méthodes
Trajectoire Ridge
Comparaison des méthodes
Trajectoire LASSO
Comparaison des méthodes
Trajectoire Elastic Net
Exemple pratique:
Polychlorobiphényles et pesticides organochlorés

   Données du CSHA: 1848 sujets
       28 Covariables, dont 5 variables
        dichotomiques et 1 variables
        catégoriques
    Variable réponse: maladie
    d’Alzheimer
   Échantillon séparé: 185 sujets
    « test » sélectionnés aléatoirement
    et 1663 sujets d’entraînement
Données pratiques
Variable              Régression   Stepwise   Ridge    LASSO    Elastic Net

Intercepte            -1.64        0.23       -1.29    -1.45    -1.45

BPC105                -0.38                   0.001

BPC118                0.35                    0.003

BPC138                -0.25                   0.003

BPC153                -0.56        -0.10      0.004

BPC156                0.17                    0.004

BPC163                0.74         0.11       0.005

BPC170                -0.14                   0.001

BPC180                0.02                    0.0001

BPC183                0.77         0.10       0.004

BPC187                -0.61        -0.08      0.0009

BPC99                 0.08                    0.003

cisNonachlor          -0.63        -0.04      -0.005

Hexachlorobenzene     0.01                    0.0004

Oxychlordane          -0.43                   -0.001

ppDDE                 0.13                    0.004

ppDDT                 -0.07                   -0.002

BetaHCH               -0.09                   -0.003

transNonachlor        0.68                    -0.003

Éducation             -0.26        -0.04      -0.006   -0.03    -0.04

Âge                   0.52         0.08       0.02     0.39     0.4

Lipides totaux        -0.02                   -0.007

IMC                   -0.16        -0.03      -0.01    -0.09    -0.1

Sexe                  0.38         0.04       0.02     0.08     0.09

Région 2              -0.88        -0.14      -0.03    -0.2     -0.23

Région3               0.18                    0.03     0.16     0.17

Région4               -0.05        -0.05      0.005

Région5               -1.20        -0.18      -0.04    -0.51    -0.54

APOE4                 0.88         0.14       0.04     0.55     0.57

Area                  -0.01                   0.004

Cigarette             0.22                    -0.01

Alcohol               -0.25        -0.03      -0.02    -0.006   -0.02

Erreur Entraînement   20%          20%        21%      21%      21%


Erreur Test           26%          25%        25%      26%      25%
Exemple pratique
Trajectoire Ridge
Exemple pratique
Trajectoire LASSO
Exemple pratique
Trajectoire Elastic Net
Exemple pratique
Comparaison des courbes ROC: Entraînement
Exemple pratique
Comparaison des courbes ROC: Test
Logiciels
   R
       glmnet (Friedman, Hastie, Tibshirani)
   SAS
       Proc GLMSELECT (LASSO et Stepwise)
       Proc REG, MIXED, LOGISTIC, PHREG,
        etc… (Ridge)
Référence
   Trevor Hastie, Robert Tibshirani,
    Jerome Friedman. The Elements of
    Statistical Learning, 2nd ed., 2008

Contenu connexe

Tendances

réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels Oussama Werfelli
 
Chap5 La manipulation des iterables en python
Chap5 La manipulation des iterables en pythonChap5 La manipulation des iterables en python
Chap5 La manipulation des iterables en pythonMariem ZAOUALI
 
Solving Traveling Salesman problem using genetic algorithms, implementation i...
Solving Traveling Salesman problem using genetic algorithms, implementation i...Solving Traveling Salesman problem using genetic algorithms, implementation i...
Solving Traveling Salesman problem using genetic algorithms, implementation i...MEJDAOUI Soufiane
 
logistic_regression_ml.pdf
logistic_regression_ml.pdflogistic_regression_ml.pdf
logistic_regression_ml.pdfSidiAbdallah1
 
ALGEBRE BINAIRE ET CIRCUITS LOGIQUES
ALGEBRE BINAIRE ET CIRCUITS LOGIQUESALGEBRE BINAIRE ET CIRCUITS LOGIQUES
ALGEBRE BINAIRE ET CIRCUITS LOGIQUESsarah Benmerzouk
 
Algorithme génétique
Algorithme génétiqueAlgorithme génétique
Algorithme génétiqueIlhem Daoudi
 
Les systèmes de détection et prévention d’intrusion
Les systèmes de détection et prévention d’intrusionLes systèmes de détection et prévention d’intrusion
Les systèmes de détection et prévention d’intrusionIntissar Dguechi
 
UML Part 4- diagrammres de classes et d'objets mansouri
UML Part 4- diagrammres de classes et d'objets mansouriUML Part 4- diagrammres de classes et d'objets mansouri
UML Part 4- diagrammres de classes et d'objets mansouriMansouri Khalifa
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite completChahrawoods Dmz
 
Rapport Mini-Projet Recherche Opérationnelle
Rapport Mini-Projet Recherche OpérationnelleRapport Mini-Projet Recherche Opérationnelle
Rapport Mini-Projet Recherche OpérationnelleCibamboSteven
 
Correction de td poo n3
Correction de td poo n3Correction de td poo n3
Correction de td poo n3yassine kchiri
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning Niji
 
Devoirs Algorithme + correction pour 4 si
Devoirs Algorithme + correction pour 4 siDevoirs Algorithme + correction pour 4 si
Devoirs Algorithme + correction pour 4 siNarûtö Bàl'Sèm
 
Cours les Listes doublement chainées Prof. KHALIFA MANSOURI
Cours les Listes doublement chainées Prof. KHALIFA MANSOURI Cours les Listes doublement chainées Prof. KHALIFA MANSOURI
Cours les Listes doublement chainées Prof. KHALIFA MANSOURI Mansouri Khalifa
 
Presentation de gestionnaire de bibliothèque
Presentation de gestionnaire de bibliothèquePresentation de gestionnaire de bibliothèque
Presentation de gestionnaire de bibliothèqueDaoues Amine
 
Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans Imen Turki
 
Python For Data Science - French Course
Python For Data Science - French CoursePython For Data Science - French Course
Python For Data Science - French CourseHaytam EL YOUSSFI
 

Tendances (20)

réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels
 
Chap5 La manipulation des iterables en python
Chap5 La manipulation des iterables en pythonChap5 La manipulation des iterables en python
Chap5 La manipulation des iterables en python
 
Solving Traveling Salesman problem using genetic algorithms, implementation i...
Solving Traveling Salesman problem using genetic algorithms, implementation i...Solving Traveling Salesman problem using genetic algorithms, implementation i...
Solving Traveling Salesman problem using genetic algorithms, implementation i...
 
logistic_regression_ml.pdf
logistic_regression_ml.pdflogistic_regression_ml.pdf
logistic_regression_ml.pdf
 
ALGEBRE BINAIRE ET CIRCUITS LOGIQUES
ALGEBRE BINAIRE ET CIRCUITS LOGIQUESALGEBRE BINAIRE ET CIRCUITS LOGIQUES
ALGEBRE BINAIRE ET CIRCUITS LOGIQUES
 
Réseaux de neurones
Réseaux de neurones Réseaux de neurones
Réseaux de neurones
 
Algorithme génétique
Algorithme génétiqueAlgorithme génétique
Algorithme génétique
 
Les systèmes de détection et prévention d’intrusion
Les systèmes de détection et prévention d’intrusionLes systèmes de détection et prévention d’intrusion
Les systèmes de détection et prévention d’intrusion
 
UML Part 4- diagrammres de classes et d'objets mansouri
UML Part 4- diagrammres de classes et d'objets mansouriUML Part 4- diagrammres de classes et d'objets mansouri
UML Part 4- diagrammres de classes et d'objets mansouri
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite complet
 
Rapport Mini-Projet Recherche Opérationnelle
Rapport Mini-Projet Recherche OpérationnelleRapport Mini-Projet Recherche Opérationnelle
Rapport Mini-Projet Recherche Opérationnelle
 
Correction de td poo n3
Correction de td poo n3Correction de td poo n3
Correction de td poo n3
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning
 
Devoirs Algorithme + correction pour 4 si
Devoirs Algorithme + correction pour 4 siDevoirs Algorithme + correction pour 4 si
Devoirs Algorithme + correction pour 4 si
 
Cours les Listes doublement chainées Prof. KHALIFA MANSOURI
Cours les Listes doublement chainées Prof. KHALIFA MANSOURI Cours les Listes doublement chainées Prof. KHALIFA MANSOURI
Cours les Listes doublement chainées Prof. KHALIFA MANSOURI
 
Presentation de gestionnaire de bibliothèque
Presentation de gestionnaire de bibliothèquePresentation de gestionnaire de bibliothèque
Presentation de gestionnaire de bibliothèque
 
Knn
KnnKnn
Knn
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans
 
Python For Data Science - French Course
Python For Data Science - French CoursePython For Data Science - French Course
Python For Data Science - French Course
 

Apprentissage automatique, Régression Ridge et LASSO

  • 1. Quand le cowboy fait le tour de la montagne Apprentissage automatique, régression Ridge et LASSO
  • 2. Plan  La prédiction pour mieux comprendre  Régression linéaire et sélection de modèle  Régression Ridge  LASSO  Comparaison des méthodes de sélection par simulation  Comparaison des méthodes sur un exemple pratique
  • 3. La prédiction pour mieux comprendre  Inférence basée sur la signification statistique des paramètres d’un modèle  Inférence basée sur la précision des prédictions d’un modèle  Biais des prédictions  Variance des prédictions
  • 4. La prédiction pour mieux comprendre  Sélection de modèle pour la prédiction  Critère d’information d’Akaike (AIC)  Données d’entraînement vs Données de test  Validation Croisée (CV)
  • 5. Régression linéaire et sélection de modèle Y = bX + e
  • 6. Régression linéaire et sélection de modèle  On trouve β qui minimise: 2 Ν  π  ∑  ι ϕ=1   ψ − ∑ ξιϕβ ϕ ι=1  
  • 7. Régression linéaire et sélection de modèle  Estimation par moindres carrés  Sélection de modèle  Procédure « stepwise »  Conserver seulement les variables significatives à chaque étape  Conserver seulement la variable qui réduit au maximum l’AIC
  • 8. Régression Ridge  On trouve β qui minimise: 2 N  p  p ∑  j =1   yi − ∑ xij b j  + l i =1  ∑b 2 j  j =1
  • 9. Régression Ridge  Estimation des β par moindres carrés  Estimation du λ par CV  Ce choix fait effectivement la sélection du modèle.
  • 10. Régression Ridge  La condition de minimalisation énoncée ci-haut correspond à une contrainte sur la taille maximale des β p å β £s 2 j j =1
  • 11. Régression Ridge  Permet d’estimer un modèle en présence de covariables fortement corrélées.  Estimation dépendante de l’échelle des variables  Centrer et réduire toutes les variables continues
  • 12. LASSO  On trouve β qui minimise: 2 N  p  p ∑  j =1   yi − ∑ xij b j  + l i =1  ∑b j  j =1
  • 13. LASSO  À cause de la valeur absolue, l’estimation des β ne peut se faire par les moindres carrés  Algorithme quadratique employé pour l’estimation  Estimation du λ par CV  Ce choix fait effectivement la sélection du modèle
  • 14. LASSO  Comme pour la régression Ridge, centrer et réduire les variables continues
  • 15. Comparaison des méthodes  Avantage de la régression Ridge  Les effets de variables explicatrices très corrélées se combinent pour se renforcer mutuellement  Avantage du LASSO  Les effets peu important sont estimés à 0, donc le modèle sélectionné aura un nombre de variables d < p.
  • 16. Comparaison des méthodes  Désavantage de la régression Ridge  Toutes les variables incluses initialement se retrouvent dans le modèle final, pas moyen de dire quelles variables sont les plus importantes.  Désavantage du LASSO  En présence de variables explicatrices corrélées, le LASSO en choisit une arbitrairement et met les autres à 0.
  • 17. Comparaison des méthodes  La pénalité du filet élastique (Elastic Net) permet de combiner les avantages des deux méthodes  On cherche β qui minimise: 2 N  p  p 1  ∑  yi − ∑ xij b j  + l  i =1   ∑  2 (1 − a )b j + a b j  j =1  2  j =1 
  • 18. Comparaison des méthodes par simulation  Jeu d’entraînement: 100 individus, modèle linéaire, erreur normale, 20 variables explicatrices candidates  Jeu de test: 50 individus, même modèle que pour le jeu d’entraînement
  • 20. Variable Modèle Régression Stepwise Ridge LASSO Elastic Net Intercepte 2.4 -1.34 -2.58 -3.88 -2.40 -2.38 X2 -0.71 -0.42 X3 0.68 0.06 X4 -0.35 -0.60 X5 -5 -17.13 -17 -15.18 -15.63 -15.58 X6 1.66 1.83 0.63 0.35 0.33 X7 5 14.42 14.43 12.26 12.81 12.75 X8 0.17 -0.54 X9 -1.26 -1.21 -1.14 -0.24 -0.24 X10 1.43 1.48 0.89 X11 -3 -46.22 -46.21 -42.46 -44.72 -44.62 X12 1.30 1.30 1.18 X13 -0.06 0.08 X14 3 46.71 46.47 42.86 44.52 44.42 X15 -0.45 -0.68 X16 0.02 0.84 X17 3.48 3.04 2.96 0.71 0.71 X18 -3 -6.38 -6.21 -6.66 -4.13 -4.16 X19 -1.68 -0.81 X20 -1.24 0.14 X21 0.15 0.15 Erreur Test -0.86 -0.76 -0.66 -1.14 -1.14 Écart-type 18.59 18.29 18.87 17.23 17.24
  • 24. Exemple pratique: Polychlorobiphényles et pesticides organochlorés  Données du CSHA: 1848 sujets  28 Covariables, dont 5 variables dichotomiques et 1 variables catégoriques  Variable réponse: maladie d’Alzheimer  Échantillon séparé: 185 sujets « test » sélectionnés aléatoirement et 1663 sujets d’entraînement
  • 26. Variable Régression Stepwise Ridge LASSO Elastic Net Intercepte -1.64 0.23 -1.29 -1.45 -1.45 BPC105 -0.38 0.001 BPC118 0.35 0.003 BPC138 -0.25 0.003 BPC153 -0.56 -0.10 0.004 BPC156 0.17 0.004 BPC163 0.74 0.11 0.005 BPC170 -0.14 0.001 BPC180 0.02 0.0001 BPC183 0.77 0.10 0.004 BPC187 -0.61 -0.08 0.0009 BPC99 0.08 0.003 cisNonachlor -0.63 -0.04 -0.005 Hexachlorobenzene 0.01 0.0004 Oxychlordane -0.43 -0.001 ppDDE 0.13 0.004 ppDDT -0.07 -0.002 BetaHCH -0.09 -0.003 transNonachlor 0.68 -0.003 Éducation -0.26 -0.04 -0.006 -0.03 -0.04 Âge 0.52 0.08 0.02 0.39 0.4 Lipides totaux -0.02 -0.007 IMC -0.16 -0.03 -0.01 -0.09 -0.1 Sexe 0.38 0.04 0.02 0.08 0.09 Région 2 -0.88 -0.14 -0.03 -0.2 -0.23 Région3 0.18 0.03 0.16 0.17 Région4 -0.05 -0.05 0.005 Région5 -1.20 -0.18 -0.04 -0.51 -0.54 APOE4 0.88 0.14 0.04 0.55 0.57 Area -0.01 0.004 Cigarette 0.22 -0.01 Alcohol -0.25 -0.03 -0.02 -0.006 -0.02 Erreur Entraînement 20% 20% 21% 21% 21% Erreur Test 26% 25% 25% 26% 25%
  • 30. Exemple pratique Comparaison des courbes ROC: Entraînement
  • 31. Exemple pratique Comparaison des courbes ROC: Test
  • 32. Logiciels  R  glmnet (Friedman, Hastie, Tibshirani)  SAS  Proc GLMSELECT (LASSO et Stepwise)  Proc REG, MIXED, LOGISTIC, PHREG, etc… (Ridge)
  • 33. Référence  Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning, 2nd ed., 2008

Notes de l'éditeur

  1. 1- Les variables qui ont une corrélation significative sont jugées pertinentes au processus à l’étude, mais lien de causalité pas toujours évident ou réel. 2- Les variables importantes pour faire des prédictions ont peut- être plus de chances d’être des causes, ou du moins d’avoir un effet réel.
  2. Critère d’Akaike: Estimé de l’erreur de prédiction intra-échantillon pour les modèles de régression, entre autres. Avoir deux échantillons, un pour estimé le modèle, le second pour valider le modèle CV: Un seul échantillon partitionné pour faire l’estimation et la validation du modèle
  3. Que ce passe-t-il dans le cas de variables explicatrices corrélées ? Et si nous avons beaucoup plus de variables que d’observations ?
  4. Les coefficients des variables fortement corrélées vont tous allé dans le m ême sens et approchés la même valeur. Ex: 3 variables parfaitement corrélées : Coeff = 1/3*b
  5. Les variables éventuellement peu importantes auront un coefficient = 0.
  6. 20 variables candidates: 6 variables dichotomiques…