SlideShare une entreprise Scribd logo
Quand le cowboy fait le tour de
la montagne


Apprentissage automatique,
régression Ridge et LASSO
Plan
   La prédiction pour mieux comprendre
   Régression linéaire et sélection de modèle
   Régression Ridge
   LASSO
   Comparaison des méthodes de sélection
    par simulation
   Comparaison des méthodes sur un
    exemple pratique
La prédiction pour mieux comprendre

   Inférence basée sur la signification
    statistique des paramètres d’un
    modèle
   Inférence basée sur la précision des
    prédictions d’un modèle
       Biais des prédictions
       Variance des prédictions
La prédiction pour mieux comprendre

   Sélection de modèle pour la
    prédiction
       Critère d’information d’Akaike (AIC)
       Données d’entraînement vs Données de
        test
       Validation Croisée (CV)
Régression linéaire et sélection de
modèle




  Y = bX + e
Régression linéaire et sélection de
modèle

   On trouve β qui minimise:


                                2
          Ν          π
                           
         ∑  ι ϕ=1 
              ψ − ∑ ξιϕβ ϕ
         ι=1              
Régression linéaire et sélection de
modèle

   Estimation par moindres carrés
   Sélection de modèle
       Procédure « stepwise »
          Conserver seulement les variables
           significatives à chaque étape
          Conserver seulement la variable qui réduit

           au maximum l’AIC
Régression Ridge
   On trouve β qui minimise:


                          2
     N        p
                                  p

    ∑  j =1 
          yi − ∑ xij b j  + l
    i =1 
                                  ∑b     2
                                         j
                                 j =1
Régression Ridge
   Estimation des β par moindres
    carrés
   Estimation du λ par CV
       Ce choix fait effectivement la sélection
        du modèle.
Régression Ridge
   La condition de minimalisation
    énoncée ci-haut correspond à une
    contrainte sur la taille maximale des
    β
               p

              å       β £s
                      2
                      j
               j =1
Régression Ridge
   Permet d’estimer un modèle en
    présence de covariables fortement
    corrélées.
   Estimation dépendante de l’échelle
    des variables
       Centrer et réduire toutes les variables
        continues
LASSO
   On trouve β qui
    minimise:

                          2
     N         p
                                  p

    ∑  j =1 
          yi − ∑ xij b j  + l
    i =1 
                                  ∑b     j
                                 j =1
LASSO
   À cause de la valeur absolue,
    l’estimation des β ne peut se faire
    par les moindres carrés
       Algorithme quadratique employé pour
        l’estimation
   Estimation du λ par CV
       Ce choix fait effectivement la sélection
        du modèle
LASSO
   Comme pour la régression Ridge,
    centrer et réduire les variables
    continues
Comparaison des méthodes
   Avantage de la régression Ridge
       Les effets de variables explicatrices très
        corrélées se combinent pour se
        renforcer mutuellement
   Avantage du LASSO
       Les effets peu important sont estimés à
        0, donc le modèle sélectionné aura un
        nombre de variables d < p.
Comparaison des méthodes
   Désavantage de la régression Ridge
       Toutes les variables incluses
        initialement se retrouvent dans le
        modèle final, pas moyen de dire quelles
        variables sont les plus importantes.
   Désavantage du LASSO
       En présence de variables explicatrices
        corrélées, le LASSO en choisit une
        arbitrairement et met les autres à 0.
Comparaison des méthodes
   La pénalité du filet élastique (Elastic
    Net) permet de combiner les avantages
    des deux méthodes
   On cherche β qui minimise:

                   2
N        p
                           p
                                1                   
∑  yi − ∑ xij b j  + l
     
i =1 
                          ∑  2 (1 − a )b j + a b j 
                           j =1 
                                           2

                                                     
         j =1      
Comparaison des méthodes par
simulation

   Jeu d’entraînement: 100 individus,
    modèle linéaire, erreur normale, 20
    variables explicatrices candidates
   Jeu de test: 50 individus, même
    modèle que pour le jeu
    d’entraînement
Données simulées
Variable      Modèle   Régression   Stepwise   Ridge    LASSO    Elastic Net
Intercepte    2.4      -1.34        -2.58      -3.88    -2.40    -2.38
X2                     -0.71                   -0.42
X3                     0.68                    0.06
X4                     -0.35                   -0.60
X5            -5       -17.13       -17        -15.18   -15.63   -15.58
X6                     1.66         1.83       0.63     0.35     0.33
X7            5        14.42        14.43      12.26    12.81    12.75
X8                     0.17                    -0.54
X9                     -1.26        -1.21      -1.14    -0.24    -0.24
X10                    1.43         1.48       0.89
X11           -3       -46.22       -46.21     -42.46   -44.72   -44.62
X12                    1.30         1.30       1.18
X13                    -0.06                   0.08
X14           3        46.71        46.47      42.86    44.52    44.42
X15                    -0.45                   -0.68
X16                    0.02                    0.84
X17                    3.48         3.04       2.96     0.71     0.71
X18           -3       -6.38        -6.21      -6.66    -4.13    -4.16
X19                    -1.68                   -0.81
X20                    -1.24                   0.14
X21                    0.15                    0.15
Erreur Test            -0.86        -0.76      -0.66    -1.14    -1.14
Écart-type             18.59        18.29      18.87    17.23    17.24
Comparaison de méthodes
Trajectoire Ridge
Comparaison des méthodes
Trajectoire LASSO
Comparaison des méthodes
Trajectoire Elastic Net
Exemple pratique:
Polychlorobiphényles et pesticides organochlorés

   Données du CSHA: 1848 sujets
       28 Covariables, dont 5 variables
        dichotomiques et 1 variables
        catégoriques
    Variable réponse: maladie
    d’Alzheimer
   Échantillon séparé: 185 sujets
    « test » sélectionnés aléatoirement
    et 1663 sujets d’entraînement
Données pratiques
Variable              Régression   Stepwise   Ridge    LASSO    Elastic Net

Intercepte            -1.64        0.23       -1.29    -1.45    -1.45

BPC105                -0.38                   0.001

BPC118                0.35                    0.003

BPC138                -0.25                   0.003

BPC153                -0.56        -0.10      0.004

BPC156                0.17                    0.004

BPC163                0.74         0.11       0.005

BPC170                -0.14                   0.001

BPC180                0.02                    0.0001

BPC183                0.77         0.10       0.004

BPC187                -0.61        -0.08      0.0009

BPC99                 0.08                    0.003

cisNonachlor          -0.63        -0.04      -0.005

Hexachlorobenzene     0.01                    0.0004

Oxychlordane          -0.43                   -0.001

ppDDE                 0.13                    0.004

ppDDT                 -0.07                   -0.002

BetaHCH               -0.09                   -0.003

transNonachlor        0.68                    -0.003

Éducation             -0.26        -0.04      -0.006   -0.03    -0.04

Âge                   0.52         0.08       0.02     0.39     0.4

Lipides totaux        -0.02                   -0.007

IMC                   -0.16        -0.03      -0.01    -0.09    -0.1

Sexe                  0.38         0.04       0.02     0.08     0.09

Région 2              -0.88        -0.14      -0.03    -0.2     -0.23

Région3               0.18                    0.03     0.16     0.17

Région4               -0.05        -0.05      0.005

Région5               -1.20        -0.18      -0.04    -0.51    -0.54

APOE4                 0.88         0.14       0.04     0.55     0.57

Area                  -0.01                   0.004

Cigarette             0.22                    -0.01

Alcohol               -0.25        -0.03      -0.02    -0.006   -0.02

Erreur Entraînement   20%          20%        21%      21%      21%


Erreur Test           26%          25%        25%      26%      25%
Exemple pratique
Trajectoire Ridge
Exemple pratique
Trajectoire LASSO
Exemple pratique
Trajectoire Elastic Net
Exemple pratique
Comparaison des courbes ROC: Entraînement
Exemple pratique
Comparaison des courbes ROC: Test
Logiciels
   R
       glmnet (Friedman, Hastie, Tibshirani)
   SAS
       Proc GLMSELECT (LASSO et Stepwise)
       Proc REG, MIXED, LOGISTIC, PHREG,
        etc… (Ridge)
Référence
   Trevor Hastie, Robert Tibshirani,
    Jerome Friedman. The Elements of
    Statistical Learning, 2nd ed., 2008

Contenu connexe

Tendances

modèle de scoring pour la clientèle
modèle de scoring pour la clientèle modèle de scoring pour la clientèle
modèle de scoring pour la clientèle
Oulaya CHOUAY
 
Datamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunicationsDatamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunications
abdelmoumène taleb
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
ZizoAziz
 

Tendances (20)

Intelligence Artificielle : Introduction à l'intelligence artificielle
Intelligence Artificielle : Introduction à l'intelligence artificielleIntelligence Artificielle : Introduction à l'intelligence artificielle
Intelligence Artificielle : Introduction à l'intelligence artificielle
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Rapport Mini-Projet Recherche Opérationnelle
Rapport Mini-Projet Recherche OpérationnelleRapport Mini-Projet Recherche Opérationnelle
Rapport Mini-Projet Recherche Opérationnelle
 
Business Intelligence system
Business Intelligence system Business Intelligence system
Business Intelligence system
 
Modélisation de données pour MongoDB
Modélisation de données pour MongoDBModélisation de données pour MongoDB
Modélisation de données pour MongoDB
 
clustering
clusteringclustering
clustering
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
modèle de scoring pour la clientèle
modèle de scoring pour la clientèle modèle de scoring pour la clientèle
modèle de scoring pour la clientèle
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
Rapport Projet de Fin d'Etudes
Rapport Projet de Fin d'EtudesRapport Projet de Fin d'Etudes
Rapport Projet de Fin d'Etudes
 
Analyse de données avec spss,
Analyse de données avec spss,Analyse de données avec spss,
Analyse de données avec spss,
 
Conception et réalisation d’un MINI SMART HOME
Conception et réalisation  d’un MINI SMART HOMEConception et réalisation  d’un MINI SMART HOME
Conception et réalisation d’un MINI SMART HOME
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)
 
Rapport de pfe format doc 2013
Rapport de pfe format doc 2013Rapport de pfe format doc 2013
Rapport de pfe format doc 2013
 
Datamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunicationsDatamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunications
 
Application de gestion des projets en J2EE (Spring-Hibernate) avec architectu...
Application de gestion des projets en J2EE (Spring-Hibernate) avec architectu...Application de gestion des projets en J2EE (Spring-Hibernate) avec architectu...
Application de gestion des projets en J2EE (Spring-Hibernate) avec architectu...
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaire
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 

Apprentissage automatique, Régression Ridge et LASSO

  • 1. Quand le cowboy fait le tour de la montagne Apprentissage automatique, régression Ridge et LASSO
  • 2. Plan  La prédiction pour mieux comprendre  Régression linéaire et sélection de modèle  Régression Ridge  LASSO  Comparaison des méthodes de sélection par simulation  Comparaison des méthodes sur un exemple pratique
  • 3. La prédiction pour mieux comprendre  Inférence basée sur la signification statistique des paramètres d’un modèle  Inférence basée sur la précision des prédictions d’un modèle  Biais des prédictions  Variance des prédictions
  • 4. La prédiction pour mieux comprendre  Sélection de modèle pour la prédiction  Critère d’information d’Akaike (AIC)  Données d’entraînement vs Données de test  Validation Croisée (CV)
  • 5. Régression linéaire et sélection de modèle Y = bX + e
  • 6. Régression linéaire et sélection de modèle  On trouve β qui minimise: 2 Ν  π  ∑  ι ϕ=1   ψ − ∑ ξιϕβ ϕ ι=1  
  • 7. Régression linéaire et sélection de modèle  Estimation par moindres carrés  Sélection de modèle  Procédure « stepwise »  Conserver seulement les variables significatives à chaque étape  Conserver seulement la variable qui réduit au maximum l’AIC
  • 8. Régression Ridge  On trouve β qui minimise: 2 N  p  p ∑  j =1   yi − ∑ xij b j  + l i =1  ∑b 2 j  j =1
  • 9. Régression Ridge  Estimation des β par moindres carrés  Estimation du λ par CV  Ce choix fait effectivement la sélection du modèle.
  • 10. Régression Ridge  La condition de minimalisation énoncée ci-haut correspond à une contrainte sur la taille maximale des β p å β £s 2 j j =1
  • 11. Régression Ridge  Permet d’estimer un modèle en présence de covariables fortement corrélées.  Estimation dépendante de l’échelle des variables  Centrer et réduire toutes les variables continues
  • 12. LASSO  On trouve β qui minimise: 2 N  p  p ∑  j =1   yi − ∑ xij b j  + l i =1  ∑b j  j =1
  • 13. LASSO  À cause de la valeur absolue, l’estimation des β ne peut se faire par les moindres carrés  Algorithme quadratique employé pour l’estimation  Estimation du λ par CV  Ce choix fait effectivement la sélection du modèle
  • 14. LASSO  Comme pour la régression Ridge, centrer et réduire les variables continues
  • 15. Comparaison des méthodes  Avantage de la régression Ridge  Les effets de variables explicatrices très corrélées se combinent pour se renforcer mutuellement  Avantage du LASSO  Les effets peu important sont estimés à 0, donc le modèle sélectionné aura un nombre de variables d < p.
  • 16. Comparaison des méthodes  Désavantage de la régression Ridge  Toutes les variables incluses initialement se retrouvent dans le modèle final, pas moyen de dire quelles variables sont les plus importantes.  Désavantage du LASSO  En présence de variables explicatrices corrélées, le LASSO en choisit une arbitrairement et met les autres à 0.
  • 17. Comparaison des méthodes  La pénalité du filet élastique (Elastic Net) permet de combiner les avantages des deux méthodes  On cherche β qui minimise: 2 N  p  p 1  ∑  yi − ∑ xij b j  + l  i =1   ∑  2 (1 − a )b j + a b j  j =1  2  j =1 
  • 18. Comparaison des méthodes par simulation  Jeu d’entraînement: 100 individus, modèle linéaire, erreur normale, 20 variables explicatrices candidates  Jeu de test: 50 individus, même modèle que pour le jeu d’entraînement
  • 20. Variable Modèle Régression Stepwise Ridge LASSO Elastic Net Intercepte 2.4 -1.34 -2.58 -3.88 -2.40 -2.38 X2 -0.71 -0.42 X3 0.68 0.06 X4 -0.35 -0.60 X5 -5 -17.13 -17 -15.18 -15.63 -15.58 X6 1.66 1.83 0.63 0.35 0.33 X7 5 14.42 14.43 12.26 12.81 12.75 X8 0.17 -0.54 X9 -1.26 -1.21 -1.14 -0.24 -0.24 X10 1.43 1.48 0.89 X11 -3 -46.22 -46.21 -42.46 -44.72 -44.62 X12 1.30 1.30 1.18 X13 -0.06 0.08 X14 3 46.71 46.47 42.86 44.52 44.42 X15 -0.45 -0.68 X16 0.02 0.84 X17 3.48 3.04 2.96 0.71 0.71 X18 -3 -6.38 -6.21 -6.66 -4.13 -4.16 X19 -1.68 -0.81 X20 -1.24 0.14 X21 0.15 0.15 Erreur Test -0.86 -0.76 -0.66 -1.14 -1.14 Écart-type 18.59 18.29 18.87 17.23 17.24
  • 24. Exemple pratique: Polychlorobiphényles et pesticides organochlorés  Données du CSHA: 1848 sujets  28 Covariables, dont 5 variables dichotomiques et 1 variables catégoriques  Variable réponse: maladie d’Alzheimer  Échantillon séparé: 185 sujets « test » sélectionnés aléatoirement et 1663 sujets d’entraînement
  • 26. Variable Régression Stepwise Ridge LASSO Elastic Net Intercepte -1.64 0.23 -1.29 -1.45 -1.45 BPC105 -0.38 0.001 BPC118 0.35 0.003 BPC138 -0.25 0.003 BPC153 -0.56 -0.10 0.004 BPC156 0.17 0.004 BPC163 0.74 0.11 0.005 BPC170 -0.14 0.001 BPC180 0.02 0.0001 BPC183 0.77 0.10 0.004 BPC187 -0.61 -0.08 0.0009 BPC99 0.08 0.003 cisNonachlor -0.63 -0.04 -0.005 Hexachlorobenzene 0.01 0.0004 Oxychlordane -0.43 -0.001 ppDDE 0.13 0.004 ppDDT -0.07 -0.002 BetaHCH -0.09 -0.003 transNonachlor 0.68 -0.003 Éducation -0.26 -0.04 -0.006 -0.03 -0.04 Âge 0.52 0.08 0.02 0.39 0.4 Lipides totaux -0.02 -0.007 IMC -0.16 -0.03 -0.01 -0.09 -0.1 Sexe 0.38 0.04 0.02 0.08 0.09 Région 2 -0.88 -0.14 -0.03 -0.2 -0.23 Région3 0.18 0.03 0.16 0.17 Région4 -0.05 -0.05 0.005 Région5 -1.20 -0.18 -0.04 -0.51 -0.54 APOE4 0.88 0.14 0.04 0.55 0.57 Area -0.01 0.004 Cigarette 0.22 -0.01 Alcohol -0.25 -0.03 -0.02 -0.006 -0.02 Erreur Entraînement 20% 20% 21% 21% 21% Erreur Test 26% 25% 25% 26% 25%
  • 30. Exemple pratique Comparaison des courbes ROC: Entraînement
  • 31. Exemple pratique Comparaison des courbes ROC: Test
  • 32. Logiciels  R  glmnet (Friedman, Hastie, Tibshirani)  SAS  Proc GLMSELECT (LASSO et Stepwise)  Proc REG, MIXED, LOGISTIC, PHREG, etc… (Ridge)
  • 33. Référence  Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning, 2nd ed., 2008

Notes de l'éditeur

  1. 1- Les variables qui ont une corrélation significative sont jugées pertinentes au processus à l’étude, mais lien de causalité pas toujours évident ou réel. 2- Les variables importantes pour faire des prédictions ont peut- être plus de chances d’être des causes, ou du moins d’avoir un effet réel.
  2. Critère d’Akaike: Estimé de l’erreur de prédiction intra-échantillon pour les modèles de régression, entre autres. Avoir deux échantillons, un pour estimé le modèle, le second pour valider le modèle CV: Un seul échantillon partitionné pour faire l’estimation et la validation du modèle
  3. Que ce passe-t-il dans le cas de variables explicatrices corrélées ? Et si nous avons beaucoup plus de variables que d’observations ?
  4. Les coefficients des variables fortement corrélées vont tous allé dans le m ême sens et approchés la même valeur. Ex: 3 variables parfaitement corrélées : Coeff = 1/3*b
  5. Les variables éventuellement peu importantes auront un coefficient = 0.
  6. 20 variables candidates: 6 variables dichotomiques…