SlideShare une entreprise Scribd logo
1  sur  123
Télécharger pour lire hors ligne
`         ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                                 Mod`les de pr´vision
                                     e         e
                                 Partie 1 - r´gression
                                             e

                                         Arthur Charpentier
                                       charpentier.arthur@uqam.ca

                                  http ://freakonometrics.blog.free.fr/




                                              Automne 2012




                                                                          1
`         ´
    Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                                                Plan du cours
•    Motivation et introduction aux mod`les de r´gression
                                             e  e
•    Le mod`le lin´aire simple
              e      e
◦    R´sultats g´n´raux
      e          e e
◦    Approche matricielle
•    Le mod`le lin´aire multiple
              e      e
◦    R´sultats g´n´raux
      e          e e
◦    Tests, choix de mod`le, diagnostique
                        e
•    Aller plus loin
◦    Les mod`les non lin´aires param´triques
              e         e            e
◦    Les mod`les non lin´aires nonparam´triques
              e         e                e




                                                                           2
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




        Petit rappel sur la significativit´, test de H0 : βj = 0
                                         e
Les r´sultats pr´c´dants permettent de proposer un test simple de
     e          e e

                           H0 : βj = 0 contre l’hypoth`se H1 : βj = 0.
                                                      e

La statistique de test

                                             βj
                              Tj =                      ∼ St(n − k) sous H0 .
                                          V ar(βj )

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) -17.5791     6.7584 -2.601    0.0123 *
speed         3.9324     0.4155   9.464 1.49e-12 ***




                                                                                3
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




Les deux lectures possibles d’un test
• donner la region de rejet, de la forme [±T1−α/2 ], avec un seuil α fix´
                                                                       e
  arbitrairement ( par d´
                        faut 95%)
• donner le seuil α tel que la r´gion de rejet soit [±t] (la plus petite region de
                                  e
   rejet ` laquelle appartienne la statistique observ´e), i.e. la probabilit´ que de
         a                                           e                      e
   rejeter H0 si H0 ´tait vraie.
                     e
Dans ce dernier cas, on parle de p-value, p = P(rejeter H0 |H0 vraie) : si p est
faible, on rejette H0 , car il y a peu de chances qu’H0 soit vraie.




                                                                                   4
`         ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                               Lecture du test de Student
                                              Region de rejet du test de Student
          0.4




                             REJET                      ACCEPTATION                              REJET
          0.3




                             DE H0                          DE H0                                DE H0
          0.2
          0.1




                                                                                       Aire totale = 5%
          0.0




                −6            −4             −2               0                    2               4      6




                                                                                                              5
`         ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                               Lecture du test de Student
                                             p−value associée à un test de Student
          0.4
          0.3
          0.2
          0.1




                                                            Aire totale = 1,23%
          0.0




                −6            −4             −2                0                  2   4   6




                                                                                              6
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                         Analyse d’une sortie de r´gression
                                                  e
Des tests de student de H0 : βi = 0, contre H1 : βi = 0 sont propos´s, avec
                                                                   e

                                β0 − β0           −17.5791 − 0
                     t0 =                     =                = −2.601 sousH0
                                                    6.7584
                                V ar(β0 )

                                   β1 − β1          3.9324 − 0
                         t1 =                     =            = 9.464 sousH0
                                                      0.4155
                                    V ar(β0 )

Ces valeurs sont ` comparer avec le quantile de Student ` 95% (` 49 degr´s de
                 a                                      a      a        e
libert´).
      e
Une alternative est d’utiliser la p-value, i.e. si Z ∼ St(49),

             p0 = P(|Z| > t0 ) = 0.0123 et p1 = P(|Z| > t1 ) = 1.49 × 10−12 .



                                                                                 7
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




La p value est alors donn´e par
                         e

> 2*(1-pt(abs(REG$coefficients[1]/summary(REG)$coefficients[1,2]), df=n-2))
(Intercept)
 0.01231882


σ = 15.38, i.e. summary(reg)$sigma

> confint(reg)
                 2.5 %    97.5 %
(Intercept) -31.167850 -3.990340
speed         3.096964 4.767853


Pour la constante, par exemple, l’intervalle de confiance est donn´ par
                                                                 e

> REG$coefficients[1]+qt(c(.025,.975),n-2)* summary(REG)$coefficients[1,2]
[1] -31.16785 -3.99034


La matrice de variance-covariance des coefficients, Var(β) est ici

                                                                              8
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




> vcov(reg)
            (Intercept)      speed
(Intercept)   45.676514 -2.6588234
speed         -2.658823 0.1726509




                                                                        9
`         ´
    Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




    Introduction aux tests multiples, e.g. H0 : β1 = · · · = βj = 0
On a vu comment tester H0 : β2 = 0 et H0 : β3 = 0, mais ces deux tests peuvent
ˆtre valid´, sans pour autant avoir H0 : β2 = β3 = 0.
e         e

>   US=read.table("http://freakonometrics.free.fr/US.txt",
+   header=TRUE,sep=";")
>   US$Density=US$Population/US$Area
>   model1 = lm(Murder ~ Income + HS.Grad + Frost +
+   Population + Illiteracy + Life.Exp +
+   Area + Density, data=US)

> summary(model1)

Call:
lm(formula = Murder ~ Income + HS.Grad + Frost + Population +
Illiteracy + Life.Exp + Area + Density, data = US)

Residuals:
Min       1Q   Median                     3Q     Max
-3.10973 -0.92363 -0.07636                0.74884 2.92362

                                                                           10
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.121e+02 1.684e+01      6.657 5.04e-08                     ***
Income       1.018e-03 6.642e-04    1.532 0.133084
HS.Grad      1.318e-02 5.315e-02     0.248 0.805412
Frost       -7.301e-03 7.074e-03 -1.032 0.308040
Population   2.180e-04 6.051e-05     3.602 0.000845                     ***
Illiteracy   2.208e+00 8.184e-01     2.699 0.010068                     *
Life.Exp    -1.579e+00 2.374e-01 -6.652 5.12e-08                        ***
Area        -9.413e-07 4.228e-06 -0.223 0.824911
Density     -4.369e+00 1.499e+00 -2.915 0.005740                        **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1                         1

Residual standard error: 1.608 on 41 degrees of freedom
Multiple R-squared: 0.8412,        Adjusted R-squared: 0.8102
F-statistic: 27.14 on 8 and 41 DF, p-value: 4.813e-14

Sur cette exemple, on valide les tests H0 : β1 = 0, H0 : β2 = 0 et H0 : β3 = 0.
Mais peut-on valider H0 : β1 = β2 = β3 = 0 ?

                                                                                  11
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




Ce test peut s’´crire de mani`re tr`s g´n´rale H0 : Rβ = q (contre H1 : Rβ = q)
               e             e     e e e
avec ici                                         
                                                  β0
                                                 
                                                β 
                                                 1
                                                
                       0 1 0 0 0 · · · 0  β2          0
                                                
                    0 0 1 0 0 · · · 0 β3  = 0
                                                
                                                 
                       0 0 0 1 0 · · · 0  β4          0
                                                .
                                                .
                                 R              .       0

                                                                        βk
                                                                        β


La strat´gie est de comparer deux mod`les : le mod`le non-contraint (sous H1 ),
        e                            e            e

                         β = argmin{(Y − Xβ) (Y − Xβ), β ∈ Rk+1 }


                                                                             12
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




et le mod`le non-contraint (sous H1 ),
         e

                 β = argmin{(Y − Xβ) (Y − Xβ), β ∈ Rk+1 , Rβ = q}

Pour le premier mod`le, on cherche ` minimiser
                   e               a

                                     h(β) = (Y − Xβ) (Y − Xβ)

et dans le second mod`le, c’est de la minimisation sous-contrainte. On optimise le
                      e
Lagrangien,
                   (β, λ) = (Y − Xβ) (Y − Xβ) + λ(Rβ − q)
Dans ce cas, les conditions du premier ordre sont

                               ∂ (β, λ)
                                        = 2X (Y − Xβ) + R λ = 0
                                 ∂β
et
                                         ∂ (β, λ)
                                                  = Rβ − q = 0,
                                           ∂λ

                                                                              13
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




pour β = β . On a finallement un syst`me de deux (syst`mes d’) ´quations
                                    e                e        e
                                               
                        XX R          β       XY
                                  =            
                         R     0      λ         q

Comme β = (X X)−1 X Y , on peut ´crire
                                e
                                           β = β − C[Rβ − q]

o`
 u
                                C = (X X)−1 R [R(X X)−1 R ]−1 .
Si on pose ε = Y − X β et ε = Y − X β, alors
                      ε ε − ε ε = [Rβ − q] (R(X X)−1 R )[Rβ − q]
Or d’apr`s la seconde condition du premier ordre, Rβ = q. Donc sous H0 , la
         e
statistique de test est
                                 ε ε −εε n−k
                             F =            ·
                                   dim(q)      εε

                                                                          14
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




qui doit suivre une loi de Fisher, F(dim(q), n − k).
> (EE=sum(residuals(model1)^2))
[1] 106.0532
> model2 = lm(Murder ~
+ Population + Illiteracy + Life.Exp +
+ Area + Density, data=US)
> (EEc=sum(residuals(model2)^2))
[1] 119.6924
> (F=(EEc-EE)/3*(nrow(US)-9)/(EE))
[1] 1.757643
> 1-pf(F,3,nrow(US)-9)
[1] 0.170363

Pour savoir si on rejette, ou si on accepte H0 , on calcule la p-value,
> 1-pf(F,3,nrow(US)-9)
[1] 0.170363

i.e. on peut accepter ici H0 (les trois coefficients sont nuls simultan´ment).
                                                                     e
Cette analyse de variance peut se faire via

                                                                               15
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




> library(car)
> linearHypothesis(model1,
+ c("Income","HS.Grad","Frost"),c(0,0,0))
Linear hypothesis test

Hypothesis:
Income = 0
HS.Grad = 0
Frost = 0

Model 1: restricted model
Model 2: Murder ~ Income + HS.Grad + Frost +
Population + Illiteracy + Life.Exp + Area + Density

Res.Df    RSS Df Sum of Sq      F Pr(>F)
1     44 119.69
2     41 106.05 3     13.639 1.7576 0.1704




                                                                        16
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                          Diagnostique et r´gression, le R2
                                           e
Le coefficient de d´termination R2 d´fini ` partir le rapport entre la variance des
                   e              e    a
r´sidus et la variance de Y ,
 e

                    2  Variance non expliqu´e
                                           e    Variance expliqu´e
                                                                e
                 R =1−                        =                    .
                           Variance totale       Variance totale
ou pour la version empirique
                                                                        n               2
                                                                              Yi − Yi
                           somme des carr´s des r´sidus
                                         e        e                     i=1
          R2 = 1 −                                         =1−            n
                         somme des carr´s de la r´gression
                                       e         e                                      2
                                                                              Yi − Y
                                                                        i=1




                                                                                            17
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                          Diagnostique et r´gression, le R2
                                           e
On utilise pour cela la formule de d´composition de la variance
                                    e

                      V ar(Y )          =       V ar[E(Y |X)]               + E[V ar(Y |X)] .
                   variance totale          variance expliqu´e par X
                                                            e                 variance r´isudelle
                                                                                        e


On notera que cette grandeur est un estimateur bais´ du vrai R2 ,
                                                   e

                                    2    k−1   2                                    1
                             E(R ) = R +     [1 − R2 ] + O
                                         n−1                                        n2
                                                                        2
Le coefficient d’ajustement est R2 = 0.6511 et R = 0.6438.
> summary(reg)$r.squared
[1] 0.6510794

Le calcul se fait de la mani`re suivante
                            e
> 1-deviance(REG)/sum((Y-mean(Y))^2)
[1] 0.6510794

                                                                                                    18
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




Afin de prendre en compte le nombre de param`tre, et de corriger du biais, on
                                           e
peut utiliser le R2 ajust´,
                         e

                   2                   n−1          (n − 1)R2 − (k − 1)
                R = 1 − (1 − R2 )                 =
                                  n − (k − 1) − 1        n−k−2
o` (k − 1) est le nombre de variables explicatives (sans la constante). Notons que
 u
     2
ce R peut ˆtre n´gatif.
          e     e
Remarque En rajoutant des variables explicatives, on ne peut que augmenter le
R2 , mais si ces derni`res sont peu corr´l´es avec Y .
                      e                 ee
Remarque Dans un mod`le sans constante, le R2 n’a plus aucun sens. En fait,
                           e
sans constante, rien ne garantit que le plan de r´gression passe par le centre de
                                                 e
gravit´ du nuage, (x, y). Et donc la somme des r´sidus n’est alors pas forc´ment
       e                                          e                         e
nulle. La formule de d´composition de la variance n’est alors plus valide.
                      e



                                                                              19
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                                      De l’utilisation du R2
Consid´rons une r´gression lin´aire
      e          e            e

                                       T INt = β0 + β1 T IFt + εt ,

o` T IN d´signe le taux d’int´rˆ nomial, T IF le taux d’inflation et T IR le taux
 u         e                    et
d’int´rˆt r´el, i.e. T IN = T IR + T IF . Au lieu de mod´liser le taux d’int´rˆt
     ee e                                                  e                ee
nominal en fonction de l’inflation, supposons que l’on cherche ` mod´liser le taux
                                                                 a     e
d’int´rˆt r´el,
     ee e
                              T IRt = α0 + α1 T IFt + ηt .

Notons que de la premi`re ´quation T INt = β0 + β1 T IFt + εt = T IRt + T IFt , on
                      e e
en d´duit
    e
                      T IRt = β0 + [β1 − 1] T IFt + εt ,
                                              =α0         =β0           =ηt

autrement dit les deux ´quations sont ´quivalentes.
                       e              e

                                                                              20
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




Pourtant

  2                 V ar(η)            V ar(η)             V ar(η)     2
 Rnominal     =1−             =1−                    ≥1−            = Rr´el
                                                                        e
                  V ar(T IN )     V ar(T IR + T IF )     V ar(T IR)

aussi, on peut artificiellement augmenter un R2 , tout en ´tudiant un mod`le
                                                         e              e
rigoureusement ´quivalent.
                e
                    15
                    10
                    5
                    0




                         1960          1970           1980              1990   2000




                                                                                      21
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                                      De l’utilisation du R2
Les sorties montrent que les deux sorties sont effectivement ´quivalence entre les
                                                            e
deux mod`les
          e

> summary(lm(TIR~TIF,data=D))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.65040     0.44301 10.497 8.5e-14 ***
TIF         -0.29817    0.07211 -4.135 0.000149 ***

> summary(lm(TIN~TIF,data=D))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.65040     0.44301 10.497 8.50e-14 ***
TIF          0.70183    0.07211   9.733 9.55e-13 ***



                                                                              22
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                                      De l’utilisation du R2
Mais surtout, on note que le R2 du premier mod`le est beaucoup plus faible que
                                              e
le second

> summary(lm(TIR~TIF,data=D))

Multiple R-Squared: 0.271,                   Adjusted R-squared: 0.2551

> summary(lm(TIN~TIF,data=D))

Multiple R-Squared: 0.6731,                  Adjusted R-squared: 0.666




                                                                           23
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                      Diagnostique dans le mod`le lin´aire
                                              e      e
La fonction plot(REG) produit 6 graphiques de diagnostique
 1. r´sidus contre valeurs estim´es, (Yi , εi ) (plot of residuals against fitted values)
     e                          e
 2. (Yi ,     |εi |) (Scale-Location plot),
 3. un graphique quantile-quantile des r´sidus (Normal Q-Q plot),
                                        e
 4. un graphique de distances de Cook (plot of Cook’s distances versus row
    labels),
 5. un graphique de leverage (plot of residuals against leverages)
 6. (plot of Cook’s distances against leverage/(1-leverage))
Remarque dans la plupart des graphiques, on utilise les r´sidus standardis´s,
                                                         e                e
i.e. ε/σ, centr´s et de variance unitaire.
               e



                                                                                    24
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                                      Diagnostique dans le mod`le lin´aire
                                                              e      e
> plot(predict(REG),residuals(REG))
> abline(h=0,lty=2,col="grey")
> lines(lowess(predict(REG),residuals(REG)),col="red")
>


                                              Residuals vs Fitted
                                                                                                                                                                    q                                     q




                                                                                                                          40
                                                          q 23                              49 q
                40




                                                                                                                                                                                     q
                                                                           q 35

                                                                                                                                                                    q                q




                                                                                                                          20
                                                          q                q
                20




                                                                                                         residuals(REG)
                                                                                                                                                                                                          q
                                                                                                q                                                                                                         q
                                                                                                q
    Residuals




                                                      q        q                                                                q       q           q           q        q
                      q       q           q                                                                                                                                              q
                                                                               q


                      q                   q                                                         q                           q                   q                                                         q
                                  q           q                            q        q                                                                                                q        q
                                                      q                q                                                                    q           q
                0




                                                                                                                                                                q                q




                                                                                                                          0
                                                  q       q
                                          q                                             q                                                                   q       q
                                                  q                q                q                                                               q                                             q
                              q                                                                 q                                                                                             q
                                      q               q                                                                                 q                   q                q
                                              q   q                    q            q                                                                                                                     q
                                                                                                                                                q               q
                                                          q                q   q                                                                        q                        q            q
                                                                   q                q                                                                       q
                                                                                                                                                                    q                q   q
                                                  q            q                                                                                                                              q
                                                                       q                                                                                                     q
                −20




                                                                                            q                                                               q            q
                                                               q               q                                                                                                 q

                                                                                                                          −20
                                                                                                                                                                                                      q
                                                                                                                                                                         q               q
                                                                                    q

                                                                                                                                                                                              q



                          0           20                      40                   60               80                              0           20                      40                   60               80

                                                    Fitted values                                                                                           predict(REG)
                                                  lm(dist ~ speed)




                                                                                                                                                                                                                   25
`         ´
    Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                                                          Diagnostique dans le mod`le lin´aire
                                                                                  e      e
>   s=summary(REG)$sigma
>   plot(qnorm((1:50)/51),sort(residuals(REG))/s)
>   abline(a=0,b=1,lty=2,col="grey")
>   lines(lowess(qnorm((1:50)/51),sort(residuals(REG))/s),col="red")


                                                                       Normal Q−Q
                                                                                                                                                                                                                                            q   q
                                3




                                                                                                                       49 q
                                                                                                               q 23

                                                                                                                                                                                                                                        q




                                                                                                                                                       2
                                                                                                            q 35
                                2




                                                                                                                                                                                                                                  q q
       Standardized residuals




                                                                                                                              sort(residuals(REG))/s
                                                                                                      q q
                                                                                                                                                                                                                              q




                                                                                                                                                       1
                                                                                                                                                                                                                          q
                                                                                                 qq                                                                                                               qqqqq
                                1




                                                                                                                                                                                                                 q
                                                                                         qqqqq
                                                                                        q
                                                                                                                                                                                                               qqq
                                                                                                                                                                                                            qq
                                                                                                                                                                                                            qq
                                                                                       qq
                                                                                       q
                                                                                                                                                                                                         qq
                                                                                                                                                                                                          q
                                                                                    qq
                                                                                    qq




                                                                                                                                                       0
                                                                                 qq
                                                                                  q                                                                                                                    qq
                                0




                                                                               qq                                                                                                                    qq
                                                                             qq                                                                                                                    qq
                                                                                                                                                                                                  qq
                                                                           qq                                                                                                                    q
                                                                          qq                                                                                                                  qqq
                                                                       qq
                                                                        q                                                                                                                  qqq
                                                                     qq
                                                                    qq                                                                                                                  qqq
                                                                 qqq                                                                                                                  qq
                                                               qq


                                                                                                                                                       −1
                                −1




                                                                                                                                                                                 qq
                                                          qq                                                                                                                 q
                                                      q                                                                                                                  q
                                                  q
                                          q   q                                                                                                                  q   q



                                     q                                                                                                                      q
                                −2




                                                                                                                                                       −2




                                         −2                −1                 0             1                      2                                        −2                    −1                  0              1                          2

                                                                  Theoretical Quantiles                                                                                                      qnorm((1:50)/51)
                                                                    lm(dist ~ speed)




                                                                                                                                                                                                                                                    26
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                                                    Diagnostique dans le mod`le lin´aire
                                                                            e      e
> plot(predict(REG),sqrt(abs(residuals(REG))/s))
> abline(h=mean(sqrt(abs(residuals(REG))/s)),lty=2,col="grey")
> lines(lowess(predict(REG),sqrt(abs(residuals(REG))/s)),col="red")
>


                                                                Scale−Location
                                                                                                          49 q                                                                                 q                                     q
                                                                        q 23




                                                                                                                                                     1.5
                              1.5




                                                                                         q 35                                                                                                                   q
                                                                                                  q                                                                                                                      q




                                                                                                                       sqrt(abs(residuals(REG))/s)
                                                                                         q
     Standardized residuals




                                                                        q
                                                                             q               q                                                                                                 q                q
                                                                                                          q                                                                                         q               q
                                                                                     q                        q                                                                                                                  q
                              1.0




                                                                q            q                                q                                                                                             q
                                                                                                                                                                                                                                     q




                                                                                                                                                     1.0
                                                                                 q                q                                                                                    q            q                                q
                                    q       q           q           q        q
                                                                        q                q   q
                                                                                             q                                                                                                          q                q
                                                                                                                                                                   q           q           q        q
                                                                q                    q                                                                     q                                   q
                                                            q                                     q                                                                                                             q   q
                                                                                                                                                                                                                    q
                                                    q               q                                                                                                                  q
                                                                                                              q                                                                                             q            q
                                                                                                                                                                                   q
                                            q                                                                                                                              q
                                                                q                q                                                                                                         q
                                                                                                  q                                                                                                                                  q
                                                        q                                                         q
                              0.5




                                    q                   q                                                                                                          q                   q                q
                                                                                                  q   q                                                                                                                  q
                                                                                         q
                                                                                                                                                                                                                                         q




                                                                                                                                                     0.5
                                                            q                                                                                                                  q
                                                q                                                                                                          q                   q
                                                                q       q                                                                                                                                       q        q   q
                                                                                                                                                                       q           q
                                                                                     q
                                                                    q                                                                                                                  q       q

                                                                                                                                                                                                            q
                              0.0




                                                                                                                                                                                           q



                                        0           20                      40                   60               80                                           0           20                      40                   60               80

                                                                  Fitted values                                                                                                        predict(REG)
                                                                lm(dist ~ speed)




                                                                                                                                                                                                                                              27
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                                     Diagnostique dans le mod`le lin´aire
                                                             e      e
> library(car)
> plot(cooks.distance(REG))
>
>


                                       Cook's distance




                                                                                          0.35
                                                                                                                                                                                                  q
                                                               49




                                                                                          0.30
                      0.3




                                                                                          0.25
                                                                    cooks.distance(REG)
    Cook's distance




                                                                                          0.20
                      0.2




                                                                                          0.15
                                                                                          0.10
                      0.1




                                            23                                                                                     q
                                                          39                                                                                                    q


                                                                                          0.05
                                                                                                                                                      q                           q
                                                                                                      q                                                                                       q
                                                                                                                                                                                          q
                                                                                                        q                                            q q
                                                                                                                                     q q
                                                                                                                   q
                                                                                                               q                         qqq q                      q
                                                                                          0.00
                                                                                                     q q q q qq q q q q q q qq q q q            q          qq           qq            q
                      0.0




                                                                                                                                            q qq q                           qq                       q




                            0   10     20          30     40   50                                0              10            20            30                  40                                50

                                         Obs. number                                                                                Index
                                       lm(dist ~ speed)




                                                                                                                                                                                                          28
`         ´
    Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                                                        Diagnostique dans le mod`le lin´aire
                                                                                e      e
>   X=cbind(1,cars$speed); L=diag(X%*%solve(t(X)%*%X)%*%t(X))
>   plot(L,residuals(REG)/s)
>   abline(h=0,lty=2,col="grey")
>   lines(lowess(L,residuals(REG)/s),col="red")


                                                             Residuals vs Leverage
                                                                                                                                                  q                                                 q
                                3




                                                                                    49 q
                                                q 23
                                                                                                                  0.5
                                                                                                                                                       q




                                                                                                                                           2
                                                    q
                                2




                                                                                                                                                  q q
       Standardized residuals




                                                q q




                                                                                                                        residuals(REG)/s
                                                                                                                                                                                                    q




                                                                                                                                           1
                                                                                        q                                                                                                           q
                                                                                        q
                                1




                                                                                                                                                 q    q               q                         q                         q
                                               q q               q                  q                         q                                            q
                                                        q

                                                                 q                                 q          q                                                       q                                        q          q
                                                  q         qq              q                                                                       q          qq
                                                qq                                                                                                                                  q
                                                                                                                                                  qq
                                0




                                                                                                                                           0
                                                q   q                                                                                             q
                                                                 q     q                                                                              q
                                                q           q                                                                                                         q        q
                                                        q                           qq
                                                    q                 q                                                                          q         q   q                                qq
                                                q   q       qq                                                                                        q
                                                                                                                                                               q           q
                                                q q q                                                                                             q   q         q
                                               q            q
                                                                                                                                                  q q q
                                −1




                                               q    q                                                                                                          q
                                                q                                                                                                q



                                                                                                                                           −1
                                                                                q                                                                q    q
                                               q        q                                                                                         q
                                                                                                                                                                                        q
                                                                                                                                                 q         q
                                                            q 39
                                −2




                                            Cook's distance                                                                                                    q
                                                                                                                                           −2




                                     0.00     0.02           0.04          0.06             0.08       0.10                                     0.02                0.04           0.06                 0.08       0.10

                                                                      Leverage                                                                                                              L
                                                                   lm(dist ~ speed)




                                                                                                                                                                                                                              29
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                                      Diagnostique dans le mod`le lin´aire
                                                              e      e
> plot(L,cooks.distance(REG))
> lines(lowess(L,cooks.distance(REG)),col="red")
>
>


                                      Cook's distance vs Leverage




                                                                                                                      0.35
                      0.35




                                       3      2.5            2                                                                                                                   q
                                                             49 q




                                                                                                                      0.30
                      0.30




                                                                                          1.5




                                                                                                                      0.25
                      0.25




                                                                                                cooks.distance(REG)
    Cook's distance




                                                                                                                      0.20
                      0.20




                                                                                                                      0.15
                      0.15




                                                                                          1




                                                                                                                      0.10
                      0.10




                               q 23                                                                                            q

                                      q 39                                                                                                  q


                                                                                                                      0.05
                      0.05




                                 q                       q                                                                          q                                q
                                                                 q                                                                                                               q                     q
                                                                 q                    q                                                                                          q
                                 q q                         q
                                                                                          0.5                                  q
                                                                                                                                    q   q                                    q
                              qq                                                                                              q
                                   q                                                                                               q
                              qqq q qq   q                                                                                    qq q           q     q
                      0.00




                                                                                                                      0.00
                              qqq q q
                               q q   q
                                               q             qq             q         q                                        q q q
                                                                                                                              qq q q        qq
                                                                                                                                             q
                                                                                                                                                        q                    qq             q          q
                              q q q q
                               q q
                               q         q      q    q                                    0                                   qq q q
                                                                                                                               q q q        q      q        q    q



                             0.02      0.04         0.06             0.08       0.1                                          0.02                0.04           0.06                 0.08       0.10

                                                 Leverage                                                                                                                L
                                              lm(dist ~ speed)




                                                                                                                                                                                                           30
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                          Les points atypiques et influents
La notion d’outliers ou de points ab´rants.
                                    e
La distance de Cook mesure l’impact sur la r´gression de l’absence d’une
                                            e
observation. Aussi
                                   n    ˆ     ˆ
                                   j=1 (Yj − Yj(i) )2
                          Ci =
                                      p · M SE
ou encore,
                                   ε2
                                    i         hii
                         Ci =
                               p · M SE (1 − hii )2
                                                                        −1
o` hi,i est l´l´ment diagonale de la matrice H = X (X X) X (que l’on notera
 u           ee
parfois hi ). Les hi = [X(X X)−1 X]i,i = Hi,i sont appel´s (leverage).
                                                        e




                                                                             31
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




Le vecteur des leverages h = (h1 , · · · , hn ) est obtenu ais´ment sous R,
                                                              e
> diag(X%*%solve(t(X)%*%X)%*%t(X))[1:6]
 [1] 0.11486131 0.11486131 0.07150365 0.07150365 0.05997080 0.04989781
 > influence(REG)[1:6]
$hat
         1          2          3          4          5          6
0.11486131 0.11486131 0.07150365 0.07150365 0.05997080 0.04989781

Les hypoth`ses sont que E(εi ) = 0 et V ar(εi ) = σ 2 . En r´alit´, E(εi ) = 0 mais
             e                                              e e
V ar(εi ) = [I − H]i,i σ 2 = σ 2
Notons que puisque Y = HY + ε,

                   ε = Y − Y = [I − H]Y = [I − H](Xβ + ε) = [I − H]ε,

et donc V ar(ε) = V ar([I − H]ε) = [I − H]σ 2 . Aussi, V ar(εi ) = [1 − hi ]σ 2 .
Les r´sidus Studentis´s sont les
     e               e
                                                          ε
                                                εi =     √      .
                                                       σ 1 − hi

                                                                                    32
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




Notons que Var(εi ) = 1.

> diag(X%*%solve(t(X)%*%X)%*%t(X))
> rstudent(REG)[1:6]
          1           2            3                         4                   5           6
 0.26345000 0.81607841 -0.39781154                  0.81035256          0.14070334 -0.51716052
> mean(rstudent(REG))
[1] 0.01347908
> sd(rstudent(REG))
[1] 1.045681


Sur la matrice de leverage (matrice de projection orthogonale), notons que

                                    Yi = HY = hi,i Yi +                  hi,j Yj .
                                                                   j=i

Aussi, hi,i est le poids accord´ ` Yi pour sa propre pr´diction.
                               ea                      e
• si hi,i = 1, Yi est uniquement d´termin´ par Yi (hi,j = 0 pour j = i),
                                   e       e
• si hi,i = 0, Yi est n’est nullement influenc´ par Yi .
                                             e

                                                                                                 33
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




On parelera de point levier i si hi,i est trop grand, i.e.
• si hi,i > 2k/n, d’apr`s Hoaglin & Welsch (1978),
                        e
• si hi,i > 3k/n pour k > 6 et n − k > 12, d’apr`s Welleman & Welsch (1981),
                                                   e
• si hi,i > 1/2, d’apr`s Huber (1981).
                      e
Cette m´thode permet de d´tecter des points atypiques, ou plutˆts des points
          e                 e                                 o
influents.
Afin de mesurer l’impact d’une observation sur la r´gression, il peut aussi ˆtre
                                                       e                   e
utile de regarder les r´sultats de la r´gression si l’on supprime une des
                       e               e
observations.
Apr`s suppression de la i`me observation, les estimateurs des moindres carr´s
    e                    e                                                 e
s’´crivent
  e
                                                     εi
                        β (i) = β − (X X)−1 X i ·
                                                  1 − hi,i

                                2         1                            ε2
                                                                        i
                                                                        2
                               σ(i)   =                    (n − k)σ
                                        n−k−1                       1 − hi,i


                                                                                34
`         ´
    Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




>   i=25
>   REGi=lm(dist~speed,data=cars[-i,])
>   plot(cars); points(cars[i,],col="red",pch=19)
>   abline(REG,lty=2); abline(REGi,lwd=2,col="red")


                                          120
                                                                                                                           q
                                          100




                                                                                                                           q
                                                                                                                           q

                                                                                                      q                        q
                                          80




                                                                                     q
                                                                                                      q
                                                                                                                           q
                                                                                                          q
                                                                                                                   q
                                                                                                              q
                                   dist

                                          60




                                                                                     q
                                                                                                      q       q
                                                                                         q                             q
                                                                                                              q
                                                                                                  q
                                                                                                              q
                                                                                 q                        q
                                                                                                      q
                                          40




                                                                                              q   q
                                                                                     q                    q
                                                                    q            q
                                                                                              q   q           q
                                                                         q   q
                                                                    q            q   q   q
                                                                             q
                                                        q
                                          20




                                                                             q           q
                                                                    q    q
                                                            q
                                                                             q
                                                q               q
                                                        q
                                                q
                                          0




                                                    5               10                   15                   20               25

                                                                                     speed




                                                                                                                                    35
`         ´
    Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




>   i=23
>   REGi=lm(dist~speed,data=cars[-i,])
>   plot(cars); points(cars[i,],col="red",pch=19)
>   abline(REG,lty=2); abline(REGi,lwd=2,col="red")


                                          120
                                                                                                                           q
                                          100




                                                                                                                           q
                                                                                                                           q

                                                                                                      q                        q
                                          80




                                                                                     q
                                                                                                      q
                                                                                                                           q
                                                                                                          q
                                                                                                                   q
                                                                                                              q
                                   dist

                                          60




                                                                                     q
                                                                                                      q       q
                                                                                         q                             q
                                                                                                              q
                                                                                                  q
                                                                                                              q
                                                                                 q                        q
                                                                                                      q
                                          40




                                                                                              q   q
                                                                                     q                    q
                                                                    q            q
                                                                                              q   q           q
                                                                         q   q
                                                                    q            q   q   q
                                                                             q
                                                        q
                                          20




                                                                             q           q
                                                                    q    q
                                                            q
                                                                             q
                                                q               q
                                                        q
                                                q
                                          0




                                                    5               10                   15                   20               25

                                                                                     speed




                                                                                                                                    36
`         ´
    Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




>   i=49
>   REGi=lm(dist~speed,data=cars[-i,])
>   plot(cars); points(cars[i,],col="red",pch=19)
>   abline(REG,lty=2); abline(REGi,lwd=2,col="red")




                                          120
                                                                                                                           q




                                          100
                                                                                                                           q
                                                                                                                           q

                                                                                                      q                        q


                                          80
                                                                                     q
                                                                                                      q
                                                                                                                           q
                                                                                                          q
                                                                                                                   q
                                                                                                              q
                                   dist

                                          60

                                                                                     q
                                                                                                      q       q
                                                                                         q                             q
                                                                                                              q
                                                                                                  q
                                                                                                              q
                                                                                 q                        q
                                                                                                      q
                                          40




                                                                                              q   q
                                                                                     q                    q
                                                                    q            q
                                                                                              q   q           q
                                                                         q   q
                                                                    q            q   q   q
                                                                             q
                                                        q
                                          20




                                                                             q           q
                                                                    q    q
                                                            q
                                                                             q
                                                q               q
                                                        q
                                                q
                                          0




                                                    5               10                   15                   20               25

                                                                                     speed




Remarque Beaucoup d’autres distances, bas´es sur la fonction d’influence, ont
                                           e
´t´ propos´es
ee        e
                             (β − β (i) ) X X(β − β (i) )
                Cook :Ci =
                                          kσ 2

                                                                                                                                    37
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                                                                |X i (β − β (i) )|
                                 Welsh-Kuh :W Ki =                   2
                                                                    σ(i)     hi,i

                                                                         n−1
                                      Welsh :Wi = W Ki
                                                                        1 − hi,i

                     vraisemblance :LDi = 2 L(β, σ 2 ) − L β (i) , σ(i)
                                                                    2



Remarque : les points aberrants ont des valeurs de Y aberrantes, mais on
pourrait aussi vouloir tester une ab´ration en X.
                                    e




                                                                                     38
`         ´
 Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                   Analyse graphique des r´sidus, example
                                          e
Pour illustrer, consid´rons les d´penses dans les ´coles publiques, par ´tat (aux
                      e          e                e                     e
U.S.A.)

> library(sandwich)
> data(PublicSchools)
>
> tail(PublicSchools)
              Expenditure Income
Virginia              356   7624
Washington            415   8450
Washington DC         428 10022
West Virginia         320   6456
Wisconsin              NA   7597
Wyoming               500   9096




                                                                               39
`         ´
    Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)




                                                     Analyse graphique des r´sidus, example
                                                                            e
>   plot(PublicSchools$Income,PublicSchools$Expenditure)
>   id=c(2,49)
>   text(PublicSchools$Income[id],PublicSchools$Expenditure[id],
+   rownames(PublicSchools)[id],pos=1)



                                                                                                                        q                                                                                                                                q
                                   800




                                                                                                                   Alaska




                                                                                                                                                           200
                                   700




                                                                                                                                                           150
       Dépenses écoles publiques




                                                                                                                                Résidus de la régression
                                                                                                                                                                                  q




                                                                                                                                                           100
                                   600




                                                                                                                                                                                               q
                                                                                                                                                                              q                                     q

                                                                                                                                                                                                                                         q




                                                                                                                                                           50
                                                                                                q                                                                             q                                         q
                                                                                                                                                                          q
                                   500




                                                                                                                                                                         q                                          q           q
                                                                                                    q                                                                             q                             q           q
                                                                                                                                                                              q                                         q                    q
                                                                             q                                                                                    q
                                                                                     q                                                                                            q                                 q
                                                                              q q                                                                                                                                           q
                                                                                                                                                                         q             q




                                                                                                                                                           0
                                                               q                           q                                                                              q                q
                                                                             q q q        q q                 q
                                                         q                            q                                                                                                q            q       q                    q qq
                                   400




                                                                         q
                                                                             q       q                  Washington DC                                                         q                         q                       q
                                                     q                                      q                                                                                                               q                        q



                                                                                                                                                           −50
                                                                                                                                                                                  qq                                    q
                                                                        q                           q                                                                                                qq
                                                   q                             q
                                                    q                q q q                                                                                                                          q   qq
                                                 qq                        q                                                                                                                       q                                 q
                                                q    q qq               q
                                                                       q q
                                   300




                                                                                                                                                                                                    q
                                                       q
                                                                                                                                                           −100
                                                                      q
                                                qq                  qq
                                                     q q
                                         q            q                                                                                                                                                                                      q     q



                                             6000            7000            8000           9000           10000        11000                                         6000             7000                         8000             9000        10000   11000

                                                                        Revenu (par tête)                                                                                                                               Revenu




                                                                                                                                                                                                                                                                 40
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02

Contenu connexe

Tendances (12)

Cours gestion-actifs-r1-part-2b
Cours gestion-actifs-r1-part-2bCours gestion-actifs-r1-part-2b
Cours gestion-actifs-r1-part-2b
 
Slide 2040-1
Slide 2040-1Slide 2040-1
Slide 2040-1
 
Exercices act2121-session7
Exercices act2121-session7Exercices act2121-session7
Exercices act2121-session7
 
Exercices act2121-session1
Exercices act2121-session1Exercices act2121-session1
Exercices act2121-session1
 
Exercices act2121-session5
Exercices act2121-session5Exercices act2121-session5
Exercices act2121-session5
 
Cours econometrie-uqam-st-3
Cours econometrie-uqam-st-3Cours econometrie-uqam-st-3
Cours econometrie-uqam-st-3
 
Slides ensae-2016-1
Slides ensae-2016-1Slides ensae-2016-1
Slides ensae-2016-1
 
Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2
 
Exercices act2121-session3
Exercices act2121-session3Exercices act2121-session3
Exercices act2121-session3
 
Exercices act2121-session4
Exercices act2121-session4Exercices act2121-session4
Exercices act2121-session4
 
Slides 2040-4
Slides 2040-4Slides 2040-4
Slides 2040-4
 
Exercices act2121-session6
Exercices act2121-session6Exercices act2121-session6
Exercices act2121-session6
 

En vedette

Mieux comprendre les nouveautés de SharePoint 2013
Mieux comprendre les nouveautés de SharePoint 2013Mieux comprendre les nouveautés de SharePoint 2013
Mieux comprendre les nouveautés de SharePoint 2013GSoft
 
Think Digital groupe de réflexion édition numérique session 2 : Alain Pierrot...
Think Digital groupe de réflexion édition numérique session 2 : Alain Pierrot...Think Digital groupe de réflexion édition numérique session 2 : Alain Pierrot...
Think Digital groupe de réflexion édition numérique session 2 : Alain Pierrot...Jean-Baptiste Soufron
 
BOQA - FR - Catalogue 2016
BOQA - FR - Catalogue 2016BOQA - FR - Catalogue 2016
BOQA - FR - Catalogue 2016Nicolas Garet
 
Anti viraux et immunomodulateurs.ppt
Anti viraux et immunomodulateurs.pptAnti viraux et immunomodulateurs.ppt
Anti viraux et immunomodulateurs.pptodeckmyn
 
Rapport de stage : Étudier le principe de fonctionnement des capteurs de régu...
Rapport de stage : Étudier le principe de fonctionnement des capteurs de régu...Rapport de stage : Étudier le principe de fonctionnement des capteurs de régu...
Rapport de stage : Étudier le principe de fonctionnement des capteurs de régu...Abdo07
 
2009 Présentation préparé par un citoyen a Sanimax
2009 Présentation préparé par un citoyen a Sanimax 2009 Présentation préparé par un citoyen a Sanimax
2009 Présentation préparé par un citoyen a Sanimax CleanUpSanimax
 
Le Moteur A Hydrogene
Le Moteur A HydrogeneLe Moteur A Hydrogene
Le Moteur A HydrogeneCinemaTICE
 
Cycle krebs chaine respiratoire
Cycle krebs chaine respiratoireCycle krebs chaine respiratoire
Cycle krebs chaine respiratoireMedoumar Alagude
 
Minéraux
MinérauxMinéraux
Minérauxioarmg
 
Qu'est ce que un acide tartrique ?
Qu'est ce que un acide tartrique ?Qu'est ce que un acide tartrique ?
Qu'est ce que un acide tartrique ?eri8p7f4ku
 
Les sources energétiques de la resynthese de l'atp a  la contraction muscul...
Les sources energétiques   de la resynthese de l'atp a  la contraction muscul...Les sources energétiques   de la resynthese de l'atp a  la contraction muscul...
Les sources energétiques de la resynthese de l'atp a  la contraction muscul...IRMSHN276
 
Sozialpolitik Kanada Und Australien
Sozialpolitik Kanada Und AustralienSozialpolitik Kanada Und Australien
Sozialpolitik Kanada Und Australienbolkovac
 
01 fonction stockage_la_batterie
01 fonction stockage_la_batterie01 fonction stockage_la_batterie
01 fonction stockage_la_batterieAbdellah HILALI
 
Metabolisme des lipides
Metabolisme des lipidesMetabolisme des lipides
Metabolisme des lipideskillua zoldyck
 
Brochure Meca-19102016-bd
Brochure Meca-19102016-bdBrochure Meca-19102016-bd
Brochure Meca-19102016-bdCamille Volant
 
Protection des métaux contre la corrosion
Protection des métaux contre la corrosionProtection des métaux contre la corrosion
Protection des métaux contre la corrosionCHTAOU Karim
 

En vedette (20)

Mieux comprendre les nouveautés de SharePoint 2013
Mieux comprendre les nouveautés de SharePoint 2013Mieux comprendre les nouveautés de SharePoint 2013
Mieux comprendre les nouveautés de SharePoint 2013
 
Rh Et Reseaux Sociaux(2)
Rh Et Reseaux Sociaux(2)Rh Et Reseaux Sociaux(2)
Rh Et Reseaux Sociaux(2)
 
Mon CV
Mon CVMon CV
Mon CV
 
Think Digital groupe de réflexion édition numérique session 2 : Alain Pierrot...
Think Digital groupe de réflexion édition numérique session 2 : Alain Pierrot...Think Digital groupe de réflexion édition numérique session 2 : Alain Pierrot...
Think Digital groupe de réflexion édition numérique session 2 : Alain Pierrot...
 
Rapport de stage
Rapport de stageRapport de stage
Rapport de stage
 
BOQA - FR - Catalogue 2016
BOQA - FR - Catalogue 2016BOQA - FR - Catalogue 2016
BOQA - FR - Catalogue 2016
 
Anti viraux et immunomodulateurs.ppt
Anti viraux et immunomodulateurs.pptAnti viraux et immunomodulateurs.ppt
Anti viraux et immunomodulateurs.ppt
 
Rapport de stage : Étudier le principe de fonctionnement des capteurs de régu...
Rapport de stage : Étudier le principe de fonctionnement des capteurs de régu...Rapport de stage : Étudier le principe de fonctionnement des capteurs de régu...
Rapport de stage : Étudier le principe de fonctionnement des capteurs de régu...
 
2009 Présentation préparé par un citoyen a Sanimax
2009 Présentation préparé par un citoyen a Sanimax 2009 Présentation préparé par un citoyen a Sanimax
2009 Présentation préparé par un citoyen a Sanimax
 
Le Moteur A Hydrogene
Le Moteur A HydrogeneLe Moteur A Hydrogene
Le Moteur A Hydrogene
 
Cycle krebs chaine respiratoire
Cycle krebs chaine respiratoireCycle krebs chaine respiratoire
Cycle krebs chaine respiratoire
 
Minéraux
MinérauxMinéraux
Minéraux
 
Electolyse cu-br
Electolyse cu-brElectolyse cu-br
Electolyse cu-br
 
Qu'est ce que un acide tartrique ?
Qu'est ce que un acide tartrique ?Qu'est ce que un acide tartrique ?
Qu'est ce que un acide tartrique ?
 
Les sources energétiques de la resynthese de l'atp a  la contraction muscul...
Les sources energétiques   de la resynthese de l'atp a  la contraction muscul...Les sources energétiques   de la resynthese de l'atp a  la contraction muscul...
Les sources energétiques de la resynthese de l'atp a  la contraction muscul...
 
Sozialpolitik Kanada Und Australien
Sozialpolitik Kanada Und AustralienSozialpolitik Kanada Und Australien
Sozialpolitik Kanada Und Australien
 
01 fonction stockage_la_batterie
01 fonction stockage_la_batterie01 fonction stockage_la_batterie
01 fonction stockage_la_batterie
 
Metabolisme des lipides
Metabolisme des lipidesMetabolisme des lipides
Metabolisme des lipides
 
Brochure Meca-19102016-bd
Brochure Meca-19102016-bdBrochure Meca-19102016-bd
Brochure Meca-19102016-bd
 
Protection des métaux contre la corrosion
Protection des métaux contre la corrosionProtection des métaux contre la corrosion
Protection des métaux contre la corrosion
 

Plus de Arthur Charpentier (20)

Family History and Life Insurance
Family History and Life InsuranceFamily History and Life Insurance
Family History and Life Insurance
 
ACT6100 introduction
ACT6100 introductionACT6100 introduction
ACT6100 introduction
 
Family History and Life Insurance (UConn actuarial seminar)
Family History and Life Insurance (UConn actuarial seminar)Family History and Life Insurance (UConn actuarial seminar)
Family History and Life Insurance (UConn actuarial seminar)
 
Control epidemics
Control epidemics Control epidemics
Control epidemics
 
STT5100 Automne 2020, introduction
STT5100 Automne 2020, introductionSTT5100 Automne 2020, introduction
STT5100 Automne 2020, introduction
 
Family History and Life Insurance
Family History and Life InsuranceFamily History and Life Insurance
Family History and Life Insurance
 
Machine Learning in Actuarial Science & Insurance
Machine Learning in Actuarial Science & InsuranceMachine Learning in Actuarial Science & Insurance
Machine Learning in Actuarial Science & Insurance
 
Reinforcement Learning in Economics and Finance
Reinforcement Learning in Economics and FinanceReinforcement Learning in Economics and Finance
Reinforcement Learning in Economics and Finance
 
Optimal Control and COVID-19
Optimal Control and COVID-19Optimal Control and COVID-19
Optimal Control and COVID-19
 
Slides OICA 2020
Slides OICA 2020Slides OICA 2020
Slides OICA 2020
 
Lausanne 2019 #3
Lausanne 2019 #3Lausanne 2019 #3
Lausanne 2019 #3
 
Lausanne 2019 #4
Lausanne 2019 #4Lausanne 2019 #4
Lausanne 2019 #4
 
Lausanne 2019 #2
Lausanne 2019 #2Lausanne 2019 #2
Lausanne 2019 #2
 
Lausanne 2019 #1
Lausanne 2019 #1Lausanne 2019 #1
Lausanne 2019 #1
 
Side 2019 #10
Side 2019 #10Side 2019 #10
Side 2019 #10
 
Side 2019 #11
Side 2019 #11Side 2019 #11
Side 2019 #11
 
Side 2019 #12
Side 2019 #12Side 2019 #12
Side 2019 #12
 
Side 2019 #9
Side 2019 #9Side 2019 #9
Side 2019 #9
 
Side 2019 #8
Side 2019 #8Side 2019 #8
Side 2019 #8
 
Side 2019 #7
Side 2019 #7Side 2019 #7
Side 2019 #7
 

Slides6420 h2012 02

  • 1. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Mod`les de pr´vision e e Partie 1 - r´gression e Arthur Charpentier charpentier.arthur@uqam.ca http ://freakonometrics.blog.free.fr/ Automne 2012 1
  • 2. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Plan du cours • Motivation et introduction aux mod`les de r´gression e e • Le mod`le lin´aire simple e e ◦ R´sultats g´n´raux e e e ◦ Approche matricielle • Le mod`le lin´aire multiple e e ◦ R´sultats g´n´raux e e e ◦ Tests, choix de mod`le, diagnostique e • Aller plus loin ◦ Les mod`les non lin´aires param´triques e e e ◦ Les mod`les non lin´aires nonparam´triques e e e 2
  • 3. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Petit rappel sur la significativit´, test de H0 : βj = 0 e Les r´sultats pr´c´dants permettent de proposer un test simple de e e e H0 : βj = 0 contre l’hypoth`se H1 : βj = 0. e La statistique de test βj Tj = ∼ St(n − k) sous H0 . V ar(βj ) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -17.5791 6.7584 -2.601 0.0123 * speed 3.9324 0.4155 9.464 1.49e-12 *** 3
  • 4. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Les deux lectures possibles d’un test • donner la region de rejet, de la forme [±T1−α/2 ], avec un seuil α fix´ e arbitrairement ( par d´ faut 95%) • donner le seuil α tel que la r´gion de rejet soit [±t] (la plus petite region de e rejet ` laquelle appartienne la statistique observ´e), i.e. la probabilit´ que de a e e rejeter H0 si H0 ´tait vraie. e Dans ce dernier cas, on parle de p-value, p = P(rejeter H0 |H0 vraie) : si p est faible, on rejette H0 , car il y a peu de chances qu’H0 soit vraie. 4
  • 5. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Lecture du test de Student Region de rejet du test de Student 0.4 REJET ACCEPTATION REJET 0.3 DE H0 DE H0 DE H0 0.2 0.1 Aire totale = 5% 0.0 −6 −4 −2 0 2 4 6 5
  • 6. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Lecture du test de Student p−value associée à un test de Student 0.4 0.3 0.2 0.1 Aire totale = 1,23% 0.0 −6 −4 −2 0 2 4 6 6
  • 7. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Analyse d’une sortie de r´gression e Des tests de student de H0 : βi = 0, contre H1 : βi = 0 sont propos´s, avec e β0 − β0 −17.5791 − 0 t0 = = = −2.601 sousH0 6.7584 V ar(β0 ) β1 − β1 3.9324 − 0 t1 = = = 9.464 sousH0 0.4155 V ar(β0 ) Ces valeurs sont ` comparer avec le quantile de Student ` 95% (` 49 degr´s de a a a e libert´). e Une alternative est d’utiliser la p-value, i.e. si Z ∼ St(49), p0 = P(|Z| > t0 ) = 0.0123 et p1 = P(|Z| > t1 ) = 1.49 × 10−12 . 7
  • 8. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) La p value est alors donn´e par e > 2*(1-pt(abs(REG$coefficients[1]/summary(REG)$coefficients[1,2]), df=n-2)) (Intercept) 0.01231882 σ = 15.38, i.e. summary(reg)$sigma > confint(reg) 2.5 % 97.5 % (Intercept) -31.167850 -3.990340 speed 3.096964 4.767853 Pour la constante, par exemple, l’intervalle de confiance est donn´ par e > REG$coefficients[1]+qt(c(.025,.975),n-2)* summary(REG)$coefficients[1,2] [1] -31.16785 -3.99034 La matrice de variance-covariance des coefficients, Var(β) est ici 8
  • 9. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) > vcov(reg) (Intercept) speed (Intercept) 45.676514 -2.6588234 speed -2.658823 0.1726509 9
  • 10. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Introduction aux tests multiples, e.g. H0 : β1 = · · · = βj = 0 On a vu comment tester H0 : β2 = 0 et H0 : β3 = 0, mais ces deux tests peuvent ˆtre valid´, sans pour autant avoir H0 : β2 = β3 = 0. e e > US=read.table("http://freakonometrics.free.fr/US.txt", + header=TRUE,sep=";") > US$Density=US$Population/US$Area > model1 = lm(Murder ~ Income + HS.Grad + Frost + + Population + Illiteracy + Life.Exp + + Area + Density, data=US) > summary(model1) Call: lm(formula = Murder ~ Income + HS.Grad + Frost + Population + Illiteracy + Life.Exp + Area + Density, data = US) Residuals: Min 1Q Median 3Q Max -3.10973 -0.92363 -0.07636 0.74884 2.92362 10
  • 11. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.121e+02 1.684e+01 6.657 5.04e-08 *** Income 1.018e-03 6.642e-04 1.532 0.133084 HS.Grad 1.318e-02 5.315e-02 0.248 0.805412 Frost -7.301e-03 7.074e-03 -1.032 0.308040 Population 2.180e-04 6.051e-05 3.602 0.000845 *** Illiteracy 2.208e+00 8.184e-01 2.699 0.010068 * Life.Exp -1.579e+00 2.374e-01 -6.652 5.12e-08 *** Area -9.413e-07 4.228e-06 -0.223 0.824911 Density -4.369e+00 1.499e+00 -2.915 0.005740 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 1.608 on 41 degrees of freedom Multiple R-squared: 0.8412, Adjusted R-squared: 0.8102 F-statistic: 27.14 on 8 and 41 DF, p-value: 4.813e-14 Sur cette exemple, on valide les tests H0 : β1 = 0, H0 : β2 = 0 et H0 : β3 = 0. Mais peut-on valider H0 : β1 = β2 = β3 = 0 ? 11
  • 12. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Ce test peut s’´crire de mani`re tr`s g´n´rale H0 : Rβ = q (contre H1 : Rβ = q) e e e e e avec ici   β0   β   1      0 1 0 0 0 · · · 0  β2    0      0 0 1 0 0 · · · 0 β3  = 0        0 0 0 1 0 · · · 0  β4    0 . . R . 0 βk β La strat´gie est de comparer deux mod`les : le mod`le non-contraint (sous H1 ), e e e β = argmin{(Y − Xβ) (Y − Xβ), β ∈ Rk+1 } 12
  • 13. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) et le mod`le non-contraint (sous H1 ), e β = argmin{(Y − Xβ) (Y − Xβ), β ∈ Rk+1 , Rβ = q} Pour le premier mod`le, on cherche ` minimiser e a h(β) = (Y − Xβ) (Y − Xβ) et dans le second mod`le, c’est de la minimisation sous-contrainte. On optimise le e Lagrangien, (β, λ) = (Y − Xβ) (Y − Xβ) + λ(Rβ − q) Dans ce cas, les conditions du premier ordre sont ∂ (β, λ) = 2X (Y − Xβ) + R λ = 0 ∂β et ∂ (β, λ) = Rβ − q = 0, ∂λ 13
  • 14. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) pour β = β . On a finallement un syst`me de deux (syst`mes d’) ´quations e e e      XX R β XY    =   R 0 λ q Comme β = (X X)−1 X Y , on peut ´crire e β = β − C[Rβ − q] o` u C = (X X)−1 R [R(X X)−1 R ]−1 . Si on pose ε = Y − X β et ε = Y − X β, alors ε ε − ε ε = [Rβ − q] (R(X X)−1 R )[Rβ − q] Or d’apr`s la seconde condition du premier ordre, Rβ = q. Donc sous H0 , la e statistique de test est ε ε −εε n−k F = · dim(q) εε 14
  • 15. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) qui doit suivre une loi de Fisher, F(dim(q), n − k). > (EE=sum(residuals(model1)^2)) [1] 106.0532 > model2 = lm(Murder ~ + Population + Illiteracy + Life.Exp + + Area + Density, data=US) > (EEc=sum(residuals(model2)^2)) [1] 119.6924 > (F=(EEc-EE)/3*(nrow(US)-9)/(EE)) [1] 1.757643 > 1-pf(F,3,nrow(US)-9) [1] 0.170363 Pour savoir si on rejette, ou si on accepte H0 , on calcule la p-value, > 1-pf(F,3,nrow(US)-9) [1] 0.170363 i.e. on peut accepter ici H0 (les trois coefficients sont nuls simultan´ment). e Cette analyse de variance peut se faire via 15
  • 16. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) > library(car) > linearHypothesis(model1, + c("Income","HS.Grad","Frost"),c(0,0,0)) Linear hypothesis test Hypothesis: Income = 0 HS.Grad = 0 Frost = 0 Model 1: restricted model Model 2: Murder ~ Income + HS.Grad + Frost + Population + Illiteracy + Life.Exp + Area + Density Res.Df RSS Df Sum of Sq F Pr(>F) 1 44 119.69 2 41 106.05 3 13.639 1.7576 0.1704 16
  • 17. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique et r´gression, le R2 e Le coefficient de d´termination R2 d´fini ` partir le rapport entre la variance des e e a r´sidus et la variance de Y , e 2 Variance non expliqu´e e Variance expliqu´e e R =1− = . Variance totale Variance totale ou pour la version empirique n 2 Yi − Yi somme des carr´s des r´sidus e e i=1 R2 = 1 − =1− n somme des carr´s de la r´gression e e 2 Yi − Y i=1 17
  • 18. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique et r´gression, le R2 e On utilise pour cela la formule de d´composition de la variance e V ar(Y ) = V ar[E(Y |X)] + E[V ar(Y |X)] . variance totale variance expliqu´e par X e variance r´isudelle e On notera que cette grandeur est un estimateur bais´ du vrai R2 , e 2 k−1 2 1 E(R ) = R + [1 − R2 ] + O n−1 n2 2 Le coefficient d’ajustement est R2 = 0.6511 et R = 0.6438. > summary(reg)$r.squared [1] 0.6510794 Le calcul se fait de la mani`re suivante e > 1-deviance(REG)/sum((Y-mean(Y))^2) [1] 0.6510794 18
  • 19. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Afin de prendre en compte le nombre de param`tre, et de corriger du biais, on e peut utiliser le R2 ajust´, e 2 n−1 (n − 1)R2 − (k − 1) R = 1 − (1 − R2 ) = n − (k − 1) − 1 n−k−2 o` (k − 1) est le nombre de variables explicatives (sans la constante). Notons que u 2 ce R peut ˆtre n´gatif. e e Remarque En rajoutant des variables explicatives, on ne peut que augmenter le R2 , mais si ces derni`res sont peu corr´l´es avec Y . e ee Remarque Dans un mod`le sans constante, le R2 n’a plus aucun sens. En fait, e sans constante, rien ne garantit que le plan de r´gression passe par le centre de e gravit´ du nuage, (x, y). Et donc la somme des r´sidus n’est alors pas forc´ment e e e nulle. La formule de d´composition de la variance n’est alors plus valide. e 19
  • 20. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) De l’utilisation du R2 Consid´rons une r´gression lin´aire e e e T INt = β0 + β1 T IFt + εt , o` T IN d´signe le taux d’int´rˆ nomial, T IF le taux d’inflation et T IR le taux u e et d’int´rˆt r´el, i.e. T IN = T IR + T IF . Au lieu de mod´liser le taux d’int´rˆt ee e e ee nominal en fonction de l’inflation, supposons que l’on cherche ` mod´liser le taux a e d’int´rˆt r´el, ee e T IRt = α0 + α1 T IFt + ηt . Notons que de la premi`re ´quation T INt = β0 + β1 T IFt + εt = T IRt + T IFt , on e e en d´duit e T IRt = β0 + [β1 − 1] T IFt + εt , =α0 =β0 =ηt autrement dit les deux ´quations sont ´quivalentes. e e 20
  • 21. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Pourtant 2 V ar(η) V ar(η) V ar(η) 2 Rnominal =1− =1− ≥1− = Rr´el e V ar(T IN ) V ar(T IR + T IF ) V ar(T IR) aussi, on peut artificiellement augmenter un R2 , tout en ´tudiant un mod`le e e rigoureusement ´quivalent. e 15 10 5 0 1960 1970 1980 1990 2000 21
  • 22. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) De l’utilisation du R2 Les sorties montrent que les deux sorties sont effectivement ´quivalence entre les e deux mod`les e > summary(lm(TIR~TIF,data=D)) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.65040 0.44301 10.497 8.5e-14 *** TIF -0.29817 0.07211 -4.135 0.000149 *** > summary(lm(TIN~TIF,data=D)) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.65040 0.44301 10.497 8.50e-14 *** TIF 0.70183 0.07211 9.733 9.55e-13 *** 22
  • 23. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) De l’utilisation du R2 Mais surtout, on note que le R2 du premier mod`le est beaucoup plus faible que e le second > summary(lm(TIR~TIF,data=D)) Multiple R-Squared: 0.271, Adjusted R-squared: 0.2551 > summary(lm(TIN~TIF,data=D)) Multiple R-Squared: 0.6731, Adjusted R-squared: 0.666 23
  • 24. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e La fonction plot(REG) produit 6 graphiques de diagnostique 1. r´sidus contre valeurs estim´es, (Yi , εi ) (plot of residuals against fitted values) e e 2. (Yi , |εi |) (Scale-Location plot), 3. un graphique quantile-quantile des r´sidus (Normal Q-Q plot), e 4. un graphique de distances de Cook (plot of Cook’s distances versus row labels), 5. un graphique de leverage (plot of residuals against leverages) 6. (plot of Cook’s distances against leverage/(1-leverage)) Remarque dans la plupart des graphiques, on utilise les r´sidus standardis´s, e e i.e. ε/σ, centr´s et de variance unitaire. e 24
  • 25. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e > plot(predict(REG),residuals(REG)) > abline(h=0,lty=2,col="grey") > lines(lowess(predict(REG),residuals(REG)),col="red") > Residuals vs Fitted q q 40 q 23 49 q 40 q q 35 q q 20 q q 20 residuals(REG) q q q q Residuals q q q q q q q q q q q q q q q q q q q q q q q q q q q q 0 q q 0 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −20 q q q q q q −20 q q q q q 0 20 40 60 80 0 20 40 60 80 Fitted values predict(REG) lm(dist ~ speed) 25
  • 26. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e > s=summary(REG)$sigma > plot(qnorm((1:50)/51),sort(residuals(REG))/s) > abline(a=0,b=1,lty=2,col="grey") > lines(lowess(qnorm((1:50)/51),sort(residuals(REG))/s),col="red") Normal Q−Q q q 3 49 q q 23 q 2 q 35 2 q q Standardized residuals sort(residuals(REG))/s q q q 1 q qq qqqqq 1 q qqqqq q qqq qq qq qq q qq q qq qq 0 qq q qq 0 qq qq qq qq qq qq q qq qqq qq q qqq qq qq qqq qqq qq qq −1 −1 qq qq q q q q q q q q q q −2 −2 −2 −1 0 1 2 −2 −1 0 1 2 Theoretical Quantiles qnorm((1:50)/51) lm(dist ~ speed) 26
  • 27. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e > plot(predict(REG),sqrt(abs(residuals(REG))/s)) > abline(h=mean(sqrt(abs(residuals(REG))/s)),lty=2,col="grey") > lines(lowess(predict(REG),sqrt(abs(residuals(REG))/s)),col="red") > Scale−Location 49 q q q q 23 1.5 1.5 q 35 q q q sqrt(abs(residuals(REG))/s) q Standardized residuals q q q q q q q q q q q 1.0 q q q q q 1.0 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 0.5 q q q q q q q q q q 0.5 q q q q q q q q q q q q q q q q q 0.0 q 0 20 40 60 80 0 20 40 60 80 Fitted values predict(REG) lm(dist ~ speed) 27
  • 28. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e > library(car) > plot(cooks.distance(REG)) > > Cook's distance 0.35 q 49 0.30 0.3 0.25 cooks.distance(REG) Cook's distance 0.20 0.2 0.15 0.10 0.1 23 q 39 q 0.05 q q q q q q q q q q q q qqq q q 0.00 q q q q qq q q q q q q qq q q q q qq qq q 0.0 q qq q qq q 0 10 20 30 40 50 0 10 20 30 40 50 Obs. number Index lm(dist ~ speed) 28
  • 29. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e > X=cbind(1,cars$speed); L=diag(X%*%solve(t(X)%*%X)%*%t(X)) > plot(L,residuals(REG)/s) > abline(h=0,lty=2,col="grey") > lines(lowess(L,residuals(REG)/s),col="red") Residuals vs Leverage q q 3 49 q q 23 0.5 q 2 q 2 q q Standardized residuals q q residuals(REG)/s q 1 q q q 1 q q q q q q q q q q q q q q q q q q q qq q q qq qq q qq 0 0 q q q q q q q q q q q qq q q q q q qq q q qq q q q q q q q q q q q q q q −1 q q q q q −1 q q q q q q q q q q 39 −2 Cook's distance q −2 0.00 0.02 0.04 0.06 0.08 0.10 0.02 0.04 0.06 0.08 0.10 Leverage L lm(dist ~ speed) 29
  • 30. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e > plot(L,cooks.distance(REG)) > lines(lowess(L,cooks.distance(REG)),col="red") > > Cook's distance vs Leverage 0.35 0.35 3 2.5 2 q 49 q 0.30 0.30 1.5 0.25 0.25 cooks.distance(REG) Cook's distance 0.20 0.20 0.15 0.15 1 0.10 0.10 q 23 q q 39 q 0.05 0.05 q q q q q q q q q q q q q 0.5 q q q q qq q q q qqq q qq q qq q q q 0.00 0.00 qqq q q q q q q qq q q q q q qq q q qq q q qq q q q q q q q q q q q q 0 qq q q q q q q q q q 0.02 0.04 0.06 0.08 0.1 0.02 0.04 0.06 0.08 0.10 Leverage L lm(dist ~ speed) 30
  • 31. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Les points atypiques et influents La notion d’outliers ou de points ab´rants. e La distance de Cook mesure l’impact sur la r´gression de l’absence d’une e observation. Aussi n ˆ ˆ j=1 (Yj − Yj(i) )2 Ci = p · M SE ou encore, ε2 i hii Ci = p · M SE (1 − hii )2 −1 o` hi,i est l´l´ment diagonale de la matrice H = X (X X) X (que l’on notera u ee parfois hi ). Les hi = [X(X X)−1 X]i,i = Hi,i sont appel´s (leverage). e 31
  • 32. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Le vecteur des leverages h = (h1 , · · · , hn ) est obtenu ais´ment sous R, e > diag(X%*%solve(t(X)%*%X)%*%t(X))[1:6] [1] 0.11486131 0.11486131 0.07150365 0.07150365 0.05997080 0.04989781 > influence(REG)[1:6] $hat 1 2 3 4 5 6 0.11486131 0.11486131 0.07150365 0.07150365 0.05997080 0.04989781 Les hypoth`ses sont que E(εi ) = 0 et V ar(εi ) = σ 2 . En r´alit´, E(εi ) = 0 mais e e e V ar(εi ) = [I − H]i,i σ 2 = σ 2 Notons que puisque Y = HY + ε, ε = Y − Y = [I − H]Y = [I − H](Xβ + ε) = [I − H]ε, et donc V ar(ε) = V ar([I − H]ε) = [I − H]σ 2 . Aussi, V ar(εi ) = [1 − hi ]σ 2 . Les r´sidus Studentis´s sont les e e ε εi = √ . σ 1 − hi 32
  • 33. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Notons que Var(εi ) = 1. > diag(X%*%solve(t(X)%*%X)%*%t(X)) > rstudent(REG)[1:6] 1 2 3 4 5 6 0.26345000 0.81607841 -0.39781154 0.81035256 0.14070334 -0.51716052 > mean(rstudent(REG)) [1] 0.01347908 > sd(rstudent(REG)) [1] 1.045681 Sur la matrice de leverage (matrice de projection orthogonale), notons que Yi = HY = hi,i Yi + hi,j Yj . j=i Aussi, hi,i est le poids accord´ ` Yi pour sa propre pr´diction. ea e • si hi,i = 1, Yi est uniquement d´termin´ par Yi (hi,j = 0 pour j = i), e e • si hi,i = 0, Yi est n’est nullement influenc´ par Yi . e 33
  • 34. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) On parelera de point levier i si hi,i est trop grand, i.e. • si hi,i > 2k/n, d’apr`s Hoaglin & Welsch (1978), e • si hi,i > 3k/n pour k > 6 et n − k > 12, d’apr`s Welleman & Welsch (1981), e • si hi,i > 1/2, d’apr`s Huber (1981). e Cette m´thode permet de d´tecter des points atypiques, ou plutˆts des points e e o influents. Afin de mesurer l’impact d’une observation sur la r´gression, il peut aussi ˆtre e e utile de regarder les r´sultats de la r´gression si l’on supprime une des e e observations. Apr`s suppression de la i`me observation, les estimateurs des moindres carr´s e e e s’´crivent e εi β (i) = β − (X X)−1 X i · 1 − hi,i 2 1 ε2 i 2 σ(i) = (n − k)σ n−k−1 1 − hi,i 34
  • 35. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) > i=25 > REGi=lm(dist~speed,data=cars[-i,]) > plot(cars); points(cars[i,],col="red",pch=19) > abline(REG,lty=2); abline(REGi,lwd=2,col="red") 120 q 100 q q q q 80 q q q q q q dist 60 q q q q q q q q q q q 40 q q q q q q q q q q q q q q q q q 20 q q q q q q q q q q 0 5 10 15 20 25 speed 35
  • 36. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) > i=23 > REGi=lm(dist~speed,data=cars[-i,]) > plot(cars); points(cars[i,],col="red",pch=19) > abline(REG,lty=2); abline(REGi,lwd=2,col="red") 120 q 100 q q q q 80 q q q q q q dist 60 q q q q q q q q q q q 40 q q q q q q q q q q q q q q q q q 20 q q q q q q q q q q 0 5 10 15 20 25 speed 36
  • 37. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) > i=49 > REGi=lm(dist~speed,data=cars[-i,]) > plot(cars); points(cars[i,],col="red",pch=19) > abline(REG,lty=2); abline(REGi,lwd=2,col="red") 120 q 100 q q q q 80 q q q q q q dist 60 q q q q q q q q q q q 40 q q q q q q q q q q q q q q q q q 20 q q q q q q q q q q 0 5 10 15 20 25 speed Remarque Beaucoup d’autres distances, bas´es sur la fonction d’influence, ont e ´t´ propos´es ee e (β − β (i) ) X X(β − β (i) ) Cook :Ci = kσ 2 37
  • 38. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) |X i (β − β (i) )| Welsh-Kuh :W Ki = 2 σ(i) hi,i n−1 Welsh :Wi = W Ki 1 − hi,i vraisemblance :LDi = 2 L(β, σ 2 ) − L β (i) , σ(i) 2 Remarque : les points aberrants ont des valeurs de Y aberrantes, mais on pourrait aussi vouloir tester une ab´ration en X. e 38
  • 39. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Analyse graphique des r´sidus, example e Pour illustrer, consid´rons les d´penses dans les ´coles publiques, par ´tat (aux e e e e U.S.A.) > library(sandwich) > data(PublicSchools) > > tail(PublicSchools) Expenditure Income Virginia 356 7624 Washington 415 8450 Washington DC 428 10022 West Virginia 320 6456 Wisconsin NA 7597 Wyoming 500 9096 39
  • 40. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Analyse graphique des r´sidus, example e > plot(PublicSchools$Income,PublicSchools$Expenditure) > id=c(2,49) > text(PublicSchools$Income[id],PublicSchools$Expenditure[id], + rownames(PublicSchools)[id],pos=1) q q 800 Alaska 200 700 150 Dépenses écoles publiques Résidus de la régression q 100 600 q q q q 50 q q q q 500 q q q q q q q q q q q q q q q q q q q q 0 q q q q q q q q q q q q q q q q qq 400 q q q Washington DC q q q q q q q −50 qq q q q qq q q q q q q q qq qq q q q q q qq q q q 300 q q −100 q qq qq q q q q q q 6000 7000 8000 9000 10000 11000 6000 7000 8000 9000 10000 11000 Revenu (par tête) Revenu 40