`         ´Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                                 Mod`les de...
`         ´    Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                                       ...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)        Petit rappel sur la significativit´...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Les deux lectures possibles d’un test• don...
`         ´Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                               Lecture du t...
`         ´Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                               Lecture du t...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                         Analyse d’une sor...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)La p value est alors donn´e par           ...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)> vcov(reg)            (Intercept)      sp...
`         ´    Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)    Introduction aux tests multiples, e...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Coefficients:Estimate Std. Error t value P...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Ce test peut s’´crire de mani`re tr`s g´n´...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)et le mod`le non-contraint (sous H1 ),    ...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)pour β = β . On a finallement un syst`me de...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)qui doit suivre une loi de Fisher, F(dim(q...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)> library(car)> linearHypothesis(model1,+ ...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                          Diagnostique et ...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                          Diagnostique et ...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Afin de prendre en compte le nombre de para...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                                      De l...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Pourtant  2                 V ar(η)       ...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                                      De l...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                                      De l...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                      Diagnostique dans le...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                                      Diag...
`         ´    Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                                       ...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                                          ...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                                     Diagn...
`         ´    Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                                       ...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                                      Diag...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                          Les points atypi...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Le vecteur des leverages h = (h1 , · · · ,...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Notons que Var(εi ) = 1.> diag(X%*%solve(t...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)On parelera de point levier i si hi,i est ...
`         ´    Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)>   i=25>   REGi=lm(dist~speed,data=car...
`         ´    Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)>   i=23>   REGi=lm(dist~speed,data=car...
`         ´    Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)>   i=49>   REGi=lm(dist~speed,data=car...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                                          ...
`         ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                   Analyse graphique des r...
`         ´    Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)                                       ...
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Slides6420 h2012 02
Prochain SlideShare
Chargement dans…5
×

Slides6420 h2012 02

7 361 vues

Publié le

0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
7 361
Sur SlideShare
0
Issues des intégrations
0
Intégrations
6 336
Actions
Partages
0
Téléchargements
42
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Slides6420 h2012 02

  1. 1. ` ´Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Mod`les de pr´vision e e Partie 1 - r´gression e Arthur Charpentier charpentier.arthur@uqam.ca http ://freakonometrics.blog.free.fr/ Automne 2012 1
  2. 2. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Plan du cours• Motivation et introduction aux mod`les de r´gression e e• Le mod`le lin´aire simple e e◦ R´sultats g´n´raux e e e◦ Approche matricielle• Le mod`le lin´aire multiple e e◦ R´sultats g´n´raux e e e◦ Tests, choix de mod`le, diagnostique e• Aller plus loin◦ Les mod`les non lin´aires param´triques e e e◦ Les mod`les non lin´aires nonparam´triques e e e 2
  3. 3. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Petit rappel sur la significativit´, test de H0 : βj = 0 eLes r´sultats pr´c´dants permettent de proposer un test simple de e e e H0 : βj = 0 contre l’hypoth`se H1 : βj = 0. eLa statistique de test βj Tj = ∼ St(n − k) sous H0 . V ar(βj )Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) -17.5791 6.7584 -2.601 0.0123 *speed 3.9324 0.4155 9.464 1.49e-12 *** 3
  4. 4. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Les deux lectures possibles d’un test• donner la region de rejet, de la forme [±T1−α/2 ], avec un seuil α fix´ e arbitrairement ( par d´ faut 95%)• donner le seuil α tel que la r´gion de rejet soit [±t] (la plus petite region de e rejet ` laquelle appartienne la statistique observ´e), i.e. la probabilit´ que de a e e rejeter H0 si H0 ´tait vraie. eDans ce dernier cas, on parle de p-value, p = P(rejeter H0 |H0 vraie) : si p estfaible, on rejette H0 , car il y a peu de chances qu’H0 soit vraie. 4
  5. 5. ` ´Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Lecture du test de Student Region de rejet du test de Student 0.4 REJET ACCEPTATION REJET 0.3 DE H0 DE H0 DE H0 0.2 0.1 Aire totale = 5% 0.0 −6 −4 −2 0 2 4 6 5
  6. 6. ` ´Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Lecture du test de Student p−value associée à un test de Student 0.4 0.3 0.2 0.1 Aire totale = 1,23% 0.0 −6 −4 −2 0 2 4 6 6
  7. 7. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Analyse d’une sortie de r´gression eDes tests de student de H0 : βi = 0, contre H1 : βi = 0 sont propos´s, avec e β0 − β0 −17.5791 − 0 t0 = = = −2.601 sousH0 6.7584 V ar(β0 ) β1 − β1 3.9324 − 0 t1 = = = 9.464 sousH0 0.4155 V ar(β0 )Ces valeurs sont ` comparer avec le quantile de Student ` 95% (` 49 degr´s de a a a elibert´). eUne alternative est d’utiliser la p-value, i.e. si Z ∼ St(49), p0 = P(|Z| > t0 ) = 0.0123 et p1 = P(|Z| > t1 ) = 1.49 × 10−12 . 7
  8. 8. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)La p value est alors donn´e par e> 2*(1-pt(abs(REG$coefficients[1]/summary(REG)$coefficients[1,2]), df=n-2))(Intercept) 0.01231882σ = 15.38, i.e. summary(reg)$sigma> confint(reg) 2.5 % 97.5 %(Intercept) -31.167850 -3.990340speed 3.096964 4.767853Pour la constante, par exemple, l’intervalle de confiance est donn´ par e> REG$coefficients[1]+qt(c(.025,.975),n-2)* summary(REG)$coefficients[1,2][1] -31.16785 -3.99034La matrice de variance-covariance des coefficients, Var(β) est ici 8
  9. 9. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)> vcov(reg) (Intercept) speed(Intercept) 45.676514 -2.6588234speed -2.658823 0.1726509 9
  10. 10. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Introduction aux tests multiples, e.g. H0 : β1 = · · · = βj = 0On a vu comment tester H0 : β2 = 0 et H0 : β3 = 0, mais ces deux tests peuventˆtre valid´, sans pour autant avoir H0 : β2 = β3 = 0.e e> US=read.table("http://freakonometrics.free.fr/US.txt",+ header=TRUE,sep=";")> US$Density=US$Population/US$Area> model1 = lm(Murder ~ Income + HS.Grad + Frost ++ Population + Illiteracy + Life.Exp ++ Area + Density, data=US)> summary(model1)Call:lm(formula = Murder ~ Income + HS.Grad + Frost + Population +Illiteracy + Life.Exp + Area + Density, data = US)Residuals:Min 1Q Median 3Q Max-3.10973 -0.92363 -0.07636 0.74884 2.92362 10
  11. 11. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 1.121e+02 1.684e+01 6.657 5.04e-08 ***Income 1.018e-03 6.642e-04 1.532 0.133084HS.Grad 1.318e-02 5.315e-02 0.248 0.805412Frost -7.301e-03 7.074e-03 -1.032 0.308040Population 2.180e-04 6.051e-05 3.602 0.000845 ***Illiteracy 2.208e+00 8.184e-01 2.699 0.010068 *Life.Exp -1.579e+00 2.374e-01 -6.652 5.12e-08 ***Area -9.413e-07 4.228e-06 -0.223 0.824911Density -4.369e+00 1.499e+00 -2.915 0.005740 **---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1Residual standard error: 1.608 on 41 degrees of freedomMultiple R-squared: 0.8412, Adjusted R-squared: 0.8102F-statistic: 27.14 on 8 and 41 DF, p-value: 4.813e-14Sur cette exemple, on valide les tests H0 : β1 = 0, H0 : β2 = 0 et H0 : β3 = 0.Mais peut-on valider H0 : β1 = β2 = β3 = 0 ? 11
  12. 12. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Ce test peut s’´crire de mani`re tr`s g´n´rale H0 : Rβ = q (contre H1 : Rβ = q) e e e e eavec ici   β0   β   1      0 1 0 0 0 · · · 0  β2    0      0 0 1 0 0 · · · 0 β3  = 0        0 0 0 1 0 · · · 0  β4    0 . . R . 0 βk βLa strat´gie est de comparer deux mod`les : le mod`le non-contraint (sous H1 ), e e e β = argmin{(Y − Xβ) (Y − Xβ), β ∈ Rk+1 } 12
  13. 13. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)et le mod`le non-contraint (sous H1 ), e β = argmin{(Y − Xβ) (Y − Xβ), β ∈ Rk+1 , Rβ = q}Pour le premier mod`le, on cherche ` minimiser e a h(β) = (Y − Xβ) (Y − Xβ)et dans le second mod`le, c’est de la minimisation sous-contrainte. On optimise le eLagrangien, (β, λ) = (Y − Xβ) (Y − Xβ) + λ(Rβ − q)Dans ce cas, les conditions du premier ordre sont ∂ (β, λ) = 2X (Y − Xβ) + R λ = 0 ∂βet ∂ (β, λ) = Rβ − q = 0, ∂λ 13
  14. 14. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)pour β = β . On a finallement un syst`me de deux (syst`mes d’) ´quations e e e      XX R β XY    =   R 0 λ qComme β = (X X)−1 X Y , on peut ´crire e β = β − C[Rβ − q]o` u C = (X X)−1 R [R(X X)−1 R ]−1 .Si on pose ε = Y − X β et ε = Y − X β, alors ε ε − ε ε = [Rβ − q] (R(X X)−1 R )[Rβ − q]Or d’apr`s la seconde condition du premier ordre, Rβ = q. Donc sous H0 , la estatistique de test est ε ε −εε n−k F = · dim(q) εε 14
  15. 15. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)qui doit suivre une loi de Fisher, F(dim(q), n − k).> (EE=sum(residuals(model1)^2))[1] 106.0532> model2 = lm(Murder ~+ Population + Illiteracy + Life.Exp ++ Area + Density, data=US)> (EEc=sum(residuals(model2)^2))[1] 119.6924> (F=(EEc-EE)/3*(nrow(US)-9)/(EE))[1] 1.757643> 1-pf(F,3,nrow(US)-9)[1] 0.170363Pour savoir si on rejette, ou si on accepte H0 , on calcule la p-value,> 1-pf(F,3,nrow(US)-9)[1] 0.170363i.e. on peut accepter ici H0 (les trois coefficients sont nuls simultan´ment). eCette analyse de variance peut se faire via 15
  16. 16. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)> library(car)> linearHypothesis(model1,+ c("Income","HS.Grad","Frost"),c(0,0,0))Linear hypothesis testHypothesis:Income = 0HS.Grad = 0Frost = 0Model 1: restricted modelModel 2: Murder ~ Income + HS.Grad + Frost +Population + Illiteracy + Life.Exp + Area + DensityRes.Df RSS Df Sum of Sq F Pr(>F)1 44 119.692 41 106.05 3 13.639 1.7576 0.1704 16
  17. 17. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique et r´gression, le R2 eLe coefficient de d´termination R2 d´fini ` partir le rapport entre la variance des e e ar´sidus et la variance de Y , e 2 Variance non expliqu´e e Variance expliqu´e e R =1− = . Variance totale Variance totaleou pour la version empirique n 2 Yi − Yi somme des carr´s des r´sidus e e i=1 R2 = 1 − =1− n somme des carr´s de la r´gression e e 2 Yi − Y i=1 17
  18. 18. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique et r´gression, le R2 eOn utilise pour cela la formule de d´composition de la variance e V ar(Y ) = V ar[E(Y |X)] + E[V ar(Y |X)] . variance totale variance expliqu´e par X e variance r´isudelle eOn notera que cette grandeur est un estimateur bais´ du vrai R2 , e 2 k−1 2 1 E(R ) = R + [1 − R2 ] + O n−1 n2 2Le coefficient d’ajustement est R2 = 0.6511 et R = 0.6438.> summary(reg)$r.squared[1] 0.6510794Le calcul se fait de la mani`re suivante e> 1-deviance(REG)/sum((Y-mean(Y))^2)[1] 0.6510794 18
  19. 19. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Afin de prendre en compte le nombre de param`tre, et de corriger du biais, on epeut utiliser le R2 ajust´, e 2 n−1 (n − 1)R2 − (k − 1) R = 1 − (1 − R2 ) = n − (k − 1) − 1 n−k−2o` (k − 1) est le nombre de variables explicatives (sans la constante). Notons que u 2ce R peut ˆtre n´gatif. e eRemarque En rajoutant des variables explicatives, on ne peut que augmenter leR2 , mais si ces derni`res sont peu corr´l´es avec Y . e eeRemarque Dans un mod`le sans constante, le R2 n’a plus aucun sens. En fait, esans constante, rien ne garantit que le plan de r´gression passe par le centre de egravit´ du nuage, (x, y). Et donc la somme des r´sidus n’est alors pas forc´ment e e enulle. La formule de d´composition de la variance n’est alors plus valide. e 19
  20. 20. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) De l’utilisation du R2Consid´rons une r´gression lin´aire e e e T INt = β0 + β1 T IFt + εt ,o` T IN d´signe le taux d’int´rˆ nomial, T IF le taux d’inflation et T IR le taux u e etd’int´rˆt r´el, i.e. T IN = T IR + T IF . Au lieu de mod´liser le taux d’int´rˆt ee e e eenominal en fonction de l’inflation, supposons que l’on cherche ` mod´liser le taux a ed’int´rˆt r´el, ee e T IRt = α0 + α1 T IFt + ηt .Notons que de la premi`re ´quation T INt = β0 + β1 T IFt + εt = T IRt + T IFt , on e een d´duit e T IRt = β0 + [β1 − 1] T IFt + εt , =α0 =β0 =ηtautrement dit les deux ´quations sont ´quivalentes. e e 20
  21. 21. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Pourtant 2 V ar(η) V ar(η) V ar(η) 2 Rnominal =1− =1− ≥1− = Rr´el e V ar(T IN ) V ar(T IR + T IF ) V ar(T IR)aussi, on peut artificiellement augmenter un R2 , tout en ´tudiant un mod`le e erigoureusement ´quivalent. e 15 10 5 0 1960 1970 1980 1990 2000 21
  22. 22. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) De l’utilisation du R2Les sorties montrent que les deux sorties sont effectivement ´quivalence entre les edeux mod`les e> summary(lm(TIR~TIF,data=D))Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 4.65040 0.44301 10.497 8.5e-14 ***TIF -0.29817 0.07211 -4.135 0.000149 ***> summary(lm(TIN~TIF,data=D))Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 4.65040 0.44301 10.497 8.50e-14 ***TIF 0.70183 0.07211 9.733 9.55e-13 *** 22
  23. 23. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) De l’utilisation du R2Mais surtout, on note que le R2 du premier mod`le est beaucoup plus faible que ele second> summary(lm(TIR~TIF,data=D))Multiple R-Squared: 0.271, Adjusted R-squared: 0.2551> summary(lm(TIN~TIF,data=D))Multiple R-Squared: 0.6731, Adjusted R-squared: 0.666 23
  24. 24. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e eLa fonction plot(REG) produit 6 graphiques de diagnostique 1. r´sidus contre valeurs estim´es, (Yi , εi ) (plot of residuals against fitted values) e e 2. (Yi , |εi |) (Scale-Location plot), 3. un graphique quantile-quantile des r´sidus (Normal Q-Q plot), e 4. un graphique de distances de Cook (plot of Cook’s distances versus row labels), 5. un graphique de leverage (plot of residuals against leverages) 6. (plot of Cook’s distances against leverage/(1-leverage))Remarque dans la plupart des graphiques, on utilise les r´sidus standardis´s, e ei.e. ε/σ, centr´s et de variance unitaire. e 24
  25. 25. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e> plot(predict(REG),residuals(REG))> abline(h=0,lty=2,col="grey")> lines(lowess(predict(REG),residuals(REG)),col="red")> Residuals vs Fitted q q 40 q 23 49 q 40 q q 35 q q 20 q q 20 residuals(REG) q q q q Residuals q q q q q q q q q q q q q q q q q q q q q q q q q q q q 0 q q 0 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −20 q q q q q q −20 q q q q q 0 20 40 60 80 0 20 40 60 80 Fitted values predict(REG) lm(dist ~ speed) 25
  26. 26. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e> s=summary(REG)$sigma> plot(qnorm((1:50)/51),sort(residuals(REG))/s)> abline(a=0,b=1,lty=2,col="grey")> lines(lowess(qnorm((1:50)/51),sort(residuals(REG))/s),col="red") Normal Q−Q q q 3 49 q q 23 q 2 q 35 2 q q Standardized residuals sort(residuals(REG))/s q q q 1 q qq qqqqq 1 q qqqqq q qqq qq qq qq q qq q qq qq 0 qq q qq 0 qq qq qq qq qq qq q qq qqq qq q qqq qq qq qqq qqq qq qq −1 −1 qq qq q q q q q q q q q q −2 −2 −2 −1 0 1 2 −2 −1 0 1 2 Theoretical Quantiles qnorm((1:50)/51) lm(dist ~ speed) 26
  27. 27. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e> plot(predict(REG),sqrt(abs(residuals(REG))/s))> abline(h=mean(sqrt(abs(residuals(REG))/s)),lty=2,col="grey")> lines(lowess(predict(REG),sqrt(abs(residuals(REG))/s)),col="red")> Scale−Location 49 q q q q 23 1.5 1.5 q 35 q q q sqrt(abs(residuals(REG))/s) q Standardized residuals q q q q q q q q q q q 1.0 q q q q q 1.0 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 0.5 q q q q q q q q q q 0.5 q q q q q q q q q q q q q q q q q 0.0 q 0 20 40 60 80 0 20 40 60 80 Fitted values predict(REG) lm(dist ~ speed) 27
  28. 28. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e> library(car)> plot(cooks.distance(REG))>> Cooks distance 0.35 q 49 0.30 0.3 0.25 cooks.distance(REG) Cooks distance 0.20 0.2 0.15 0.10 0.1 23 q 39 q 0.05 q q q q q q q q q q q q qqq q q 0.00 q q q q qq q q q q q q qq q q q q qq qq q 0.0 q qq q qq q 0 10 20 30 40 50 0 10 20 30 40 50 Obs. number Index lm(dist ~ speed) 28
  29. 29. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e> X=cbind(1,cars$speed); L=diag(X%*%solve(t(X)%*%X)%*%t(X))> plot(L,residuals(REG)/s)> abline(h=0,lty=2,col="grey")> lines(lowess(L,residuals(REG)/s),col="red") Residuals vs Leverage q q 3 49 q q 23 0.5 q 2 q 2 q q Standardized residuals q q residuals(REG)/s q 1 q q q 1 q q q q q q q q q q q q q q q q q q q qq q q qq qq q qq 0 0 q q q q q q q q q q q qq q q q q q qq q q qq q q q q q q q q q q q q q q −1 q q q q q −1 q q q q q q q q q q 39 −2 Cooks distance q −2 0.00 0.02 0.04 0.06 0.08 0.10 0.02 0.04 0.06 0.08 0.10 Leverage L lm(dist ~ speed) 29
  30. 30. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e> plot(L,cooks.distance(REG))> lines(lowess(L,cooks.distance(REG)),col="red")>> Cooks distance vs Leverage 0.35 0.35 3 2.5 2 q 49 q 0.30 0.30 1.5 0.25 0.25 cooks.distance(REG) Cooks distance 0.20 0.20 0.15 0.15 1 0.10 0.10 q 23 q q 39 q 0.05 0.05 q q q q q q q q q q q q q 0.5 q q q q qq q q q qqq q qq q qq q q q 0.00 0.00 qqq q q q q q q qq q q q q q qq q q qq q q qq q q q q q q q q q q q q 0 qq q q q q q q q q q 0.02 0.04 0.06 0.08 0.1 0.02 0.04 0.06 0.08 0.10 Leverage L lm(dist ~ speed) 30
  31. 31. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Les points atypiques et influentsLa notion d’outliers ou de points ab´rants. eLa distance de Cook mesure l’impact sur la r´gression de l’absence d’une eobservation. Aussi n ˆ ˆ j=1 (Yj − Yj(i) )2 Ci = p · M SEou encore, ε2 i hii Ci = p · M SE (1 − hii )2 −1o` hi,i est l´l´ment diagonale de la matrice H = X (X X) X (que l’on notera u eeparfois hi ). Les hi = [X(X X)−1 X]i,i = Hi,i sont appel´s (leverage). e 31
  32. 32. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Le vecteur des leverages h = (h1 , · · · , hn ) est obtenu ais´ment sous R, e> diag(X%*%solve(t(X)%*%X)%*%t(X))[1:6] [1] 0.11486131 0.11486131 0.07150365 0.07150365 0.05997080 0.04989781 > influence(REG)[1:6]$hat 1 2 3 4 5 60.11486131 0.11486131 0.07150365 0.07150365 0.05997080 0.04989781Les hypoth`ses sont que E(εi ) = 0 et V ar(εi ) = σ 2 . En r´alit´, E(εi ) = 0 mais e e eV ar(εi ) = [I − H]i,i σ 2 = σ 2Notons que puisque Y = HY + ε, ε = Y − Y = [I − H]Y = [I − H](Xβ + ε) = [I − H]ε,et donc V ar(ε) = V ar([I − H]ε) = [I − H]σ 2 . Aussi, V ar(εi ) = [1 − hi ]σ 2 .Les r´sidus Studentis´s sont les e e ε εi = √ . σ 1 − hi 32
  33. 33. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Notons que Var(εi ) = 1.> diag(X%*%solve(t(X)%*%X)%*%t(X))> rstudent(REG)[1:6] 1 2 3 4 5 6 0.26345000 0.81607841 -0.39781154 0.81035256 0.14070334 -0.51716052> mean(rstudent(REG))[1] 0.01347908> sd(rstudent(REG))[1] 1.045681Sur la matrice de leverage (matrice de projection orthogonale), notons que Yi = HY = hi,i Yi + hi,j Yj . j=iAussi, hi,i est le poids accord´ ` Yi pour sa propre pr´diction. ea e• si hi,i = 1, Yi est uniquement d´termin´ par Yi (hi,j = 0 pour j = i), e e• si hi,i = 0, Yi est n’est nullement influenc´ par Yi . e 33
  34. 34. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)On parelera de point levier i si hi,i est trop grand, i.e.• si hi,i > 2k/n, d’apr`s Hoaglin & Welsch (1978), e• si hi,i > 3k/n pour k > 6 et n − k > 12, d’apr`s Welleman & Welsch (1981), e• si hi,i > 1/2, d’apr`s Huber (1981). eCette m´thode permet de d´tecter des points atypiques, ou plutˆts des points e e oinfluents.Afin de mesurer l’impact d’une observation sur la r´gression, il peut aussi ˆtre e eutile de regarder les r´sultats de la r´gression si l’on supprime une des e eobservations.Apr`s suppression de la i`me observation, les estimateurs des moindres carr´s e e es’´crivent e εi β (i) = β − (X X)−1 X i · 1 − hi,i 2 1 ε2 i 2 σ(i) = (n − k)σ n−k−1 1 − hi,i 34
  35. 35. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)> i=25> REGi=lm(dist~speed,data=cars[-i,])> plot(cars); points(cars[i,],col="red",pch=19)> abline(REG,lty=2); abline(REGi,lwd=2,col="red") 120 q 100 q q q q 80 q q q q q q dist 60 q q q q q q q q q q q 40 q q q q q q q q q q q q q q q q q 20 q q q q q q q q q q 0 5 10 15 20 25 speed 35
  36. 36. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)> i=23> REGi=lm(dist~speed,data=cars[-i,])> plot(cars); points(cars[i,],col="red",pch=19)> abline(REG,lty=2); abline(REGi,lwd=2,col="red") 120 q 100 q q q q 80 q q q q q q dist 60 q q q q q q q q q q q 40 q q q q q q q q q q q q q q q q q 20 q q q q q q q q q q 0 5 10 15 20 25 speed 36
  37. 37. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)> i=49> REGi=lm(dist~speed,data=cars[-i,])> plot(cars); points(cars[i,],col="red",pch=19)> abline(REG,lty=2); abline(REGi,lwd=2,col="red") 120 q 100 q q q q 80 q q q q q q dist 60 q q q q q q q q q q q 40 q q q q q q q q q q q q q q q q q 20 q q q q q q q q q q 0 5 10 15 20 25 speedRemarque Beaucoup d’autres distances, bas´es sur la fonction d’influence, ont e´t´ propos´esee e (β − β (i) ) X X(β − β (i) ) Cook :Ci = kσ 2 37
  38. 38. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) |X i (β − β (i) )| Welsh-Kuh :W Ki = 2 σ(i) hi,i n−1 Welsh :Wi = W Ki 1 − hi,i vraisemblance :LDi = 2 L(β, σ 2 ) − L β (i) , σ(i) 2Remarque : les points aberrants ont des valeurs de Y aberrantes, mais onpourrait aussi vouloir tester une ab´ration en X. e 38
  39. 39. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Analyse graphique des r´sidus, example ePour illustrer, consid´rons les d´penses dans les ´coles publiques, par ´tat (aux e e e eU.S.A.)> library(sandwich)> data(PublicSchools)>> tail(PublicSchools) Expenditure IncomeVirginia 356 7624Washington 415 8450Washington DC 428 10022West Virginia 320 6456Wisconsin NA 7597Wyoming 500 9096 39
  40. 40. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Analyse graphique des r´sidus, example e> plot(PublicSchools$Income,PublicSchools$Expenditure)> id=c(2,49)> text(PublicSchools$Income[id],PublicSchools$Expenditure[id],+ rownames(PublicSchools)[id],pos=1) q q 800 Alaska 200 700 150 Dépenses écoles publiques Résidus de la régression q 100 600 q q q q 50 q q q q 500 q q q q q q q q q q q q q q q q q q q q 0 q q q q q q q q q q q q q q q q qq 400 q q q Washington DC q q q q q q q −50 qq q q q qq q q q q q q q qq qq q q q q q qq q q q 300 q q −100 q qq qq q q q q q q 6000 7000 8000 9000 10000 11000 6000 7000 8000 9000 10000 11000 Revenu (par tête) Revenu 40

×