Slides6420 h2012 02

7 611 vues

Publié le

0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
7 611
Sur SlideShare
0
Issues des intégrations
0
Intégrations
6 336
Actions
Partages
0
Téléchargements
46
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Slides6420 h2012 02

  1. 1. ` ´Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Mod`les de pr´vision e e Partie 1 - r´gression e Arthur Charpentier charpentier.arthur@uqam.ca http ://freakonometrics.blog.free.fr/ Automne 2012 1
  2. 2. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Plan du cours• Motivation et introduction aux mod`les de r´gression e e• Le mod`le lin´aire simple e e◦ R´sultats g´n´raux e e e◦ Approche matricielle• Le mod`le lin´aire multiple e e◦ R´sultats g´n´raux e e e◦ Tests, choix de mod`le, diagnostique e• Aller plus loin◦ Les mod`les non lin´aires param´triques e e e◦ Les mod`les non lin´aires nonparam´triques e e e 2
  3. 3. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Petit rappel sur la significativit´, test de H0 : βj = 0 eLes r´sultats pr´c´dants permettent de proposer un test simple de e e e H0 : βj = 0 contre l’hypoth`se H1 : βj = 0. eLa statistique de test βj Tj = ∼ St(n − k) sous H0 . V ar(βj )Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) -17.5791 6.7584 -2.601 0.0123 *speed 3.9324 0.4155 9.464 1.49e-12 *** 3
  4. 4. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Les deux lectures possibles d’un test• donner la region de rejet, de la forme [±T1−α/2 ], avec un seuil α fix´ e arbitrairement ( par d´ faut 95%)• donner le seuil α tel que la r´gion de rejet soit [±t] (la plus petite region de e rejet ` laquelle appartienne la statistique observ´e), i.e. la probabilit´ que de a e e rejeter H0 si H0 ´tait vraie. eDans ce dernier cas, on parle de p-value, p = P(rejeter H0 |H0 vraie) : si p estfaible, on rejette H0 , car il y a peu de chances qu’H0 soit vraie. 4
  5. 5. ` ´Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Lecture du test de Student Region de rejet du test de Student 0.4 REJET ACCEPTATION REJET 0.3 DE H0 DE H0 DE H0 0.2 0.1 Aire totale = 5% 0.0 −6 −4 −2 0 2 4 6 5
  6. 6. ` ´Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Lecture du test de Student p−value associée à un test de Student 0.4 0.3 0.2 0.1 Aire totale = 1,23% 0.0 −6 −4 −2 0 2 4 6 6
  7. 7. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Analyse d’une sortie de r´gression eDes tests de student de H0 : βi = 0, contre H1 : βi = 0 sont propos´s, avec e β0 − β0 −17.5791 − 0 t0 = = = −2.601 sousH0 6.7584 V ar(β0 ) β1 − β1 3.9324 − 0 t1 = = = 9.464 sousH0 0.4155 V ar(β0 )Ces valeurs sont ` comparer avec le quantile de Student ` 95% (` 49 degr´s de a a a elibert´). eUne alternative est d’utiliser la p-value, i.e. si Z ∼ St(49), p0 = P(|Z| > t0 ) = 0.0123 et p1 = P(|Z| > t1 ) = 1.49 × 10−12 . 7
  8. 8. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)La p value est alors donn´e par e> 2*(1-pt(abs(REG$coefficients[1]/summary(REG)$coefficients[1,2]), df=n-2))(Intercept) 0.01231882σ = 15.38, i.e. summary(reg)$sigma> confint(reg) 2.5 % 97.5 %(Intercept) -31.167850 -3.990340speed 3.096964 4.767853Pour la constante, par exemple, l’intervalle de confiance est donn´ par e> REG$coefficients[1]+qt(c(.025,.975),n-2)* summary(REG)$coefficients[1,2][1] -31.16785 -3.99034La matrice de variance-covariance des coefficients, Var(β) est ici 8
  9. 9. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)> vcov(reg) (Intercept) speed(Intercept) 45.676514 -2.6588234speed -2.658823 0.1726509 9
  10. 10. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Introduction aux tests multiples, e.g. H0 : β1 = · · · = βj = 0On a vu comment tester H0 : β2 = 0 et H0 : β3 = 0, mais ces deux tests peuventˆtre valid´, sans pour autant avoir H0 : β2 = β3 = 0.e e> US=read.table("http://freakonometrics.free.fr/US.txt",+ header=TRUE,sep=";")> US$Density=US$Population/US$Area> model1 = lm(Murder ~ Income + HS.Grad + Frost ++ Population + Illiteracy + Life.Exp ++ Area + Density, data=US)> summary(model1)Call:lm(formula = Murder ~ Income + HS.Grad + Frost + Population +Illiteracy + Life.Exp + Area + Density, data = US)Residuals:Min 1Q Median 3Q Max-3.10973 -0.92363 -0.07636 0.74884 2.92362 10
  11. 11. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 1.121e+02 1.684e+01 6.657 5.04e-08 ***Income 1.018e-03 6.642e-04 1.532 0.133084HS.Grad 1.318e-02 5.315e-02 0.248 0.805412Frost -7.301e-03 7.074e-03 -1.032 0.308040Population 2.180e-04 6.051e-05 3.602 0.000845 ***Illiteracy 2.208e+00 8.184e-01 2.699 0.010068 *Life.Exp -1.579e+00 2.374e-01 -6.652 5.12e-08 ***Area -9.413e-07 4.228e-06 -0.223 0.824911Density -4.369e+00 1.499e+00 -2.915 0.005740 **---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1Residual standard error: 1.608 on 41 degrees of freedomMultiple R-squared: 0.8412, Adjusted R-squared: 0.8102F-statistic: 27.14 on 8 and 41 DF, p-value: 4.813e-14Sur cette exemple, on valide les tests H0 : β1 = 0, H0 : β2 = 0 et H0 : β3 = 0.Mais peut-on valider H0 : β1 = β2 = β3 = 0 ? 11
  12. 12. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Ce test peut s’´crire de mani`re tr`s g´n´rale H0 : Rβ = q (contre H1 : Rβ = q) e e e e eavec ici   β0   β   1      0 1 0 0 0 · · · 0  β2    0      0 0 1 0 0 · · · 0 β3  = 0        0 0 0 1 0 · · · 0  β4    0 . . R . 0 βk βLa strat´gie est de comparer deux mod`les : le mod`le non-contraint (sous H1 ), e e e β = argmin{(Y − Xβ) (Y − Xβ), β ∈ Rk+1 } 12
  13. 13. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)et le mod`le non-contraint (sous H1 ), e β = argmin{(Y − Xβ) (Y − Xβ), β ∈ Rk+1 , Rβ = q}Pour le premier mod`le, on cherche ` minimiser e a h(β) = (Y − Xβ) (Y − Xβ)et dans le second mod`le, c’est de la minimisation sous-contrainte. On optimise le eLagrangien, (β, λ) = (Y − Xβ) (Y − Xβ) + λ(Rβ − q)Dans ce cas, les conditions du premier ordre sont ∂ (β, λ) = 2X (Y − Xβ) + R λ = 0 ∂βet ∂ (β, λ) = Rβ − q = 0, ∂λ 13
  14. 14. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)pour β = β . On a finallement un syst`me de deux (syst`mes d’) ´quations e e e      XX R β XY    =   R 0 λ qComme β = (X X)−1 X Y , on peut ´crire e β = β − C[Rβ − q]o` u C = (X X)−1 R [R(X X)−1 R ]−1 .Si on pose ε = Y − X β et ε = Y − X β, alors ε ε − ε ε = [Rβ − q] (R(X X)−1 R )[Rβ − q]Or d’apr`s la seconde condition du premier ordre, Rβ = q. Donc sous H0 , la estatistique de test est ε ε −εε n−k F = · dim(q) εε 14
  15. 15. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)qui doit suivre une loi de Fisher, F(dim(q), n − k).> (EE=sum(residuals(model1)^2))[1] 106.0532> model2 = lm(Murder ~+ Population + Illiteracy + Life.Exp ++ Area + Density, data=US)> (EEc=sum(residuals(model2)^2))[1] 119.6924> (F=(EEc-EE)/3*(nrow(US)-9)/(EE))[1] 1.757643> 1-pf(F,3,nrow(US)-9)[1] 0.170363Pour savoir si on rejette, ou si on accepte H0 , on calcule la p-value,> 1-pf(F,3,nrow(US)-9)[1] 0.170363i.e. on peut accepter ici H0 (les trois coefficients sont nuls simultan´ment). eCette analyse de variance peut se faire via 15
  16. 16. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)> library(car)> linearHypothesis(model1,+ c("Income","HS.Grad","Frost"),c(0,0,0))Linear hypothesis testHypothesis:Income = 0HS.Grad = 0Frost = 0Model 1: restricted modelModel 2: Murder ~ Income + HS.Grad + Frost +Population + Illiteracy + Life.Exp + Area + DensityRes.Df RSS Df Sum of Sq F Pr(>F)1 44 119.692 41 106.05 3 13.639 1.7576 0.1704 16
  17. 17. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique et r´gression, le R2 eLe coefficient de d´termination R2 d´fini ` partir le rapport entre la variance des e e ar´sidus et la variance de Y , e 2 Variance non expliqu´e e Variance expliqu´e e R =1− = . Variance totale Variance totaleou pour la version empirique n 2 Yi − Yi somme des carr´s des r´sidus e e i=1 R2 = 1 − =1− n somme des carr´s de la r´gression e e 2 Yi − Y i=1 17
  18. 18. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique et r´gression, le R2 eOn utilise pour cela la formule de d´composition de la variance e V ar(Y ) = V ar[E(Y |X)] + E[V ar(Y |X)] . variance totale variance expliqu´e par X e variance r´isudelle eOn notera que cette grandeur est un estimateur bais´ du vrai R2 , e 2 k−1 2 1 E(R ) = R + [1 − R2 ] + O n−1 n2 2Le coefficient d’ajustement est R2 = 0.6511 et R = 0.6438.> summary(reg)$r.squared[1] 0.6510794Le calcul se fait de la mani`re suivante e> 1-deviance(REG)/sum((Y-mean(Y))^2)[1] 0.6510794 18
  19. 19. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Afin de prendre en compte le nombre de param`tre, et de corriger du biais, on epeut utiliser le R2 ajust´, e 2 n−1 (n − 1)R2 − (k − 1) R = 1 − (1 − R2 ) = n − (k − 1) − 1 n−k−2o` (k − 1) est le nombre de variables explicatives (sans la constante). Notons que u 2ce R peut ˆtre n´gatif. e eRemarque En rajoutant des variables explicatives, on ne peut que augmenter leR2 , mais si ces derni`res sont peu corr´l´es avec Y . e eeRemarque Dans un mod`le sans constante, le R2 n’a plus aucun sens. En fait, esans constante, rien ne garantit que le plan de r´gression passe par le centre de egravit´ du nuage, (x, y). Et donc la somme des r´sidus n’est alors pas forc´ment e e enulle. La formule de d´composition de la variance n’est alors plus valide. e 19
  20. 20. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) De l’utilisation du R2Consid´rons une r´gression lin´aire e e e T INt = β0 + β1 T IFt + εt ,o` T IN d´signe le taux d’int´rˆ nomial, T IF le taux d’inflation et T IR le taux u e etd’int´rˆt r´el, i.e. T IN = T IR + T IF . Au lieu de mod´liser le taux d’int´rˆt ee e e eenominal en fonction de l’inflation, supposons que l’on cherche ` mod´liser le taux a ed’int´rˆt r´el, ee e T IRt = α0 + α1 T IFt + ηt .Notons que de la premi`re ´quation T INt = β0 + β1 T IFt + εt = T IRt + T IFt , on e een d´duit e T IRt = β0 + [β1 − 1] T IFt + εt , =α0 =β0 =ηtautrement dit les deux ´quations sont ´quivalentes. e e 20
  21. 21. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Pourtant 2 V ar(η) V ar(η) V ar(η) 2 Rnominal =1− =1− ≥1− = Rr´el e V ar(T IN ) V ar(T IR + T IF ) V ar(T IR)aussi, on peut artificiellement augmenter un R2 , tout en ´tudiant un mod`le e erigoureusement ´quivalent. e 15 10 5 0 1960 1970 1980 1990 2000 21
  22. 22. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) De l’utilisation du R2Les sorties montrent que les deux sorties sont effectivement ´quivalence entre les edeux mod`les e> summary(lm(TIR~TIF,data=D))Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 4.65040 0.44301 10.497 8.5e-14 ***TIF -0.29817 0.07211 -4.135 0.000149 ***> summary(lm(TIN~TIF,data=D))Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 4.65040 0.44301 10.497 8.50e-14 ***TIF 0.70183 0.07211 9.733 9.55e-13 *** 22
  23. 23. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) De l’utilisation du R2Mais surtout, on note que le R2 du premier mod`le est beaucoup plus faible que ele second> summary(lm(TIR~TIF,data=D))Multiple R-Squared: 0.271, Adjusted R-squared: 0.2551> summary(lm(TIN~TIF,data=D))Multiple R-Squared: 0.6731, Adjusted R-squared: 0.666 23
  24. 24. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e eLa fonction plot(REG) produit 6 graphiques de diagnostique 1. r´sidus contre valeurs estim´es, (Yi , εi ) (plot of residuals against fitted values) e e 2. (Yi , |εi |) (Scale-Location plot), 3. un graphique quantile-quantile des r´sidus (Normal Q-Q plot), e 4. un graphique de distances de Cook (plot of Cook’s distances versus row labels), 5. un graphique de leverage (plot of residuals against leverages) 6. (plot of Cook’s distances against leverage/(1-leverage))Remarque dans la plupart des graphiques, on utilise les r´sidus standardis´s, e ei.e. ε/σ, centr´s et de variance unitaire. e 24
  25. 25. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e> plot(predict(REG),residuals(REG))> abline(h=0,lty=2,col="grey")> lines(lowess(predict(REG),residuals(REG)),col="red")> Residuals vs Fitted q q 40 q 23 49 q 40 q q 35 q q 20 q q 20 residuals(REG) q q q q Residuals q q q q q q q q q q q q q q q q q q q q q q q q q q q q 0 q q 0 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −20 q q q q q q −20 q q q q q 0 20 40 60 80 0 20 40 60 80 Fitted values predict(REG) lm(dist ~ speed) 25
  26. 26. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e> s=summary(REG)$sigma> plot(qnorm((1:50)/51),sort(residuals(REG))/s)> abline(a=0,b=1,lty=2,col="grey")> lines(lowess(qnorm((1:50)/51),sort(residuals(REG))/s),col="red") Normal Q−Q q q 3 49 q q 23 q 2 q 35 2 q q Standardized residuals sort(residuals(REG))/s q q q 1 q qq qqqqq 1 q qqqqq q qqq qq qq qq q qq q qq qq 0 qq q qq 0 qq qq qq qq qq qq q qq qqq qq q qqq qq qq qqq qqq qq qq −1 −1 qq qq q q q q q q q q q q −2 −2 −2 −1 0 1 2 −2 −1 0 1 2 Theoretical Quantiles qnorm((1:50)/51) lm(dist ~ speed) 26
  27. 27. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e> plot(predict(REG),sqrt(abs(residuals(REG))/s))> abline(h=mean(sqrt(abs(residuals(REG))/s)),lty=2,col="grey")> lines(lowess(predict(REG),sqrt(abs(residuals(REG))/s)),col="red")> Scale−Location 49 q q q q 23 1.5 1.5 q 35 q q q sqrt(abs(residuals(REG))/s) q Standardized residuals q q q q q q q q q q q 1.0 q q q q q 1.0 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 0.5 q q q q q q q q q q 0.5 q q q q q q q q q q q q q q q q q 0.0 q 0 20 40 60 80 0 20 40 60 80 Fitted values predict(REG) lm(dist ~ speed) 27
  28. 28. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e> library(car)> plot(cooks.distance(REG))>> Cooks distance 0.35 q 49 0.30 0.3 0.25 cooks.distance(REG) Cooks distance 0.20 0.2 0.15 0.10 0.1 23 q 39 q 0.05 q q q q q q q q q q q q qqq q q 0.00 q q q q qq q q q q q q qq q q q q qq qq q 0.0 q qq q qq q 0 10 20 30 40 50 0 10 20 30 40 50 Obs. number Index lm(dist ~ speed) 28
  29. 29. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e> X=cbind(1,cars$speed); L=diag(X%*%solve(t(X)%*%X)%*%t(X))> plot(L,residuals(REG)/s)> abline(h=0,lty=2,col="grey")> lines(lowess(L,residuals(REG)/s),col="red") Residuals vs Leverage q q 3 49 q q 23 0.5 q 2 q 2 q q Standardized residuals q q residuals(REG)/s q 1 q q q 1 q q q q q q q q q q q q q q q q q q q qq q q qq qq q qq 0 0 q q q q q q q q q q q qq q q q q q qq q q qq q q q q q q q q q q q q q q −1 q q q q q −1 q q q q q q q q q q 39 −2 Cooks distance q −2 0.00 0.02 0.04 0.06 0.08 0.10 0.02 0.04 0.06 0.08 0.10 Leverage L lm(dist ~ speed) 29
  30. 30. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Diagnostique dans le mod`le lin´aire e e> plot(L,cooks.distance(REG))> lines(lowess(L,cooks.distance(REG)),col="red")>> Cooks distance vs Leverage 0.35 0.35 3 2.5 2 q 49 q 0.30 0.30 1.5 0.25 0.25 cooks.distance(REG) Cooks distance 0.20 0.20 0.15 0.15 1 0.10 0.10 q 23 q q 39 q 0.05 0.05 q q q q q q q q q q q q q 0.5 q q q q qq q q q qqq q qq q qq q q q 0.00 0.00 qqq q q q q q q qq q q q q q qq q q qq q q qq q q q q q q q q q q q q 0 qq q q q q q q q q q 0.02 0.04 0.06 0.08 0.1 0.02 0.04 0.06 0.08 0.10 Leverage L lm(dist ~ speed) 30
  31. 31. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Les points atypiques et influentsLa notion d’outliers ou de points ab´rants. eLa distance de Cook mesure l’impact sur la r´gression de l’absence d’une eobservation. Aussi n ˆ ˆ j=1 (Yj − Yj(i) )2 Ci = p · M SEou encore, ε2 i hii Ci = p · M SE (1 − hii )2 −1o` hi,i est l´l´ment diagonale de la matrice H = X (X X) X (que l’on notera u eeparfois hi ). Les hi = [X(X X)−1 X]i,i = Hi,i sont appel´s (leverage). e 31
  32. 32. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Le vecteur des leverages h = (h1 , · · · , hn ) est obtenu ais´ment sous R, e> diag(X%*%solve(t(X)%*%X)%*%t(X))[1:6] [1] 0.11486131 0.11486131 0.07150365 0.07150365 0.05997080 0.04989781 > influence(REG)[1:6]$hat 1 2 3 4 5 60.11486131 0.11486131 0.07150365 0.07150365 0.05997080 0.04989781Les hypoth`ses sont que E(εi ) = 0 et V ar(εi ) = σ 2 . En r´alit´, E(εi ) = 0 mais e e eV ar(εi ) = [I − H]i,i σ 2 = σ 2Notons que puisque Y = HY + ε, ε = Y − Y = [I − H]Y = [I − H](Xβ + ε) = [I − H]ε,et donc V ar(ε) = V ar([I − H]ε) = [I − H]σ 2 . Aussi, V ar(εi ) = [1 − hi ]σ 2 .Les r´sidus Studentis´s sont les e e ε εi = √ . σ 1 − hi 32
  33. 33. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)Notons que Var(εi ) = 1.> diag(X%*%solve(t(X)%*%X)%*%t(X))> rstudent(REG)[1:6] 1 2 3 4 5 6 0.26345000 0.81607841 -0.39781154 0.81035256 0.14070334 -0.51716052> mean(rstudent(REG))[1] 0.01347908> sd(rstudent(REG))[1] 1.045681Sur la matrice de leverage (matrice de projection orthogonale), notons que Yi = HY = hi,i Yi + hi,j Yj . j=iAussi, hi,i est le poids accord´ ` Yi pour sa propre pr´diction. ea e• si hi,i = 1, Yi est uniquement d´termin´ par Yi (hi,j = 0 pour j = i), e e• si hi,i = 0, Yi est n’est nullement influenc´ par Yi . e 33
  34. 34. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)On parelera de point levier i si hi,i est trop grand, i.e.• si hi,i > 2k/n, d’apr`s Hoaglin & Welsch (1978), e• si hi,i > 3k/n pour k > 6 et n − k > 12, d’apr`s Welleman & Welsch (1981), e• si hi,i > 1/2, d’apr`s Huber (1981). eCette m´thode permet de d´tecter des points atypiques, ou plutˆts des points e e oinfluents.Afin de mesurer l’impact d’une observation sur la r´gression, il peut aussi ˆtre e eutile de regarder les r´sultats de la r´gression si l’on supprime une des e eobservations.Apr`s suppression de la i`me observation, les estimateurs des moindres carr´s e e es’´crivent e εi β (i) = β − (X X)−1 X i · 1 − hi,i 2 1 ε2 i 2 σ(i) = (n − k)σ n−k−1 1 − hi,i 34
  35. 35. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)> i=25> REGi=lm(dist~speed,data=cars[-i,])> plot(cars); points(cars[i,],col="red",pch=19)> abline(REG,lty=2); abline(REGi,lwd=2,col="red") 120 q 100 q q q q 80 q q q q q q dist 60 q q q q q q q q q q q 40 q q q q q q q q q q q q q q q q q 20 q q q q q q q q q q 0 5 10 15 20 25 speed 35
  36. 36. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)> i=23> REGi=lm(dist~speed,data=cars[-i,])> plot(cars); points(cars[i,],col="red",pch=19)> abline(REG,lty=2); abline(REGi,lwd=2,col="red") 120 q 100 q q q q 80 q q q q q q dist 60 q q q q q q q q q q q 40 q q q q q q q q q q q q q q q q q 20 q q q q q q q q q q 0 5 10 15 20 25 speed 36
  37. 37. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)> i=49> REGi=lm(dist~speed,data=cars[-i,])> plot(cars); points(cars[i,],col="red",pch=19)> abline(REG,lty=2); abline(REGi,lwd=2,col="red") 120 q 100 q q q q 80 q q q q q q dist 60 q q q q q q q q q q q 40 q q q q q q q q q q q q q q q q q 20 q q q q q q q q q q 0 5 10 15 20 25 speedRemarque Beaucoup d’autres distances, bas´es sur la fonction d’influence, ont e´t´ propos´esee e (β − β (i) ) X X(β − β (i) ) Cook :Ci = kσ 2 37
  38. 38. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) |X i (β − β (i) )| Welsh-Kuh :W Ki = 2 σ(i) hi,i n−1 Welsh :Wi = W Ki 1 − hi,i vraisemblance :LDi = 2 L(β, σ 2 ) − L β (i) , σ(i) 2Remarque : les points aberrants ont des valeurs de Y aberrantes, mais onpourrait aussi vouloir tester une ab´ration en X. e 38
  39. 39. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Analyse graphique des r´sidus, example ePour illustrer, consid´rons les d´penses dans les ´coles publiques, par ´tat (aux e e e eU.S.A.)> library(sandwich)> data(PublicSchools)>> tail(PublicSchools) Expenditure IncomeVirginia 356 7624Washington 415 8450Washington DC 428 10022West Virginia 320 6456Wisconsin NA 7597Wyoming 500 9096 39
  40. 40. ` ´ Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012) Analyse graphique des r´sidus, example e> plot(PublicSchools$Income,PublicSchools$Expenditure)> id=c(2,49)> text(PublicSchools$Income[id],PublicSchools$Expenditure[id],+ rownames(PublicSchools)[id],pos=1) q q 800 Alaska 200 700 150 Dépenses écoles publiques Résidus de la régression q 100 600 q q q q 50 q q q q 500 q q q q q q q q q q q q q q q q q q q q 0 q q q q q q q q q q q q q q q q qq 400 q q q Washington DC q q q q q q q −50 qq q q q qq q q q q q q q qq qq q q q q q qq q q q 300 q q −100 q qq qq q q q q q q 6000 7000 8000 9000 10000 11000 6000 7000 8000 9000 10000 11000 Revenu (par tête) Revenu 40

×