1. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Mod`eles de pr´evision
Partie 1 - r´egression
Arthur Charpentier
charpentier.arthur@uqam.ca
http ://freakonometrics.hypotheses.org/
´Et´e 2014
1
2. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Plan du cours - donn´ees individuelles
◦ Rappels de statistique
• Motivation et introduction aux mod`eles de r´egression
• Le mod`ele lin´eaire simple
◦ R´esultats g´en´eraux
◦ Approche matricielle
• Le mod`ele lin´eaire multiple
◦ R´esultats g´en´eraux
◦ Tests, choix de mod`ele, diagnostique
• Aller plus loin
◦ Les mod`eles non lin´eaires param´etriques
◦ Les mod`eles non lin´eaires nonparam´etriques
2
3. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Plan du cours - donn´ees temporelles
• Motivation et introduction aux s´eries temporelles
• M´ethodes de lissage
◦ Mod`eles de r´egression (Buys-Ballot)
◦ Lissage(s) exponentiel(s) (Holt-Winters)
• Notions g´en´erales sur les processus stationnaires
• Les processus SARIMA
◦ Les mod`eles autor´egressifs, AR(p), Φ(L)Xt = εt
◦ Les mod`eles moyennes mobiles, MA(q) (moving average), Xt = Θ(L)εt
◦ Les mod`eles autor´egtressifs et moyenne mobiles, ARMA(p, q),
Φ(L)Xt = Θ(L)εt
◦ Les mod`eles autor´egtressifs, ARIMA(p, d, q), (1 − L)d
Φ(L)Xt = Θ(L)εt
◦ Les mod`eles autor´egtressifs, SARIMA(p, d, q),
(1 − L)d
(1 − Ls
)Φ(L)Xt = Θ(L)εt
◦ Pr´evision avec un SARIMA, T XT +h
3
4. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un peu de terminologie
L’´etude de la transmission g´en´etique de
certaines caract´eristiques a int´eress´e
Galton en 1870 puis Pearson en 1896. Galton a
propos´e d´etudier la taille d’un enfant en
fonction de la taille (moyenne) de ses parents,
`a partir de 928 observations.
4
7. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
qqqqq
qqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqq
64 66 68 70 72
62646668707274
Taille moyenne des parents (inches)
Tailledel'enfant(inches)
Un enfant de parents grands est en moyenne grand, mais moins que ses parents.
Un enfant de parents petits est en moyenne petits, mais moins que ses parents.
=⇒ “I have called this peculiarity by the name of regression”, au sens r´egression
vers la moyenne.
7
12. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
de l’esp´erance `a l’esp´erance conditionnelle
On peut aussi regarder la loi de Y , derri`ere se cache un m´elange (par sexe)
40 60 80 100 120
0.000.010.020.030.040.05
Poids (kg)
densité
12
13. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
de l’esp´erance `a l’esp´erance conditionnelle
Estimation de la loi de Y |X = 175
150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
q
13
14. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
de l’esp´erance `a l’esp´erance conditionnelle
Estimation de la loi de Y |X = 185
150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
q
q
14
15. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
de l’esp´erance `a l’esp´erance conditionnelle
Estimation de la loi de Y |X = 165
150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
q
q
q
15
16. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
de l’esp´erance `a l’esp´erance conditionnelle
Pour plusieurs valeur de x, il possible d’estimer une loi de Y |X = x
150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
16
17. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
de l’esp´erance `a l’esp´erance conditionnelle
Une explication de la nonlin´earit´e, l’h´et´erog´en´eit´e hommes/femmes
150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
17
19. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Esp´erance conditionelle et projection
Faire une pr´ediction de Y `a X fix´e c’est projeter Y sur l’ensemble des variables
al´eatoires engendr´ees par X [...]
19
20. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Esp´erance conditionelle et projection
[...] on peut se restreindre `a un sous-ensemble, celui des transformations affines
engendr´ees par X [...]
20
21. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Esp´erance conditionelle et projection
[...] ou on se restreint `a un sous-ensemble de ce sous-ensemble, les constantes.
21
26. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Lien avec le cours de statistique ?
• Cours de statistique ‘descriptive’
On dispose d’un ´echantillon {y1, · · · , yn}, de variables r´eelles, yi ∈ R.
On peut d´efinir la moyenne, ou la variance (empirique)
• y =
y1 + · · · + yn
n
=
1
n
n
i=1
yi
• s2
=
1
n
n
i=1
[yi − y]2
26
27. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Lien avec le cours de statistique ?
• Cours de statistique math´ematique
On dispose d’un ´echantillon {y1, · · · , yn}, vu comme des r´ealisation de variables
al´eatoires {Y1(ω), · · · , Yn(ω)}, ω ∈ Ω, i.e. yi = Yi(ω) ∈ R. On a maintenant des
variables al´eatoires sous-jacentes, Yi. Les moyennes et variances empiriques sont
alors des r´ealisations des variables al´eatoires
• Y =
Y1 + · · · + Yn
n
=
1
n
n
i=1
Yi
• S2
=
1
n
n
i=1
[Yi − Y ]2
i.e. y = Y (ω) et s2
= S2
(ω). En statistique math´ematique, on utilise des
propri´et´es de ces variables al´eatoires pour en d´eduire des propri´et´es sur telle ou
telle statistique.
27
28. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
La loi des grands nombres garantit que Y
P
→ E(Y ) si on suppose que les Xi sont
des variables ind´ependantes, de mˆeme esp´erance et de mˆeme variance (finies, loi
faible des grands nombres), i.e. ∀ε > 0.
lim
n→+∞
P
Y1 + Y2 + · · · + Yn
n
− E(Y ) ε = 0
On a aussi le th´eor`eme central limite, qui garantit que
√
n(Y − E(Y ))
L
→ N(0, Var(Y )) si on suppose que les Xi sont des variables
ind´ependantes, de mˆeme esp´erance et de mˆeme variance (finies, loi faible des
grands nombres), i.e.
lim
n→∞
P
√
n
Y n − E(Y )
Var(Y )
≤ z = Φ(z)
o`u Φ(·) est la fonction de r´epartition de la loi N(0, 1).
28
29. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Lien avec le cours de statistique ?
• Cours d’inf´erence (param´etrique)
On dispose d’un ´echantillon {y1, · · · , yn}, vu comme des r´ealisation de variables
al´eatoires {Y1(ω), · · · , Yn(ω)}, o`u les variables al´eatoires sous-jacentes, Yi, sont
suppos´ees ind´ependantes, et identiquement distribu´ees, de loi
F ∈ F = {Fθ, θ ∈ Θ}. Aussi, F = Fθ0
, mais θ0 est inconnu.
Remarque θ est g´en´erallement un param`etre dans Rk
, mais pour simplifier, on
supposera θ ∈ Θ ⊂ R.
Un estimateur θ est une fonction des observations. Attention, parfois
• θ = s(y1, · · · , yn) est un r´eel, e.g. θ = y
• θ = s(Y1, · · · , Yn) est une variable al´eatoire, e.g. θ = Y
Pour estimer θ, on dispose de deux m´ethodes standards
• la m´ethode des moments
• la m´ethode du maximum de vraisemblance
29
30. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
• La m´ethode des moments
On suppose que si Y ∼ Fθ, E(Y ) = g(θ) o`u g(·) est bijective. Dans ce cas,
θ = g−1
(E(Y )). Un estimateur naturel est alors
θ = g−1
(Y ).
On notera que l’on a (a priori) aucune information sur la qualit´e de l’estimateur,
e.g. l’estimateur n’a aucune raison d’ˆetre sans biais,
E(θ) = E[g−1
(Y )]=g−1
(E[Y ]) = g−1
(E(Y )) = θ
Par contre, si g est suffisement r´eguli`ere, on a des propri´et´es asymptotiques,
E(θ) → θ lorsque n → ∞.
30
31. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
• La m´ethode du maximum de vraisemblance
Si les variables al´eatoires sous-jacentes sont suppos´ees ind´ependantes et
identiquement distribu´ees, de loi Fθ, de loi de probabilit´e fθ
P(Y1 = y1, · · · , Yn = yn) =
n
i=1
fθ(yi) = L(θ)
(dans le cas discret, avec une expression similaire bas´ee sur la densit´e dans le cas
continu). On va chercher la valeur θ qui donne la plus grande probabilit´e
P(Y1 = y1, · · · , Yn = yn) (appel´ee vraisemblance). I.e.
θ ∈ argmax
θ∈Θ
{L(θ)}
Remarque On ne s’int´eresse pas `a la valeur de la vraisemblance, mais `a la
valeur θ en laquelle la vraisemblance est maximale. Or
θ ∈ argmax
θ∈Θ
{h(L(θ))}
31
32. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Comme L(θ) > 0 (car ∀i, fθ(yi) > 0), on peut prendre h = log, et donc
θ ∈ argmax
θ∈Θ
{log(L(θ))}
car log L est une fonction beaucoup plus simple,
log L(θ) =
n
i=1
log fθ(yi).
Si la fonction log L est diff´erentiable, la condition du premier ordre s’´ecrit
∂ log L(θ)
∂θ θ=θ
= 0
avec une condition du second ordre pour assurer qu’en θ, on soit sur un
maximum, et pas un minimum,
∂2
log L(θ)
∂2θ θ=θ
≤ 0
32
33. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
L`a encore, on n’a aucune propri´et´e `distance finie. Mais quand n → ∞,
P(|θn − θ| > ε) → 0, ∀ ε > 0 (i.e. θ
P
→ θ). On a aussi une normalit´e asymptotique,
et une efficacit´e asymptotique, i.e. la variance (asymptotique) est donn´ee par la
borne de Cram´er-Rao,
√
n(θ − θ0)
L
→ N(0, I−1
(θ0))
o`u I(θ0) est l’information de Fisher,
I(θ) = E
∂ log fθ(Y )
∂θ
2
, o`u Y ∼ Fθ.
33
34. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
• Construction de tests
Consid´erons l’´echantillon suivant, de pile ou face, {y1, · · · , yn}
> set.seed(1)
> n=20
> (Y=sample(0:1,size=n,replace=TRUE))
[1] 0 0 1 1 0 1 1 1 1 0 0 0 1 0 1 0 1 1 0 1
Comme Yi ∼ B(θ), avec θ = E(Y ), l’estimateur de la m´ethde des moments est
θ = y, soit ici
> mean(X)
[1] 0.55
On peut faire un test de H0 : θ = θ contre H1 : θ = θ (par exemple 50%)
On peut utiliser le test de Student,
T =
√
n
θ − θ
θ (1 − θ )
34
35. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
qui suit, sous H0 une loi de Student `a n degr´es de libert´e.
> (T=sqrt(n)*(pn-p0)/(sqrt(p0*(1-p0))))
[1] 0.4472136
> abs(T)<qt(1-alpha/2,df=n)
[1] TRUE
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
dt(u,df=n)
q
On est ici dans la r´egion d’acceptation du test.
35
36. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
On peut aussi calculer la p-value, P(|T| > |tobs|),
> 2*(1-pt(abs(T),df=n))
[1] 0.6595265
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
dt(u,df=n)
q
Le maximum de vraisemblance est important car il permet de faire des tests
statistiques.
36
37. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Test de Wald l’id´ee est d’´etudier la diff´erence entre θ et θ . Sous H0,
T = n
(θ − θ )2
I−1(θ )
L
→ χ2
(1)
Test du rapport de vraisemblance l’id´ee est d’´etudier la diff´erence entre
log L(θ) et log L(θ ). Sous H0,
T = 2 log
log L(θ )
log L(θ)
L
→ χ2
(1)
Test du score l’id´ee est d’´etudier la diff´erence entre
∂ log L(θ )
∂θ
et 0. Sous H0,
T =
1
n
n
i=1
∂ log fθ (xi)
∂θ
2
L
→ χ2
(1)
37
38. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Lien avec le cours de statistique ?
Pour l’estimateur de maximum de vraisemblance, on peut faire les calculs, ou le
faire num´eriquement. On commence par tracer la fonction θ → log L(θ)
> p=seq(0,1,by=.01)
> logL=function(p){sum(log(dbinom(X,size=1,prob=p)))}
> plot(p,Vectorize(logL)(p),type="l",col="red",lwd=2)
0.0 0.2 0.4 0.6 0.8 1.0
−50−40−30−20
p
Vectorize(logL)(p)
38
39. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
On peut trouver num´eriquement le maximum de log L,
> neglogL=function(p){-sum(log(dbinom(X,size=1,prob=p)))}
> pml=optim(fn=neglogL,par=p0,method="BFGS")
> pml
$par
[1] 0.5499996
$value
[1] 13.76278
i.e. on retrouve ici θ = y.
Maintenant, on peut tester H0 : θ = θ = 50% versus H1 : θ = 50%. Pour le test
de Wald, on peut commencer par calculer nI(θ ) ou ,
> nx=sum(X==1)
> f = expression(nx*log(p)+(n-nx)*log(1-p))
> Df = D(f, "p")
> Df2 = D(Df, "p")
> p=p0=0.5
39
40. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
> (IF=-eval(Df2))
[1] 80
On peut d’ailleurs comparer cette valeur avec la valeur th´eorique, car
I(θ)−1
= θ(1 − θ)
> 1/(p0*(1-p0)/n)
[1] 80
0.0 0.2 0.4 0.6 0.8 1.0
−16.0−15.0−14.0−13.0
p
Vectorize(logL)(p)
q
40
41. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
La statistique du test de Wald est ici
> pml=optim(fn=neglogL,par=p0,method="BFGS")$par
> (T=(pml-p0)^2*IF)
[1] 0.199997
que l’on va chercher `a comparer avec le quantile de la loi du χ2
,
> T<qchisq(1-alpha,df=1)
[1] TRUE
i.e. on est dans la r´egion d’acceptation du test. De mani`ere duale, on peut
calculer la p-value du test,
> 1-pchisq(T,df=1)
[1] 0.6547233
Donc on va accepter H0.
41
42. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
0 1 2 3 4 5 6
0.00.51.01.52.0
dchisq(u,df=1)
q
Pour le test du rapport de vraisemblance, T est ici
> (T=2*(logL(pml)-logL(p0)))
[1] 0.2003347
42
43. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
0.0 0.2 0.4 0.6 0.8 1.0
−16.0−15.0−14.0−13.0
p
Vectorize(logL)(p)
q
L`a encore, on est dans la r´egion d’acceptation,
> T<qchisq(1-alpha,df=1)
[1] TRUE
Enfin, on peut faire le test du score. Le score se calcule facilement,
> nx=sum(X==1)
43
44. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
> f = expression(nx*log(p)+(n-nx)*log(1-p))
> Df = D(f, "p")
> p=p0
> score=eval(Df)
La statistique de test est alors
> (T=score^2/IF)
[1] 0.2
44
45. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
0.0 0.2 0.4 0.6 0.8 1.0
−16.0−15.0−14.0−13.0
p
Vectorize(logL)(p)
q
L`a encore, on est dans la r´egion d’acceptation,
> T<qchisq(1-alpha,df=1)
[1] TRUE
45
46. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
De la statistique math´ematique au mod`ele de r´egression
Un mod`ele statistique standard supposerait que l’on dispose d’un ´echantillon
{Y1, · · · , Yn} et de supposer que les observations Y sont i.i.d. de loi
Y ∼ N(θ, σ2
)
Ici, on va disposer d’un ´echantillon {(Y1, X1), · · · , (Yn, Xn)} et de supposer que
les couples d’observations (X, Y ) sont i.i.d.. de telle sorte que Y |X = x suive une
loi
(Y |X = x) ∼ N(θx, σ2
)
Aussi, θx = E(Y |X = x). Dans un mod`ele lin´eaire
(Y |X = x) ∼ N(β0 + β1x, σ2
)
46
47. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Le mod`ele lin´eaire simple, deux variables continues
Consid´erons - pour commencer un mod`ele lin´eaire simple,
Yi = β0 + β1Xi + εi ou Yi = (1, Xi)
Xi
β0
β1
β
+εi
o`u εi est un bruit. Si X est suppos´e “exog`ene”, d´eterministe, ou donn´e, on
suppose que εi est
• centr´e E(εi) = 0,
• de variance constante Var(εi) = σ2
,
• non autocorr´el´e, Cov(εi, εj) = 0 pour i = j,
Aussi,
• E(Y |X) = β0 + β1X
• Var(Y |X) = Var(ε|X) = σ2
mod`ele homosc´edastique.
47
48. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Estimation de β = (β0, β1)
Par minimisation de la somme des carr´es des erreurs (ordinary least squares)
SCR(β) =
n
i=1
[Yi − (β0 + β1Xi)]2
ε2
i
i.e.
β = argmin
β∈R2
{SCR(β)}
Les conditions du premier ordre sont
∂SCR(β)
∂β0 β=β
= 0 i.e.
n
i=1
(−2)[Yi − (β0 + β1Xi)] = 0
et
∂SCR(β)
∂β1 β=β
= 0 i.e.
n
i=1
(−2Xi)[Yi − (β0 + β1Xi)] = 0
48
49. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
On obtient les ´equations normales
n
i=1
Yi =
n
i=1
β0 + β1Xi
Yi
=
n
i=1
Yi
et
n
i=1
Xi [Yi − (β0 + β1Xi)]
εi
= 0
49
50. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Proposition 1. Les estimateurs obtenus par minimisation de la somme des
carr´es des erreurs sont
β1 = r
sY
sX
et β0 = Y − β1X
o`u X et Y sont les moyennes empiriques
X =
1
n
n
i=1
Xi et Y =
1
n
n
i=1
Yi
o`u s2
X et s2
Y sont les variance empiriques
s2
Y =
1
n − 1
n
i=1
[Yi − Y ]2
et s2
X =
1
n − 1
n
i=1
[Xi − X]2
et o`u r d´esigne la corr´elation empirique
r =
1
n−1
n
i=1[Xi − X][Yi − Y ]
1
n−1
n
i=1[Xi − X]2 1
n−1
n
i=1[Yi − Y ]2
50
51. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Proposition 2. Les estimateurs obtenus par minimisation de la somme des
carr´es des erreurs sont
β1 =
n
i=1(XiYi − nXY )
n
i=1 X2
i − nX
2
et
β0 =
n
i=1 X2
i − nX
n
i=1 XiYi
n
i=1 X2
i − nX
2
51
52. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Qualit´e du mod`ele et d´ecomposition de la variance
On posera
• Yi = β0 + β1Xi la pr´ediction de Yi,
• εi = Yi − Yi l’erreur de pr´ediciton
Notons que
Yi − Y = (Yi − Yi) + (Yi − Y )
aussi, en ´elevant `a la puissance 2,
(Yi − ¯Y )2
= (Yi − Yi)2
+ (Yi − ¯Y )2
+ 2(Yi − ¯Y )(Yi − Yi)
et en sommant
n
i=1
(Yi − ¯Y )2
=
n
i=1
(Yi − Yi)2
+
n
i=1
(Yi − ¯Y )2
+
n
i=1
2(Yi − ¯Y )(Yi − Yi)
=0
.
52
53. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
On notera que
n
i=1
2( ˆYi − ¯Y )(Yi − ˆYi) =
n
i=1
2(( ¯Y − ˆβ1
¯X + ˆβ1Xi) − ¯Y )(Yi − ˆYi)
=
n
i=1
2(( ¯Y + ˆβ1(Xi − ¯X)) − ¯Y )(Yi − ˆYi)
=
n
i=1
2( ˆβ1(Xi − ¯X))(Yi − ˆYi)
=
n
i=1
2 ˆβ1(Xi − ¯X)(Yi − ( ¯Y + ˆβ1(Xi − ¯X)))
=
n
i=1
2 ˆβ1((Yi − ¯Y )(Xi − ¯X) − ˆβ1(Xi − ¯X)2
).
or
β1 =
n
i=1(XiYi − nXY )
n
i=1(Xi − ¯X)2
53
54. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
donc ici
n
i=1
2( ˆYi − ¯Y )(Yi − ˆYi) =
n
i=1
2 ˆβ1 (Yi − ¯Y )(Xi − ¯X) − ˆβ1(Xi − ¯X)2
= 2 ˆβ1
n
i=1
(Yi − ¯Y )(Xi − ¯X) − ˆβ1
n
i=1
(Xi − ¯X)2
= 2 ˆβ1
n
i=1
(Yi − ¯Y )(Xi − ¯X) − (Yi − ¯Y )(Xi − ¯X)
= 2 ˆβ1 · 0 = 0
D’o`u la formule de d´ecomposition de la variance
n
i=1
(Yi − Y )2
=
n
i=1
(Yi − Yi)2
+
n
i=1
(Yi − Y )2
54
55. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
On notera R2
le coefficient d’ajustement
R2
=
n
i=1(Yi − Y )2
n
i=1(Yi − Y )2
= 1 −
n
i=1(Yi − Yi)2
n
i=1(Yi − Y )2
Estimation de σ2
Estimation de σ2
= Var(ε),
s2
=
1
n − 2
n
i=1
ε2
i
Remarque Notons que β1 =
n
i=1
ωiYi o`u ωi =
Xi − X
(n − 1)S2
X
et β0 = Y − β1X
Estimation de β1
Proposition 3. E(β1) = β1 et Var(β1) =
σ2
(n − 1)S2
X
55
56. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
E(β1) = E
n
i=1
ωiYi =
n
i=1
ωi E(Yi)
β0+β1Xi
= β0
n
i=1
ωi
=0
+β1
n
i=1
ωiXi
=1
= β1
et
Var(β1) = Var
n
i=1
ωiYi =
n
i=1
ω2
i Var(Yi)
Estimation de β0
De mˆeme, on peut d´driver une expression similaire pour l’estimateur de la
constante
Proposition 4. E(β0) = β0 et Var(β0)
σ2
n
1 +
X
2
S2
X
56
58. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
i.e.
Y
n×1
= X
n×2
β
2×1
+ ε
n×1
Si on fait un peu de calcul matriciel, notons que
X Y =
1 1 · · · 1 1
X1 X2 · · · Xn−1 Xn
Y1
Y2
...
...
Yn−1
Yn
=
n
i=1 Yi
n
i=1 XiYi
58
59. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
X X =
1 1 · · · 1 1
X1 X2 · · · Xn−1 Xn
1 X1
1 X2
...
...
1 Xn−1
1 Xn
=
n
n
i=1 Xi
n
i=1 Xi
n
i=1 X2
i
Rappelons que
si A =
a c
b d
alors A−1
=
1
ad − bc
d −c
−b a
Aussi
(X X)−1
=
1
n
n
i=1 X2
i − (
n
i=1 Xi)
2
n
i=1 X2
i −
n
i=1 Xi
−
n
i=1 Xi n
59
60. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
i.e.
(X X)−1
=
1
n
i=1 X2
i − nX
2
1
n
n
i=1 X2
i −X
−X 1
Aussi
(X X)−1
X Y =
1
n
i=1 X2
i − nX
2
n
i=1 X2
i − nX
n
i=1 XiYi)
n
i=1 XiYi − nXY
=
β0
β1
Proposition 5. En posant Y = Xβ + ε, les estimateurs qui minimisent la
somme des carr´es des erreurs sont
β =
β0
β1
= (X X)−1
X Y .
Notons que Y = Xβ = X(X X)−1
X Y . On notera
Y = X(X X)−1
X
H
Y
60
61. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
On a aussi
ε = Y − Y = I − X(X X)−1
X
M
Y
o`u M = (I − H).
Ici, M est une matrice symm´etrique, M = M , et M2
= M, i.e. M est une
matrice de projection (orthogonale). Notons que MX = 0, i.e. M est un matrice
de projection orthogonale `a X.
En revanche, H est une matrice symm´etrique, H = H , et H2
= H, i.e. H est
une matrice de projection (orthogonale). Notons que HX = X, i.e. H est un
matrice de projection orthogonale sur X.
61
62. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Le mod`ele lin´eaire multiple
On peut supposer que l’on r´egresse sur plusieurs variables explicatives
Yi = β0 + β1X1,i + · · · , βkXk,i + εi ou Yi = (1, X1,i, · · · , Xk,i)
Xi
β0
...
βk
β
+εi
• Y est la variable `a expliquer, ou r´eponse, output, variable d´ependante, ou
variable endog`ene
• les Xj sont les variables explicatives, ou pr´edicteurs, input, variables
ind´ependantes, ou variables exog`enes
• ε est un bruit, suppos´e non expliqu´e (ou orthogonal) par les variables
explicatives.
62
63. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Le mod`ele lin´eaire multiple
Au niveau des notations, au lieu de supposer que pour i = 1, · · · , n,
Yi = β0 + β1Xi,1 + · · · , βkXi,k + εi ou Yi = Xiβ + εi,
on peut utiliser l’´ecriture matricielle,
Y1
...
Yn
Y ,n×1
=
1 X1,1 · · · X1,k
...
...
...
...
1 Xn,1 · · · Xn,k
X,n×(k+1)
β0
β1
...
βk
β,(k+1)×1
+
ε1
...
εn
ε,n×1
.
63
65. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Le mod`ele lin´eaire
Si X est suppos´e al´eatoire
• E(ε|X) = 0,
• i.e. E(Y |X) = Xβ, ou encore E(Y |X) est lin´eaire en X
• E(εε |X) = σ2
I,
• i.e. Var(Y |X) = σ2
, Var(Y |X) est constante : hypoth`ese d’homosc´edasticit´e.
• Cov(Yi, Yj|X) = 0 pour i = j, ou encore Cov(Yi, Yj|X) est nulle
• on rajoute l’hypoth`ese Cov(X, ε) = 0 : le bruit est la composante qui ne peut
ˆetre expliqu´ee par X.
Pour estimer β, il y a (au moins) trois m´ethodes classiques
• m´ethode du maximum de vraisemblance : besoin de sp´ecifier la loi des r´esidus
• m´ethode des moments
• m´ethode des moindres carr´es : β ∈ argmin
n
i=1
[Yi − Xiβ]2
65
66. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Estimations `a distance finie
Quelques rappels sur les propri´et´es (ou informations) souhaitables d’un estimateur
• biais : θ estime sans biais de θ si E(θ) = θ, on note biais(θ) = E(θ) − θ.
• “meilleur” : θ1 est un meilleur estimateur que θ2 si V ar(θ1) est “plus petit”
que V ar(θ2), i.e. si k ≥ 2 V ar(θ2) − V ar(θ1) est d´efinie positive.
• pr´ecision : le MSE - mean squarred error - d’un estimateur θ de θ est
MSE(θ) = E[(θ − θ)(θ − θ) ] = V ar(θ) + biais(θ)biais(θ)
• efficience : un estimateur est efficient si V ar(θ) = nI(θ)−1
, o`u I(θ) d´esigne
l’information de Fisher, i.e. I = [Ii,j] o`u
Ii,j = E
∂
∂θi
ln fθ(X) ·
∂
∂θj
ln fθ(X) .
66
67. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Estimations en grand ´echantillon (approche asymptotique)
θ est un estimateur, construit `a partir de X1, · · · , Xn. On notera θn cet
estimateur, l’´etude du comportement asymptotique consistant `a ´etudier le
comportement de θn lorsque n → ∞.
• consistance : θn est un estimateur consistant de θ si θn
P
→ θ
• convergence en loi : θn est un estimateur asymptotiquement normal de θ si
√
n θn − θ
L
→ N(µ, Σ),
o`u Σ est une matrice connue, ou calculable, ou estimable
• efficience asymptotique : V ar(θn) ∼ nI(θ)−1
si n → ∞.
67
68. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode du maximum de vraisemblance
Si on rajouter les hypoth`eses : εi ∼ N(0, σ2
) et les εi sont ind´ependants, i.e.
f(ε1, · · · , εn) =
n
i=1
f(εi) =
n
i=1
1
√
2πσ2
exp −
ε2
i
2σ2
d’o`u la log-vraisemblance du mod`ele, en notant que εi ∼ N(0, σ2
)
log L = −
n
2
log 2π −
n
2
log σ2
−
1
2σ2
[Y − Xβ] [Y − Xβ]
Maximiser log L est ´equivalent `a minimiser [Y − Xβ] [Y − Xβ].
La condition du premier ordre est
∂[Y − Xβ] [Y − Xβ]
∂β
= 0, soit
∂[Y − Xβ] [Y − Xβ]
∂β
= −2X Y + 2X Xβ = 0.
68
69. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode du maximum de vraisemblance
La condition du premier ordre, X Y = X Xβ est parfois appel´ee ´equation
normale.
La condition du second ordre est
∂2
[Y − Xβ] [Y − Xβ]
∂β∂β
d´efinie positive, soit
X X d´efinie positive (et donc inversible).
Si X X est inversible, β = (X X)−1
X Y .
Remarque En r´ealit´e, on cherche `a estimer θ = (β, σ2
). Pour l’instant, on se
pr´eocupe seulement de l’estimation de β.
Proposition 6. Si εi est i.i.d. de loi N(0, σ2
), et si X X est inversible, alors
l’estimateur du maximum de vraisemblance β est
β
mv
= (X X)−1
X Y.
69
70. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode du maximum de vraisemblance
Les propri´et´es du maximum de vraisemblance sont des propri´et´es asymptotiques,
en particulier (moyennant quelques hypoth`ese de r´egularit´e)
• convergence, β
P
→ β
• normalit´e asymptotique,
√
n β − β
L
→ N(0, )
• efficacit´e asymptotique V ar(β) ∼ nI(β)−1
si n → ∞.
Dans le cas de la r´egression simple
√
n(β1 − β1)→N 0,
n · σ2
(xi − x)2
et
√
n(β0 − β0)→N 0, σ2 x2
i
(xi − x)2
.
Les variances asymptotiques de β0 and β1 peuvent ˆetre estim´ee par
Var(β1) =
σ2
(xi − x)2
et Var(β0) =
σ2
n
1 +
n( xi)2
(xi − x)2
avec comme covariance entre ces deux estimateurs
cov(β0, β1) =
−xσ2
(xi − x)2
.
70
71. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Notons que
β1 =
cov(X, Y )
Var(X)
, β0 = Y − β1X, et σ2
= [1 − cov(X, Y )2
]Var(y),
ce qui se traduit ´egalement sous la forme
yi = y +
cov(X, Y )
Var(X)(X)
[xi − x] + εi.
=⇒ la r´egression est simplement une analyse de la corr´elation entre des variables.
71
72. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode du maximum de vraisemblance, loi asymptotique
−35 −30 −25 −20 −15 −10 −5 0
3.03.54.04.55.0
Constante
Pente
q
72
73. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode du maximum de vraisemblance
Mais le maximum de vraisemblance d´epend explicitement de la loi des r´esidus ε.
Remarque En fait, compte tenu de la r´eecriture de la vraisemblance, cet
estimateur correspond au maximum de vraisemblance d`es lors que ε suit une loi
sph´erique (e.g. lois de Student ind´ependantes).
73
74. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode des moments
La quatri`eme hypoth`ese stipulait que
Cov(X, ε) = E(Xε) = E (X[Y − Xβ]) = 0, soit la version empirique
1
n
n
i=1
Xi Yi − Xiβ = 0.
Cette derni`ere condition correspond `a la condition du premier ordre obtenue dans
l’estimation du maximum de vraisemblance.
Proposition 7. Si X X est inversible, alors l’estimateur des moments β est
β
mm
= (X X)−1
X Y.
Remarque Cette m´ethode se g´en´eralise dans le cas de l’estimation nonlin´eaire
sous le nom GMM Generalized Method of Moments.
74
75. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode des moindres carr´es
Comme cela a ´et´e not´e dans les rappels de statistiques, il existe un interpr´etation
g´eom´etrique de l’esp´erance en terme de projection orthogonale,
E(Y ) = argmin{ Y − y L2 } = argmin{E (Y − y )
2
}
dont l’interpr´etation empirique est
y = argmin
n
i=1
(yi − y )
2
.
Si on suppose que Y = β0 + β1X + ε, o`u ε est centr´e et ind´ependant de X,
E(Y |X) = β0 + β1X. De la mˆeme mani`ere que pr´ec´edement, il est naturel de
chercher
argmin
n
i=1
(yi − [β0 + β1xi])
2
.
75
77. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode des moindres carr´es
La condition du premier ordre donne
∂[Y − Xβ] [Y − Xβ]
∂β
= −2X Y + 2X Xβ = 0.
La condition du second ordre est ´equivalente `a avoir X X est inversible, et alors
β = (X X)−1
X Y.
Proposition 8. Si X X est inversible, alors l’estimateur des moments β est
β
mco
= (X X)−1
X Y.
77
78. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un petit mot sur la variance des r´esidus σ2
Pour l’instant nous n’avons parl´e que de l’estimation de β, mais σ2
est ´egalement
`a estimer. La d´emarche est la suivante
• on part d’un ´echantillon {(Y1, X1), · · · , (Yn, Xn)},
• on construit l’estimateur par moindres carr´es β = (X X)−1
X Y ,
• on construit la s´erie des pseudo-r´esidus εi = Yi − Xiβ,
• on estime la variance de la s´erie des pseudo-r´esidus σ2
= V ar(εi).
78
79. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un peu de terminologie
Pour l’instant nous n’avons parl´e que de l’estimation de β, mais σ2
est ´egalement
`a estimer. La d´emarche est la suivante
• β = (X X)−1
X Y est l’estimateur par moindre carr´es (de β)
• Y = Xβ = X(X X)−1
X Y = HY est le vecteur des pr´edictions de Y ,
• ε = Y − Y = (I − H)Y est le vecteur des pseudo-r´esidus associ´es `a la
r´egression,
• ε ε = Y (I − H)Y est la somme des carr´es des r´esidus, ou RSS (residual sum of
squares)
79
81. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Propri´et´es de l’estimateur par mco
Proposition 9. Soit β l’estimateur par moindres carr´es,
• β estime sans biais β, i.e. E(β) = β ; la variance est V ar(β) = σ2
(X X)−1
.
• Th´eor`eme de Gauss-Markov : parmi les estimateurs lin´eaires et sans biais de
β, l’estimateur par moindres carr´ees est de variance minimale, i.e. BLUE
• σ2
=
1
n − k
n
i=1
(Yi − Xiβ)2
estime sans-biais σ2
.
Si ε ∼ N(0, σ2
),
• β est ´egalement l’estimateur du maximum de vraisemblance
• parmi les estimateurs sans biais de β est l’estimateur de variance minimale,
i.e. BUE,
• β ∼ N(β, σ2
(X X)−1
) et (n − k)
σ2
σ
∼ χ2
(n − k).
81
82. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Propri´et´es de l’estimateur par mco
Sous l’hypoth`ese o`u ε ∼ N(0, σ2
I), alors
• Y = Xβ + ε est gaussien, Y ∼ N(Xβ, σ2
I)
• β = (X X)−1
X Y est gaussien, β ∼ N(0, σ2
I)
• la somme des carr´es des erreurs suit une loi du chi-deux, ε ε ∼ σ2
χ2
(n − k)
• β est ind´ependant de σ2
• Y est ind´ependant de ε
82
83. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Intervalle de confiance pour βj
Sous l’hypoth`ese o`u εi ∼ N(0, σ2
), Yi ∼ N(Xβ, σ2
), et comme
β = (X X)−1
X Y
∼ N((X X)−1
X Xβ, [(X X)−1
X ] [(X X)−1
X ]σ2
)
∼ N(β, (X X)−1
σ2
),
soit, pour tout j,
βj − βj
V ar(βj)
=
βj − βj
[(X X)−1]jjσ2
∼ N(0, 1),
or comme σ est inconnue, on la remplace par un estimateur ind´ependant de
l’estimateur des βj.
83
84. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Intervalle de confiance pour βj
Aussi
βj − βj
V ar(βj)
=
βj − βj
[(X X)−1]jjσ2
∼ St(n − k),
o`u k est le nombre de variables explicatives. Aussi,
βj ∈ βj ± t1−α/2 [(X X)−1]jjσ2 ,
sous l’hypoth`ese o`u εi ∼ N(0, σ2
).
84
85. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Test de nullit´e de βj
Les r´esultats pr´ec´edants permettent de proposer un test simple de
H0 : βj = 0 contre l’hypoth`ese H1 : βj = 0.
La statistique de test
Tj =
βj
V ar(βj)
∼ St(n − k) sous H0.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -17.5791 6.7584 -2.601 0.0123 *
speed 3.9324 0.4155 9.464 1.49e-12 ***
85
86. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Continuous sur les propri´et´es asymptotiques
Proposition 10. Si les r´esidus sont centr´es, de variance finie σ2
, alors β
P
→ β
si (X X)1
→ 0.
Proposition 11. Si les r´esidus sont i.i.d. centr´es, de variance finie σ2
, alors
√
n(β − β)
L
→ N(0, σQ−1
) si
1
n
(X X)1
→ Q, o`u Q est d´efinie positive.
Proposition 12. Si les r´esidus sont i.i.d. centr´es, de variance finie σ2
, alors
σ2 P
→ σ2
et
√
n(σ2
− σ2
)
L
→ N(0, σV ar(ε2
)) si
1
n
(X X)1
→ Q, o`u Q est d´efinie
positive.
Dans le mod`ele lin´eaire gaussien, l’estimateur par moindres carr´es est
asymptotiquement efficace.
86
87. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Intervalles de confiance pour Y et Y
Supposons que l’on dispose d’une nouvelle observation X0 et que l’on souhaite
pr´edire la valeur Y0 assoic´ee.
L’incertitude sur la pr´ediction Y0 vient de l’erreur d’estimation sur les param`etres
β.
L’incertitude sur la r´ealisation Y0 vient de l’erreur d’estimation sur les
param`etres β et de l’erreur associ´ee au mod`ele lin´eaire, i.e. ε0.
Dans le cas de la r´egression simple, Y0 = Y0 + ε0 = β0 + β1X0 + ε0. Aussi,
• V ar(Y0) = V ar(β0) + 2X0cov(β0, β1) + X2
0 V ar(β1)
• V ar(Y0) = V ar(Y0) + V ar(ε0), si l’on suppose que le bruit est la partie non
expliqu´ee. Aussi V ar(Y0) = V ar(β0) + 2X0cov(β0, β1) + X2
0 V ar(β1) + σ2
87
88. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Intervalle de confiance pour Y
L’incertitude sur la pr´ediction Yj vient de l’erreur d’estimation sur les param`etres
β.
Dans ce cas, si l’on dispose d’une nouvelle observation X0, l’intervalle de
confiance pour Y0 = (X X)−1
X Y0 est
Y0 ± tn−k(1 − α/2)σ x0(X X)−1X0
o`u tn−k(1 − α/2) est le quantile d’ordre (1 − α/2) de la loi de Student `a n − k
degr´es de libert´e.
88
89. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Intervalle de confiance pour Y
L’incertitude sur la r´ealisation Yj vient de l’erreur d’estimation sur les
param`etres β et de l’erreur associ´ee au mod`ele lin´eaire, i.e. εi.
Dans ce cas, si l’on dispose d’une nouvelle observation X0, l’intervalle de
confiance pour Y0 = Y0 + ε0 est
Y0 ± tn−k(1 − α/2)σ 1+x0(X X)−1X0
En fait, sous R, l’intervalle de confiance pour Y n’inclue pas l’erreur associ´ee `a
l’erreur d’estimation, aussi, dans ce cas, si l’on dispose d’une nouvelle observation
X0, l’intervalle de confiance pour Y0 = Y0 + ε0 est
Y0 ± tn−k(1 − α/2)σ .
89
92. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un mot sur les extensions du mod`ele lin´eaire
Nous avons donn´ees deux interpr´etations de la r´egression par moindre carr´es,
• E(Y |X = x) = x β,
• Y |X = x ∼ N(x β, σ2
).
Des extensions de ces interpr´etations sont les suivantes,
• m´ediane(Y |X = x) = x β, dans le cas de la r´egression L1
, ou plus
g´en´eralement, n’importe quel quantile, Qα(Y |X = x) = x β : r´egression
robuste et r´egression quantile,
• E(Y |X = x) = ϕ(x) : r´egression nonlin´eaire ou r´egression nonparam‘’etrique,
• Y |X = x ∼ L(g(x β)) ; o`u L est une loi “quelconque”, e.g. binomiale dans le
cas de la r´egression probit/logit.
92
93. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Les variables explicatives, X = (X1, · · · , Xk)
• oublie d’une variable (importante) dans la r´egression : sous-identification
Suppposons que le vrai mod`ele est de la forme
Yi = X1,iβ1 + X2,iβ2 + εi, (1)
o`u les εi v´erifient les conditions usuelles du mod`ele lin´eaire.
Supposons que l’on r´egresse seulement Y sur X1,
Yi = X1,iα1 + ηi. (2)
L’estimation de α1 dans le mod`ele 2 donne
α1 = (X1X1)−1
X1Y
= (X1X1)−1
X1[X1,iβ1 + X2,iβ2 + ε]
= (X1X1)−1
X1X1β1 + (X1X1)−1
X1X2β2 + (X1X1)−1
X1ε
= β1 + (X1X1)−1
X1X2β2
β12
+ (X1X1)−1
X1εi
νi
93
94. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
i.e. E(α1) = β1 + β12.
Si X1X2 = 0 (variables non corr´l´ees), α1 estime sans biais β1
Si on oublie une variable α1 est un estimateur biais´e de β1, mais poss`ede une
variance plus faible.
• rajout d’une variable dans la r´egression : sur-identification
De mani`ere duale, si on rajoute une variable, i.e. le vrai mod`ele est
Y = X1β1 + ε
mais que l’on estime
Y = X1α1 + X2α2 + η
L’estimation est sans biais, i.e. E(α1) = β1, mais l’estimateur n’est pas efficient.
94
95. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un (petit) mot sur l’interpr´etation des param`etres
On interprˆetre souvent le signe de β1 comme le sens de la relation entre la
variable explicative X1 et la r´eponse Y .
Une lecteure naive serait “un changement d’une unit´e de X1 va conduire `a un
changement - en moyenne - de β1 sur Y ”
Mais il s’agit d’une interpr´etation causale d’une simple corr´elation, et surtout,
ceci suppose que “β1 mesure l’effect de X1 sur Y , toutes choses ´etant ´egales par
ailleurs”. Mais peut-on supposer que X1 et X2 soient ind´ependantes (et que l’on
puisse faire varier X1 sans faire varier X2 ?).
95
96. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un (petit) mot sur la multicolin´earit´e
On parlera de (multi)colin´earit´e entre deux variables exog`enes lorsque la
corr´elation entre ces variables est (tr`es) ´elev´ee.
• colin´earit´e parfait, i.e. rang(X X) < k + 1, alors (X X) n’est pas inversible
• colin´earit´e tr`es forte, alors le calcul de (X X)−1
est instable.
L’id´e de la r´egression ridge (propos´ee par Hoerl & Kennard (1970)) est de
consid´erer
β = (X X + λI)−1
X Y.
Attention La multicolin´earit´e biaise les interpr´etation dans les contextes de
pr´ediction, c.f. paradoxe de Simpson
Consid´erons le cas o`u
• Y d´esigne le fait d’ˆetre gu´eri ou d´ec´d´e
• X1 d´esigne l’hˆopital (not´e ici A ou B)
• X2 d´esigne le fait d’ˆetre entr´e (ou pas) en bonne sant´e
96
97. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un (petit) mot sur la multicolin´earit´e
Un peu de statistique descriptive donne, pour E(Y |X1)
hˆopital total survivants d´ec`es taux de survie
hˆopital A 1, 000 800 200 80%
hˆopital B 1, 000 900 100 90%
Personnes en bonne sant´e, i.e. E(Y |X1, X2 = bonne sant´e)
hˆopital total survivants d´ec`es taux de survie
hˆopital A 600 590 10 98%
hˆopital B 900 870 30 97%
Personnes malades, i.e. E(Y |X1, X2 = malade)
hˆopital total survivants d´ec`es taux de survie
hˆopital A 400 210 190 53%
hˆopital B 100 30 70 30%
97
98. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un (petit) mot sur la multicolin´earit´e
Aussi, E(Y |X1) et E(Y |X1, X2 = x2) peuvent ˆetre sensiblements diff´erents pout
tout x2.
L’explication du paradoxe est que le choix de l’hˆopital et la condition m´edicale `a
l’entr´ee sont tr`es li´es (B ne soignant pas des personnes malades)
Pour d´etecter la multicolin´earit´e, on ´etudie les corr´elations crois´ees. Il existe
g´en´eralement deux r`egles pour d´etecter de la multicolin´earit´e entre X1 et X2, i.e.
• si |r1,2| > 0.8, mais cela ne prend pas en compte les particularit´es de la
r´egression,
• si r2
1,2 > R2
, r`egle dite de Klein.
98
99. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un (petit) mot sur la multicolin´earit´e
Une autre interpr´etation est la suivante : il est possible d’avoir
Y = β0 + β1X1 + ε avec β1 > 0,
mais
Y = α0 + α1X1 + α2X2 + η avec α1 < 0.
=⇒ Attention aux interpr´etations fallacieuses des valeurs de coefficients.
Autre exemple, consid´erons le cas o`u
• Y d´esigne le pourcentage d’admission `a Berkeley
• X1 d´esigne le sexe de la personne H ou F)
• X2 d´esigne la majeure
99
100. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un (petit) mot sur la multicolin´earit´e
Un peu de statistique descriptive donne, pour E(Y |X1)
sexe postulants admis (%)
hommes H 2, 074 1, 018 48%
femmes F 849 261 30%
Personnes en bonne sant´e, i.e. E(Y |X1, X2)
Hommes
majeure post. admis (%)
A 825 511 62%
B 560 353 63%
C 417 138 33%
D 272 16 6%
Femmes
majeure post. admis (%)
A 108 89 82%
B 25 17 68%
C 375 131 35%
D 341 24 7%
100
101. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un (petit) mot sur la multicolin´earit´e
On peut retrouver des dizaines d’exemples de ce type,
Example : confrontation de deux joueurs de base-base
joueur 1995 1996 Total
Derek Jeter 12/48 25.0% 183/582 31.4% 195/630 31.0%
David Justice 104/411 25.3% 45/140 32.1% 149/551 27.0%
Example : validation clinique d’un m´edicament
traitement petits caillots gros caillots Total
A 234/270 87% 55/80 69% 289/350 83%
B 81/87 93% 192/263 73% 273/350 78%
101