SlideShare une entreprise Scribd logo
1  sur  101
Télécharger pour lire hors ligne
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Mod`eles de pr´evision
Partie 1 - r´egression
Arthur Charpentier
charpentier.arthur@uqam.ca
http ://freakonometrics.hypotheses.org/
´Et´e 2014
1
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Plan du cours - donn´ees individuelles
◦ Rappels de statistique
• Motivation et introduction aux mod`eles de r´egression
• Le mod`ele lin´eaire simple
◦ R´esultats g´en´eraux
◦ Approche matricielle
• Le mod`ele lin´eaire multiple
◦ R´esultats g´en´eraux
◦ Tests, choix de mod`ele, diagnostique
• Aller plus loin
◦ Les mod`eles non lin´eaires param´etriques
◦ Les mod`eles non lin´eaires nonparam´etriques
2
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Plan du cours - donn´ees temporelles
• Motivation et introduction aux s´eries temporelles
• M´ethodes de lissage
◦ Mod`eles de r´egression (Buys-Ballot)
◦ Lissage(s) exponentiel(s) (Holt-Winters)
• Notions g´en´erales sur les processus stationnaires
• Les processus SARIMA
◦ Les mod`eles autor´egressifs, AR(p), Φ(L)Xt = εt
◦ Les mod`eles moyennes mobiles, MA(q) (moving average), Xt = Θ(L)εt
◦ Les mod`eles autor´egtressifs et moyenne mobiles, ARMA(p, q),
Φ(L)Xt = Θ(L)εt
◦ Les mod`eles autor´egtressifs, ARIMA(p, d, q), (1 − L)d
Φ(L)Xt = Θ(L)εt
◦ Les mod`eles autor´egtressifs, SARIMA(p, d, q),
(1 − L)d
(1 − Ls
)Φ(L)Xt = Θ(L)εt
◦ Pr´evision avec un SARIMA, T XT +h
3
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un peu de terminologie
L’´etude de la transmission g´en´etique de
certaines caract´eristiques a int´eress´e
Galton en 1870 puis Pearson en 1896. Galton a
propos´e d´etudier la taille d’un enfant en
fonction de la taille (moyenne) de ses parents,
`a partir de 928 observations.
4
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
5
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
6
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
qqqqq
qqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqq
64 66 68 70 72
62646668707274
Taille moyenne des parents (inches)
Tailledel'enfant(inches)
Un enfant de parents grands est en moyenne grand, mais moins que ses parents.
Un enfant de parents petits est en moyenne petits, mais moins que ses parents.
=⇒ “I have called this peculiarity by the name of regression”, au sens r´egression
vers la moyenne.
7
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un peu de terminologie
Pearson a propos´e d’´etudier le lien entre la taille d’un homme et celle de son
p`ere. La conclusion est la mˆeme, il y a r´egression vers la moyenne.
q
q q
q
q q qq
q
q
q q
q q q
q q
q
q
q
q
q
q q q qq
q
qq qq
q
q
qq q q q
q q
qq
qq
q q
q
q
q
q q qq
q q
q
q
q
q
q
q q
q
qq q
q
q qq
q
q
q
q
qq qq
q
q q
q
q
qq
q
q
q qq
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
qq q
qq
q
q qqq
q q
qqq
q
q
q
qq
q
q q q
q qq
qq q
q
q
qq
q
qq q
q
q qq q
q q
q
q q
q
q
q q
q
q
q
q q q
q
q q
q q
q
q
q q
q
q
q
q q
q
q
q q q
qq
q q q
q
q
q
q
q q
q q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q q
q q
q
q qq
q q
q
q
q
q q
q qq q qq
q
qq q
q
qq
q
q
q q
q
q
q qq
q
q
q
q q
q qq
q
q
q
q
q
q
qq
qq
qq
q
qq q
q
q
q q
q q q q q q
q
q
q q
q q
q q
q qq q
q
q q
qq
qq
q
q q
q q
q
q
q
q
q
q q
q
q
q
q
q q q q
q
q
q qq
qqq
q
qq
q qq
q
q q qqq q
q
qq
q
q
q qq
q
q
q qq
q
q
qq q
q
qq
qq
q
q qq
qq q qq
q qq q
q
q
q q q
q q
q q
q
q q q
q
q q qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
qq
q
qq q q
q
q
q qq
q
q
qq
q
q
q
q
qqq q
qq
q
q
q
q
qq
q
q
q
q
qq q
qq
q
qq qq
qqq
q
qq q q
q q
qq
q
q
qq
qq
q
qq q q q
q
qq
q
q qq
q
q q
q qqqq
qq
q
q qq
q q q
q
q qq
q
qq qq
qqqq
qq q
qq
q
q
q q
q
q
q
q
q q
q
q
q
q
qq
q
q
q
q
q
qq
q q
q q
qq
q
q
q
q q q qq
qq
qq
q
q
q qq
q
q q q
q
q
q q
q q q
q
qq
q q
q
q
q qq q
q
q q
q
q
q
q q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q qq
q
qq
q
q qq
q q
q
q
q
q
q qq q q
q
qqq
q q
q
q q
q q q
q q q q
q
q
q
q
q
q
q q qq q
q q
q q
q
q
qqq q
q
q q
q
q
q
q q
q
qq
q
q q
qq q qqq
qq q
q
q q
q
q
qqqq qq
q
q
qq q
q q
q
q q
qq
q q
q
q qq q
q
q q
q q
q
q qq q
q
q
q
q
q q
q
q
qq
q
q
q
qqq
qqq q q
q
q qqq q q
q
q
q
q
q qq
qq
qq
q
q
q
q
q qq q
q
q
q
q q q
q q
q q
q
q q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q q
q q q q
q
q
q
q
qq q
qq q
q q
q q
q
q
q q
q qq q qqq
q qq q q
q
q q
qq qqq
q
q
q
q
q
q
qq q
q
q
qqq
q
q
q
qq q qq
q q q
qq
q
qq
q
q
qq qq q
qq
qq
q qq
q
q
q qq qq
qq q
q q
q qq
q
q q q
q qq q
q
qq
qq q
q q
qqq qq
q q
q
qq
qq q
q
q
qq
q q
q
qq
q
q q q
q q qqqq q
q qq q
q
qq q
q
qqq qq q
q q
q
q
q
q
q
q q
q
q
q q
q
q
q q
q qq
q q
q q
q
q
q q
q
q q q q
q
q
q
q
q
q
q
q
q
q
q
qq
q
60 65 70 75
60657075
Taille du père (inches)
Tailledufils(inches)
r´egression = ´etudes de corr´elations
8
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un peu de terminologie
Remarque cela ne signifie pas que les fils sont plus “moyens” que leurs p`eres : il
ne s’agit que d’une notion de corr´elation, de d´ependance, en aucun cas de lois
marginales
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q q
q
qq
q
q
q
qq
q
q
q
q q
q
q
q
q
q q
q
q
q
qq
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q q
q
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qq
q q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
60 65 70 75
60657075
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
60 65 70 75
60657075
9
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
de l’esp´erance `a l’esp´erance conditionnelle
Pr´edire le poids Y , sans aucune autre information
Poids (kg)
densité
40 60 80 100 120
0.000.010.020.030.040.05
qqq qq qqq qq qqq qq q qq qq qq q qqq qqq qq q qq qqq q qqq qq q qq qq q q qq q qq q q q qq q qq q qq qqq qq qq qqqq q qqqqq qq q qq qq qq qq qq qq q qq qqq qqq q qq qqq q qq q qqq qqqq qqqq qq q qqq qq qq qqqq q q qqq q q qqqq qq q qqqqq qq qq q q q qq qq q qq qq q qq qq qq qq qq qq q qqq q q qq qq
10
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
de l’esp´erance `a l’esp´erance conditionnelle
On peut aussi regarder la loi de Y , pour en d´eduire des quantiles (e.g. ob´esit´e)
40 60 80 100 120
0.000.010.020.030.040.05
Poids (kg)
densité
qqq qq qqq qq qqq qq q qq qq qq q qqq qqq qq q qq qqq q qqq qq q qq qq q q qq q qq q q q qq q qq q qq qqq qq qq qqqq q qqqqq qq q qq qq qq qq qq qq q qq qqq qqq q qq qqq q qq q qqq qqqq qqqq qq q qqq qq qq qqqq q q qqq q q qqqq qq q qqqqq qq qq q q q qq qq q qq qq q qq qq qq qq qq qq q qqq q q qq qq
11
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
de l’esp´erance `a l’esp´erance conditionnelle
On peut aussi regarder la loi de Y , derri`ere se cache un m´elange (par sexe)
40 60 80 100 120
0.000.010.020.030.040.05
Poids (kg)
densité
12
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
de l’esp´erance `a l’esp´erance conditionnelle
Estimation de la loi de Y |X = 175
150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
q
13
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
de l’esp´erance `a l’esp´erance conditionnelle
Estimation de la loi de Y |X = 185
150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
q
q
14
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
de l’esp´erance `a l’esp´erance conditionnelle
Estimation de la loi de Y |X = 165
150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
q
q
q
15
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
de l’esp´erance `a l’esp´erance conditionnelle
Pour plusieurs valeur de x, il possible d’estimer une loi de Y |X = x
150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
16
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
de l’esp´erance `a l’esp´erance conditionnelle
Une explication de la nonlin´earit´e, l’h´et´erog´en´eit´e hommes/femmes
150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
17
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
de l’esp´erance `a l’esp´erance conditionnelle
Une relation plus quadratique que lin´eaire ?
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
qq
q
q
q
q
qq
q qq
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q q
q
q q
q
q
q
q
qq
q
q
q
q
qqq
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
18
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Esp´erance conditionelle et projection
Faire une pr´ediction de Y `a X fix´e c’est projeter Y sur l’ensemble des variables
al´eatoires engendr´ees par X [...]
19
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Esp´erance conditionelle et projection
[...] on peut se restreindre `a un sous-ensemble, celui des transformations affines
engendr´ees par X [...]
20
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Esp´erance conditionelle et projection
[...] ou on se restreint `a un sous-ensemble de ce sous-ensemble, les constantes.
21
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un peu de motivation ?
Le prestige (Y ) expliqu´e par le salaire (X), cf. Blishen & McRoberts (1976),
´etude du “prestige” de 102 m´etiers au Canada.
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
0 5000 10000 15000 20000 25000
20406080
Revenu
Prestige
GENERAL.MANAGERS
ARCHITECTS
LAWYERS
UNIVERSITY.TEACHERS
PHYSICIANS
OSTEOPATHS.CHIROPRACTORS
22
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un peu de motivation ?
Le prestige (Y ) expliqu´e par le salaire (X), cf. Blishen & McRoberts (1976),
´etude du “prestige” de 102 m´etiers au Canada.
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
0 5000 10000 15000 20000 25000
20406080
Revenu
Prestige
GENERAL.MANAGERS
ARCHITECTS
LAWYERS
UNIVERSITY.TEACHERS
PHYSICIANS
OSTEOPATHS.CHIROPRACTORS
23
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un peu de motivation ?
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
0 5000 10000 15000 20000 25000
20406080
Revenu
Prestige
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
24
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un peu de motivation ?
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
0 5000 10000 15000 20000 25000
20406080
Revenu
Prestige
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
25
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Lien avec le cours de statistique ?
• Cours de statistique ‘descriptive’
On dispose d’un ´echantillon {y1, · · · , yn}, de variables r´eelles, yi ∈ R.
On peut d´efinir la moyenne, ou la variance (empirique)
• y =
y1 + · · · + yn
n
=
1
n
n
i=1
yi
• s2
=
1
n
n
i=1
[yi − y]2
26
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Lien avec le cours de statistique ?
• Cours de statistique math´ematique
On dispose d’un ´echantillon {y1, · · · , yn}, vu comme des r´ealisation de variables
al´eatoires {Y1(ω), · · · , Yn(ω)}, ω ∈ Ω, i.e. yi = Yi(ω) ∈ R. On a maintenant des
variables al´eatoires sous-jacentes, Yi. Les moyennes et variances empiriques sont
alors des r´ealisations des variables al´eatoires
• Y =
Y1 + · · · + Yn
n
=
1
n
n
i=1
Yi
• S2
=
1
n
n
i=1
[Yi − Y ]2
i.e. y = Y (ω) et s2
= S2
(ω). En statistique math´ematique, on utilise des
propri´et´es de ces variables al´eatoires pour en d´eduire des propri´et´es sur telle ou
telle statistique.
27
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
La loi des grands nombres garantit que Y
P
→ E(Y ) si on suppose que les Xi sont
des variables ind´ependantes, de mˆeme esp´erance et de mˆeme variance (finies, loi
faible des grands nombres), i.e. ∀ε > 0.
lim
n→+∞
P
Y1 + Y2 + · · · + Yn
n
− E(Y ) ε = 0
On a aussi le th´eor`eme central limite, qui garantit que
√
n(Y − E(Y ))
L
→ N(0, Var(Y )) si on suppose que les Xi sont des variables
ind´ependantes, de mˆeme esp´erance et de mˆeme variance (finies, loi faible des
grands nombres), i.e.
lim
n→∞
P
√
n
Y n − E(Y )
Var(Y )
≤ z = Φ(z)
o`u Φ(·) est la fonction de r´epartition de la loi N(0, 1).
28
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Lien avec le cours de statistique ?
• Cours d’inf´erence (param´etrique)
On dispose d’un ´echantillon {y1, · · · , yn}, vu comme des r´ealisation de variables
al´eatoires {Y1(ω), · · · , Yn(ω)}, o`u les variables al´eatoires sous-jacentes, Yi, sont
suppos´ees ind´ependantes, et identiquement distribu´ees, de loi
F ∈ F = {Fθ, θ ∈ Θ}. Aussi, F = Fθ0
, mais θ0 est inconnu.
Remarque θ est g´en´erallement un param`etre dans Rk
, mais pour simplifier, on
supposera θ ∈ Θ ⊂ R.
Un estimateur θ est une fonction des observations. Attention, parfois
• θ = s(y1, · · · , yn) est un r´eel, e.g. θ = y
• θ = s(Y1, · · · , Yn) est une variable al´eatoire, e.g. θ = Y
Pour estimer θ, on dispose de deux m´ethodes standards
• la m´ethode des moments
• la m´ethode du maximum de vraisemblance
29
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
• La m´ethode des moments
On suppose que si Y ∼ Fθ, E(Y ) = g(θ) o`u g(·) est bijective. Dans ce cas,
θ = g−1
(E(Y )). Un estimateur naturel est alors
θ = g−1
(Y ).
On notera que l’on a (a priori) aucune information sur la qualit´e de l’estimateur,
e.g. l’estimateur n’a aucune raison d’ˆetre sans biais,
E(θ) = E[g−1
(Y )]=g−1
(E[Y ]) = g−1
(E(Y )) = θ
Par contre, si g est suffisement r´eguli`ere, on a des propri´et´es asymptotiques,
E(θ) → θ lorsque n → ∞.
30
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
• La m´ethode du maximum de vraisemblance
Si les variables al´eatoires sous-jacentes sont suppos´ees ind´ependantes et
identiquement distribu´ees, de loi Fθ, de loi de probabilit´e fθ
P(Y1 = y1, · · · , Yn = yn) =
n
i=1
fθ(yi) = L(θ)
(dans le cas discret, avec une expression similaire bas´ee sur la densit´e dans le cas
continu). On va chercher la valeur θ qui donne la plus grande probabilit´e
P(Y1 = y1, · · · , Yn = yn) (appel´ee vraisemblance). I.e.
θ ∈ argmax
θ∈Θ
{L(θ)}
Remarque On ne s’int´eresse pas `a la valeur de la vraisemblance, mais `a la
valeur θ en laquelle la vraisemblance est maximale. Or
θ ∈ argmax
θ∈Θ
{h(L(θ))}
31
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Comme L(θ) > 0 (car ∀i, fθ(yi) > 0), on peut prendre h = log, et donc
θ ∈ argmax
θ∈Θ
{log(L(θ))}
car log L est une fonction beaucoup plus simple,
log L(θ) =
n
i=1
log fθ(yi).
Si la fonction log L est diff´erentiable, la condition du premier ordre s’´ecrit
∂ log L(θ)
∂θ θ=θ
= 0
avec une condition du second ordre pour assurer qu’en θ, on soit sur un
maximum, et pas un minimum,
∂2
log L(θ)
∂2θ θ=θ
≤ 0
32
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
L`a encore, on n’a aucune propri´et´e `distance finie. Mais quand n → ∞,
P(|θn − θ| > ε) → 0, ∀ ε > 0 (i.e. θ
P
→ θ). On a aussi une normalit´e asymptotique,
et une efficacit´e asymptotique, i.e. la variance (asymptotique) est donn´ee par la
borne de Cram´er-Rao,
√
n(θ − θ0)
L
→ N(0, I−1
(θ0))
o`u I(θ0) est l’information de Fisher,
I(θ) = E
∂ log fθ(Y )
∂θ
2
, o`u Y ∼ Fθ.
33
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
• Construction de tests
Consid´erons l’´echantillon suivant, de pile ou face, {y1, · · · , yn}
> set.seed(1)
> n=20
> (Y=sample(0:1,size=n,replace=TRUE))
[1] 0 0 1 1 0 1 1 1 1 0 0 0 1 0 1 0 1 1 0 1
Comme Yi ∼ B(θ), avec θ = E(Y ), l’estimateur de la m´ethde des moments est
θ = y, soit ici
> mean(X)
[1] 0.55
On peut faire un test de H0 : θ = θ contre H1 : θ = θ (par exemple 50%)
On peut utiliser le test de Student,
T =
√
n
θ − θ
θ (1 − θ )
34
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
qui suit, sous H0 une loi de Student `a n degr´es de libert´e.
> (T=sqrt(n)*(pn-p0)/(sqrt(p0*(1-p0))))
[1] 0.4472136
> abs(T)<qt(1-alpha/2,df=n)
[1] TRUE
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
dt(u,df=n)
q
On est ici dans la r´egion d’acceptation du test.
35
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
On peut aussi calculer la p-value, P(|T| > |tobs|),
> 2*(1-pt(abs(T),df=n))
[1] 0.6595265
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
dt(u,df=n)
q
Le maximum de vraisemblance est important car il permet de faire des tests
statistiques.
36
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Test de Wald l’id´ee est d’´etudier la diff´erence entre θ et θ . Sous H0,
T = n
(θ − θ )2
I−1(θ )
L
→ χ2
(1)
Test du rapport de vraisemblance l’id´ee est d’´etudier la diff´erence entre
log L(θ) et log L(θ ). Sous H0,
T = 2 log
log L(θ )
log L(θ)
L
→ χ2
(1)
Test du score l’id´ee est d’´etudier la diff´erence entre
∂ log L(θ )
∂θ
et 0. Sous H0,
T =
1
n
n
i=1
∂ log fθ (xi)
∂θ
2
L
→ χ2
(1)
37
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Lien avec le cours de statistique ?
Pour l’estimateur de maximum de vraisemblance, on peut faire les calculs, ou le
faire num´eriquement. On commence par tracer la fonction θ → log L(θ)
> p=seq(0,1,by=.01)
> logL=function(p){sum(log(dbinom(X,size=1,prob=p)))}
> plot(p,Vectorize(logL)(p),type="l",col="red",lwd=2)
0.0 0.2 0.4 0.6 0.8 1.0
−50−40−30−20
p
Vectorize(logL)(p)
38
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
On peut trouver num´eriquement le maximum de log L,
> neglogL=function(p){-sum(log(dbinom(X,size=1,prob=p)))}
> pml=optim(fn=neglogL,par=p0,method="BFGS")
> pml
$par
[1] 0.5499996
$value
[1] 13.76278
i.e. on retrouve ici θ = y.
Maintenant, on peut tester H0 : θ = θ = 50% versus H1 : θ = 50%. Pour le test
de Wald, on peut commencer par calculer nI(θ ) ou ,
> nx=sum(X==1)
> f = expression(nx*log(p)+(n-nx)*log(1-p))
> Df = D(f, "p")
> Df2 = D(Df, "p")
> p=p0=0.5
39
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
> (IF=-eval(Df2))
[1] 80
On peut d’ailleurs comparer cette valeur avec la valeur th´eorique, car
I(θ)−1
= θ(1 − θ)
> 1/(p0*(1-p0)/n)
[1] 80
0.0 0.2 0.4 0.6 0.8 1.0
−16.0−15.0−14.0−13.0
p
Vectorize(logL)(p)
q
40
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
La statistique du test de Wald est ici
> pml=optim(fn=neglogL,par=p0,method="BFGS")$par
> (T=(pml-p0)^2*IF)
[1] 0.199997
que l’on va chercher `a comparer avec le quantile de la loi du χ2
,
> T<qchisq(1-alpha,df=1)
[1] TRUE
i.e. on est dans la r´egion d’acceptation du test. De mani`ere duale, on peut
calculer la p-value du test,
> 1-pchisq(T,df=1)
[1] 0.6547233
Donc on va accepter H0.
41
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
0 1 2 3 4 5 6
0.00.51.01.52.0
dchisq(u,df=1)
q
Pour le test du rapport de vraisemblance, T est ici
> (T=2*(logL(pml)-logL(p0)))
[1] 0.2003347
42
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
0.0 0.2 0.4 0.6 0.8 1.0
−16.0−15.0−14.0−13.0
p
Vectorize(logL)(p)
q
L`a encore, on est dans la r´egion d’acceptation,
> T<qchisq(1-alpha,df=1)
[1] TRUE
Enfin, on peut faire le test du score. Le score se calcule facilement,
> nx=sum(X==1)
43
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
> f = expression(nx*log(p)+(n-nx)*log(1-p))
> Df = D(f, "p")
> p=p0
> score=eval(Df)
La statistique de test est alors
> (T=score^2/IF)
[1] 0.2
44
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
0.0 0.2 0.4 0.6 0.8 1.0
−16.0−15.0−14.0−13.0
p
Vectorize(logL)(p)
q
L`a encore, on est dans la r´egion d’acceptation,
> T<qchisq(1-alpha,df=1)
[1] TRUE
45
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
De la statistique math´ematique au mod`ele de r´egression
Un mod`ele statistique standard supposerait que l’on dispose d’un ´echantillon
{Y1, · · · , Yn} et de supposer que les observations Y sont i.i.d. de loi
Y ∼ N(θ, σ2
)
Ici, on va disposer d’un ´echantillon {(Y1, X1), · · · , (Yn, Xn)} et de supposer que
les couples d’observations (X, Y ) sont i.i.d.. de telle sorte que Y |X = x suive une
loi
(Y |X = x) ∼ N(θx, σ2
)
Aussi, θx = E(Y |X = x). Dans un mod`ele lin´eaire
(Y |X = x) ∼ N(β0 + β1x, σ2
)
46
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Le mod`ele lin´eaire simple, deux variables continues
Consid´erons - pour commencer un mod`ele lin´eaire simple,
Yi = β0 + β1Xi + εi ou Yi = (1, Xi)
Xi
β0
β1
β
+εi
o`u εi est un bruit. Si X est suppos´e “exog`ene”, d´eterministe, ou donn´e, on
suppose que εi est
• centr´e E(εi) = 0,
• de variance constante Var(εi) = σ2
,
• non autocorr´el´e, Cov(εi, εj) = 0 pour i = j,
Aussi,
• E(Y |X) = β0 + β1X
• Var(Y |X) = Var(ε|X) = σ2
mod`ele homosc´edastique.
47
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Estimation de β = (β0, β1)
Par minimisation de la somme des carr´es des erreurs (ordinary least squares)
SCR(β) =
n
i=1
[Yi − (β0 + β1Xi)]2
ε2
i
i.e.
β = argmin
β∈R2
{SCR(β)}
Les conditions du premier ordre sont
∂SCR(β)
∂β0 β=β
= 0 i.e.
n
i=1
(−2)[Yi − (β0 + β1Xi)] = 0
et
∂SCR(β)
∂β1 β=β
= 0 i.e.
n
i=1
(−2Xi)[Yi − (β0 + β1Xi)] = 0
48
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
On obtient les ´equations normales
n
i=1
Yi =
n
i=1
β0 + β1Xi
Yi
=
n
i=1
Yi
et
n
i=1
Xi [Yi − (β0 + β1Xi)]
εi
= 0
49
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Proposition 1. Les estimateurs obtenus par minimisation de la somme des
carr´es des erreurs sont
β1 = r
sY
sX
et β0 = Y − β1X
o`u X et Y sont les moyennes empiriques
X =
1
n
n
i=1
Xi et Y =
1
n
n
i=1
Yi
o`u s2
X et s2
Y sont les variance empiriques
s2
Y =
1
n − 1
n
i=1
[Yi − Y ]2
et s2
X =
1
n − 1
n
i=1
[Xi − X]2
et o`u r d´esigne la corr´elation empirique
r =
1
n−1
n
i=1[Xi − X][Yi − Y ]
1
n−1
n
i=1[Xi − X]2 1
n−1
n
i=1[Yi − Y ]2
50
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Proposition 2. Les estimateurs obtenus par minimisation de la somme des
carr´es des erreurs sont
β1 =
n
i=1(XiYi − nXY )
n
i=1 X2
i − nX
2
et
β0 =
n
i=1 X2
i − nX
n
i=1 XiYi
n
i=1 X2
i − nX
2
51
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Qualit´e du mod`ele et d´ecomposition de la variance
On posera
• Yi = β0 + β1Xi la pr´ediction de Yi,
• εi = Yi − Yi l’erreur de pr´ediciton
Notons que
Yi − Y = (Yi − Yi) + (Yi − Y )
aussi, en ´elevant `a la puissance 2,
(Yi − ¯Y )2
= (Yi − Yi)2
+ (Yi − ¯Y )2
+ 2(Yi − ¯Y )(Yi − Yi)
et en sommant
n
i=1
(Yi − ¯Y )2
=
n
i=1
(Yi − Yi)2
+
n
i=1
(Yi − ¯Y )2
+
n
i=1
2(Yi − ¯Y )(Yi − Yi)
=0
.
52
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
On notera que
n
i=1
2( ˆYi − ¯Y )(Yi − ˆYi) =
n
i=1
2(( ¯Y − ˆβ1
¯X + ˆβ1Xi) − ¯Y )(Yi − ˆYi)
=
n
i=1
2(( ¯Y + ˆβ1(Xi − ¯X)) − ¯Y )(Yi − ˆYi)
=
n
i=1
2( ˆβ1(Xi − ¯X))(Yi − ˆYi)
=
n
i=1
2 ˆβ1(Xi − ¯X)(Yi − ( ¯Y + ˆβ1(Xi − ¯X)))
=
n
i=1
2 ˆβ1((Yi − ¯Y )(Xi − ¯X) − ˆβ1(Xi − ¯X)2
).
or
β1 =
n
i=1(XiYi − nXY )
n
i=1(Xi − ¯X)2
53
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
donc ici
n
i=1
2( ˆYi − ¯Y )(Yi − ˆYi) =
n
i=1
2 ˆβ1 (Yi − ¯Y )(Xi − ¯X) − ˆβ1(Xi − ¯X)2
= 2 ˆβ1
n
i=1
(Yi − ¯Y )(Xi − ¯X) − ˆβ1
n
i=1
(Xi − ¯X)2
= 2 ˆβ1
n
i=1
(Yi − ¯Y )(Xi − ¯X) − (Yi − ¯Y )(Xi − ¯X)
= 2 ˆβ1 · 0 = 0
D’o`u la formule de d´ecomposition de la variance
n
i=1
(Yi − Y )2
=
n
i=1
(Yi − Yi)2
+
n
i=1
(Yi − Y )2
54
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
On notera R2
le coefficient d’ajustement
R2
=
n
i=1(Yi − Y )2
n
i=1(Yi − Y )2
= 1 −
n
i=1(Yi − Yi)2
n
i=1(Yi − Y )2
Estimation de σ2
Estimation de σ2
= Var(ε),
s2
=
1
n − 2
n
i=1
ε2
i
Remarque Notons que β1 =
n
i=1
ωiYi o`u ωi =
Xi − X
(n − 1)S2
X
et β0 = Y − β1X
Estimation de β1
Proposition 3. E(β1) = β1 et Var(β1) =
σ2
(n − 1)S2
X
55
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
E(β1) = E
n
i=1
ωiYi =
n
i=1
ωi E(Yi)
β0+β1Xi
= β0
n
i=1
ωi
=0
+β1
n
i=1
ωiXi
=1
= β1
et
Var(β1) = Var
n
i=1
ωiYi =
n
i=1
ω2
i Var(Yi)
Estimation de β0
De mˆeme, on peut d´driver une expression similaire pour l’estimateur de la
constante
Proposition 4. E(β0) = β0 et Var(β0)
σ2
n
1 +
X
2
S2
X
56
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
´Ecriture matricielle du mod`ele
Posons
X =










1 X1
1 X2
...
...
1 Xn−1
1 Xn










, β =


β0
β1


Alors
Y =










Y1
Y2
...
Yn−1
Yn










= Xβ + ε =










β0 + β1X1
β0 + β1X2
...
β0 + β1Xn−1
β0 + β1Xn










+










ε1
ε2
...
εn−1
εn










57
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
i.e.
Y
n×1
= X
n×2
β
2×1
+ ε
n×1
Si on fait un peu de calcul matriciel, notons que
X Y =


1 1 · · · 1 1
X1 X2 · · · Xn−1 Xn












Y1
Y2
...
...
Yn−1
Yn










=


n
i=1 Yi
n
i=1 XiYi


58
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
X X =


1 1 · · · 1 1
X1 X2 · · · Xn−1 Xn












1 X1
1 X2
...
...
1 Xn−1
1 Xn










=


n
n
i=1 Xi
n
i=1 Xi
n
i=1 X2
i


Rappelons que
si A =


a c
b d

 alors A−1
=
1
ad − bc


d −c
−b a


Aussi
(X X)−1
=
1
n
n
i=1 X2
i − (
n
i=1 Xi)
2


n
i=1 X2
i −
n
i=1 Xi
−
n
i=1 Xi n


59
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
i.e.
(X X)−1
=
1
n
i=1 X2
i − nX
2


1
n
n
i=1 X2
i −X
−X 1


Aussi
(X X)−1
X Y =
1
n
i=1 X2
i − nX
2


n
i=1 X2
i − nX
n
i=1 XiYi)
n
i=1 XiYi − nXY

 =


β0
β1


Proposition 5. En posant Y = Xβ + ε, les estimateurs qui minimisent la
somme des carr´es des erreurs sont
β =


β0
β1

 = (X X)−1
X Y .
Notons que Y = Xβ = X(X X)−1
X Y . On notera
Y = X(X X)−1
X
H
Y
60
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
On a aussi
ε = Y − Y = I − X(X X)−1
X
M
Y
o`u M = (I − H).
Ici, M est une matrice symm´etrique, M = M , et M2
= M, i.e. M est une
matrice de projection (orthogonale). Notons que MX = 0, i.e. M est un matrice
de projection orthogonale `a X.
En revanche, H est une matrice symm´etrique, H = H , et H2
= H, i.e. H est
une matrice de projection (orthogonale). Notons que HX = X, i.e. H est un
matrice de projection orthogonale sur X.
61
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Le mod`ele lin´eaire multiple
On peut supposer que l’on r´egresse sur plusieurs variables explicatives
Yi = β0 + β1X1,i + · · · , βkXk,i + εi ou Yi = (1, X1,i, · · · , Xk,i)
Xi





β0
...
βk





β
+εi
• Y est la variable `a expliquer, ou r´eponse, output, variable d´ependante, ou
variable endog`ene
• les Xj sont les variables explicatives, ou pr´edicteurs, input, variables
ind´ependantes, ou variables exog`enes
• ε est un bruit, suppos´e non expliqu´e (ou orthogonal) par les variables
explicatives.
62
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Le mod`ele lin´eaire multiple
Au niveau des notations, au lieu de supposer que pour i = 1, · · · , n,
Yi = β0 + β1Xi,1 + · · · , βkXi,k + εi ou Yi = Xiβ + εi,
on peut utiliser l’´ecriture matricielle,





Y1
...
Yn





Y ,n×1
=





1 X1,1 · · · X1,k
...
...
...
...
1 Xn,1 · · · Xn,k





X,n×(k+1)








β0
β1
...
βk








β,(k+1)×1
+





ε1
...
εn





ε,n×1
.
63
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Le mod`ele lin´eaire
Aussi, pour les r´esidus, on suppose que l’on a
E(ε) = E





ε1
...
εn





=





0
...
0





Var(ε) = σ2
In = σ2








1 0 · · · 0
0 1 · · · 0
...
...
...
0 · · · · · · 1








=








σ2
0 · · · 0
0 σ2
· · · 0
...
...
...
0 · · · · · · σ2








Ce sont des hypoth`eses (qu’il faudra tester un jour....)
64
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Le mod`ele lin´eaire
Si X est suppos´e al´eatoire
• E(ε|X) = 0,
• i.e. E(Y |X) = Xβ, ou encore E(Y |X) est lin´eaire en X
• E(εε |X) = σ2
I,
• i.e. Var(Y |X) = σ2
, Var(Y |X) est constante : hypoth`ese d’homosc´edasticit´e.
• Cov(Yi, Yj|X) = 0 pour i = j, ou encore Cov(Yi, Yj|X) est nulle
• on rajoute l’hypoth`ese Cov(X, ε) = 0 : le bruit est la composante qui ne peut
ˆetre expliqu´ee par X.
Pour estimer β, il y a (au moins) trois m´ethodes classiques
• m´ethode du maximum de vraisemblance : besoin de sp´ecifier la loi des r´esidus
• m´ethode des moments
• m´ethode des moindres carr´es : β ∈ argmin
n
i=1
[Yi − Xiβ]2
65
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Estimations `a distance finie
Quelques rappels sur les propri´et´es (ou informations) souhaitables d’un estimateur
• biais : θ estime sans biais de θ si E(θ) = θ, on note biais(θ) = E(θ) − θ.
• “meilleur” : θ1 est un meilleur estimateur que θ2 si V ar(θ1) est “plus petit”
que V ar(θ2), i.e. si k ≥ 2 V ar(θ2) − V ar(θ1) est d´efinie positive.
• pr´ecision : le MSE - mean squarred error - d’un estimateur θ de θ est
MSE(θ) = E[(θ − θ)(θ − θ) ] = V ar(θ) + biais(θ)biais(θ)
• efficience : un estimateur est efficient si V ar(θ) = nI(θ)−1
, o`u I(θ) d´esigne
l’information de Fisher, i.e. I = [Ii,j] o`u
Ii,j = E
∂
∂θi
ln fθ(X) ·
∂
∂θj
ln fθ(X) .
66
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Estimations en grand ´echantillon (approche asymptotique)
θ est un estimateur, construit `a partir de X1, · · · , Xn. On notera θn cet
estimateur, l’´etude du comportement asymptotique consistant `a ´etudier le
comportement de θn lorsque n → ∞.
• consistance : θn est un estimateur consistant de θ si θn
P
→ θ
• convergence en loi : θn est un estimateur asymptotiquement normal de θ si
√
n θn − θ
L
→ N(µ, Σ),
o`u Σ est une matrice connue, ou calculable, ou estimable
• efficience asymptotique : V ar(θn) ∼ nI(θ)−1
si n → ∞.
67
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode du maximum de vraisemblance
Si on rajouter les hypoth`eses : εi ∼ N(0, σ2
) et les εi sont ind´ependants, i.e.
f(ε1, · · · , εn) =
n
i=1
f(εi) =
n
i=1
1
√
2πσ2
exp −
ε2
i
2σ2
d’o`u la log-vraisemblance du mod`ele, en notant que εi ∼ N(0, σ2
)
log L = −
n
2
log 2π −
n
2
log σ2
−
1
2σ2
[Y − Xβ] [Y − Xβ]
Maximiser log L est ´equivalent `a minimiser [Y − Xβ] [Y − Xβ].
La condition du premier ordre est
∂[Y − Xβ] [Y − Xβ]
∂β
= 0, soit
∂[Y − Xβ] [Y − Xβ]
∂β
= −2X Y + 2X Xβ = 0.
68
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode du maximum de vraisemblance
La condition du premier ordre, X Y = X Xβ est parfois appel´ee ´equation
normale.
La condition du second ordre est
∂2
[Y − Xβ] [Y − Xβ]
∂β∂β
d´efinie positive, soit
X X d´efinie positive (et donc inversible).
Si X X est inversible, β = (X X)−1
X Y .
Remarque En r´ealit´e, on cherche `a estimer θ = (β, σ2
). Pour l’instant, on se
pr´eocupe seulement de l’estimation de β.
Proposition 6. Si εi est i.i.d. de loi N(0, σ2
), et si X X est inversible, alors
l’estimateur du maximum de vraisemblance β est
β
mv
= (X X)−1
X Y.
69
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode du maximum de vraisemblance
Les propri´et´es du maximum de vraisemblance sont des propri´et´es asymptotiques,
en particulier (moyennant quelques hypoth`ese de r´egularit´e)
• convergence, β
P
→ β
• normalit´e asymptotique,
√
n β − β
L
→ N(0, )
• efficacit´e asymptotique V ar(β) ∼ nI(β)−1
si n → ∞.
Dans le cas de la r´egression simple
√
n(β1 − β1)→N 0,
n · σ2
(xi − x)2
et
√
n(β0 − β0)→N 0, σ2 x2
i
(xi − x)2
.
Les variances asymptotiques de β0 and β1 peuvent ˆetre estim´ee par
Var(β1) =
σ2
(xi − x)2
et Var(β0) =
σ2
n
1 +
n( xi)2
(xi − x)2
avec comme covariance entre ces deux estimateurs
cov(β0, β1) =
−xσ2
(xi − x)2
.
70
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Notons que
β1 =
cov(X, Y )
Var(X)
, β0 = Y − β1X, et σ2
= [1 − cov(X, Y )2
]Var(y),
ce qui se traduit ´egalement sous la forme
yi = y +
cov(X, Y )
Var(X)(X)
[xi − x] + εi.
=⇒ la r´egression est simplement une analyse de la corr´elation entre des variables.
71
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode du maximum de vraisemblance, loi asymptotique
−35 −30 −25 −20 −15 −10 −5 0
3.03.54.04.55.0
Constante
Pente
q
72
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode du maximum de vraisemblance
Mais le maximum de vraisemblance d´epend explicitement de la loi des r´esidus ε.
Remarque En fait, compte tenu de la r´eecriture de la vraisemblance, cet
estimateur correspond au maximum de vraisemblance d`es lors que ε suit une loi
sph´erique (e.g. lois de Student ind´ependantes).
73
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode des moments
La quatri`eme hypoth`ese stipulait que
Cov(X, ε) = E(Xε) = E (X[Y − Xβ]) = 0, soit la version empirique
1
n
n
i=1
Xi Yi − Xiβ = 0.
Cette derni`ere condition correspond `a la condition du premier ordre obtenue dans
l’estimation du maximum de vraisemblance.
Proposition 7. Si X X est inversible, alors l’estimateur des moments β est
β
mm
= (X X)−1
X Y.
Remarque Cette m´ethode se g´en´eralise dans le cas de l’estimation nonlin´eaire
sous le nom GMM Generalized Method of Moments.
74
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode des moindres carr´es
Comme cela a ´et´e not´e dans les rappels de statistiques, il existe un interpr´etation
g´eom´etrique de l’esp´erance en terme de projection orthogonale,
E(Y ) = argmin{ Y − y L2 } = argmin{E (Y − y )
2
}
dont l’interpr´etation empirique est
y = argmin
n
i=1
(yi − y )
2
.
Si on suppose que Y = β0 + β1X + ε, o`u ε est centr´e et ind´ependant de X,
E(Y |X) = β0 + β1X. De la mˆeme mani`ere que pr´ec´edement, il est naturel de
chercher
argmin
n
i=1
(yi − [β0 + β1xi])
2
.
75
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode des moindres carr´es
L’estimateur des moindres carr´es β ∈ argmin
n
i=1[Yi − Xiβ]2
, soit
β ∈ argmin[Y − Xβ] [Y − Xβ].
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q
5 10 15 20 25
020406080100120
car speed
distance
Linear regression, distance versus speed
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q
5 10 15 20 25
020406080100120
car speed
distance
Linear regression, speed versus distance
76
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
M´ethode des moindres carr´es
La condition du premier ordre donne
∂[Y − Xβ] [Y − Xβ]
∂β
= −2X Y + 2X Xβ = 0.
La condition du second ordre est ´equivalente `a avoir X X est inversible, et alors
β = (X X)−1
X Y.
Proposition 8. Si X X est inversible, alors l’estimateur des moments β est
β
mco
= (X X)−1
X Y.
77
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un petit mot sur la variance des r´esidus σ2
Pour l’instant nous n’avons parl´e que de l’estimation de β, mais σ2
est ´egalement
`a estimer. La d´emarche est la suivante
• on part d’un ´echantillon {(Y1, X1), · · · , (Yn, Xn)},
• on construit l’estimateur par moindres carr´es β = (X X)−1
X Y ,
• on construit la s´erie des pseudo-r´esidus εi = Yi − Xiβ,
• on estime la variance de la s´erie des pseudo-r´esidus σ2
= V ar(εi).
78
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un peu de terminologie
Pour l’instant nous n’avons parl´e que de l’estimation de β, mais σ2
est ´egalement
`a estimer. La d´emarche est la suivante
• β = (X X)−1
X Y est l’estimateur par moindre carr´es (de β)
• Y = Xβ = X(X X)−1
X Y = HY est le vecteur des pr´edictions de Y ,
• ε = Y − Y = (I − H)Y est le vecteur des pseudo-r´esidus associ´es `a la
r´egression,
• ε ε = Y (I − H)Y est la somme des carr´es des r´esidus, ou RSS (residual sum of
squares)
79
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
La r´egression lin´eaire
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
1500 2000 2500 3000 3500
1e+052e+053e+054e+055e+056e+057e+05
D$sqrft
D$price
1000 1500 2000 2500 3000 3500 4000
1e+052e+053e+054e+055e+056e+057e+058e+05
2
3
4
5
6
7
sqrft
bdrms
price
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qq
qqq
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
qqq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
80
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Propri´et´es de l’estimateur par mco
Proposition 9. Soit β l’estimateur par moindres carr´es,
• β estime sans biais β, i.e. E(β) = β ; la variance est V ar(β) = σ2
(X X)−1
.
• Th´eor`eme de Gauss-Markov : parmi les estimateurs lin´eaires et sans biais de
β, l’estimateur par moindres carr´ees est de variance minimale, i.e. BLUE
• σ2
=
1
n − k
n
i=1
(Yi − Xiβ)2
estime sans-biais σ2
.
Si ε ∼ N(0, σ2
),
• β est ´egalement l’estimateur du maximum de vraisemblance
• parmi les estimateurs sans biais de β est l’estimateur de variance minimale,
i.e. BUE,
• β ∼ N(β, σ2
(X X)−1
) et (n − k)
σ2
σ
∼ χ2
(n − k).
81
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Propri´et´es de l’estimateur par mco
Sous l’hypoth`ese o`u ε ∼ N(0, σ2
I), alors
• Y = Xβ + ε est gaussien, Y ∼ N(Xβ, σ2
I)
• β = (X X)−1
X Y est gaussien, β ∼ N(0, σ2
I)
• la somme des carr´es des erreurs suit une loi du chi-deux, ε ε ∼ σ2
χ2
(n − k)
• β est ind´ependant de σ2
• Y est ind´ependant de ε
82
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Intervalle de confiance pour βj
Sous l’hypoth`ese o`u εi ∼ N(0, σ2
), Yi ∼ N(Xβ, σ2
), et comme
β = (X X)−1
X Y
∼ N((X X)−1
X Xβ, [(X X)−1
X ] [(X X)−1
X ]σ2
)
∼ N(β, (X X)−1
σ2
),
soit, pour tout j,
βj − βj
V ar(βj)
=
βj − βj
[(X X)−1]jjσ2
∼ N(0, 1),
or comme σ est inconnue, on la remplace par un estimateur ind´ependant de
l’estimateur des βj.
83
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Intervalle de confiance pour βj
Aussi
βj − βj
V ar(βj)
=
βj − βj
[(X X)−1]jjσ2
∼ St(n − k),
o`u k est le nombre de variables explicatives. Aussi,
βj ∈ βj ± t1−α/2 [(X X)−1]jjσ2 ,
sous l’hypoth`ese o`u εi ∼ N(0, σ2
).
84
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Test de nullit´e de βj
Les r´esultats pr´ec´edants permettent de proposer un test simple de
H0 : βj = 0 contre l’hypoth`ese H1 : βj = 0.
La statistique de test
Tj =
βj
V ar(βj)
∼ St(n − k) sous H0.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -17.5791 6.7584 -2.601 0.0123 *
speed 3.9324 0.4155 9.464 1.49e-12 ***
85
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Continuous sur les propri´et´es asymptotiques
Proposition 10. Si les r´esidus sont centr´es, de variance finie σ2
, alors β
P
→ β
si (X X)1
→ 0.
Proposition 11. Si les r´esidus sont i.i.d. centr´es, de variance finie σ2
, alors
√
n(β − β)
L
→ N(0, σQ−1
) si
1
n
(X X)1
→ Q, o`u Q est d´efinie positive.
Proposition 12. Si les r´esidus sont i.i.d. centr´es, de variance finie σ2
, alors
σ2 P
→ σ2
et
√
n(σ2
− σ2
)
L
→ N(0, σV ar(ε2
)) si
1
n
(X X)1
→ Q, o`u Q est d´efinie
positive.
Dans le mod`ele lin´eaire gaussien, l’estimateur par moindres carr´es est
asymptotiquement efficace.
86
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Intervalles de confiance pour Y et Y
Supposons que l’on dispose d’une nouvelle observation X0 et que l’on souhaite
pr´edire la valeur Y0 assoic´ee.
L’incertitude sur la pr´ediction Y0 vient de l’erreur d’estimation sur les param`etres
β.
L’incertitude sur la r´ealisation Y0 vient de l’erreur d’estimation sur les
param`etres β et de l’erreur associ´ee au mod`ele lin´eaire, i.e. ε0.
Dans le cas de la r´egression simple, Y0 = Y0 + ε0 = β0 + β1X0 + ε0. Aussi,
• V ar(Y0) = V ar(β0) + 2X0cov(β0, β1) + X2
0 V ar(β1)
• V ar(Y0) = V ar(Y0) + V ar(ε0), si l’on suppose que le bruit est la partie non
expliqu´ee. Aussi V ar(Y0) = V ar(β0) + 2X0cov(β0, β1) + X2
0 V ar(β1) + σ2
87
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Intervalle de confiance pour Y
L’incertitude sur la pr´ediction Yj vient de l’erreur d’estimation sur les param`etres
β.
Dans ce cas, si l’on dispose d’une nouvelle observation X0, l’intervalle de
confiance pour Y0 = (X X)−1
X Y0 est
Y0 ± tn−k(1 − α/2)σ x0(X X)−1X0
o`u tn−k(1 − α/2) est le quantile d’ordre (1 − α/2) de la loi de Student `a n − k
degr´es de libert´e.
88
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Intervalle de confiance pour Y
L’incertitude sur la r´ealisation Yj vient de l’erreur d’estimation sur les
param`etres β et de l’erreur associ´ee au mod`ele lin´eaire, i.e. εi.
Dans ce cas, si l’on dispose d’une nouvelle observation X0, l’intervalle de
confiance pour Y0 = Y0 + ε0 est
Y0 ± tn−k(1 − α/2)σ 1+x0(X X)−1X0
En fait, sous R, l’intervalle de confiance pour Y n’inclue pas l’erreur associ´ee `a
l’erreur d’estimation, aussi, dans ce cas, si l’on dispose d’une nouvelle observation
X0, l’intervalle de confiance pour Y0 = Y0 + ε0 est
Y0 ± tn−k(1 − α/2)σ .
89
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Intervalles de confiance pour Y et Y
pp <- predict(lm(y~x,data=D), new=data.frame(x=seq(0,30)), interval=’prediction’)
pc <- predict(lm(y~x,data=D), new=data.frame(x=seq(0,30)), interval=’confidence’)
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q
5 10 15 20 25
020406080100120
car speed
distance
Confidence and prediction bands
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q
5 10 15 20 25
020406080100120
car speed
distance
Confidence and prediction bands
90
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Intervalles de confiance pour Y et Y
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q
0 20 40 60 80
050100150200250
91
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un mot sur les extensions du mod`ele lin´eaire
Nous avons donn´ees deux interpr´etations de la r´egression par moindre carr´es,
• E(Y |X = x) = x β,
• Y |X = x ∼ N(x β, σ2
).
Des extensions de ces interpr´etations sont les suivantes,
• m´ediane(Y |X = x) = x β, dans le cas de la r´egression L1
, ou plus
g´en´eralement, n’importe quel quantile, Qα(Y |X = x) = x β : r´egression
robuste et r´egression quantile,
• E(Y |X = x) = ϕ(x) : r´egression nonlin´eaire ou r´egression nonparam‘’etrique,
• Y |X = x ∼ L(g(x β)) ; o`u L est une loi “quelconque”, e.g. binomiale dans le
cas de la r´egression probit/logit.
92
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Les variables explicatives, X = (X1, · · · , Xk)
• oublie d’une variable (importante) dans la r´egression : sous-identification
Suppposons que le vrai mod`ele est de la forme
Yi = X1,iβ1 + X2,iβ2 + εi, (1)
o`u les εi v´erifient les conditions usuelles du mod`ele lin´eaire.
Supposons que l’on r´egresse seulement Y sur X1,
Yi = X1,iα1 + ηi. (2)
L’estimation de α1 dans le mod`ele 2 donne
α1 = (X1X1)−1
X1Y
= (X1X1)−1
X1[X1,iβ1 + X2,iβ2 + ε]
= (X1X1)−1
X1X1β1 + (X1X1)−1
X1X2β2 + (X1X1)−1
X1ε
= β1 + (X1X1)−1
X1X2β2
β12
+ (X1X1)−1
X1εi
νi
93
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
i.e. E(α1) = β1 + β12.
Si X1X2 = 0 (variables non corr´l´ees), α1 estime sans biais β1
Si on oublie une variable α1 est un estimateur biais´e de β1, mais poss`ede une
variance plus faible.
• rajout d’une variable dans la r´egression : sur-identification
De mani`ere duale, si on rajoute une variable, i.e. le vrai mod`ele est
Y = X1β1 + ε
mais que l’on estime
Y = X1α1 + X2α2 + η
L’estimation est sans biais, i.e. E(α1) = β1, mais l’estimateur n’est pas efficient.
94
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un (petit) mot sur l’interpr´etation des param`etres
On interprˆetre souvent le signe de β1 comme le sens de la relation entre la
variable explicative X1 et la r´eponse Y .
Une lecteure naive serait “un changement d’une unit´e de X1 va conduire `a un
changement - en moyenne - de β1 sur Y ”
Mais il s’agit d’une interpr´etation causale d’une simple corr´elation, et surtout,
ceci suppose que “β1 mesure l’effect de X1 sur Y , toutes choses ´etant ´egales par
ailleurs”. Mais peut-on supposer que X1 et X2 soient ind´ependantes (et que l’on
puisse faire varier X1 sans faire varier X2 ?).
95
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un (petit) mot sur la multicolin´earit´e
On parlera de (multi)colin´earit´e entre deux variables exog`enes lorsque la
corr´elation entre ces variables est (tr`es) ´elev´ee.
• colin´earit´e parfait, i.e. rang(X X) < k + 1, alors (X X) n’est pas inversible
• colin´earit´e tr`es forte, alors le calcul de (X X)−1
est instable.
L’id´e de la r´egression ridge (propos´ee par Hoerl & Kennard (1970)) est de
consid´erer
β = (X X + λI)−1
X Y.
Attention La multicolin´earit´e biaise les interpr´etation dans les contextes de
pr´ediction, c.f. paradoxe de Simpson
Consid´erons le cas o`u
• Y d´esigne le fait d’ˆetre gu´eri ou d´ec´d´e
• X1 d´esigne l’hˆopital (not´e ici A ou B)
• X2 d´esigne le fait d’ˆetre entr´e (ou pas) en bonne sant´e
96
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un (petit) mot sur la multicolin´earit´e
Un peu de statistique descriptive donne, pour E(Y |X1)
hˆopital total survivants d´ec`es taux de survie
hˆopital A 1, 000 800 200 80%
hˆopital B 1, 000 900 100 90%
Personnes en bonne sant´e, i.e. E(Y |X1, X2 = bonne sant´e)
hˆopital total survivants d´ec`es taux de survie
hˆopital A 600 590 10 98%
hˆopital B 900 870 30 97%
Personnes malades, i.e. E(Y |X1, X2 = malade)
hˆopital total survivants d´ec`es taux de survie
hˆopital A 400 210 190 53%
hˆopital B 100 30 70 30%
97
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un (petit) mot sur la multicolin´earit´e
Aussi, E(Y |X1) et E(Y |X1, X2 = x2) peuvent ˆetre sensiblements diff´erents pout
tout x2.
L’explication du paradoxe est que le choix de l’hˆopital et la condition m´edicale `a
l’entr´ee sont tr`es li´es (B ne soignant pas des personnes malades)
Pour d´etecter la multicolin´earit´e, on ´etudie les corr´elations crois´ees. Il existe
g´en´eralement deux r`egles pour d´etecter de la multicolin´earit´e entre X1 et X2, i.e.
• si |r1,2| > 0.8, mais cela ne prend pas en compte les particularit´es de la
r´egression,
• si r2
1,2 > R2
, r`egle dite de Klein.
98
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un (petit) mot sur la multicolin´earit´e
Une autre interpr´etation est la suivante : il est possible d’avoir
Y = β0 + β1X1 + ε avec β1 > 0,
mais
Y = α0 + α1X1 + α2X2 + η avec α1 < 0.
=⇒ Attention aux interpr´etations fallacieuses des valeurs de coefficients.
Autre exemple, consid´erons le cas o`u
• Y d´esigne le pourcentage d’admission `a Berkeley
• X1 d´esigne le sexe de la personne H ou F)
• X2 d´esigne la majeure
99
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un (petit) mot sur la multicolin´earit´e
Un peu de statistique descriptive donne, pour E(Y |X1)
sexe postulants admis (%)
hommes H 2, 074 1, 018 48%
femmes F 849 261 30%
Personnes en bonne sant´e, i.e. E(Y |X1, X2)
Hommes
majeure post. admis (%)
A 825 511 62%
B 560 353 63%
C 417 138 33%
D 272 16 6%
Femmes
majeure post. admis (%)
A 108 89 82%
B 25 17 68%
C 375 131 35%
D 341 24 7%
100
Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012)
Un (petit) mot sur la multicolin´earit´e
On peut retrouver des dizaines d’exemples de ce type,
Example : confrontation de deux joueurs de base-base
joueur 1995 1996 Total
Derek Jeter 12/48 25.0% 183/582 31.4% 195/630 31.0%
David Justice 104/411 25.3% 45/140 32.1% 149/551 27.0%
Example : validation clinique d’un m´edicament
traitement petits caillots gros caillots Total
A 234/270 87% 55/80 69% 289/350 83%
B 81/87 93% 192/263 73% 273/350 78%
101

Contenu connexe

En vedette (20)

Slides 2040-4
Slides 2040-4Slides 2040-4
Slides 2040-4
 
Slides 2040-5
Slides 2040-5Slides 2040-5
Slides 2040-5
 
Slides 2040-6-a2013
Slides 2040-6-a2013Slides 2040-6-a2013
Slides 2040-6-a2013
 
Slides 2040-8-2013
Slides 2040-8-2013Slides 2040-8-2013
Slides 2040-8-2013
 
Slides ensae-2016-4
Slides ensae-2016-4Slides ensae-2016-4
Slides ensae-2016-4
 
Slides arbres-ubuntu
Slides arbres-ubuntuSlides arbres-ubuntu
Slides arbres-ubuntu
 
Slides 2040-7-a2013
Slides 2040-7-a2013Slides 2040-7-a2013
Slides 2040-7-a2013
 
Exercices act2121-session8
Exercices act2121-session8Exercices act2121-session8
Exercices act2121-session8
 
Econometrics, PhD Course, #1 Nonlinearities
Econometrics, PhD Course, #1 NonlinearitiesEconometrics, PhD Course, #1 Nonlinearities
Econometrics, PhD Course, #1 Nonlinearities
 
Pricing Game, 100% Data Sciences
Pricing Game, 100% Data SciencesPricing Game, 100% Data Sciences
Pricing Game, 100% Data Sciences
 
Slides ensae-2016-1
Slides ensae-2016-1Slides ensae-2016-1
Slides ensae-2016-1
 
Slides ensae-2016-2
Slides ensae-2016-2Slides ensae-2016-2
Slides ensae-2016-2
 
Slides ensae-2016-6
Slides ensae-2016-6Slides ensae-2016-6
Slides ensae-2016-6
 
Slides ensae-2016-8
Slides ensae-2016-8Slides ensae-2016-8
Slides ensae-2016-8
 
Slides ensae-2016-9
Slides ensae-2016-9Slides ensae-2016-9
Slides ensae-2016-9
 
Slides ensae-2016-7
Slides ensae-2016-7Slides ensae-2016-7
Slides ensae-2016-7
 
Slides ensae-2016-5
Slides ensae-2016-5Slides ensae-2016-5
Slides ensae-2016-5
 
Slides ensae-2016-3
Slides ensae-2016-3Slides ensae-2016-3
Slides ensae-2016-3
 
Slides ensae-2016-10
Slides ensae-2016-10Slides ensae-2016-10
Slides ensae-2016-10
 
Slides ensae-2016-11
Slides ensae-2016-11Slides ensae-2016-11
Slides ensae-2016-11
 

Plus de Arthur Charpentier (20)

Family History and Life Insurance
Family History and Life InsuranceFamily History and Life Insurance
Family History and Life Insurance
 
ACT6100 introduction
ACT6100 introductionACT6100 introduction
ACT6100 introduction
 
Family History and Life Insurance (UConn actuarial seminar)
Family History and Life Insurance (UConn actuarial seminar)Family History and Life Insurance (UConn actuarial seminar)
Family History and Life Insurance (UConn actuarial seminar)
 
Control epidemics
Control epidemics Control epidemics
Control epidemics
 
STT5100 Automne 2020, introduction
STT5100 Automne 2020, introductionSTT5100 Automne 2020, introduction
STT5100 Automne 2020, introduction
 
Family History and Life Insurance
Family History and Life InsuranceFamily History and Life Insurance
Family History and Life Insurance
 
Machine Learning in Actuarial Science & Insurance
Machine Learning in Actuarial Science & InsuranceMachine Learning in Actuarial Science & Insurance
Machine Learning in Actuarial Science & Insurance
 
Reinforcement Learning in Economics and Finance
Reinforcement Learning in Economics and FinanceReinforcement Learning in Economics and Finance
Reinforcement Learning in Economics and Finance
 
Optimal Control and COVID-19
Optimal Control and COVID-19Optimal Control and COVID-19
Optimal Control and COVID-19
 
Slides OICA 2020
Slides OICA 2020Slides OICA 2020
Slides OICA 2020
 
Lausanne 2019 #3
Lausanne 2019 #3Lausanne 2019 #3
Lausanne 2019 #3
 
Lausanne 2019 #4
Lausanne 2019 #4Lausanne 2019 #4
Lausanne 2019 #4
 
Lausanne 2019 #2
Lausanne 2019 #2Lausanne 2019 #2
Lausanne 2019 #2
 
Lausanne 2019 #1
Lausanne 2019 #1Lausanne 2019 #1
Lausanne 2019 #1
 
Side 2019 #10
Side 2019 #10Side 2019 #10
Side 2019 #10
 
Side 2019 #11
Side 2019 #11Side 2019 #11
Side 2019 #11
 
Side 2019 #12
Side 2019 #12Side 2019 #12
Side 2019 #12
 
Side 2019 #9
Side 2019 #9Side 2019 #9
Side 2019 #9
 
Side 2019 #8
Side 2019 #8Side 2019 #8
Side 2019 #8
 
Side 2019 #7
Side 2019 #7Side 2019 #7
Side 2019 #7
 

Slides act6420-e2014-partie-1

  • 1. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Mod`eles de pr´evision Partie 1 - r´egression Arthur Charpentier charpentier.arthur@uqam.ca http ://freakonometrics.hypotheses.org/ ´Et´e 2014 1
  • 2. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Plan du cours - donn´ees individuelles ◦ Rappels de statistique • Motivation et introduction aux mod`eles de r´egression • Le mod`ele lin´eaire simple ◦ R´esultats g´en´eraux ◦ Approche matricielle • Le mod`ele lin´eaire multiple ◦ R´esultats g´en´eraux ◦ Tests, choix de mod`ele, diagnostique • Aller plus loin ◦ Les mod`eles non lin´eaires param´etriques ◦ Les mod`eles non lin´eaires nonparam´etriques 2
  • 3. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Plan du cours - donn´ees temporelles • Motivation et introduction aux s´eries temporelles • M´ethodes de lissage ◦ Mod`eles de r´egression (Buys-Ballot) ◦ Lissage(s) exponentiel(s) (Holt-Winters) • Notions g´en´erales sur les processus stationnaires • Les processus SARIMA ◦ Les mod`eles autor´egressifs, AR(p), Φ(L)Xt = εt ◦ Les mod`eles moyennes mobiles, MA(q) (moving average), Xt = Θ(L)εt ◦ Les mod`eles autor´egtressifs et moyenne mobiles, ARMA(p, q), Φ(L)Xt = Θ(L)εt ◦ Les mod`eles autor´egtressifs, ARIMA(p, d, q), (1 − L)d Φ(L)Xt = Θ(L)εt ◦ Les mod`eles autor´egtressifs, SARIMA(p, d, q), (1 − L)d (1 − Ls )Φ(L)Xt = Θ(L)εt ◦ Pr´evision avec un SARIMA, T XT +h 3
  • 4. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un peu de terminologie L’´etude de la transmission g´en´etique de certaines caract´eristiques a int´eress´e Galton en 1870 puis Pearson en 1896. Galton a propos´e d´etudier la taille d’un enfant en fonction de la taille (moyenne) de ses parents, `a partir de 928 observations. 4
  • 5. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) 5
  • 6. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) 6
  • 7. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) qqqqq qqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqq qqqqqqqqqqqqqq 64 66 68 70 72 62646668707274 Taille moyenne des parents (inches) Tailledel'enfant(inches) Un enfant de parents grands est en moyenne grand, mais moins que ses parents. Un enfant de parents petits est en moyenne petits, mais moins que ses parents. =⇒ “I have called this peculiarity by the name of regression”, au sens r´egression vers la moyenne. 7
  • 8. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un peu de terminologie Pearson a propos´e d’´etudier le lien entre la taille d’un homme et celle de son p`ere. La conclusion est la mˆeme, il y a r´egression vers la moyenne. q q q q q q qq q q q q q q q q q q q q q q q q q qq q qq qq q q qq q q q q q qq qq q q q q q q q qq q q q q q q q q q q qq q q q qq q q q q qq qq q q q q q qq q q q qq q q q q q q q q q q q q q q q q q q q qq q qq q q qqq q q qqq q q q qq q q q q q qq qq q q q qq q qq q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q qq q qq q qq q q qq q q q q q q q qq q q q q q q qq q q q q q q qq qq qq q qq q q q q q q q q q q q q q q q q q q q q qq q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q qq qqq q qq q qq q q q qqq q q qq q q q qq q q q qq q q qq q q qq qq q q qq qq q qq q qq q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q qq q q q q q qq q q qq q q q q qqq q qq q q q q qq q q q q qq q qq q qq qq qqq q qq q q q q qq q q qq qq q qq q q q q qq q q qq q q q q qqqq qq q q qq q q q q q qq q qq qq qqqq qq q qq q q q q q q q q q q q q q q qq q q q q q qq q q q q qq q q q q q q qq qq qq q q q qq q q q q q q q q q q q q qq q q q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q qq q q qq q q q q q q q qq q q q qqq q q q q q q q q q q q q q q q q q q q q qq q q q q q q q qqq q q q q q q q q q q qq q q q qq q qqq qq q q q q q q qqqq qq q q qq q q q q q q qq q q q q qq q q q q q q q q qq q q q q q q q q q qq q q q qqq qqq q q q q qqq q q q q q q q qq qq qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q qq q q q q q q q q q q qq q qqq q qq q q q q q qq qqq q q q q q q qq q q q qqq q q q qq q qq q q q qq q qq q q qq qq q qq qq q qq q q q qq qq qq q q q q qq q q q q q qq q q qq qq q q q qqq qq q q q qq qq q q q qq q q q qq q q q q q q qqqq q q qq q q qq q q qqq qq q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q qq q 60 65 70 75 60657075 Taille du père (inches) Tailledufils(inches) r´egression = ´etudes de corr´elations 8
  • 9. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un peu de terminologie Remarque cela ne signifie pas que les fils sont plus “moyens” que leurs p`eres : il ne s’agit que d’une notion de corr´elation, de d´ependance, en aucun cas de lois marginales q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q q q q q q q q q qq qq q q q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q q q q q q q q q qq q qq q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 60 65 70 75 60657075 q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q qq q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q 60 65 70 75 60657075 9
  • 10. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) de l’esp´erance `a l’esp´erance conditionnelle Pr´edire le poids Y , sans aucune autre information Poids (kg) densité 40 60 80 100 120 0.000.010.020.030.040.05 qqq qq qqq qq qqq qq q qq qq qq q qqq qqq qq q qq qqq q qqq qq q qq qq q q qq q qq q q q qq q qq q qq qqq qq qq qqqq q qqqqq qq q qq qq qq qq qq qq q qq qqq qqq q qq qqq q qq q qqq qqqq qqqq qq q qqq qq qq qqqq q q qqq q q qqqq qq q qqqqq qq qq q q q qq qq q qq qq q qq qq qq qq qq qq q qqq q q qq qq 10
  • 11. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) de l’esp´erance `a l’esp´erance conditionnelle On peut aussi regarder la loi de Y , pour en d´eduire des quantiles (e.g. ob´esit´e) 40 60 80 100 120 0.000.010.020.030.040.05 Poids (kg) densité qqq qq qqq qq qqq qq q qq qq qq q qqq qqq qq q qq qqq q qqq qq q qq qq q q qq q qq q q q qq q qq q qq qqq qq qq qqqq q qqqqq qq q qq qq qq qq qq qq q qq qqq qqq q qq qqq q qq q qqq qqqq qqqq qq q qqq qq qq qqqq q q qqq q q qqqq qq q qqqqq qq qq q q q qq qq q qq qq q qq qq qq qq qq qq q qqq q q qq qq 11
  • 12. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) de l’esp´erance `a l’esp´erance conditionnelle On peut aussi regarder la loi de Y , derri`ere se cache un m´elange (par sexe) 40 60 80 100 120 0.000.010.020.030.040.05 Poids (kg) densité 12
  • 13. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) de l’esp´erance `a l’esp´erance conditionnelle Estimation de la loi de Y |X = 175 150 160 170 180 190 406080100120 Taille (cm) Poids(kg) q 13
  • 14. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) de l’esp´erance `a l’esp´erance conditionnelle Estimation de la loi de Y |X = 185 150 160 170 180 190 406080100120 Taille (cm) Poids(kg) q q 14
  • 15. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) de l’esp´erance `a l’esp´erance conditionnelle Estimation de la loi de Y |X = 165 150 160 170 180 190 406080100120 Taille (cm) Poids(kg) q q q 15
  • 16. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) de l’esp´erance `a l’esp´erance conditionnelle Pour plusieurs valeur de x, il possible d’estimer une loi de Y |X = x 150 160 170 180 190 406080100120 Taille (cm) Poids(kg) 16
  • 17. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) de l’esp´erance `a l’esp´erance conditionnelle Une explication de la nonlin´earit´e, l’h´et´erog´en´eit´e hommes/femmes 150 160 170 180 190 406080100120 Taille (cm) Poids(kg) 17
  • 18. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) de l’esp´erance `a l’esp´erance conditionnelle Une relation plus quadratique que lin´eaire ? q q q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q q q q qq q q q q qq q qq q q q q q q q q q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q qqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q 150 160 170 180 190 406080100120 Taille (cm) Poids(kg) 18
  • 19. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Esp´erance conditionelle et projection Faire une pr´ediction de Y `a X fix´e c’est projeter Y sur l’ensemble des variables al´eatoires engendr´ees par X [...] 19
  • 20. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Esp´erance conditionelle et projection [...] on peut se restreindre `a un sous-ensemble, celui des transformations affines engendr´ees par X [...] 20
  • 21. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Esp´erance conditionelle et projection [...] ou on se restreint `a un sous-ensemble de ce sous-ensemble, les constantes. 21
  • 22. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un peu de motivation ? Le prestige (Y ) expliqu´e par le salaire (X), cf. Blishen & McRoberts (1976), ´etude du “prestige” de 102 m´etiers au Canada. q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 0 5000 10000 15000 20000 25000 20406080 Revenu Prestige GENERAL.MANAGERS ARCHITECTS LAWYERS UNIVERSITY.TEACHERS PHYSICIANS OSTEOPATHS.CHIROPRACTORS 22
  • 23. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un peu de motivation ? Le prestige (Y ) expliqu´e par le salaire (X), cf. Blishen & McRoberts (1976), ´etude du “prestige” de 102 m´etiers au Canada. q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 0 5000 10000 15000 20000 25000 20406080 Revenu Prestige GENERAL.MANAGERS ARCHITECTS LAWYERS UNIVERSITY.TEACHERS PHYSICIANS OSTEOPATHS.CHIROPRACTORS 23
  • 24. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un peu de motivation ? q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 0 5000 10000 15000 20000 25000 20406080 Revenu Prestige q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 24
  • 25. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un peu de motivation ? q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 0 5000 10000 15000 20000 25000 20406080 Revenu Prestige q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 25
  • 26. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Lien avec le cours de statistique ? • Cours de statistique ‘descriptive’ On dispose d’un ´echantillon {y1, · · · , yn}, de variables r´eelles, yi ∈ R. On peut d´efinir la moyenne, ou la variance (empirique) • y = y1 + · · · + yn n = 1 n n i=1 yi • s2 = 1 n n i=1 [yi − y]2 26
  • 27. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Lien avec le cours de statistique ? • Cours de statistique math´ematique On dispose d’un ´echantillon {y1, · · · , yn}, vu comme des r´ealisation de variables al´eatoires {Y1(ω), · · · , Yn(ω)}, ω ∈ Ω, i.e. yi = Yi(ω) ∈ R. On a maintenant des variables al´eatoires sous-jacentes, Yi. Les moyennes et variances empiriques sont alors des r´ealisations des variables al´eatoires • Y = Y1 + · · · + Yn n = 1 n n i=1 Yi • S2 = 1 n n i=1 [Yi − Y ]2 i.e. y = Y (ω) et s2 = S2 (ω). En statistique math´ematique, on utilise des propri´et´es de ces variables al´eatoires pour en d´eduire des propri´et´es sur telle ou telle statistique. 27
  • 28. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) La loi des grands nombres garantit que Y P → E(Y ) si on suppose que les Xi sont des variables ind´ependantes, de mˆeme esp´erance et de mˆeme variance (finies, loi faible des grands nombres), i.e. ∀ε > 0. lim n→+∞ P Y1 + Y2 + · · · + Yn n − E(Y ) ε = 0 On a aussi le th´eor`eme central limite, qui garantit que √ n(Y − E(Y )) L → N(0, Var(Y )) si on suppose que les Xi sont des variables ind´ependantes, de mˆeme esp´erance et de mˆeme variance (finies, loi faible des grands nombres), i.e. lim n→∞ P √ n Y n − E(Y ) Var(Y ) ≤ z = Φ(z) o`u Φ(·) est la fonction de r´epartition de la loi N(0, 1). 28
  • 29. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Lien avec le cours de statistique ? • Cours d’inf´erence (param´etrique) On dispose d’un ´echantillon {y1, · · · , yn}, vu comme des r´ealisation de variables al´eatoires {Y1(ω), · · · , Yn(ω)}, o`u les variables al´eatoires sous-jacentes, Yi, sont suppos´ees ind´ependantes, et identiquement distribu´ees, de loi F ∈ F = {Fθ, θ ∈ Θ}. Aussi, F = Fθ0 , mais θ0 est inconnu. Remarque θ est g´en´erallement un param`etre dans Rk , mais pour simplifier, on supposera θ ∈ Θ ⊂ R. Un estimateur θ est une fonction des observations. Attention, parfois • θ = s(y1, · · · , yn) est un r´eel, e.g. θ = y • θ = s(Y1, · · · , Yn) est une variable al´eatoire, e.g. θ = Y Pour estimer θ, on dispose de deux m´ethodes standards • la m´ethode des moments • la m´ethode du maximum de vraisemblance 29
  • 30. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) • La m´ethode des moments On suppose que si Y ∼ Fθ, E(Y ) = g(θ) o`u g(·) est bijective. Dans ce cas, θ = g−1 (E(Y )). Un estimateur naturel est alors θ = g−1 (Y ). On notera que l’on a (a priori) aucune information sur la qualit´e de l’estimateur, e.g. l’estimateur n’a aucune raison d’ˆetre sans biais, E(θ) = E[g−1 (Y )]=g−1 (E[Y ]) = g−1 (E(Y )) = θ Par contre, si g est suffisement r´eguli`ere, on a des propri´et´es asymptotiques, E(θ) → θ lorsque n → ∞. 30
  • 31. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) • La m´ethode du maximum de vraisemblance Si les variables al´eatoires sous-jacentes sont suppos´ees ind´ependantes et identiquement distribu´ees, de loi Fθ, de loi de probabilit´e fθ P(Y1 = y1, · · · , Yn = yn) = n i=1 fθ(yi) = L(θ) (dans le cas discret, avec une expression similaire bas´ee sur la densit´e dans le cas continu). On va chercher la valeur θ qui donne la plus grande probabilit´e P(Y1 = y1, · · · , Yn = yn) (appel´ee vraisemblance). I.e. θ ∈ argmax θ∈Θ {L(θ)} Remarque On ne s’int´eresse pas `a la valeur de la vraisemblance, mais `a la valeur θ en laquelle la vraisemblance est maximale. Or θ ∈ argmax θ∈Θ {h(L(θ))} 31
  • 32. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Comme L(θ) > 0 (car ∀i, fθ(yi) > 0), on peut prendre h = log, et donc θ ∈ argmax θ∈Θ {log(L(θ))} car log L est une fonction beaucoup plus simple, log L(θ) = n i=1 log fθ(yi). Si la fonction log L est diff´erentiable, la condition du premier ordre s’´ecrit ∂ log L(θ) ∂θ θ=θ = 0 avec une condition du second ordre pour assurer qu’en θ, on soit sur un maximum, et pas un minimum, ∂2 log L(θ) ∂2θ θ=θ ≤ 0 32
  • 33. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) L`a encore, on n’a aucune propri´et´e `distance finie. Mais quand n → ∞, P(|θn − θ| > ε) → 0, ∀ ε > 0 (i.e. θ P → θ). On a aussi une normalit´e asymptotique, et une efficacit´e asymptotique, i.e. la variance (asymptotique) est donn´ee par la borne de Cram´er-Rao, √ n(θ − θ0) L → N(0, I−1 (θ0)) o`u I(θ0) est l’information de Fisher, I(θ) = E ∂ log fθ(Y ) ∂θ 2 , o`u Y ∼ Fθ. 33
  • 34. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) • Construction de tests Consid´erons l’´echantillon suivant, de pile ou face, {y1, · · · , yn} > set.seed(1) > n=20 > (Y=sample(0:1,size=n,replace=TRUE)) [1] 0 0 1 1 0 1 1 1 1 0 0 0 1 0 1 0 1 1 0 1 Comme Yi ∼ B(θ), avec θ = E(Y ), l’estimateur de la m´ethde des moments est θ = y, soit ici > mean(X) [1] 0.55 On peut faire un test de H0 : θ = θ contre H1 : θ = θ (par exemple 50%) On peut utiliser le test de Student, T = √ n θ − θ θ (1 − θ ) 34
  • 35. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) qui suit, sous H0 une loi de Student `a n degr´es de libert´e. > (T=sqrt(n)*(pn-p0)/(sqrt(p0*(1-p0)))) [1] 0.4472136 > abs(T)<qt(1-alpha/2,df=n) [1] TRUE −3 −2 −1 0 1 2 3 0.00.10.20.30.4 dt(u,df=n) q On est ici dans la r´egion d’acceptation du test. 35
  • 36. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) On peut aussi calculer la p-value, P(|T| > |tobs|), > 2*(1-pt(abs(T),df=n)) [1] 0.6595265 −3 −2 −1 0 1 2 3 0.00.10.20.30.4 dt(u,df=n) q Le maximum de vraisemblance est important car il permet de faire des tests statistiques. 36
  • 37. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Test de Wald l’id´ee est d’´etudier la diff´erence entre θ et θ . Sous H0, T = n (θ − θ )2 I−1(θ ) L → χ2 (1) Test du rapport de vraisemblance l’id´ee est d’´etudier la diff´erence entre log L(θ) et log L(θ ). Sous H0, T = 2 log log L(θ ) log L(θ) L → χ2 (1) Test du score l’id´ee est d’´etudier la diff´erence entre ∂ log L(θ ) ∂θ et 0. Sous H0, T = 1 n n i=1 ∂ log fθ (xi) ∂θ 2 L → χ2 (1) 37
  • 38. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Lien avec le cours de statistique ? Pour l’estimateur de maximum de vraisemblance, on peut faire les calculs, ou le faire num´eriquement. On commence par tracer la fonction θ → log L(θ) > p=seq(0,1,by=.01) > logL=function(p){sum(log(dbinom(X,size=1,prob=p)))} > plot(p,Vectorize(logL)(p),type="l",col="red",lwd=2) 0.0 0.2 0.4 0.6 0.8 1.0 −50−40−30−20 p Vectorize(logL)(p) 38
  • 39. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) On peut trouver num´eriquement le maximum de log L, > neglogL=function(p){-sum(log(dbinom(X,size=1,prob=p)))} > pml=optim(fn=neglogL,par=p0,method="BFGS") > pml $par [1] 0.5499996 $value [1] 13.76278 i.e. on retrouve ici θ = y. Maintenant, on peut tester H0 : θ = θ = 50% versus H1 : θ = 50%. Pour le test de Wald, on peut commencer par calculer nI(θ ) ou , > nx=sum(X==1) > f = expression(nx*log(p)+(n-nx)*log(1-p)) > Df = D(f, "p") > Df2 = D(Df, "p") > p=p0=0.5 39
  • 40. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) > (IF=-eval(Df2)) [1] 80 On peut d’ailleurs comparer cette valeur avec la valeur th´eorique, car I(θ)−1 = θ(1 − θ) > 1/(p0*(1-p0)/n) [1] 80 0.0 0.2 0.4 0.6 0.8 1.0 −16.0−15.0−14.0−13.0 p Vectorize(logL)(p) q 40
  • 41. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) La statistique du test de Wald est ici > pml=optim(fn=neglogL,par=p0,method="BFGS")$par > (T=(pml-p0)^2*IF) [1] 0.199997 que l’on va chercher `a comparer avec le quantile de la loi du χ2 , > T<qchisq(1-alpha,df=1) [1] TRUE i.e. on est dans la r´egion d’acceptation du test. De mani`ere duale, on peut calculer la p-value du test, > 1-pchisq(T,df=1) [1] 0.6547233 Donc on va accepter H0. 41
  • 42. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) 0 1 2 3 4 5 6 0.00.51.01.52.0 dchisq(u,df=1) q Pour le test du rapport de vraisemblance, T est ici > (T=2*(logL(pml)-logL(p0))) [1] 0.2003347 42
  • 43. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) 0.0 0.2 0.4 0.6 0.8 1.0 −16.0−15.0−14.0−13.0 p Vectorize(logL)(p) q L`a encore, on est dans la r´egion d’acceptation, > T<qchisq(1-alpha,df=1) [1] TRUE Enfin, on peut faire le test du score. Le score se calcule facilement, > nx=sum(X==1) 43
  • 44. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) > f = expression(nx*log(p)+(n-nx)*log(1-p)) > Df = D(f, "p") > p=p0 > score=eval(Df) La statistique de test est alors > (T=score^2/IF) [1] 0.2 44
  • 45. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) 0.0 0.2 0.4 0.6 0.8 1.0 −16.0−15.0−14.0−13.0 p Vectorize(logL)(p) q L`a encore, on est dans la r´egion d’acceptation, > T<qchisq(1-alpha,df=1) [1] TRUE 45
  • 46. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) De la statistique math´ematique au mod`ele de r´egression Un mod`ele statistique standard supposerait que l’on dispose d’un ´echantillon {Y1, · · · , Yn} et de supposer que les observations Y sont i.i.d. de loi Y ∼ N(θ, σ2 ) Ici, on va disposer d’un ´echantillon {(Y1, X1), · · · , (Yn, Xn)} et de supposer que les couples d’observations (X, Y ) sont i.i.d.. de telle sorte que Y |X = x suive une loi (Y |X = x) ∼ N(θx, σ2 ) Aussi, θx = E(Y |X = x). Dans un mod`ele lin´eaire (Y |X = x) ∼ N(β0 + β1x, σ2 ) 46
  • 47. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Le mod`ele lin´eaire simple, deux variables continues Consid´erons - pour commencer un mod`ele lin´eaire simple, Yi = β0 + β1Xi + εi ou Yi = (1, Xi) Xi β0 β1 β +εi o`u εi est un bruit. Si X est suppos´e “exog`ene”, d´eterministe, ou donn´e, on suppose que εi est • centr´e E(εi) = 0, • de variance constante Var(εi) = σ2 , • non autocorr´el´e, Cov(εi, εj) = 0 pour i = j, Aussi, • E(Y |X) = β0 + β1X • Var(Y |X) = Var(ε|X) = σ2 mod`ele homosc´edastique. 47
  • 48. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Estimation de β = (β0, β1) Par minimisation de la somme des carr´es des erreurs (ordinary least squares) SCR(β) = n i=1 [Yi − (β0 + β1Xi)]2 ε2 i i.e. β = argmin β∈R2 {SCR(β)} Les conditions du premier ordre sont ∂SCR(β) ∂β0 β=β = 0 i.e. n i=1 (−2)[Yi − (β0 + β1Xi)] = 0 et ∂SCR(β) ∂β1 β=β = 0 i.e. n i=1 (−2Xi)[Yi − (β0 + β1Xi)] = 0 48
  • 49. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) On obtient les ´equations normales n i=1 Yi = n i=1 β0 + β1Xi Yi = n i=1 Yi et n i=1 Xi [Yi − (β0 + β1Xi)] εi = 0 49
  • 50. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Proposition 1. Les estimateurs obtenus par minimisation de la somme des carr´es des erreurs sont β1 = r sY sX et β0 = Y − β1X o`u X et Y sont les moyennes empiriques X = 1 n n i=1 Xi et Y = 1 n n i=1 Yi o`u s2 X et s2 Y sont les variance empiriques s2 Y = 1 n − 1 n i=1 [Yi − Y ]2 et s2 X = 1 n − 1 n i=1 [Xi − X]2 et o`u r d´esigne la corr´elation empirique r = 1 n−1 n i=1[Xi − X][Yi − Y ] 1 n−1 n i=1[Xi − X]2 1 n−1 n i=1[Yi − Y ]2 50
  • 51. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Proposition 2. Les estimateurs obtenus par minimisation de la somme des carr´es des erreurs sont β1 = n i=1(XiYi − nXY ) n i=1 X2 i − nX 2 et β0 = n i=1 X2 i − nX n i=1 XiYi n i=1 X2 i − nX 2 51
  • 52. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Qualit´e du mod`ele et d´ecomposition de la variance On posera • Yi = β0 + β1Xi la pr´ediction de Yi, • εi = Yi − Yi l’erreur de pr´ediciton Notons que Yi − Y = (Yi − Yi) + (Yi − Y ) aussi, en ´elevant `a la puissance 2, (Yi − ¯Y )2 = (Yi − Yi)2 + (Yi − ¯Y )2 + 2(Yi − ¯Y )(Yi − Yi) et en sommant n i=1 (Yi − ¯Y )2 = n i=1 (Yi − Yi)2 + n i=1 (Yi − ¯Y )2 + n i=1 2(Yi − ¯Y )(Yi − Yi) =0 . 52
  • 53. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) On notera que n i=1 2( ˆYi − ¯Y )(Yi − ˆYi) = n i=1 2(( ¯Y − ˆβ1 ¯X + ˆβ1Xi) − ¯Y )(Yi − ˆYi) = n i=1 2(( ¯Y + ˆβ1(Xi − ¯X)) − ¯Y )(Yi − ˆYi) = n i=1 2( ˆβ1(Xi − ¯X))(Yi − ˆYi) = n i=1 2 ˆβ1(Xi − ¯X)(Yi − ( ¯Y + ˆβ1(Xi − ¯X))) = n i=1 2 ˆβ1((Yi − ¯Y )(Xi − ¯X) − ˆβ1(Xi − ¯X)2 ). or β1 = n i=1(XiYi − nXY ) n i=1(Xi − ¯X)2 53
  • 54. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) donc ici n i=1 2( ˆYi − ¯Y )(Yi − ˆYi) = n i=1 2 ˆβ1 (Yi − ¯Y )(Xi − ¯X) − ˆβ1(Xi − ¯X)2 = 2 ˆβ1 n i=1 (Yi − ¯Y )(Xi − ¯X) − ˆβ1 n i=1 (Xi − ¯X)2 = 2 ˆβ1 n i=1 (Yi − ¯Y )(Xi − ¯X) − (Yi − ¯Y )(Xi − ¯X) = 2 ˆβ1 · 0 = 0 D’o`u la formule de d´ecomposition de la variance n i=1 (Yi − Y )2 = n i=1 (Yi − Yi)2 + n i=1 (Yi − Y )2 54
  • 55. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) On notera R2 le coefficient d’ajustement R2 = n i=1(Yi − Y )2 n i=1(Yi − Y )2 = 1 − n i=1(Yi − Yi)2 n i=1(Yi − Y )2 Estimation de σ2 Estimation de σ2 = Var(ε), s2 = 1 n − 2 n i=1 ε2 i Remarque Notons que β1 = n i=1 ωiYi o`u ωi = Xi − X (n − 1)S2 X et β0 = Y − β1X Estimation de β1 Proposition 3. E(β1) = β1 et Var(β1) = σ2 (n − 1)S2 X 55
  • 56. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) E(β1) = E n i=1 ωiYi = n i=1 ωi E(Yi) β0+β1Xi = β0 n i=1 ωi =0 +β1 n i=1 ωiXi =1 = β1 et Var(β1) = Var n i=1 ωiYi = n i=1 ω2 i Var(Yi) Estimation de β0 De mˆeme, on peut d´driver une expression similaire pour l’estimateur de la constante Proposition 4. E(β0) = β0 et Var(β0) σ2 n 1 + X 2 S2 X 56
  • 57. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) ´Ecriture matricielle du mod`ele Posons X =           1 X1 1 X2 ... ... 1 Xn−1 1 Xn           , β =   β0 β1   Alors Y =           Y1 Y2 ... Yn−1 Yn           = Xβ + ε =           β0 + β1X1 β0 + β1X2 ... β0 + β1Xn−1 β0 + β1Xn           +           ε1 ε2 ... εn−1 εn           57
  • 58. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) i.e. Y n×1 = X n×2 β 2×1 + ε n×1 Si on fait un peu de calcul matriciel, notons que X Y =   1 1 · · · 1 1 X1 X2 · · · Xn−1 Xn             Y1 Y2 ... ... Yn−1 Yn           =   n i=1 Yi n i=1 XiYi   58
  • 59. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) X X =   1 1 · · · 1 1 X1 X2 · · · Xn−1 Xn             1 X1 1 X2 ... ... 1 Xn−1 1 Xn           =   n n i=1 Xi n i=1 Xi n i=1 X2 i   Rappelons que si A =   a c b d   alors A−1 = 1 ad − bc   d −c −b a   Aussi (X X)−1 = 1 n n i=1 X2 i − ( n i=1 Xi) 2   n i=1 X2 i − n i=1 Xi − n i=1 Xi n   59
  • 60. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) i.e. (X X)−1 = 1 n i=1 X2 i − nX 2   1 n n i=1 X2 i −X −X 1   Aussi (X X)−1 X Y = 1 n i=1 X2 i − nX 2   n i=1 X2 i − nX n i=1 XiYi) n i=1 XiYi − nXY   =   β0 β1   Proposition 5. En posant Y = Xβ + ε, les estimateurs qui minimisent la somme des carr´es des erreurs sont β =   β0 β1   = (X X)−1 X Y . Notons que Y = Xβ = X(X X)−1 X Y . On notera Y = X(X X)−1 X H Y 60
  • 61. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) On a aussi ε = Y − Y = I − X(X X)−1 X M Y o`u M = (I − H). Ici, M est une matrice symm´etrique, M = M , et M2 = M, i.e. M est une matrice de projection (orthogonale). Notons que MX = 0, i.e. M est un matrice de projection orthogonale `a X. En revanche, H est une matrice symm´etrique, H = H , et H2 = H, i.e. H est une matrice de projection (orthogonale). Notons que HX = X, i.e. H est un matrice de projection orthogonale sur X. 61
  • 62. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Le mod`ele lin´eaire multiple On peut supposer que l’on r´egresse sur plusieurs variables explicatives Yi = β0 + β1X1,i + · · · , βkXk,i + εi ou Yi = (1, X1,i, · · · , Xk,i) Xi      β0 ... βk      β +εi • Y est la variable `a expliquer, ou r´eponse, output, variable d´ependante, ou variable endog`ene • les Xj sont les variables explicatives, ou pr´edicteurs, input, variables ind´ependantes, ou variables exog`enes • ε est un bruit, suppos´e non expliqu´e (ou orthogonal) par les variables explicatives. 62
  • 63. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Le mod`ele lin´eaire multiple Au niveau des notations, au lieu de supposer que pour i = 1, · · · , n, Yi = β0 + β1Xi,1 + · · · , βkXi,k + εi ou Yi = Xiβ + εi, on peut utiliser l’´ecriture matricielle,      Y1 ... Yn      Y ,n×1 =      1 X1,1 · · · X1,k ... ... ... ... 1 Xn,1 · · · Xn,k      X,n×(k+1)         β0 β1 ... βk         β,(k+1)×1 +      ε1 ... εn      ε,n×1 . 63
  • 64. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Le mod`ele lin´eaire Aussi, pour les r´esidus, on suppose que l’on a E(ε) = E      ε1 ... εn      =      0 ... 0      Var(ε) = σ2 In = σ2         1 0 · · · 0 0 1 · · · 0 ... ... ... 0 · · · · · · 1         =         σ2 0 · · · 0 0 σ2 · · · 0 ... ... ... 0 · · · · · · σ2         Ce sont des hypoth`eses (qu’il faudra tester un jour....) 64
  • 65. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Le mod`ele lin´eaire Si X est suppos´e al´eatoire • E(ε|X) = 0, • i.e. E(Y |X) = Xβ, ou encore E(Y |X) est lin´eaire en X • E(εε |X) = σ2 I, • i.e. Var(Y |X) = σ2 , Var(Y |X) est constante : hypoth`ese d’homosc´edasticit´e. • Cov(Yi, Yj|X) = 0 pour i = j, ou encore Cov(Yi, Yj|X) est nulle • on rajoute l’hypoth`ese Cov(X, ε) = 0 : le bruit est la composante qui ne peut ˆetre expliqu´ee par X. Pour estimer β, il y a (au moins) trois m´ethodes classiques • m´ethode du maximum de vraisemblance : besoin de sp´ecifier la loi des r´esidus • m´ethode des moments • m´ethode des moindres carr´es : β ∈ argmin n i=1 [Yi − Xiβ]2 65
  • 66. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Estimations `a distance finie Quelques rappels sur les propri´et´es (ou informations) souhaitables d’un estimateur • biais : θ estime sans biais de θ si E(θ) = θ, on note biais(θ) = E(θ) − θ. • “meilleur” : θ1 est un meilleur estimateur que θ2 si V ar(θ1) est “plus petit” que V ar(θ2), i.e. si k ≥ 2 V ar(θ2) − V ar(θ1) est d´efinie positive. • pr´ecision : le MSE - mean squarred error - d’un estimateur θ de θ est MSE(θ) = E[(θ − θ)(θ − θ) ] = V ar(θ) + biais(θ)biais(θ) • efficience : un estimateur est efficient si V ar(θ) = nI(θ)−1 , o`u I(θ) d´esigne l’information de Fisher, i.e. I = [Ii,j] o`u Ii,j = E ∂ ∂θi ln fθ(X) · ∂ ∂θj ln fθ(X) . 66
  • 67. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Estimations en grand ´echantillon (approche asymptotique) θ est un estimateur, construit `a partir de X1, · · · , Xn. On notera θn cet estimateur, l’´etude du comportement asymptotique consistant `a ´etudier le comportement de θn lorsque n → ∞. • consistance : θn est un estimateur consistant de θ si θn P → θ • convergence en loi : θn est un estimateur asymptotiquement normal de θ si √ n θn − θ L → N(µ, Σ), o`u Σ est une matrice connue, ou calculable, ou estimable • efficience asymptotique : V ar(θn) ∼ nI(θ)−1 si n → ∞. 67
  • 68. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) M´ethode du maximum de vraisemblance Si on rajouter les hypoth`eses : εi ∼ N(0, σ2 ) et les εi sont ind´ependants, i.e. f(ε1, · · · , εn) = n i=1 f(εi) = n i=1 1 √ 2πσ2 exp − ε2 i 2σ2 d’o`u la log-vraisemblance du mod`ele, en notant que εi ∼ N(0, σ2 ) log L = − n 2 log 2π − n 2 log σ2 − 1 2σ2 [Y − Xβ] [Y − Xβ] Maximiser log L est ´equivalent `a minimiser [Y − Xβ] [Y − Xβ]. La condition du premier ordre est ∂[Y − Xβ] [Y − Xβ] ∂β = 0, soit ∂[Y − Xβ] [Y − Xβ] ∂β = −2X Y + 2X Xβ = 0. 68
  • 69. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) M´ethode du maximum de vraisemblance La condition du premier ordre, X Y = X Xβ est parfois appel´ee ´equation normale. La condition du second ordre est ∂2 [Y − Xβ] [Y − Xβ] ∂β∂β d´efinie positive, soit X X d´efinie positive (et donc inversible). Si X X est inversible, β = (X X)−1 X Y . Remarque En r´ealit´e, on cherche `a estimer θ = (β, σ2 ). Pour l’instant, on se pr´eocupe seulement de l’estimation de β. Proposition 6. Si εi est i.i.d. de loi N(0, σ2 ), et si X X est inversible, alors l’estimateur du maximum de vraisemblance β est β mv = (X X)−1 X Y. 69
  • 70. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) M´ethode du maximum de vraisemblance Les propri´et´es du maximum de vraisemblance sont des propri´et´es asymptotiques, en particulier (moyennant quelques hypoth`ese de r´egularit´e) • convergence, β P → β • normalit´e asymptotique, √ n β − β L → N(0, ) • efficacit´e asymptotique V ar(β) ∼ nI(β)−1 si n → ∞. Dans le cas de la r´egression simple √ n(β1 − β1)→N 0, n · σ2 (xi − x)2 et √ n(β0 − β0)→N 0, σ2 x2 i (xi − x)2 . Les variances asymptotiques de β0 and β1 peuvent ˆetre estim´ee par Var(β1) = σ2 (xi − x)2 et Var(β0) = σ2 n 1 + n( xi)2 (xi − x)2 avec comme covariance entre ces deux estimateurs cov(β0, β1) = −xσ2 (xi − x)2 . 70
  • 71. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Notons que β1 = cov(X, Y ) Var(X) , β0 = Y − β1X, et σ2 = [1 − cov(X, Y )2 ]Var(y), ce qui se traduit ´egalement sous la forme yi = y + cov(X, Y ) Var(X)(X) [xi − x] + εi. =⇒ la r´egression est simplement une analyse de la corr´elation entre des variables. 71
  • 72. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) M´ethode du maximum de vraisemblance, loi asymptotique −35 −30 −25 −20 −15 −10 −5 0 3.03.54.04.55.0 Constante Pente q 72
  • 73. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) M´ethode du maximum de vraisemblance Mais le maximum de vraisemblance d´epend explicitement de la loi des r´esidus ε. Remarque En fait, compte tenu de la r´eecriture de la vraisemblance, cet estimateur correspond au maximum de vraisemblance d`es lors que ε suit une loi sph´erique (e.g. lois de Student ind´ependantes). 73
  • 74. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) M´ethode des moments La quatri`eme hypoth`ese stipulait que Cov(X, ε) = E(Xε) = E (X[Y − Xβ]) = 0, soit la version empirique 1 n n i=1 Xi Yi − Xiβ = 0. Cette derni`ere condition correspond `a la condition du premier ordre obtenue dans l’estimation du maximum de vraisemblance. Proposition 7. Si X X est inversible, alors l’estimateur des moments β est β mm = (X X)−1 X Y. Remarque Cette m´ethode se g´en´eralise dans le cas de l’estimation nonlin´eaire sous le nom GMM Generalized Method of Moments. 74
  • 75. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) M´ethode des moindres carr´es Comme cela a ´et´e not´e dans les rappels de statistiques, il existe un interpr´etation g´eom´etrique de l’esp´erance en terme de projection orthogonale, E(Y ) = argmin{ Y − y L2 } = argmin{E (Y − y ) 2 } dont l’interpr´etation empirique est y = argmin n i=1 (yi − y ) 2 . Si on suppose que Y = β0 + β1X + ε, o`u ε est centr´e et ind´ependant de X, E(Y |X) = β0 + β1X. De la mˆeme mani`ere que pr´ec´edement, il est naturel de chercher argmin n i=1 (yi − [β0 + β1xi]) 2 . 75
  • 76. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) M´ethode des moindres carr´es L’estimateur des moindres carr´es β ∈ argmin n i=1[Yi − Xiβ]2 , soit β ∈ argmin[Y − Xβ] [Y − Xβ]. q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 5 10 15 20 25 020406080100120 car speed distance Linear regression, distance versus speed q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 5 10 15 20 25 020406080100120 car speed distance Linear regression, speed versus distance 76
  • 77. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) M´ethode des moindres carr´es La condition du premier ordre donne ∂[Y − Xβ] [Y − Xβ] ∂β = −2X Y + 2X Xβ = 0. La condition du second ordre est ´equivalente `a avoir X X est inversible, et alors β = (X X)−1 X Y. Proposition 8. Si X X est inversible, alors l’estimateur des moments β est β mco = (X X)−1 X Y. 77
  • 78. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un petit mot sur la variance des r´esidus σ2 Pour l’instant nous n’avons parl´e que de l’estimation de β, mais σ2 est ´egalement `a estimer. La d´emarche est la suivante • on part d’un ´echantillon {(Y1, X1), · · · , (Yn, Xn)}, • on construit l’estimateur par moindres carr´es β = (X X)−1 X Y , • on construit la s´erie des pseudo-r´esidus εi = Yi − Xiβ, • on estime la variance de la s´erie des pseudo-r´esidus σ2 = V ar(εi). 78
  • 79. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un peu de terminologie Pour l’instant nous n’avons parl´e que de l’estimation de β, mais σ2 est ´egalement `a estimer. La d´emarche est la suivante • β = (X X)−1 X Y est l’estimateur par moindre carr´es (de β) • Y = Xβ = X(X X)−1 X Y = HY est le vecteur des pr´edictions de Y , • ε = Y − Y = (I − H)Y est le vecteur des pseudo-r´esidus associ´es `a la r´egression, • ε ε = Y (I − H)Y est la somme des carr´es des r´esidus, ou RSS (residual sum of squares) 79
  • 80. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) La r´egression lin´eaire q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 1500 2000 2500 3000 3500 1e+052e+053e+054e+055e+056e+057e+05 D$sqrft D$price 1000 1500 2000 2500 3000 3500 4000 1e+052e+053e+054e+055e+056e+057e+058e+05 2 3 4 5 6 7 sqrft bdrms price q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q qq qqq q q q q qq q q q qq q q q q q qqq q q q q q q q q qq q q q q q 80
  • 81. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Propri´et´es de l’estimateur par mco Proposition 9. Soit β l’estimateur par moindres carr´es, • β estime sans biais β, i.e. E(β) = β ; la variance est V ar(β) = σ2 (X X)−1 . • Th´eor`eme de Gauss-Markov : parmi les estimateurs lin´eaires et sans biais de β, l’estimateur par moindres carr´ees est de variance minimale, i.e. BLUE • σ2 = 1 n − k n i=1 (Yi − Xiβ)2 estime sans-biais σ2 . Si ε ∼ N(0, σ2 ), • β est ´egalement l’estimateur du maximum de vraisemblance • parmi les estimateurs sans biais de β est l’estimateur de variance minimale, i.e. BUE, • β ∼ N(β, σ2 (X X)−1 ) et (n − k) σ2 σ ∼ χ2 (n − k). 81
  • 82. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Propri´et´es de l’estimateur par mco Sous l’hypoth`ese o`u ε ∼ N(0, σ2 I), alors • Y = Xβ + ε est gaussien, Y ∼ N(Xβ, σ2 I) • β = (X X)−1 X Y est gaussien, β ∼ N(0, σ2 I) • la somme des carr´es des erreurs suit une loi du chi-deux, ε ε ∼ σ2 χ2 (n − k) • β est ind´ependant de σ2 • Y est ind´ependant de ε 82
  • 83. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Intervalle de confiance pour βj Sous l’hypoth`ese o`u εi ∼ N(0, σ2 ), Yi ∼ N(Xβ, σ2 ), et comme β = (X X)−1 X Y ∼ N((X X)−1 X Xβ, [(X X)−1 X ] [(X X)−1 X ]σ2 ) ∼ N(β, (X X)−1 σ2 ), soit, pour tout j, βj − βj V ar(βj) = βj − βj [(X X)−1]jjσ2 ∼ N(0, 1), or comme σ est inconnue, on la remplace par un estimateur ind´ependant de l’estimateur des βj. 83
  • 84. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Intervalle de confiance pour βj Aussi βj − βj V ar(βj) = βj − βj [(X X)−1]jjσ2 ∼ St(n − k), o`u k est le nombre de variables explicatives. Aussi, βj ∈ βj ± t1−α/2 [(X X)−1]jjσ2 , sous l’hypoth`ese o`u εi ∼ N(0, σ2 ). 84
  • 85. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Test de nullit´e de βj Les r´esultats pr´ec´edants permettent de proposer un test simple de H0 : βj = 0 contre l’hypoth`ese H1 : βj = 0. La statistique de test Tj = βj V ar(βj) ∼ St(n − k) sous H0. Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -17.5791 6.7584 -2.601 0.0123 * speed 3.9324 0.4155 9.464 1.49e-12 *** 85
  • 86. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Continuous sur les propri´et´es asymptotiques Proposition 10. Si les r´esidus sont centr´es, de variance finie σ2 , alors β P → β si (X X)1 → 0. Proposition 11. Si les r´esidus sont i.i.d. centr´es, de variance finie σ2 , alors √ n(β − β) L → N(0, σQ−1 ) si 1 n (X X)1 → Q, o`u Q est d´efinie positive. Proposition 12. Si les r´esidus sont i.i.d. centr´es, de variance finie σ2 , alors σ2 P → σ2 et √ n(σ2 − σ2 ) L → N(0, σV ar(ε2 )) si 1 n (X X)1 → Q, o`u Q est d´efinie positive. Dans le mod`ele lin´eaire gaussien, l’estimateur par moindres carr´es est asymptotiquement efficace. 86
  • 87. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Intervalles de confiance pour Y et Y Supposons que l’on dispose d’une nouvelle observation X0 et que l’on souhaite pr´edire la valeur Y0 assoic´ee. L’incertitude sur la pr´ediction Y0 vient de l’erreur d’estimation sur les param`etres β. L’incertitude sur la r´ealisation Y0 vient de l’erreur d’estimation sur les param`etres β et de l’erreur associ´ee au mod`ele lin´eaire, i.e. ε0. Dans le cas de la r´egression simple, Y0 = Y0 + ε0 = β0 + β1X0 + ε0. Aussi, • V ar(Y0) = V ar(β0) + 2X0cov(β0, β1) + X2 0 V ar(β1) • V ar(Y0) = V ar(Y0) + V ar(ε0), si l’on suppose que le bruit est la partie non expliqu´ee. Aussi V ar(Y0) = V ar(β0) + 2X0cov(β0, β1) + X2 0 V ar(β1) + σ2 87
  • 88. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Intervalle de confiance pour Y L’incertitude sur la pr´ediction Yj vient de l’erreur d’estimation sur les param`etres β. Dans ce cas, si l’on dispose d’une nouvelle observation X0, l’intervalle de confiance pour Y0 = (X X)−1 X Y0 est Y0 ± tn−k(1 − α/2)σ x0(X X)−1X0 o`u tn−k(1 − α/2) est le quantile d’ordre (1 − α/2) de la loi de Student `a n − k degr´es de libert´e. 88
  • 89. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Intervalle de confiance pour Y L’incertitude sur la r´ealisation Yj vient de l’erreur d’estimation sur les param`etres β et de l’erreur associ´ee au mod`ele lin´eaire, i.e. εi. Dans ce cas, si l’on dispose d’une nouvelle observation X0, l’intervalle de confiance pour Y0 = Y0 + ε0 est Y0 ± tn−k(1 − α/2)σ 1+x0(X X)−1X0 En fait, sous R, l’intervalle de confiance pour Y n’inclue pas l’erreur associ´ee `a l’erreur d’estimation, aussi, dans ce cas, si l’on dispose d’une nouvelle observation X0, l’intervalle de confiance pour Y0 = Y0 + ε0 est Y0 ± tn−k(1 − α/2)σ . 89
  • 90. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Intervalles de confiance pour Y et Y pp <- predict(lm(y~x,data=D), new=data.frame(x=seq(0,30)), interval=’prediction’) pc <- predict(lm(y~x,data=D), new=data.frame(x=seq(0,30)), interval=’confidence’) q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 5 10 15 20 25 020406080100120 car speed distance Confidence and prediction bands q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 5 10 15 20 25 020406080100120 car speed distance Confidence and prediction bands 90
  • 91. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Intervalles de confiance pour Y et Y q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q 0 20 40 60 80 050100150200250 91
  • 92. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un mot sur les extensions du mod`ele lin´eaire Nous avons donn´ees deux interpr´etations de la r´egression par moindre carr´es, • E(Y |X = x) = x β, • Y |X = x ∼ N(x β, σ2 ). Des extensions de ces interpr´etations sont les suivantes, • m´ediane(Y |X = x) = x β, dans le cas de la r´egression L1 , ou plus g´en´eralement, n’importe quel quantile, Qα(Y |X = x) = x β : r´egression robuste et r´egression quantile, • E(Y |X = x) = ϕ(x) : r´egression nonlin´eaire ou r´egression nonparam‘’etrique, • Y |X = x ∼ L(g(x β)) ; o`u L est une loi “quelconque”, e.g. binomiale dans le cas de la r´egression probit/logit. 92
  • 93. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Les variables explicatives, X = (X1, · · · , Xk) • oublie d’une variable (importante) dans la r´egression : sous-identification Suppposons que le vrai mod`ele est de la forme Yi = X1,iβ1 + X2,iβ2 + εi, (1) o`u les εi v´erifient les conditions usuelles du mod`ele lin´eaire. Supposons que l’on r´egresse seulement Y sur X1, Yi = X1,iα1 + ηi. (2) L’estimation de α1 dans le mod`ele 2 donne α1 = (X1X1)−1 X1Y = (X1X1)−1 X1[X1,iβ1 + X2,iβ2 + ε] = (X1X1)−1 X1X1β1 + (X1X1)−1 X1X2β2 + (X1X1)−1 X1ε = β1 + (X1X1)−1 X1X2β2 β12 + (X1X1)−1 X1εi νi 93
  • 94. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) i.e. E(α1) = β1 + β12. Si X1X2 = 0 (variables non corr´l´ees), α1 estime sans biais β1 Si on oublie une variable α1 est un estimateur biais´e de β1, mais poss`ede une variance plus faible. • rajout d’une variable dans la r´egression : sur-identification De mani`ere duale, si on rajoute une variable, i.e. le vrai mod`ele est Y = X1β1 + ε mais que l’on estime Y = X1α1 + X2α2 + η L’estimation est sans biais, i.e. E(α1) = β1, mais l’estimateur n’est pas efficient. 94
  • 95. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un (petit) mot sur l’interpr´etation des param`etres On interprˆetre souvent le signe de β1 comme le sens de la relation entre la variable explicative X1 et la r´eponse Y . Une lecteure naive serait “un changement d’une unit´e de X1 va conduire `a un changement - en moyenne - de β1 sur Y ” Mais il s’agit d’une interpr´etation causale d’une simple corr´elation, et surtout, ceci suppose que “β1 mesure l’effect de X1 sur Y , toutes choses ´etant ´egales par ailleurs”. Mais peut-on supposer que X1 et X2 soient ind´ependantes (et que l’on puisse faire varier X1 sans faire varier X2 ?). 95
  • 96. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un (petit) mot sur la multicolin´earit´e On parlera de (multi)colin´earit´e entre deux variables exog`enes lorsque la corr´elation entre ces variables est (tr`es) ´elev´ee. • colin´earit´e parfait, i.e. rang(X X) < k + 1, alors (X X) n’est pas inversible • colin´earit´e tr`es forte, alors le calcul de (X X)−1 est instable. L’id´e de la r´egression ridge (propos´ee par Hoerl & Kennard (1970)) est de consid´erer β = (X X + λI)−1 X Y. Attention La multicolin´earit´e biaise les interpr´etation dans les contextes de pr´ediction, c.f. paradoxe de Simpson Consid´erons le cas o`u • Y d´esigne le fait d’ˆetre gu´eri ou d´ec´d´e • X1 d´esigne l’hˆopital (not´e ici A ou B) • X2 d´esigne le fait d’ˆetre entr´e (ou pas) en bonne sant´e 96
  • 97. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un (petit) mot sur la multicolin´earit´e Un peu de statistique descriptive donne, pour E(Y |X1) hˆopital total survivants d´ec`es taux de survie hˆopital A 1, 000 800 200 80% hˆopital B 1, 000 900 100 90% Personnes en bonne sant´e, i.e. E(Y |X1, X2 = bonne sant´e) hˆopital total survivants d´ec`es taux de survie hˆopital A 600 590 10 98% hˆopital B 900 870 30 97% Personnes malades, i.e. E(Y |X1, X2 = malade) hˆopital total survivants d´ec`es taux de survie hˆopital A 400 210 190 53% hˆopital B 100 30 70 30% 97
  • 98. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un (petit) mot sur la multicolin´earit´e Aussi, E(Y |X1) et E(Y |X1, X2 = x2) peuvent ˆetre sensiblements diff´erents pout tout x2. L’explication du paradoxe est que le choix de l’hˆopital et la condition m´edicale `a l’entr´ee sont tr`es li´es (B ne soignant pas des personnes malades) Pour d´etecter la multicolin´earit´e, on ´etudie les corr´elations crois´ees. Il existe g´en´eralement deux r`egles pour d´etecter de la multicolin´earit´e entre X1 et X2, i.e. • si |r1,2| > 0.8, mais cela ne prend pas en compte les particularit´es de la r´egression, • si r2 1,2 > R2 , r`egle dite de Klein. 98
  • 99. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un (petit) mot sur la multicolin´earit´e Une autre interpr´etation est la suivante : il est possible d’avoir Y = β0 + β1X1 + ε avec β1 > 0, mais Y = α0 + α1X1 + α2X2 + η avec α1 < 0. =⇒ Attention aux interpr´etations fallacieuses des valeurs de coefficients. Autre exemple, consid´erons le cas o`u • Y d´esigne le pourcentage d’admission `a Berkeley • X1 d´esigne le sexe de la personne H ou F) • X2 d´esigne la majeure 99
  • 100. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un (petit) mot sur la multicolin´earit´e Un peu de statistique descriptive donne, pour E(Y |X1) sexe postulants admis (%) hommes H 2, 074 1, 018 48% femmes F 849 261 30% Personnes en bonne sant´e, i.e. E(Y |X1, X2) Hommes majeure post. admis (%) A 825 511 62% B 560 353 63% C 417 138 33% D 272 16 6% Femmes majeure post. admis (%) A 108 89 82% B 25 17 68% C 375 131 35% D 341 24 7% 100
  • 101. Arthur CHARPENTIER - Mod`eles de pr´evisions (ACT6420 - Automne 2012) Un (petit) mot sur la multicolin´earit´e On peut retrouver des dizaines d’exemples de ce type, Example : confrontation de deux joueurs de base-base joueur 1995 1996 Total Derek Jeter 12/48 25.0% 183/582 31.4% 195/630 31.0% David Justice 104/411 25.3% 45/140 32.1% 149/551 27.0% Example : validation clinique d’un m´edicament traitement petits caillots gros caillots Total A 234/270 87% 55/80 69% 289/350 83% B 81/87 93% 192/263 73% 273/350 78% 101