Slides act6420-e2014-partie-1

Arthur CHARPENTIER - Modèles de prévisions (ACT6420 - Automne 2012)
Modèles de prévision
Partie 1 - régression
Arthur Charpentier
charpentier.arthur@uqam.ca
http ://freakonometrics.hypotheses.org/
Été 2014
1

Plan du cours - données individuelles
◦ Rappels de statistique
• Motivation et introduction aux modèles de régression
• Le modèle linéaire simple
◦ Résultats généraux
◦ Approche matricielle
• Le modèle linéaire multiple
◦ Résultats généraux
◦ Tests, choix de modèle, diagnostique
• Aller plus loin
◦ Les modèles non linéaires paramétriques
◦ Les modèles non linéaires nonparamétriques
2

Plan du cours - données temporelles
• Motivation et introduction aux séries temporelles
• Méthodes de lissage
◦ Modèles de régression (Buys-Ballot)
◦ Lissage(s) exponentiel(s) (Holt-Winters)
• Notions générales sur les processus stationnaires
• Les processus SARIMA
◦ Les modèles autorégressifs, AR(p), Φ(L)Xt = εt
◦ Les modèles moyennes mobiles, MA(q) (moving average), Xt = Θ(L)εt
◦ Les modèles autorégtressifs et moyenne mobiles, ARMA(p, q),
Φ(L)Xt = Θ(L)εt
◦ Les modèles autorégtressifs, ARIMA(p, d, q), (1 − L)d
Φ(L)Xt = Θ(L)εt
◦ Les modèles autorégtressifs, SARIMA(p, d, q),
(1 − L)d
(1 − Ls
)Φ(L)Xt = Θ(L)εt
◦ Prévision avec un SARIMA, T XT +h
3

Un peu de terminologie
L’étude de la transmission génétique de
certaines caractéristiques a intéressé
Galton en 1870 puis Pearson en 1896. Galton a
proposé détudier la taille d’un enfant en
fonction de la taille (moyenne) de ses parents,
à partir de 928 observations.
4

5

6

qqqqq
qqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqq
64 66 68 70 72
62646668707274
Taille moyenne des parents (inches)
Tailledel'enfant(inches)
Un enfant de parents grands est en moyenne grand, mais moins que ses parents.
Un enfant de parents petits est en moyenne petits, mais moins que ses parents.
=⇒ “I have called this peculiarity by the name of regression”, au sens r´egression
vers la moyenne.
7

Pearson a proposé d’étudier le lien entre la taille d’un homme et celle de son
père. La conclusion est la même, il y a régression vers la moyenne.
q
q q
q
q q qq
q
q
q q
q q q
q q
q
q
q
q
q
q q q qq
q
qq qq
q
q
qq q q q
q q
qq
qq
q q
q
q
q
q q qq
q q
q
q
q
q
q
q q
q
qq q
q
q qq
q
q
q
q
qq qq
q
q q
q
q
qq
q
q
q qq
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
qq q
qq
q
q qqq
q q
qqq
q
q
q
qq
q
q q q
q qq
qq q
q
q
qq
q
qq q
q
q qq q
q q
q
q q
q
q
q q
q
q
q
q q q
q
q q
q q
q
q
q q
q
q
q
q q
q
q
q q q
qq
q q q
q
q
q
q
q q
q q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q q
q q
q
q qq
q q
q
q
q
q q
q qq q qq
q
qq q
q
qq
q
q
q q
q
q
q qq
q
q
q
q q
q qq
q
q
q
q
q
q
qq
qq
qq
q
qq q
q
q
q q
q q q q q q
q
q
q q
q q
q q
q qq q
q
q q
qq
qq
q
q q
q q
q
q
q
q
q
q q
q
q
q
q
q q q q
q
q
q qq
qqq
q
qq
q qq
q
q q qqq q
q
qq
q
q
q qq
q
q
q qq
q
q
qq q
q
qq
qq
q
q qq
qq q qq
q qq q
q
q
q q q
q q
q q
q
q q q
q
q q qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
qq
q
qq q q
q
q
q qq
q
q
qq
q
q
q
q
qqq q
qq
q
q
q
q
qq
q
q
q
q
qq q
qq
q
qq qq
qqq
q
qq q q
q q
qq
q
q
qq
qq
q
qq q q q
q
qq
q
q qq
q
q q
q qqqq
qq
q
q qq
q q q
q
q qq
q
qq qq
qqqq
qq q
qq
q
q
q q
q
q
q
q
q q
q
q
q
q
qq
q
q
q
q
q
qq
q q
q q
qq
q
q
q
q q q qq
qq
qq
q
q
q qq
q
q q q
q
q
q q
q q q
q
qq
q q
q
q
q qq q
q
q q
q
q
q
q q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q qq
q
qq
q
q qq
q q
q
q
q
q
q qq q q
q
qqq
q q
q
q q
q q q
q q q q
q
q
q
q
q
q
q q qq q
q q
q q
q
q
qqq q
q
q q
q
q
q
q q
q
qq
q
q q
qq q qqq
qq q
q
q q
q
q
qqqq qq
q
q
qq q
q q
q
q q
qq
q q
q
q qq q
q
q q
q q
q
q qq q
q
q
q
q
q q
q
q
qq
q
q
q
qqq
qqq q q
q
q qqq q q
q
q
q
q
q qq
qq
qq
q
q
q
q
q qq q
q
q
q
q q q
q q
q q
q
q q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q q
q q q q
q
q
q
q
qq q
qq q
q q
q q
q
q
q q
q qq q qqq
q qq q q
q
q q
qq qqq
q
q
q
q
q
q
qq q
q
q
qqq
q
q
q
qq q qq
q q q
qq
q
qq
q
q
qq qq q
qq
qq
q qq
q
q
q qq qq
qq q
q q
q qq
q
q q q
q qq q
q
qq
qq q
q q
qqq qq
q q
q
qq
qq q
q
q
qq
q q
q
qq
q
q q q
q q qqqq q
q qq q
q
qq q
q
qqq qq q
q q
q
q
q
q
q
q q
q
q
q q
q
q
q q
q qq
q q
q q
q
q
q q
q
q q q q
q
q
q
q
q
q
q
q
q
q
q
qq
q
60 65 70 75
60657075
Taille du père (inches)
Tailledufils(inches)
régression = études de corrélations
8

Remarque cela ne signifie pas que les fils sont plus “moyens” que leurs pères : il
ne s’agit que d’une notion de corrélation, de dépendance, en aucun cas de lois
marginales
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q q
q
qq
q
q
q
qq
q
q
q
q q
q
q
q
q
q q
q
q
q
qq
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q q
q
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qq
q q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
60 65 70 75
60657075
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
60 65 70 75
60657075
9

de l’espérance à l’espérance conditionnelle
Prédire le poids Y , sans aucune autre information
Poids (kg)
densité
40 60 80 100 120
0.000.010.020.030.040.05
qqq qq qqq qq qqq qq q qq qq qq q qqq qqq qq q qq qqq q qqq qq q qq qq q q qq q qq q q q qq q qq q qq qqq qq qq qqqq q qqqqq qq q qq qq qq qq qq qq q qq qqq qqq q qq qqq q qq q qqq qqqq qqqq qq q qqq qq qq qqqq q q qqq q q qqqq qq q qqqqq qq qq q q q qq qq q qq qq q qq qq qq qq qq qq q qqq q q qq qq
10

On peut aussi regarder la loi de Y , pour en déduire des quantiles (e.g. obésité)
40 60 80 100 120
0.000.010.020.030.040.05
Poids (kg)
densité
qqq qq qqq qq qqq qq q qq qq qq q qqq qqq qq q qq qqq q qqq qq q qq qq q q qq q qq q q q qq q qq q qq qqq qq qq qqqq q qqqqq qq q qq qq qq qq qq qq q qq qqq qqq q qq qqq q qq q qqq qqqq qqqq qq q qqq qq qq qqqq q q qqq q q qqqq qq q qqqqq qq qq q q q qq qq q qq qq q qq qq qq qq qq qq q qqq q q qq qq
11

On peut aussi regarder la loi de Y , derri`ere se cache un m´elange (par sexe)
40 60 80 100 120
0.000.010.020.030.040.05
Poids (kg)
densité
12

Estimation de la loi de Y |X = 175
150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
q
13

150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
q
q
14

150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
q
q
q
15

Pour plusieurs valeur de x, il possible d’estimer une loi de Y |X = x
150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
16

Une explication de la nonlinéarité, l’hétérogénéité hommes/femmes
150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
17

Une relation plus quadratique que lin´eaire ?
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
qq
q
q
q
q
qq
q qq
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q q
q
q q
q
q
q
q
qq
q
q
q
q
qqq
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
150 160 170 180 190
406080100120
Taille (cm)
Poids(kg)
18

Espérance conditionelle et projection
Faire une prédiction de Y à X fixé c’est projeter Y sur l’ensemble des variables
aléatoires engendrées par X [...]
19

[...] on peut se restreindre à un sous-ensemble, celui des transformations affines
engendrées par X [...]
20

[...] ou on se restreint `a un sous-ensemble de ce sous-ensemble, les constantes.
21

Un peu de motivation ?
Le prestige (Y ) expliqué par le salaire (X), cf. Blishen & McRoberts (1976),
étude du “prestige” de 102 métiers au Canada.
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
0 5000 10000 15000 20000 25000
20406080
Revenu
Prestige
GENERAL.MANAGERS
ARCHITECTS
LAWYERS
UNIVERSITY.TEACHERS
PHYSICIANS
OSTEOPATHS.CHIROPRACTORS
22

Le prestige (Y ) expliqué par le salaire (X), cf. Blishen & McRoberts (1976),
étude du “prestige” de 102 métiers au Canada.
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
0 5000 10000 15000 20000 25000
20406080
Revenu
Prestige
GENERAL.MANAGERS
ARCHITECTS
LAWYERS
UNIVERSITY.TEACHERS
PHYSICIANS
OSTEOPATHS.CHIROPRACTORS
23

q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
0 5000 10000 15000 20000 25000
20406080
Revenu
Prestige
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
24

q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
0 5000 10000 15000 20000 25000
20406080
Revenu
Prestige
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
25

Lien avec le cours de statistique ?
• Cours de statistique ‘descriptive’
On dispose d’un échantillon {y1, · · · , yn}, de variables réelles, yi ∈ R.
On peut définir la moyenne, ou la variance (empirique)
• y =
y1 + · · · + yn
n
=
1
n
n
i=1
yi
• s2
=
1
n
n
i=1
[yi − y]2
26

• Cours de statistique mathématique
On dispose d’un échantillon {y1, · · · , yn}, vu comme des réalisation de variables
aléatoires {Y1(ω), · · · , Yn(ω)}, ω ∈ Ω, i.e. yi = Yi(ω) ∈ R. On a maintenant des
variables aléatoires sous-jacentes, Yi. Les moyennes et variances empiriques sont
alors des réalisations des variables aléatoires
• Y =
Y1 + · · · + Yn
n
=
1
n
n
i=1
Yi
• S2
=
1
n
n
i=1
[Yi − Y ]2
i.e. y = Y (ω) et s2
= S2
(ω). En statistique mathématique, on utilise des
propriétés de ces variables aléatoires pour en déduire des propriétés sur telle ou
telle statistique.
27

La loi des grands nombres garantit que Y
P
→ E(Y ) si on suppose que les Xi sont
des variables indépendantes, de même espérance et de même variance (finies, loi
faible des grands nombres), i.e. ∀ε > 0.
lim
n→+∞
P
Y1 + Y2 + · · · + Yn
n
− E(Y ) ε = 0
On a aussi le théorème central limite, qui garantit que
√
n(Y − E(Y ))
L
→ N(0, Var(Y )) si on suppose que les Xi sont des variables
indépendantes, de même espérance et de même variance (finies, loi faible des
grands nombres), i.e.
lim
n→∞
P
√
n
Y n − E(Y )
Var(Y )
≤ z = Φ(z)
où Φ(·) est la fonction de répartition de la loi N(0, 1).
28

• Cours d’inférence (paramétrique)
On dispose d’un échantillon {y1, · · · , yn}, vu comme des réalisation de variables
aléatoires {Y1(ω), · · · , Yn(ω)}, où les variables aléatoires sous-jacentes, Yi, sont
supposées indépendantes, et identiquement distribuées, de loi
F ∈ F = {Fθ, θ ∈ Θ}. Aussi, F = Fθ0
, mais θ0 est inconnu.
Remarque θ est générallement un paramètre dans Rk
, mais pour simplifier, on
supposera θ ∈ Θ ⊂ R.
Un estimateur θ est une fonction des observations. Attention, parfois
• θ = s(y1, · · · , yn) est un réel, e.g. θ = y
• θ = s(Y1, · · · , Yn) est une variable aléatoire, e.g. θ = Y
Pour estimer θ, on dispose de deux méthodes standards
• la méthode des moments
• la méthode du maximum de vraisemblance
29

• La méthode des moments
On suppose que si Y ∼ Fθ, E(Y ) = g(θ) où g(·) est bijective. Dans ce cas,
θ = g−1
(E(Y )). Un estimateur naturel est alors
θ = g−1
(Y ).
On notera que l’on a (a priori) aucune information sur la qualité de l’estimateur,
e.g. l’estimateur n’a aucune raison d’être sans biais,
E(θ) = E[g−1
(Y )]=g−1
(E[Y ]) = g−1
(E(Y )) = θ
Par contre, si g est suffisement régulière, on a des propriétés asymptotiques,
E(θ) → θ lorsque n → ∞.
30

• La méthode du maximum de vraisemblance
Si les variables aléatoires sous-jacentes sont supposées indépendantes et
identiquement distribuées, de loi Fθ, de loi de probabilité fθ
P(Y1 = y1, · · · , Yn = yn) =
n
i=1
fθ(yi) = L(θ)
(dans le cas discret, avec une expression similaire basée sur la densité dans le cas
continu). On va chercher la valeur θ qui donne la plus grande probabilité
P(Y1 = y1, · · · , Yn = yn) (appelée vraisemblance). I.e.
θ ∈ argmax
θ∈Θ
{L(θ)}
Remarque On ne s’intéresse pas à la valeur de la vraisemblance, mais à la
valeur θ en laquelle la vraisemblance est maximale. Or
θ ∈ argmax
θ∈Θ
{h(L(θ))}
31

Comme L(θ) > 0 (car ∀i, fθ(yi) > 0), on peut prendre h = log, et donc
θ ∈ argmax
θ∈Θ
{log(L(θ))}
car log L est une fonction beaucoup plus simple,
log L(θ) =
n
i=1
log fθ(yi).
Si la fonction log L est différentiable, la condition du premier ordre s’écrit
∂ log L(θ)
∂θ θ=θ
= 0
avec une condition du second ordre pour assurer qu’en θ, on soit sur un
maximum, et pas un minimum,
∂2
log L(θ)
∂2θ θ=θ
≤ 0
32

Là encore, on n’a aucune propriété `distance finie. Mais quand n → ∞,
P(|θn − θ| > ε) → 0, ∀ ε > 0 (i.e. θ
P
→ θ). On a aussi une normalité asymptotique,
et une efficacité asymptotique, i.e. la variance (asymptotique) est donnée par la
borne de Cramér-Rao,
√
n(θ − θ0)
L
→ N(0, I−1
(θ0))
où I(θ0) est l’information de Fisher,
I(θ) = E
∂ log fθ(Y )
∂θ
2
, où Y ∼ Fθ.
33

• Construction de tests
Considérons l’échantillon suivant, de pile ou face, {y1, · · · , yn}
> set.seed(1)
> n=20
> (Y=sample(0:1,size=n,replace=TRUE))
[1] 0 0 1 1 0 1 1 1 1 0 0 0 1 0 1 0 1 1 0 1
Comme Yi ∼ B(θ), avec θ = E(Y ), l’estimateur de la méthde des moments est
θ = y, soit ici
> mean(X)
[1] 0.55
On peut faire un test de H0 : θ = θ contre H1 : θ = θ (par exemple 50%)
On peut utiliser le test de Student,
T =
√
n
θ − θ
θ (1 − θ )
34

qui suit, sous H0 une loi de Student à n degrés de liberté.
> (T=sqrt(n)*(pn-p0)/(sqrt(p0*(1-p0))))
[1] 0.4472136
> abs(T)<qt(1-alpha/2,df=n)
[1] TRUE
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
dt(u,df=n)
q
On est ici dans la région d’acceptation du test.
35

On peut aussi calculer la p-value, P(|T| > |tobs|),
> 2*(1-pt(abs(T),df=n))
[1] 0.6595265
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
dt(u,df=n)
q
Le maximum de vraisemblance est important car il permet de faire des tests
statistiques.
36

Test de Wald l’idée est d’étudier la différence entre θ et θ . Sous H0,
T = n
(θ − θ )2
I−1(θ )
L
→ χ2
(1)
Test du rapport de vraisemblance l’idée est d’étudier la différence entre
log L(θ) et log L(θ ). Sous H0,
T = 2 log
log L(θ )
log L(θ)
L
→ χ2
(1)
Test du score l’idée est d’étudier la différence entre
∂ log L(θ )
∂θ
et 0. Sous H0,
T =
1
n
n
i=1
∂ log fθ (xi)
∂θ
2
L
→ χ2
(1)
37

Pour l’estimateur de maximum de vraisemblance, on peut faire les calculs, ou le
faire num´eriquement. On commence par tracer la fonction θ → log L(θ)
> p=seq(0,1,by=.01)
> logL=function(p){sum(log(dbinom(X,size=1,prob=p)))}
> plot(p,Vectorize(logL)(p),type="l",col="red",lwd=2)
0.0 0.2 0.4 0.6 0.8 1.0
−50−40−30−20
p
Vectorize(logL)(p)
38

On peut trouver num´eriquement le maximum de log L,
> neglogL=function(p){-sum(log(dbinom(X,size=1,prob=p)))}
> pml=optim(fn=neglogL,par=p0,method="BFGS")
> pml
$par
[1] 0.5499996
$value
[1] 13.76278
i.e. on retrouve ici θ = y.
Maintenant, on peut tester H0 : θ = θ = 50% versus H1 : θ = 50%. Pour le test
de Wald, on peut commencer par calculer nI(θ ) ou ,
> nx=sum(X==1)
> f = expression(nx*log(p)+(n-nx)*log(1-p))
> Df = D(f, "p")
> Df2 = D(Df, "p")
> p=p0=0.5
39

> (IF=-eval(Df2))
[1] 80
On peut d’ailleurs comparer cette valeur avec la valeur th´eorique, car
I(θ)−1
= θ(1 − θ)
> 1/(p0*(1-p0)/n)
[1] 80
0.0 0.2 0.4 0.6 0.8 1.0
−16.0−15.0−14.0−13.0
p
Vectorize(logL)(p)
q
40

La statistique du test de Wald est ici
> pml=optim(fn=neglogL,par=p0,method="BFGS")$par
> (T=(pml-p0)^2*IF)
[1] 0.199997
que l’on va chercher à comparer avec le quantile de la loi du χ2
,
> T<qchisq(1-alpha,df=1)
[1] TRUE
i.e. on est dans la région d’acceptation du test. De manière duale, on peut
calculer la p-value du test,
> 1-pchisq(T,df=1)
[1] 0.6547233
Donc on va accepter H0.
41

0 1 2 3 4 5 6
0.00.51.01.52.0
dchisq(u,df=1)
q
Pour le test du rapport de vraisemblance, T est ici
> (T=2*(logL(pml)-logL(p0)))
[1] 0.2003347
42

0.0 0.2 0.4 0.6 0.8 1.0
−16.0−15.0−14.0−13.0
p
Vectorize(logL)(p)
q
Là encore, on est dans la région d’acceptation,
[1] TRUE
Enfin, on peut faire le test du score. Le score se calcule facilement,
> nx=sum(X==1)
43

> f = expression(nx*log(p)+(n-nx)*log(1-p))
> Df = D(f, "p")
> p=p0
> score=eval(Df)
La statistique de test est alors
> (T=score^2/IF)
[1] 0.2
44

0.0 0.2 0.4 0.6 0.8 1.0
−16.0−15.0−14.0−13.0
p
Vectorize(logL)(p)
q
L`a encore, on est dans la r´egion d’acceptation,
[1] TRUE
45

De la statistique mathématique au modèle de régression
Un modèle statistique standard supposerait que l’on dispose d’un échantillon
{Y1, · · · , Yn} et de supposer que les observations Y sont i.i.d. de loi
Y ∼ N(θ, σ2
)
Ici, on va disposer d’un échantillon {(Y1, X1), · · · , (Yn, Xn)} et de supposer que
les couples d’observations (X, Y ) sont i.i.d.. de telle sorte que Y |X = x suive une
loi
(Y |X = x) ∼ N(θx, σ2
)
Aussi, θx = E(Y |X = x). Dans un modèle linéaire
(Y |X = x) ∼ N(β0 + β1x, σ2
)
46

Le modèle linéaire simple, deux variables continues
Considérons - pour commencer un modèle linéaire simple,
Yi = β0 + β1Xi + εi ou Yi = (1, Xi)
Xi
β0
β1
β
+εi
où εi est un bruit. Si X est supposé “exogène”, déterministe, ou donné, on
suppose que εi est
• centré E(εi) = 0,
• de variance constante Var(εi) = σ2
,
• non autocorrélé, Cov(εi, εj) = 0 pour i = j,
Aussi,
• E(Y |X) = β0 + β1X
• Var(Y |X) = Var(ε|X) = σ2
modèle homoscédastique.
47

Estimation de β = (β0, β1)
Par minimisation de la somme des carr´es des erreurs (ordinary least squares)
SCR(β) =
n
i=1
[Yi − (β0 + β1Xi)]2
ε2
i
i.e.
β = argmin
β∈R2
{SCR(β)}
Les conditions du premier ordre sont
∂SCR(β)
∂β0 β=β
= 0 i.e.
n
i=1
(−2)[Yi − (β0 + β1Xi)] = 0
et
∂SCR(β)
∂β1 β=β
= 0 i.e.
n
i=1
(−2Xi)[Yi − (β0 + β1Xi)] = 0
48

On obtient les ´equations normales
n
i=1
Yi =
n
i=1
β0 + β1Xi
Yi
=
n
i=1
Yi
et
n
i=1
Xi [Yi − (β0 + β1Xi)]
εi
= 0
49

Proposition 1. Les estimateurs obtenus par minimisation de la somme des
carrés des erreurs sont
β1 = r
sY
sX
et β0 = Y − β1X
où X et Y sont les moyennes empiriques
X =
1
n
n
i=1
Xi et Y =
1
n
n
i=1
Yi
où s2
X et s2
Y sont les variance empiriques
s2
Y =
1
n − 1
n
i=1
[Yi − Y ]2
et s2
X =
1
n − 1
n
i=1
[Xi − X]2
et où r désigne la corrélation empirique
r =
1
n−1
n
i=1[Xi − X][Yi − Y ]
1
n−1
n
i=1[Xi − X]2 1
n−1
n
i=1[Yi − Y ]2
50

Proposition 2. Les estimateurs obtenus par minimisation de la somme des
carr´es des erreurs sont
β1 =
n
i=1(XiYi − nXY )
n
i=1 X2
i − nX
2
et
β0 =
n
i=1 X2
i − nX
n
i=1 XiYi
n
i=1 X2
i − nX
2
51

Qualité du modèle et décomposition de la variance
On posera
• Yi = β0 + β1Xi la prédiction de Yi,
• εi = Yi − Yi l’erreur de prédiciton
Notons que
Yi − Y = (Yi − Yi) + (Yi − Y )
aussi, en élevant à la puissance 2,
(Yi − ¯Y )2
= (Yi − Yi)2
+ (Yi − ¯Y )2
+ 2(Yi − ¯Y )(Yi − Yi)
et en sommant
n
i=1
(Yi − ¯Y )2
=
n
i=1
(Yi − Yi)2
+
n
i=1
(Yi − ¯Y )2
+
n
i=1
2(Yi − ¯Y )(Yi − Yi)
=0
.
52

On notera que
n
i=1
2( ˆYi − ¯Y )(Yi − ˆYi) =
n
i=1
2(( ¯Y − ˆβ1
¯X + ˆβ1Xi) − ¯Y )(Yi − ˆYi)
=
n
i=1
2(( ¯Y + ˆβ1(Xi − ¯X)) − ¯Y )(Yi − ˆYi)
=
n
i=1
2( ˆβ1(Xi − ¯X))(Yi − ˆYi)
=
n
i=1
2 ˆβ1(Xi − ¯X)(Yi − ( ¯Y + ˆβ1(Xi − ¯X)))
=
n
i=1
2 ˆβ1((Yi − ¯Y )(Xi − ¯X) − ˆβ1(Xi − ¯X)2
).
or
β1 =
n
i=1(XiYi − nXY )
n
i=1(Xi − ¯X)2
53

donc ici
n
i=1
2( ˆYi − ¯Y )(Yi − ˆYi) =
n
i=1
2 ˆβ1 (Yi − ¯Y )(Xi − ¯X) − ˆβ1(Xi − ¯X)2
= 2 ˆβ1
n
i=1
(Yi − ¯Y )(Xi − ¯X) − ˆβ1
n
i=1
(Xi − ¯X)2
= 2 ˆβ1
n
i=1
(Yi − ¯Y )(Xi − ¯X) − (Yi − ¯Y )(Xi − ¯X)
= 2 ˆβ1 · 0 = 0
D’o`u la formule de d´ecomposition de la variance
n
i=1
(Yi − Y )2
=
n
i=1
(Yi − Yi)2
+
n
i=1
(Yi − Y )2
54

On notera R2
le coeﬃcient d’ajustement
R2
=
n
i=1(Yi − Y )2
n
i=1(Yi − Y )2
= 1 −
n
i=1(Yi − Yi)2
n
i=1(Yi − Y )2
Estimation de σ2
Estimation de σ2
= Var(ε),
s2
=
1
n − 2
n
i=1
ε2
i
Remarque Notons que β1 =
n
i=1
ωiYi o`u ωi =
Xi − X
(n − 1)S2
X
et β0 = Y − β1X
Estimation de β1
Proposition 3. E(β1) = β1 et Var(β1) =
σ2
(n − 1)S2
X
55

E(β1) = E
n
i=1
ωiYi =
n
i=1
ωi E(Yi)
β0+β1Xi
= β0
n
i=1
ωi
=0
+β1
n
i=1
ωiXi
=1
= β1
et
Var(β1) = Var
n
i=1
ωiYi =
n
i=1
ω2
i Var(Yi)
Estimation de β0
De mˆeme, on peut d´driver une expression similaire pour l’estimateur de la
constante
Proposition 4. E(β0) = β0 et Var(β0)
σ2
n
1 +
X
2
S2
X
56

´Ecriture matricielle du mod`ele
Posons
X =










1 X1
1 X2
...
...
1 Xn−1
1 Xn










, β =


β0
β1


Alors
Y =










Y1
Y2
...
Yn−1
Yn










= Xβ + ε =










β0 + β1X1
β0 + β1X2
...
β0 + β1Xn−1
β0 + β1Xn










+










ε1
ε2
...
εn−1
εn










57

i.e.
Y
n×1
= X
n×2
β
2×1
+ ε
n×1
Si on fait un peu de calcul matriciel, notons que
X Y =


1 1 · · · 1 1
X1 X2 · · · Xn−1 Xn












Y1
Y2
...
...
Yn−1
Yn










=


n
i=1 Yi
n
i=1 XiYi


58

X X =


1 1 · · · 1 1
X1 X2 · · · Xn−1 Xn












1 X1
1 X2
...
...
1 Xn−1
1 Xn










=


n
n
i=1 Xi
n
i=1 Xi
n
i=1 X2
i


Rappelons que
si A =


a c
b d

 alors A−1
=
1
ad − bc


d −c
−b a


Aussi
(X X)−1
=
1
n
n
i=1 X2
i − (
n
i=1 Xi)
2


n
i=1 X2
i −
n
i=1 Xi
−
n
i=1 Xi n


59

i.e.
(X X)−1
=
1
n
i=1 X2
i − nX
2


1
n
n
i=1 X2
i −X
−X 1


Aussi
(X X)−1
X Y =
1
n
i=1 X2
i − nX
2


n
i=1 X2
i − nX
n
i=1 XiYi)
n
i=1 XiYi − nXY

 =


β0
β1


Proposition 5. En posant Y = Xβ + ε, les estimateurs qui minimisent la
somme des carr´es des erreurs sont
β =


β0
β1

 = (X X)−1
X Y .
Notons que Y = Xβ = X(X X)−1
X Y . On notera
Y = X(X X)−1
X
H
Y
60

On a aussi
ε = Y − Y = I − X(X X)−1
X
M
Y
où M = (I − H).
Ici, M est une matrice symmétrique, M = M , et M2
= M, i.e. M est une
matrice de projection (orthogonale). Notons que MX = 0, i.e. M est un matrice
de projection orthogonale à X.
En revanche, H est une matrice symmétrique, H = H , et H2
= H, i.e. H est
une matrice de projection (orthogonale). Notons que HX = X, i.e. H est un
matrice de projection orthogonale sur X.
61

Le modèle linéaire multiple
On peut supposer que l’on régresse sur plusieurs variables explicatives
Yi = β0 + β1X1,i + · · · , βkXk,i + εi ou Yi = (1, X1,i, · · · , Xk,i)
Xi





β0
...
βk





β
+εi
• Y est la variable à expliquer, ou réponse, output, variable dépendante, ou
variable endogène
• les Xj sont les variables explicatives, ou prédicteurs, input, variables
indépendantes, ou variables exogènes
• ε est un bruit, supposé non expliqué (ou orthogonal) par les variables
explicatives.
62

Le modèle linéaire multiple
Au niveau des notations, au lieu de supposer que pour i = 1, · · · , n,
Yi = β0 + β1Xi,1 + · · · , βkXi,k + εi ou Yi = Xiβ + εi,
on peut utiliser l’écriture matricielle,





Y1
...
Yn





Y ,n×1
=





1 X1,1 · · · X1,k
...
...
...
...
1 Xn,1 · · · Xn,k





X,n×(k+1)








β0
β1
...
βk








β,(k+1)×1
+





ε1
...
εn





ε,n×1
.
63

Le modèle linéaire
Aussi, pour les résidus, on suppose que l’on a
E(ε) = E





ε1
...
εn





=





0
...
0





Var(ε) = σ2
In = σ2








1 0 · · · 0
0 1 · · · 0
...
...
...
0 · · · · · · 1








=








σ2
0 · · · 0
0 σ2
· · · 0
...
...
...
0 · · · · · · σ2








Ce sont des hypothèses (qu’il faudra tester un jour....)
64

Le modèle linéaire
Si X est supposé aléatoire
• E(ε|X) = 0,
• i.e. E(Y |X) = Xβ, ou encore E(Y |X) est linéaire en X
• E(εε |X) = σ2
I,
• i.e. Var(Y |X) = σ2
, Var(Y |X) est constante : hypothèse d’homoscédasticité.
• Cov(Yi, Yj|X) = 0 pour i = j, ou encore Cov(Yi, Yj|X) est nulle
• on rajoute l’hypothèse Cov(X, ε) = 0 : le bruit est la composante qui ne peut
être expliquée par X.
Pour estimer β, il y a (au moins) trois méthodes classiques
• méthode du maximum de vraisemblance : besoin de spécifier la loi des résidus
• méthode des moments
• méthode des moindres carrés : β ∈ argmin
n
i=1
[Yi − Xiβ]2
65

Estimations à distance finie
Quelques rappels sur les propriétés (ou informations) souhaitables d’un estimateur
• biais : θ estime sans biais de θ si E(θ) = θ, on note biais(θ) = E(θ) − θ.
• “meilleur” : θ1 est un meilleur estimateur que θ2 si V ar(θ1) est “plus petit”
que V ar(θ2), i.e. si k ≥ 2 V ar(θ2) − V ar(θ1) est définie positive.
• précision : le MSE - mean squarred error - d’un estimateur θ de θ est
MSE(θ) = E[(θ − θ)(θ − θ) ] = V ar(θ) + biais(θ)biais(θ)
• efficience : un estimateur est efficient si V ar(θ) = nI(θ)−1
, où I(θ) désigne
l’information de Fisher, i.e. I = [Ii,j] où
Ii,j = E
∂
∂θi
ln fθ(X) ·
∂
∂θj
ln fθ(X) .
66

Estimations en grand échantillon (approche asymptotique)
θ est un estimateur, construit à partir de X1, · · · , Xn. On notera θn cet
estimateur, l’étude du comportement asymptotique consistant à étudier le
comportement de θn lorsque n → ∞.
• consistance : θn est un estimateur consistant de θ si θn
P
→ θ
• convergence en loi : θn est un estimateur asymptotiquement normal de θ si
√
n θn − θ
L
→ N(µ, Σ),
où Σ est une matrice connue, ou calculable, ou estimable
• efficience asymptotique : V ar(θn) ∼ nI(θ)−1
si n → ∞.
67

Méthode du maximum de vraisemblance
Si on rajouter les hypothèses : εi ∼ N(0, σ2
) et les εi sont indépendants, i.e.
f(ε1, · · · , εn) =
n
i=1
f(εi) =
n
i=1
1
√
2πσ2
exp −
ε2
i
2σ2
d’où la log-vraisemblance du modèle, en notant que εi ∼ N(0, σ2
)
log L = −
n
2
log 2π −
n
2
log σ2
−
1
2σ2
[Y − Xβ] [Y − Xβ]
Maximiser log L est équivalent à minimiser [Y − Xβ] [Y − Xβ].
La condition du premier ordre est
∂[Y − Xβ] [Y − Xβ]
∂β
= 0, soit
∂[Y − Xβ] [Y − Xβ]
∂β
= −2X Y + 2X Xβ = 0.
68

La condition du premier ordre, X Y = X Xβ est parfois appelée équation
normale.
La condition du second ordre est
∂2
[Y − Xβ] [Y − Xβ]
∂β∂β
définie positive, soit
X X définie positive (et donc inversible).
Si X X est inversible, β = (X X)−1
X Y .
Remarque En réalité, on cherche à estimer θ = (β, σ2
). Pour l’instant, on se
préocupe seulement de l’estimation de β.
Proposition 6. Si εi est i.i.d. de loi N(0, σ2
), et si X X est inversible, alors
l’estimateur du maximum de vraisemblance β est
β
mv
= (X X)−1
X Y.
69

Les propriétés du maximum de vraisemblance sont des propriétés asymptotiques,
en particulier (moyennant quelques hypothèse de régularité)
• convergence, β
P
→ β
• normalité asymptotique,
√
n β − β
L
→ N(0, )
• efficacité asymptotique V ar(β) ∼ nI(β)−1
si n → ∞.
Dans le cas de la régression simple
√
n(β1 − β1)→N 0,
n · σ2
(xi − x)2
et
√
n(β0 − β0)→N 0, σ2 x2
i
(xi − x)2
.
Les variances asymptotiques de β0 and β1 peuvent être estimée par
Var(β1) =
σ2
(xi − x)2
et Var(β0) =
σ2
n
1 +
n( xi)2
(xi − x)2
avec comme covariance entre ces deux estimateurs
cov(β0, β1) =
−xσ2
(xi − x)2
.
70

Notons que
β1 =
cov(X, Y )
Var(X)
, β0 = Y − β1X, et σ2
= [1 − cov(X, Y )2
]Var(y),
ce qui se traduit également sous la forme
yi = y +
cov(X, Y )
Var(X)(X)
[xi − x] + εi.
=⇒ la régression est simplement une analyse de la corrélation entre des variables.
71

M´ethode du maximum de vraisemblance, loi asymptotique
−35 −30 −25 −20 −15 −10 −5 0
3.03.54.04.55.0
Constante
Pente
q
72

Mais le maximum de vraisemblance dépend explicitement de la loi des résidus ε.
Remarque En fait, compte tenu de la réecriture de la vraisemblance, cet
estimateur correspond au maximum de vraisemblance dès lors que ε suit une loi
sphérique (e.g. lois de Student indépendantes).
73

Méthode des moments
La quatrième hypothèse stipulait que
Cov(X, ε) = E(Xε) = E (X[Y − Xβ]) = 0, soit la version empirique
1
n
n
i=1
Xi Yi − Xiβ = 0.
Cette dernière condition correspond à la condition du premier ordre obtenue dans
l’estimation du maximum de vraisemblance.
Proposition 7. Si X X est inversible, alors l’estimateur des moments β est
β
mm
= (X X)−1
X Y.
Remarque Cette méthode se généralise dans le cas de l’estimation nonlinéaire
sous le nom GMM Generalized Method of Moments.
74

Méthode des moindres carrés
Comme cela a été noté dans les rappels de statistiques, il existe un interprétation
géométrique de l’espérance en terme de projection orthogonale,
E(Y ) = argmin{ Y − y L2 } = argmin{E (Y − y )
2
}
dont l’interprétation empirique est
y = argmin
n
i=1
(yi − y )
2
.
Si on suppose que Y = β0 + β1X + ε, où ε est centré et indépendant de X,
E(Y |X) = β0 + β1X. De la même manière que précédement, il est naturel de
chercher
argmin
n
i=1
(yi − [β0 + β1xi])
2
.
75

L’estimateur des moindres carr´es β ∈ argmin
n
i=1[Yi − Xiβ]2
, soit
β ∈ argmin[Y − Xβ] [Y − Xβ].
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q
5 10 15 20 25
020406080100120
car speed
distance
Linear regression, distance versus speed
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q
5 10 15 20 25
020406080100120
car speed
distance
Linear regression, speed versus distance
76

La condition du premier ordre donne
∂[Y − Xβ] [Y − Xβ]
∂β
= −2X Y + 2X Xβ = 0.
La condition du second ordre est ´equivalente `a avoir X X est inversible, et alors
β = (X X)−1
X Y.
Proposition 8. Si X X est inversible, alors l’estimateur des moments β est
β
mco
= (X X)−1
X Y.
77

Un petit mot sur la variance des résidus σ2
Pour l’instant nous n’avons parlé que de l’estimation de β, mais σ2
est également
à estimer. La démarche est la suivante
• on part d’un échantillon {(Y1, X1), · · · , (Yn, Xn)},
• on construit l’estimateur par moindres carrés β = (X X)−1
X Y ,
• on construit la série des pseudo-résidus εi = Yi − Xiβ,
• on estime la variance de la série des pseudo-résidus σ2
= V ar(εi).
78

Pour l’instant nous n’avons parlé que de l’estimation de β, mais σ2
est également
à estimer. La démarche est la suivante
• β = (X X)−1
X Y est l’estimateur par moindre carrés (de β)
• Y = Xβ = X(X X)−1
X Y = HY est le vecteur des prédictions de Y ,
• ε = Y − Y = (I − H)Y est le vecteur des pseudo-résidus associés à la
régression,
• ε ε = Y (I − H)Y est la somme des carrés des résidus, ou RSS (residual sum of
squares)
79

La r´egression lin´eaire
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
1500 2000 2500 3000 3500
1e+052e+053e+054e+055e+056e+057e+05
D$sqrft
D$price
1000 1500 2000 2500 3000 3500 4000
1e+052e+053e+054e+055e+056e+057e+058e+05
2
3
4
5
6
7
sqrft
bdrms
price
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qq
qqq
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
qqq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
80

Propriétés de l’estimateur par mco
Proposition 9. Soit β l’estimateur par moindres carrés,
• β estime sans biais β, i.e. E(β) = β ; la variance est V ar(β) = σ2
(X X)−1
.
• Théorème de Gauss-Markov : parmi les estimateurs linéaires et sans biais de
β, l’estimateur par moindres carrées est de variance minimale, i.e. BLUE
• σ2
=
1
n − k
n
i=1
(Yi − Xiβ)2
estime sans-biais σ2
.
Si ε ∼ N(0, σ2
),
• β est également l’estimateur du maximum de vraisemblance
• parmi les estimateurs sans biais de β est l’estimateur de variance minimale,
i.e. BUE,
• β ∼ N(β, σ2
(X X)−1
) et (n − k)
σ2
σ
∼ χ2
(n − k).
81

Propriétés de l’estimateur par mco
Sous l’hypothèse où ε ∼ N(0, σ2
I), alors
• Y = Xβ + ε est gaussien, Y ∼ N(Xβ, σ2
I)
• β = (X X)−1
X Y est gaussien, β ∼ N(0, σ2
I)
• la somme des carrés des erreurs suit une loi du chi-deux, ε ε ∼ σ2
χ2
(n − k)
• β est indépendant de σ2
• Y est indépendant de ε
82

Intervalle de confiance pour βj
Sous l’hypothèse où εi ∼ N(0, σ2
), Yi ∼ N(Xβ, σ2
), et comme
β = (X X)−1
X Y
∼ N((X X)−1
X Xβ, [(X X)−1
X ] [(X X)−1
X ]σ2
)
∼ N(β, (X X)−1
σ2
),
soit, pour tout j,
βj − βj
V ar(βj)
=
βj − βj
[(X X)−1]jjσ2
∼ N(0, 1),
or comme σ est inconnue, on la remplace par un estimateur indépendant de
l’estimateur des βj.
83

Intervalle de confiance pour βj
Aussi
βj − βj
V ar(βj)
=
βj − βj
[(X X)−1]jjσ2
∼ St(n − k),
où k est le nombre de variables explicatives. Aussi,
βj ∈ βj ± t1−α/2 [(X X)−1]jjσ2 ,
sous l’hypothèse où εi ∼ N(0, σ2
).
84

Test de nullité de βj
Les résultats précédants permettent de proposer un test simple de
H0 : βj = 0 contre l’hypothèse H1 : βj = 0.
La statistique de test
Tj =
βj
V ar(βj)
∼ St(n − k) sous H0.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -17.5791 6.7584 -2.601 0.0123 *
speed 3.9324 0.4155 9.464 1.49e-12 ***
85

Continuous sur les propriétés asymptotiques
Proposition 10. Si les résidus sont centrés, de variance finie σ2
, alors β
P
→ β
si (X X)1
→ 0.
Proposition 11. Si les résidus sont i.i.d. centrés, de variance finie σ2
, alors
√
n(β − β)
L
→ N(0, σQ−1
) si
1
n
(X X)1
→ Q, où Q est définie positive.
Proposition 12. Si les résidus sont i.i.d. centrés, de variance finie σ2
, alors
σ2 P
→ σ2
et
√
n(σ2
− σ2
)
L
→ N(0, σV ar(ε2
)) si
1
n
(X X)1
→ Q, où Q est définie
positive.
Dans le modèle linéaire gaussien, l’estimateur par moindres carrés est
asymptotiquement efficace.
86

Intervalles de confiance pour Y et Y
Supposons que l’on dispose d’une nouvelle observation X0 et que l’on souhaite
prédire la valeur Y0 assoicée.
L’incertitude sur la prédiction Y0 vient de l’erreur d’estimation sur les paramètres
β.
L’incertitude sur la réalisation Y0 vient de l’erreur d’estimation sur les
paramètres β et de l’erreur associée au modèle linéaire, i.e. ε0.
Dans le cas de la régression simple, Y0 = Y0 + ε0 = β0 + β1X0 + ε0. Aussi,
• V ar(Y0) = V ar(β0) + 2X0cov(β0, β1) + X2
0 V ar(β1)
• V ar(Y0) = V ar(Y0) + V ar(ε0), si l’on suppose que le bruit est la partie non
expliquée. Aussi V ar(Y0) = V ar(β0) + 2X0cov(β0, β1) + X2
0 V ar(β1) + σ2
87

Intervalle de confiance pour Y
L’incertitude sur la prédiction Yj vient de l’erreur d’estimation sur les paramètres
β.
Dans ce cas, si l’on dispose d’une nouvelle observation X0, l’intervalle de
confiance pour Y0 = (X X)−1
X Y0 est
Y0 ± tn−k(1 − α/2)σ x0(X X)−1X0
où tn−k(1 − α/2) est le quantile d’ordre (1 − α/2) de la loi de Student à n − k
degrés de liberté.
88

Intervalle de confiance pour Y
L’incertitude sur la réalisation Yj vient de l’erreur d’estimation sur les
paramètres β et de l’erreur associée au modèle linéaire, i.e. εi.
Dans ce cas, si l’on dispose d’une nouvelle observation X0, l’intervalle de
confiance pour Y0 = Y0 + ε0 est
Y0 ± tn−k(1 − α/2)σ 1+x0(X X)−1X0
En fait, sous R, l’intervalle de confiance pour Y n’inclue pas l’erreur associée à
l’erreur d’estimation, aussi, dans ce cas, si l’on dispose d’une nouvelle observation
X0, l’intervalle de confiance pour Y0 = Y0 + ε0 est
Y0 ± tn−k(1 − α/2)σ .
89

pp <- predict(lm(y~x,data=D), new=data.frame(x=seq(0,30)), interval=’prediction’)
pc <- predict(lm(y~x,data=D), new=data.frame(x=seq(0,30)), interval=’confidence’)
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q
5 10 15 20 25
020406080100120
car speed
distance
Confidence and prediction bands
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q
5 10 15 20 25
020406080100120
car speed
distance
Confidence and prediction bands
90

q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q
0 20 40 60 80
050100150200250
91

Un mot sur les extensions du modèle linéaire
Nous avons données deux interprétations de la régression par moindre carrés,
• E(Y |X = x) = x β,
• Y |X = x ∼ N(x β, σ2
).
Des extensions de ces interprétations sont les suivantes,
• médiane(Y |X = x) = x β, dans le cas de la régression L1
, ou plus
généralement, n’importe quel quantile, Qα(Y |X = x) = x β : régression
robuste et régression quantile,
• E(Y |X = x) = ϕ(x) : régression nonlinéaire ou régression nonparam‘’etrique,
• Y |X = x ∼ L(g(x β)) ; où L est une loi “quelconque”, e.g. binomiale dans le
cas de la régression probit/logit.
92

Les variables explicatives, X = (X1, · · · , Xk)
• oublie d’une variable (importante) dans la régression : sous-identification
Suppposons que le vrai modèle est de la forme
Yi = X1,iβ1 + X2,iβ2 + εi, (1)
où les εi vérifient les conditions usuelles du modèle linéaire.
Supposons que l’on régresse seulement Y sur X1,
Yi = X1,iα1 + ηi. (2)
L’estimation de α1 dans le modèle 2 donne
α1 = (X1X1)−1
X1Y
= (X1X1)−1
X1[X1,iβ1 + X2,iβ2 + ε]
= (X1X1)−1
X1X1β1 + (X1X1)−1
X1X2β2 + (X1X1)−1
X1ε
= β1 + (X1X1)−1
X1X2β2
β12
+ (X1X1)−1
X1εi
νi
93

i.e. E(α1) = β1 + β12.
Si X1X2 = 0 (variables non corr´lées), α1 estime sans biais β1
Si on oublie une variable α1 est un estimateur biaisé de β1, mais possède une
variance plus faible.
• rajout d’une variable dans la régression : sur-identification
De manière duale, si on rajoute une variable, i.e. le vrai modèle est
Y = X1β1 + ε
mais que l’on estime
Y = X1α1 + X2α2 + η
L’estimation est sans biais, i.e. E(α1) = β1, mais l’estimateur n’est pas efficient.
94

Un (petit) mot sur l’interprétation des paramètres
On interprêtre souvent le signe de β1 comme le sens de la relation entre la
variable explicative X1 et la réponse Y .
Une lecteure naive serait “un changement d’une unité de X1 va conduire à un
changement - en moyenne - de β1 sur Y ”
Mais il s’agit d’une interprétation causale d’une simple corrélation, et surtout,
ceci suppose que “β1 mesure l’effect de X1 sur Y , toutes choses étant égales par
ailleurs”. Mais peut-on supposer que X1 et X2 soient indépendantes (et que l’on
puisse faire varier X1 sans faire varier X2 ?).
95

Un (petit) mot sur la multicolinéarité
On parlera de (multi)colinéarité entre deux variables exogènes lorsque la
corrélation entre ces variables est (très) élevée.
• colinéarité parfait, i.e. rang(X X) < k + 1, alors (X X) n’est pas inversible
• colinéarité très forte, alors le calcul de (X X)−1
est instable.
L’idé de la régression ridge (proposée par Hoerl & Kennard (1970)) est de
considérer
β = (X X + λI)−1
X Y.
Attention La multicolinéarité biaise les interprétation dans les contextes de
prédiction, c.f. paradoxe de Simpson
Considérons le cas où
• Y désigne le fait d’être guéri ou déc´dé
• X1 désigne l’hôpital (noté ici A ou B)
• X2 désigne le fait d’être entré (ou pas) en bonne santé
96

Un peu de statistique descriptive donne, pour E(Y |X1)
hôpital total survivants décès taux de survie
hôpital A 1, 000 800 200 80%
hôpital B 1, 000 900 100 90%
Personnes en bonne santé, i.e. E(Y |X1, X2 = bonne santé)
hôpital A 600 590 10 98%
hôpital B 900 870 30 97%
Personnes malades, i.e. E(Y |X1, X2 = malade)
hôpital A 400 210 190 53%
hôpital B 100 30 70 30%
97

Aussi, E(Y |X1) et E(Y |X1, X2 = x2) peuvent être sensiblements différents pout
tout x2.
L’explication du paradoxe est que le choix de l’hôpital et la condition médicale à
l’entrée sont très liés (B ne soignant pas des personnes malades)
Pour détecter la multicolinéarité, on étudie les corrélations croisées. Il existe
généralement deux règles pour détecter de la multicolinéarité entre X1 et X2, i.e.
• si |r1,2| > 0.8, mais cela ne prend pas en compte les particularités de la
régression,
• si r2
1,2 > R2
, règle dite de Klein.
98

Une autre interprétation est la suivante : il est possible d’avoir
Y = β0 + β1X1 + ε avec β1 > 0,
mais
Y = α0 + α1X1 + α2X2 + η avec α1 < 0.
=⇒ Attention aux interprétations fallacieuses des valeurs de coefficients.
Autre exemple, considérons le cas où
• Y désigne le pourcentage d’admission à Berkeley
• X1 désigne le sexe de la personne H ou F)
• X2 désigne la majeure
99

Un peu de statistique descriptive donne, pour E(Y |X1)
sexe postulants admis (%)
hommes H 2, 074 1, 018 48%
femmes F 849 261 30%
Personnes en bonne sant´e, i.e. E(Y |X1, X2)
Hommes
majeure post. admis (%)
A 825 511 62%
B 560 353 63%
C 417 138 33%
D 272 16 6%
Femmes
majeure post. admis (%)
A 108 89 82%
B 25 17 68%
C 375 131 35%
D 341 24 7%
100

On peut retrouver des dizaines d’exemples de ce type,
Example : confrontation de deux joueurs de base-base
joueur 1995 1996 Total
Derek Jeter 12/48 25.0% 183/582 31.4% 195/630 31.0%
David Justice 104/411 25.3% 45/140 32.1% 149/551 27.0%
Example : validation clinique d’un m´edicament
traitement petits caillots gros caillots Total
A 234/270 87% 55/80 69% 289/350 83%
B 81/87 93% 192/263 73% 273/350 78%
101

Slides act6420-e2014-partie-1

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Plus de Arthur Charpentier

Plus de Arthur Charpentier (20)

Slides act6420-e2014-partie-1