1. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Mod`les de pr´vision
e e
Partie 1 - r´gression
e
Arthur Charpentier
charpentier.arthur@uqam.ca
http ://freakonometrics.blog.free.fr/
Automne 2012
1
2. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Plan du cours
• Motivation et introduction aux mod`les de r´gression
e e
• Le mod`le lin´aire simple
e e
◦ R´sultats g´n´raux
e e e
◦ Approche matricielle
• Le mod`le lin´aire multiple
e e
◦ R´sultats g´n´raux
e e e
◦ Tests, choix de mod`le, diagnostique
e
• Aller plus loin
◦ Les mod`les non lin´aires param´triques
e e e
◦ Les mod`les non lin´aires nonparam´triques
e e e
2
3. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Un peu de terminologie
L’´tude de la transmission g´n´tique de
e e e
certaines caract´ristiques a int´ress´
e e e
Galton en 1870 puis Pearson en 1896. Galton a
propos´ d´tudier la taille d’un enfant en
e e
fonction de la taille (moyenne) de ses parents,
a
` partir de 928 observations.
3
4. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
4
5. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
5
6. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
74
q q q q
q q q q q q
q q q q q q q q
72
q q q q q q q
Taille de l'enfant (inches)
q q q q q q q q
70
q q q q q q q q q q
q q q q q q q q q
68
q q q q q q q q q
q q q q q q q q q
66
q q q q q q q q q
q q q q q q q
64
q q q q q q q q
q q q
62
q q q q q
64 66 68 70 72
Taille moyenne des parents (inches)
Un enfant de parents grands est en moyenne grand, mais moins que ses parents.
Un enfant de parents petits est en moyenne petits, mais moins que ses parents.
=⇒ “I have called this peculiarity by the name of regression”, au sens r´gression
e
vers la moyenne.
6
9. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
de l’esp´rance ` l’esp´rance conditionnelle
e a e
Pr´dire le poids Y , sans aucune autre information
e
0.05
q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q
0.04
0.03
densité
0.02
0.01
0.00
40 60 80 100 120
Poids (kg)
9
10. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
de l’esp´rance ` l’esp´rance conditionnelle
e a e
On peut aussi regarder la loi de Y , pour en d´duire des quantiles (e.g. ob´sit´)
e e e
0.05
q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q
0.04
0.03
densité
0.02
0.01
0.00
40 60 80 100 120
Poids (kg)
10
11. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
de l’esp´rance ` l’esp´rance conditionnelle
e a e
On peut aussi regarder la loi de Y , derri`re se cache un m´lange (par sexe)
e e
0.05
0.04
0.03
densité
0.02
0.01
0.00
40 60 80 100 120
Poids (kg)
11
12. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
de l’esp´rance ` l’esp´rance conditionnelle
e a e
Estimation de la loi de Y |X = 175
120
100
Poids (kg)
80
q
60
40
150 160 170 180 190
Taille (cm)
12
13. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
de l’esp´rance ` l’esp´rance conditionnelle
e a e
Estimation de la loi de Y |X = 185
120
100
q
Poids (kg)
80
q
60
40
150 160 170 180 190
Taille (cm)
13
14. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
de l’esp´rance ` l’esp´rance conditionnelle
e a e
Estimation de la loi de Y |X = 165
120
100
q
Poids (kg)
80
q
60
q
40
150 160 170 180 190
Taille (cm)
14
15. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
de l’esp´rance ` l’esp´rance conditionnelle
e a e
Pour plusieurs valeur de x, il possible d’estimer une loi de Y |X = x
120
100
Poids (kg)
80
60
40
150 160 170 180 190
Taille (cm)
15
16. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
de l’esp´rance ` l’esp´rance conditionnelle
e a e
Une explication de la nonlin´arit´, l’h´t´rog´n´it´ hommes/femmes
e e ee e e e
120
100
Poids (kg)
80
60
40
150 160 170 180 190
Taille (cm)
16
18. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Esp´rance conditionelle et projection
e
Faire une pr´diction de Y ` X fix´ c’est projeter Y sur l’ensemble des variables
e a e
al´atoires engendr´es par X [...]
e e
18
19. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Esp´rance conditionelle et projection
e
[...] on peut se restreindre ` un sous-ensemble, celui des transformations affines
a
engendr´es par X [...]
e
19
20. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Esp´rance conditionelle et projection
e
[...] ou on se restreint ` un sous-ensemble de ce sous-ensemble, les constantes.
a
20
25. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Lien avec le cours de statistique ?
• Cours de statistique ‘descriptive’
On dispose d’un ´chantillon {y1 , · · · , yn }, de variables r´elles, yi ∈ R.
e e
On peut d´finir la moyenne, ou la variance (empirique)
e
n
y1 + · · · + yn 1
• y= = yi
n n i=1
n
2 1
• s = [yi − y]2
n i=1
25
26. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Lien avec le cours de statistique ?
• Cours de statistique math´matique
e
On dispose d’un ´chantillon {y1 , · · · , yn }, vu comme des r´alisation de variables
e e
al´atoires {Y1 (ω), · · · , Yn (ω)}, ω ∈ Ω, i.e. yi = Yi (ω) ∈ R. On a maintenant des
e
variables al´atoires sous-jacentes, Yi . Les moyennes et variances empiriques sont
e
alors des r´alisations des variables al´atoires
e e
n
Y1 + · · · + Yn 1
• Y = = Yi
n n i=1
n
2 1
• S = [Yi − Y ]2
n i=1
i.e. y = Y (ω) et s2 = S 2 (ω). En statistique math´matique, on utilise des
e
propri´t´s de ces variables al´atoires pour en d´duire des propri´t´s sur telle ou
ee e e ee
telle statistique.
26
27. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
P
La loi des grands nombres garantit que Y → E(Y ) si on suppose que les Xi sont
des variables ind´pendantes, de mˆme esp´rance et de mˆme variance (finies, loi
e e e e
faible des grands nombres), i.e. ∀ε > 0.
Y1 + Y2 + · · · + Yn
lim P − E(Y ) ε =0
n→+∞ n
On a aussi le th´or`me central limite, qui garantit que
e e
√ L
n(Y − E(Y )) → N (0, Var(Y )) si on suppose que les Xi sont des variables
ind´pendantes, de mˆme esp´rance et de mˆme variance (finies, loi faible des
e e e e
grands nombres), i.e.
√ Y n − E(Y )
lim P n ≤z = Φ(z)
n→∞ Var(Y )
o` Φ(·) est la fonction de r´partition de la loi N (0, 1).
u e
27
28. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Lien avec le cours de statistique ?
• Cours d’inf´rence (param´trique)
e e
On dispose d’un ´chantillon {y1 , · · · , yn }, vu comme des r´alisation de variables
e e
al´atoires {Y1 (ω), · · · , Yn (ω)}, o` les variables al´atoires sous-jacentes, Yi , sont
e u e
suppos´es ind´pendantes, et identiquement distribu´es, de loi
e e e
F ∈ F = {Fθ , θ ∈ Θ}. Aussi, F = Fθ0 , mais θ0 est inconnu.
Remarque θ est g´n´rallement un param`tre dans Rk , mais pour simplifier, on
e e e
supposera θ ∈ Θ ⊂ R.
Un estimateur θ est une fonction des observations. Attention, parfois
• θ = s(y1 , · · · , yn ) est un r´el, e.g. θ = y
e
• θ = s(Y1 , · · · , Yn ) est une variable al´atoire, e.g. θ = Y
e
Pour estimer θ, on dispose de deux m´thodes standards
e
• la m´thode des moments
e
• la m´thode du maximum de vraisemblance
e
28
29. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
• La m´thode des moments
e
On suppose que si Y ∼ Fθ , E(Y ) = g(θ) o` g(·) est bijective. Dans ce cas,
u
θ = g −1 (E(Y )). Un estimateur naturel est alors
θ = g −1 (Y ).
On notera que l’on a (a priori) aucune information sur la qualit´ de l’estimateur,
e
e.g. l’estimateur n’a aucune raison d’ˆtre sans biais,
e
E(θ) = E[g −1 (Y )]=g −1 (E[Y ]) = g −1 (E(Y )) = θ
Par contre, si g est suffisement r´guli`re, on a des propri´t´s asymptotiques,
e e ee
E(θ) → θ lorsque n → ∞.
29