Act6420 uqam-part1

` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)

Mod`les de pr´vision
e e
Partie 1 - r´gression
e

Arthur Charpentier
charpentier.arthur@uqam.ca

http ://freakonometrics.blog.free.fr/

Automne 2012

1

` ´

Plan du cours
• Motivation et introduction aux mod`les de r´gression
e e
• Le mod`le lináire simple
e e
◦ R´sultats gń´raux
e e e
◦ Approche matricielle
• Le mod`le lináire multiple
e e
◦ R´sultats gń´raux
e e e
◦ Tests, choix de mod`le, diagnostique
e
• Aller plus loin
◦ Les mod`les non lináires param´triques
e e e
◦ Les mod`les non lináires nonparam´triques
e e e

2

` ´

Un peu de terminologie
L’´tude de la transmission g´n´tique de
e e e
certaines caract´ristiques a int´ress´
e e e
Galton en 1870 puis Pearson en 1896. Galton a
propos´ d´tudier la taille d’un enfant en
e e
fonction de la taille (moyenne) de ses parents,
a
` partir de 928 observations.

3

` ´

4

` ´

5

` ´

74
q q q q
q q q q q q

q q q q q q q q
72

q q q q q q q
Taille de l'enfant (inches)

q q q q q q q q
70

q q q q q q q q q q

q q q q q q q q q
68

q q q q q q q q q

q q q q q q q q q
66

q q q q q q q q q

q q q q q q q
64

q q q q q q q q

q q q
62

q q q q q

64 66 68 70 72

Taille moyenne des parents (inches)

Un enfant de parents grands est en moyenne grand, mais moins que ses parents.
Un enfant de parents petits est en moyenne petits, mais moins que ses parents.
=⇒ “I have called this peculiarity by the name of regression”, au sens r´gression
e
vers la moyenne.

6

` ´

Pearson a propos´ d’´tudier le lien entre la taille d’un homme et celle de son
e e
p`re. La conclusion est la mˆme, il y a r´gression vers la moyenne.
e e e

q q

q q q
q
q q
q q q q q
75

q q
q qq q q q
q q
q qq q
q q q q qq q q
qqq q q q q
q q q q
q
q q
q q q qq qq qq
q q q
q q q q qq q q qq q
q q qq
q
q q q qq q q
q
q
q
qq q
q q q q qq q q q q q
q q
qq q
qq q
Taille du fils (inches)

q
q q q qq q q q q q q qq qqq q q q q
q q qq
q qq qq
q qq q q qqq q q q q qq q q q q qq q q q q
q q
q q qqq q qq q q q
qq q q
q q qq q
q qq q qq q q
q qq
qq q q q qq
q
qq q
q
q
q q
qq qqqq qq qq q qq qqqqq q q q q q
q q q
qq
qq
q q q q q q
q
q
qq q
q q q q q q q
q q qq q q
q q q q q q q qq q qq q q q qq
q q q
q q q qq q q q q q q q q q q
70

q q
q q q q q qqqqq q q
qq q q q q qqq qq q q qqq q qq
q q q qq q qq q q
q q q q qq q q qq q qq q
q q
q q
qq q q q qq
q q
q qq qqqq q
q q qqq qqq q q qq q q q q
q q q qq q
q q
q q q qqq q q q q q q q q qqq q qqq q qq
q
q q q q qq q qqqq
q qq
q q
q
q q q q q q q qq q q
q q qq q
q q q q q
qq q q q qq qq q q q
q q
q q qq q q
q q qq q q qqq q qq q q q q q qq
q qqq q
q q q q q qq
q q q
q q q q qq q q
q qq q qq q q
q
q q qq q q
qq qqq q qq qq q
qqq q q q q q q q q qq qq q q q q
qq q qq q q q qq q q qqq qq q q qq qq qq q
qq q q q q qqq
q q q q q
q qq q q qq
qq q q qq q q q q q
q q
q q q
qq q q q qq q q q q q q qq qqqq q q q q qq q qq q q
q q q q
q q q q qq q q
q q
q q q q q q q q q q qq q qqq
q qq q q q qq q q q q
q q q
q qqq q q
qq q q qq q
qq qqqq q q q q q qq q q q q qq q qq q q q q q q q
q q q q q q q
q q q
q q qq qq q q q q qq q q qq q qq q
qq
qq
q q
q q q q
q q q q
qq q
q q q q q q
qq
qq q q qq q q q q q qqq q qq q qqqq q q q q
q q qq q q q q q q q q
q q
qq
q q q q q q
q qq q q q qq q q q q
q q q qq q
qq q q q q qq qq q q qq
q q q q q
q q
q
q q qq q q qqq q q qq q q q q
q qq q qq
65

q q q q qq q q q q q q qq q
qq q q q qq q q q q q q q
q qq q q
q
q
q q q
q q q q q qq q q q
q q
q
q q q
q
q qq q q qq
q qq q q q
q q q q q
q q
q q q
q q q q
q q q
q q
q qq q q
q
60

q q
q
q
q

60 65 70 75

Taille du père (inches)

r´gression = ´tudes de corr´lations
e e e
7

` ´

Remarque cela ne signiﬁe pas que les ﬁls sont plus “moyens” que leurs p`res : il
e
ne s’agit que d’une notion de corr´lation, de d´pendance, en aucun cas de lois
e e
marginales

q q
q
q
q q
q q q
q q
qq q q q q q
q
q q qq q q q
q q q
75

75
q q q
q q q
q q q
q q
q
q q q qq q q
q q qq q
qq
q q qq
q qq q qqqqqqq q q
q q
qq qqq q q q q
q qqq
q q q qq qqqq q
q q qq q qq
q qq q q qq
q
qq
q q q q qq q qqq q q
q q q q q qq q q q
q qq
q qq q q q q
q q qq qq q q
q q q q q qq q
q qqq q qq q q q
q
q
qq q qq q q q q q qqq qq q q qq q
qq q q q q q q q q q q q q q q q
qqq q q q q q
q qq q q qq q qq q
qq q q q
qq
qq qq q q qqq qq qq q
q q q q qqqq q q q qq
qq qq q q
qq
qq q q
q q q qq q q q
qq q q
q
q q q q
q q q qqq q qq qq
q
q q q q qqq qq q qq
q q q
q qq qq q qqqq qq q q
qq qq
q qq q
q q q q qqqqq q q q q
q qqq q q
qq
qqqqqq q qqqq q qqq
q q q qqq q qqq q qq qqq q q
q q qq qq
q q qq q qqq q qq qq q q q
q q q
q q q q qq qq q q
q q q qq q q
q
qq q q q qq qq q
q q qq q
q q
q q q qq q q qq q q
q q q qqqqq qq q
qq qqqqq qq q qqq qqq q q
q q
qq q
qq
q
q qqqq q q q q q q q q
q q q q qq
q
q q qq q qqq q q qq q qqq qq
q qq
q
q q q qqq q qqqqq q q q q
q q qqq q q q
q q
q q
q qqq q q q qq q q q q q qq qq q q q q
q q q qq q q qq q q qq qq q q q q qqq q qq q q
q q
70

70
qq q q
q qq q q q q q
q
q q q q q q q qqqqqqqq q qq q
qqqq q q qq q q q
q qq q qqq q
qq q q q
q q q q qq qq qq q qq q qqq qqqqq q qq
q q qq q q qq q qq
qq q q q
q q q q qqq q q q
q qqqqqqqqqqq qq q
qq q q
qq
q q q qqqq q q q qq q q qqq q q q
q qqq q q qq qq q qq q q q qq q
qqqqq q q q q
qqq q q q q q q qq
qq
q qq qq qqq qqqqq q qqq q q qq
qq
q q q q qqqqqqq qq qq q
q q qq q qq
q q
q q qq
q q q qqqqq qqqqqq qq q q q q
q q
q qq q qqqqqqq q q
qqq q q q q
q q q
q q qq qqq q q q
qq qqq qq q qqq q q q qq qqq qq q q q q
qq q qqqqqqqqq q q
q q
q q q
qqqq qq qqqq q q q q q q q q q qq q qq
q qqqqqqq q qqq q
q q q qqq q qq
q q q q q qq q
q
qqqq q q q qqqq qqq q q q q qq
q q q q q q qq qqqqqqqqq qq qq
q q
q q qq qqq q
q qqq qqq qq qq q qqq
q qq q qq qq q q q q qqqqq q q q
qq q q qqq
qq
q q q q qqq qq q q q qq q
q qq qq qqq qq q qq
qq q
q
q q q q qq qq q
q
q q qqqqqq qq q
qq q qq qq q q qq q qqqqq q q q
q q q q q
q q q qqqq qqq q qqqq qq qq q qq q q q q qqq qqq q q
qq q q q
q qq qqqqqqqqqqq q q q q
qq qq qqq q q q q
q qqq q qq qqq qq q
q q qq q q q q qq q q
qq q
q
q q qq qqq qq q qq
q q
q q qqq qqqqqqqq q q q
q q q qqq q q q q qq q qq q qq q q q
q q
qq qq q q q qqq q q q qq
q q q qqq q qq q
qqq q q
q q q q qq q q qqqqqqq qqq qq q
qqq q q q q q q
qq qq
q q qq q q q q qqq q q q q
qq q
q q qq qq q q qq qqqq q q qq q
q q q qq
q q q qq q q q q q qq
q qqqq qq qqqq q qq
q qqq q q qq qqq
q
q q q q q qqq q q
q q q q qqqqqqq
q q q q
qq
q q q qqq q q
qq q q
q q qq qqq qq q q qqq q
q
q q qq q
q q
qq
q q
q
q
q q q q qqq q
qq qq q q q q
q q qq q q qqqq q
q q qq q
q q q q qqq q q
q q
65

65
q qq
q
q qq q
q q q
q q q qq q q
q qqq q q q qqqqq
q q qq q q q q
q q q q q qqq qq q
q qq q
qq q q
q q qq q qq q
q q
q q q qqq qq q
q q q
q q q qq q
qq q q
q q qq q q q qqq
q q q q
q
q q q q q qq q q
q q q qqq qq q q q q q q qq q q
qq q q
qq
q q
qq
q q q q q
q q q
q q q
qq
q q qq q
q q
q q
60

60

q
q q

60 65 70 75 60 65 70 75

8

` ´

de l’esp´rance ` l’esp´rance conditionnelle
e a e
Pr´dire le poids Y , sans aucune autre information
e
0.05

q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q
0.04
0.03
densité

0.02
0.01
0.00

40 60 80 100 120

Poids (kg)

9

` ´

e a e
On peut aussi regarder la loi de Y , pour en d´duire des quantiles (e.g. ob´sit´)
e e e
0.05

q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q
0.04
0.03
densité

0.02
0.01
0.00

40 60 80 100 120

Poids (kg)

10

` ´

e a e
On peut aussi regarder la loi de Y , derri`re se cache un m´lange (par sexe)
e e
0.05
0.04
0.03
densité

0.02
0.01
0.00

40 60 80 100 120

Poids (kg)

11

` ´

e a e
Estimation de la loi de Y |X = 175
120
100
Poids (kg)

80

q
60
40

150 160 170 180 190

Taille (cm)

12

` ´

e a e
120
100

q
Poids (kg)

80

q
60
40

150 160 170 180 190

Taille (cm)

13

` ´

e a e
120
100

q
Poids (kg)

80

q
60

q
40

150 160 170 180 190

Taille (cm)

14

` ´

e a e
Pour plusieurs valeur de x, il possible d’estimer une loi de Y |X = x
120
100
Poids (kg)

80
60
40

150 160 170 180 190

Taille (cm)

15

` ´

e a e
Une explication de la nonlinárit´, l’h´t´rogńít´ hommes/femmes
e e ee e e e
120
100
Poids (kg)

80
60
40

150 160 170 180 190

Taille (cm)

16

` ´

e a e
Une relation plus quadratique que lin´aire ?
e
120

q

q
q
100

q

q q q
q
q q q
q q q
q q
Poids (kg)

q q q q
q q q q q q
q q
80

q q q q q
q q q q
q q q
q q q q q q
q q q q
q q q q q q
q q q q q q
q q q q q q q
q q q q q
q q q
q q q
q q q q
q q q q
q q q q q q q q q q q
q
q q q
60

q q q q q q q q
q q q
q q q q
q q q q q
q q
q q q
q q q q
q q q q q
q q q
q q q q
q q q
q q q q
q q q q q q
q q q
q q q q q q q
q q q q
q
q
q q
q
40

q

150 160 170 180 190

Taille (cm)

17

` ´

Esp´rance conditionelle et projection
e
Faire une pr´diction de Y ` X fix´ c’est projeter Y sur l’ensemble des variables
e a e
alátoires engendrés par X [...]
e e

18

` ´

e
[...] on peut se restreindre ` un sous-ensemble, celui des transformations aﬃnes
a
engendr´es par X [...]
e

19

` ´

e
[...] ou on se restreint ` un sous-ensemble de ce sous-ensemble, les constantes.
a

20

` ´

Un peu de motivation ?
Le prestige (Y ) expliqu´ par le salaire (X), cf. Blishen & McRoberts (1976),
e
´tude du “prestige” de 102 m´tiers au Canada.
e e

PHYSICIANS q
UNIVERSITY.TEACHERS q
LAWYERS
q
80

ARCHITECTS
q q
q
q q qq q
q q q q GENERAL.MANAGERS q
q q OSTEOPATHS.CHIROPRACTORS
q q
q
q
q q
60

q q
q q q
q q
Prestige

q q q
q
q q
q
q q qq q
q
q q q
q
q qq q
q q q q
q q
q
q q
40

qq q q q
q q
q q
qq qqq
q q
q q
q q
q
q q qq
q q
q q q q q
q
q q
q
20

q q q
q
q

0 5000 10000 15000 20000 25000

Revenu

21

` ´

Le prestige (Y ) expliqu´ par le salaire (X), cf. Blishen & McRoberts (1976),
e
´tude du “prestige” de 102 m´tiers au Canada.
e e

PHYSICIANS q
UNIVERSITY.TEACHERS q
LAWYERS
q
80

ARCHITECTS
q q
q
q q qq q
q q q q GENERAL.MANAGERS q
q q OSTEOPATHS.CHIROPRACTORS
q q
q
q
q q
60

q q
q q q
q q
Prestige

q q q
q
q q
q
q q qq q
q
q q q
q
q qq q
q q q q
q q
q
q q
40

qq q q q
q q
q q
qq qqq
q q
q q
q q
q
q q qq
q q
q q q q q
q
q q
q
20

q q q
q
q

0 5000 10000 15000 20000 25000

Revenu

22

` ´


q
q
q
80

q q
q
q q qq q
q q q q q
q q
q q
q
q
q q
60

q q
q q q
q q
Prestige

q q q
q
q q
q
q q qq q
q
q q q
q
q qq q
q q q q
q q
q
q q
40

qq q q q
q q
q q
qq qqq
q q
q q
q q
q
q q qq
q q
q q q q q
q
q q
q
20

q q q
q
q

0 5000 10000 15000 20000 25000

Revenu

23

` ´


q
q
q
80

q q
q
q q qq q
q q q q q
q q
q q
q
q
q q
60

q q
q q q
q q
Prestige

q q q
q
q q
q
q q qq q
q
q q q
q
q qq q
q q q q
q q
q
q q
40

qq q q q
q q
q q
qq qqq
q q
q q
q q
q
q q qq
q q
q q q q q
q
q q
q
20

q q q
q
q

0 5000 10000 15000 20000 25000

Revenu

24

` ´

Lien avec le cours de statistique ?
• Cours de statistique ‘descriptive’
On dispose d’un ćhantillon {y1 , · · · , yn }, de variables rélles, yi ∈ R.
e e
On peut d´finir la moyenne, ou la variance (empirique)
e
n
y1 + · · · + yn 1
• y= = yi
n n i=1
n
2 1
• s = [yi − y]2
n i=1

25

` ´

• Cours de statistique math´matique
e
On dispose d’un ćhantillon {y1 , · · · , yn }, vu comme des rálisation de variables
e e
alátoires {Y1 (ω), · · · , Yn (ω)}, ω ∈ Ω, i.e. yi = Yi (ω) ∈ R. On a maintenant des
e
variables alátoires sous-jacentes, Yi . Les moyennes et variances empiriques sont
e
alors des rálisations des variables alátoires
e e
n
Y1 + · · · + Yn 1
• Y = = Yi
n n i=1
n
2 1
• S = [Yi − Y ]2
n i=1
i.e. y = Y (ω) et s2 = S 2 (ω). En statistique math´matique, on utilise des
e
propri´t´s de ces variables alátoires pour en d´duire des propri´t´s sur telle ou
ee e e ee
telle statistique.

26

` ´

P
La loi des grands nombres garantit que Y → E(Y ) si on suppose que les Xi sont
des variables ind´pendantes, de mˆme esp´rance et de mˆme variance (finies, loi
e e e e
faible des grands nombres), i.e. ∀ε > 0.

Y1 + Y2 + · · · + Yn
lim P − E(Y ) ε =0
n→+∞ n

On a aussi le thór`me central limite, qui garantit que
e e
√ L
n(Y − E(Y )) → N (0, Var(Y )) si on suppose que les Xi sont des variables
ind´pendantes, de mˆme esp´rance et de mˆme variance (finies, loi faible des
e e e e
grands nombres), i.e.

√ Y n − E(Y )
lim P n ≤z = Φ(z)
n→∞ Var(Y )

o` Φ(·) est la fonction de r´partition de la loi N (0, 1).
u e

27

` ´

• Cours d’inf´rence (param´trique)
e e
On dispose d’un ćhantillon {y1 , · · · , yn }, vu comme des rálisation de variables
e e
alátoires {Y1 (ω), · · · , Yn (ω)}, o` les variables alátoires sous-jacentes, Yi , sont
e u e
supposés ind´pendantes, et identiquement distribués, de loi
e e e
F ∈ F = {Fθ , θ ∈ Θ}. Aussi, F = Fθ0 , mais θ0 est inconnu.
Remarque θ est gń´rallement un param`tre dans Rk , mais pour simplifier, on
e e e
supposera θ ∈ Θ ⊂ R.
Un estimateur θ est une fonction des observations. Attention, parfois
• θ = s(y1 , · · · , yn ) est un rél, e.g. θ = y
e
• θ = s(Y1 , · · · , Yn ) est une variable alátoire, e.g. θ = Y
e
Pour estimer θ, on dispose de deux m´thodes standards
e
• la m´thode des moments
e
• la m´thode du maximum de vraisemblance
e

28

` ´

• La m´thode des moments
e
On suppose que si Y ∼ Fθ , E(Y ) = g(θ) o` g(·) est bijective. Dans ce cas,
u
θ = g −1 (E(Y )). Un estimateur naturel est alors

θ = g −1 (Y ).

On notera que l’on a (a priori) aucune information sur la qualit´ de l’estimateur,
e
e.g. l’estimateur n’a aucune raison d’ˆtre sans biais,
e

E(θ) = E[g −1 (Y )]=g −1 (E[Y ]) = g −1 (E(Y )) = θ

Par contre, si g est suﬃsement r´guli`re, on a des propri´t´s asymptotiques,
e e ee

E(θ) → θ lorsque n → ∞.

29

Act6420 uqam-part1

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (18)

Plus de Arthur Charpentier

Plus de Arthur Charpentier (20)

Act6420 uqam-part1