1. R´egression Lin´eaire Simple
Probl`eme math´ematique
argmin
f∈G
=
n
i=1
l(yi − f(xi)) (1)
o`u :
— l(.) une fonction de coˆut et G un ensemble de
fonctions donn´ees. Pratiquement, on utilise la fonction
de coˆut quadratique l(u) = u2.
— Dans le cas de la mod´elisation par une droite
(r´egression lin´eaire simple) nous prenons la classe de
fonctions : G = {f : f(x) = ax + b, (a, b) ∈ R2}
Mod´elisation statistique
Y1, ..., Y1 ´echantillon avec Yi observ´e sous certain condition X.
Le mod`ele :
Y = β0 + β1X + ε
X ∈ R non al´eatoire, par contre Y est al´eatoire et d´epend de
X.
Hypoth`eses du mod`ele
1. E(ε) = 0 c`ad E(Y ) = β0 + β1X.
2. V(ε) = σ2 = cste.
3. ε ∼ N(0, σ2).
4. εi⊥εj (cov(εi, εj = 0).
Estimation des param`etres de mod`ele
Trouver β0 et β1 qui minimisent la quantit´e :
I(β0, β1) =
n
i=1
(yi − β0 − β1xi)2
= Y − β0 − β1X 2
. Les ˆβ0, ˆβ1 sont appel´es des estimateurs ;
Sous H1, H2, H3 et H4, ces estimateurs obtenus par la
m´ethode de maximum de vraissemblance ⇐⇒ `a ceux obtenus
par la m´ethode des moindres carr´es.
Mˆeme si les H3 et H4, ne sont pas v´erifi´ees, la MC consiste `a
trouver β0 et β1 tq S est minimale :
∂I( ˆβ0, ˆβ1)
∂β0
=
∂I( ˆβ0, ˆβ1)
∂β1
= 0
Formules des estimateurs
ˆβ1 = SXY
SXX
, ˆβ0 = ¯Y − ˆβ1
¯X
o`u :
SXY =
1
n − 1
n
i=1
(Xi − ¯X)(Yi − ¯Y )
SXX =
1
n − 1
n
i=1
(Xi − ¯X)2
Propri´et´es de ˆβ0 et ˆβ1
E(ˆβ1) = β1, E(ˆβ0) = β0
V(ˆβ1) = σ2
(n−1)SXX
, V(ˆβ0) = ( 1
n
+ ¯x2
(n−1)SXX
)σ2
Estimation des erreurs (par les r´esidus)
ˆεi = yi − ˆyi, ˆεi = 0 (propri´et´e)
Estimation de σ2
ˆσ2 =
ˆε2
i
n−2
,
n − 2 est le nombre de ddl
E(ˆσ2) = σ(n − 2) ?
Le coefficient de d´etermination R2
Le coefficient de d´etermination R2 est d´efini par :
R2
=
SCE
SCT
=
ˆY − ¯y1
Y − ¯y1
avec :
SCT = SCE + SCR
n
i=1
(yi − ¯y)2
=
n
i=1
(ˆyi − ¯y)2
+
n
i=1
ˆε2
i
Inf´erence statistique
Lois des estimateurs des MC : variance connue
1. ˆβ0 ∼ N(β0, ( 1
n
+ ¯x2
(n−1)SXX
)σ2)
2. ˆβ1 ∼ N(β1, σ2
(n−1)SXX
)
3. ˆβ =
ˆβ0
ˆβ1
∼ N(β =
β0
β1
, σ2V),
avec : V =
1
n
+ ¯x2
(n−1)SXX
−¯x
(n−1)SXX
−¯x
(n−1)SXX
1
(n−1)SXX
4. n−2
σ2 ˆσ2 ∼ χ2
n−2
5. (ˆβ0,ˆβ1) et ˆσ2 sont ind´ependants
Les lois des estimateurs des MC : variance
estim´ee
Lorsque σ2 est estim´ee par ˆσ2 nous avons :
1.
ˆβ0−β0
ˆσ2
0
∼ Tn−2, ˆσ0 = ˆσ 1
n
+ ¯x2
(n−1)SXX
2.
ˆβ1−β1
ˆσ2
1
∼ Tn−2, ˆσ1 = ˆσ 1
(n−1)SXX
3. 1
2 ˆσ2
(ˆβ − β) V−1(ˆβ − β) ∼ F2,n−2
Ces propri´et´es nous permettent de donner des intervalles de
confiance (IC) ou des r´egions de confiance (RC) des
param`etres inconnus.
Intervalles ET R´egion de confiance
1. IC(βi) : [ˆβi ± t1− α
2
× ˆσi].
2. Une r´egion de confiance simultan´ee des deux
param`etres inconnus βi est donn´ee par l’´equation :
1
2 ˆσ2
[n(ˆβ0 − β0)2
+ 2n¯x(ˆβ0 − β0)(ˆβ1 − β1)+
x2
i (ˆβ1 − β1)2
] ≤ f1−α
(2)
o`u : f1−α repr´esente le fractile de niveau (1 − α) d’une
loi de Fisher `a (2, n − 2) ddl.
3. IC(σ2) : [ n−2
c1− α
2
ˆσ2, n−2
c α
2
ˆσ2].
o`u : c1− α
2
(resp. cα
2
) repr´esente le fractile de niveau
(1 − α
2
) (de niveau ( α
2
)) d’une loi du χ2 `a (n − 2) ddl.
4. IC(E(yi) = β0 + β1xi) :
[ ˆyj ± t1− α
2
× ˆσ 1
n
+
(xj −¯x)2
(n−1)SXX
]
5. IC(yn+1 pr´evue) :
[ˆyp
n+1 ± t1− α
2
× ˆσ 1 + 1
n
+
(xj −¯x)2
(n−1)SXX
]
Code R
Pour une r´egresssion, nous commen¸cons toujours par
repr´esenter les donn´ees, pour rep´erer ce que nous semble une
tendance lin´eaire :
plot(X,Y) repr´esenter les donn´ees Y=f(X)
reg < − lm(Y ∼ X, data) effectuer la r´egression lin´eaire
summary(reg) obtenir un r´esum´e des r´esultat de la RL
predict(reg,...) pr´edire avec le mod`ele de RL
confint(parameter) IC de param`etres
df.residual(reg) ddl des r´esidus
coef(reg) capturer les coefficients du mod`ele
residuals(reg) capturer les r´esidus du mod`ele
deviance(reg) capturer l’´ecart du mod`ele
fitted(reg) les valeurs ajust´es par le mod`ele
R´ef´erences
[1] MATZNER-LOBER, ´Eric. R´egression : Th´eorie et
applications. Springer Science and Business Media, 2007.
Mohamed Ali Khouaja, PhD Student in applied mathematics and
financial engineering