Cheat sheet régression linéaire simple Sous R

Régression Linéaire Simple
Problème mathématique
argmin
f∈G
=
n
i=1
l(yi − f(xi)) (1)
où :
— l(.) une fonction de coût et G un ensemble de
fonctions données. Pratiquement, on utilise la fonction
de coût quadratique l(u) = u2.
— Dans le cas de la modélisation par une droite
(régression linéaire simple) nous prenons la classe de
fonctions : G = {f : f(x) = ax + b, (a, b) ∈ R2}
Modélisation statistique
Y1, ..., Y1 échantillon avec Yi observé sous certain condition X.
Le modèle :
Y = β0 + β1X + ε
X ∈ R non aléatoire, par contre Y est aléatoire et dépend de
X.
Hypothèses du modèle
1. E(ε) = 0 càd E(Y ) = β0 + β1X.
2. V(ε) = σ2 = cste.
3. ε ∼ N(0, σ2).
4. εi⊥εj (cov(εi, εj = 0).
Estimation des paramètres de modèle
Trouver β0 et β1 qui minimisent la quantité :
I(β0, β1) =
n
i=1
(yi − β0 − β1xi)2
= Y − β0 − β1X 2
. Les ˆβ0, ˆβ1 sont appelés des estimateurs ;
Sous H1, H2, H3 et H4, ces estimateurs obtenus par la
méthode de maximum de vraissemblance ⇐⇒ à ceux obtenus
par la méthode des moindres carrés.
Même si les H3 et H4, ne sont pas vérifiées, la MC consiste à
trouver β0 et β1 tq S est minimale :
∂I( ˆβ0, ˆβ1)
∂β0
=
∂I( ˆβ0, ˆβ1)
∂β1
= 0
Formules des estimateurs
ˆβ1 = SXY
SXX
, ˆβ0 = ¯Y − ˆβ1
¯X
où :
SXY =
1
n − 1
n
i=1
(Xi − ¯X)(Yi − ¯Y )
SXX =
1
n − 1
n
i=1
(Xi − ¯X)2
Propriétés de ˆβ0 et ˆβ1
E(ˆβ1) = β1, E(ˆβ0) = β0
V(ˆβ1) = σ2
(n−1)SXX
, V(ˆβ0) = ( 1
n
+ ¯x2
(n−1)SXX
)σ2
Estimation des erreurs (par les résidus)
ˆεi = yi − ˆyi, ˆεi = 0 (propriété)
Estimation de σ2
ˆσ2 =
ˆε2
i
n−2
,
n − 2 est le nombre de ddl
E(ˆσ2) = σ(n − 2) ?
Le coefficient de détermination R2
Le coefficient de détermination R2 est défini par :
R2
=
SCE
SCT
=
ˆY − ¯y1
Y − ¯y1
avec :
SCT = SCE + SCR
n
i=1
(yi − ¯y)2
=
n
i=1
(ˆyi − ¯y)2
+
n
i=1
ˆε2
i
Inférence statistique
Lois des estimateurs des MC : variance connue
1. ˆβ0 ∼ N(β0, ( 1
n
+ ¯x2
(n−1)SXX
)σ2)
2. ˆβ1 ∼ N(β1, σ2
(n−1)SXX
)
3. ˆβ =
ˆβ0
ˆβ1
∼ N(β =
β0
β1
, σ2V),
avec : V =
1
n
+ ¯x2
(n−1)SXX
−¯x
(n−1)SXX
−¯x
(n−1)SXX
1
(n−1)SXX
4. n−2
σ2 ˆσ2 ∼ χ2
n−2
5. (ˆβ0,ˆβ1) et ˆσ2 sont indépendants
Les lois des estimateurs des MC : variance
estimée
Lorsque σ2 est estimée par ˆσ2 nous avons :
1.
ˆβ0−β0
ˆσ2
0
∼ Tn−2, ˆσ0 = ˆσ 1
n
+ ¯x2
(n−1)SXX
2.
ˆβ1−β1
ˆσ2
1
∼ Tn−2, ˆσ1 = ˆσ 1
(n−1)SXX
3. 1
2 ˆσ2
(ˆβ − β) V−1(ˆβ − β) ∼ F2,n−2
Ces propriétés nous permettent de donner des intervalles de
confiance (IC) ou des régions de confiance (RC) des
paramètres inconnus.
Intervalles ET Région de confiance
1. IC(βi) : [ˆβi ± t1− α
2
× ˆσi].
2. Une région de confiance simultanée des deux
paramètres inconnus βi est donnée par l’équation :
1
2 ˆσ2
[n(ˆβ0 − β0)2
+ 2n¯x(ˆβ0 − β0)(ˆβ1 − β1)+
x2
i (ˆβ1 − β1)2
] ≤ f1−α
(2)
où : f1−α représente le fractile de niveau (1 − α) d’une
loi de Fisher à (2, n − 2) ddl.
3. IC(σ2) : [ n−2
c1− α
2
ˆσ2, n−2
c α
2
ˆσ2].
où : c1− α
2
(resp. cα
2
) représente le fractile de niveau
(1 − α
2
) (de niveau ( α
2
)) d’une loi du χ2 à (n − 2) ddl.
4. IC(E(yi) = β0 + β1xi) :
[ ˆyj ± t1− α
2
× ˆσ 1
n
+
(xj −¯x)2
(n−1)SXX
]
5. IC(yn+1 prévue) :
[ˆyp
n+1 ± t1− α
2
× ˆσ 1 + 1
n
+
(xj −¯x)2
(n−1)SXX
]
Code R
Pour une régresssion, nous commen¸cons toujours par
représenter les données, pour repérer ce que nous semble une
tendance linéaire :
plot(X,Y) représenter les données Y=f(X)
reg < − lm(Y ∼ X, data) effectuer la régression linéaire
summary(reg) obtenir un résumé des résultat de la RL
predict(reg,...) prédire avec le modèle de RL
confint(parameter) IC de paramètres
df.residual(reg) ddl des résidus
coef(reg) capturer les coefficients du modèle
residuals(reg) capturer les résidus du modèle
deviance(reg) capturer l’écart du modèle
fitted(reg) les valeurs ajustés par le modèle
Références
[1] MATZNER-LOBER, Éric. Régression : Théorie et
applications. Springer Science and Business Media, 2007.
Mohamed Ali Khouaja, PhD Student in applied mathematics and
financial engineering

Cheat sheet régression linéaire simple Sous R

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Cheat sheet régression linéaire simple Sous R

Similaire à Cheat sheet régression linéaire simple Sous R (20)

Cheat sheet régression linéaire simple Sous R