SlideShare une entreprise Scribd logo
1  sur  1
Télécharger pour lire hors ligne
R´egression Lin´eaire Simple
Probl`eme math´ematique
argmin
f∈G
=
n
i=1
l(yi − f(xi)) (1)
o`u :
— l(.) une fonction de coˆut et G un ensemble de
fonctions donn´ees. Pratiquement, on utilise la fonction
de coˆut quadratique l(u) = u2.
— Dans le cas de la mod´elisation par une droite
(r´egression lin´eaire simple) nous prenons la classe de
fonctions : G = {f : f(x) = ax + b, (a, b) ∈ R2}
Mod´elisation statistique
Y1, ..., Y1 ´echantillon avec Yi observ´e sous certain condition X.
Le mod`ele :
Y = β0 + β1X + ε
X ∈ R non al´eatoire, par contre Y est al´eatoire et d´epend de
X.
Hypoth`eses du mod`ele
1. E(ε) = 0 c`ad E(Y ) = β0 + β1X.
2. V(ε) = σ2 = cste.
3. ε ∼ N(0, σ2).
4. εi⊥εj (cov(εi, εj = 0).
Estimation des param`etres de mod`ele
Trouver β0 et β1 qui minimisent la quantit´e :
I(β0, β1) =
n
i=1
(yi − β0 − β1xi)2
= Y − β0 − β1X 2
. Les ˆβ0, ˆβ1 sont appel´es des estimateurs ;
Sous H1, H2, H3 et H4, ces estimateurs obtenus par la
m´ethode de maximum de vraissemblance ⇐⇒ `a ceux obtenus
par la m´ethode des moindres carr´es.
Mˆeme si les H3 et H4, ne sont pas v´erifi´ees, la MC consiste `a
trouver β0 et β1 tq S est minimale :
∂I( ˆβ0, ˆβ1)
∂β0
=
∂I( ˆβ0, ˆβ1)
∂β1
= 0
Formules des estimateurs
ˆβ1 = SXY
SXX
, ˆβ0 = ¯Y − ˆβ1
¯X
o`u :
SXY =
1
n − 1
n
i=1
(Xi − ¯X)(Yi − ¯Y )
SXX =
1
n − 1
n
i=1
(Xi − ¯X)2
Propri´et´es de ˆβ0 et ˆβ1
E(ˆβ1) = β1, E(ˆβ0) = β0
V(ˆβ1) = σ2
(n−1)SXX
, V(ˆβ0) = ( 1
n
+ ¯x2
(n−1)SXX
)σ2
Estimation des erreurs (par les r´esidus)
ˆεi = yi − ˆyi, ˆεi = 0 (propri´et´e)
Estimation de σ2
ˆσ2 =
ˆε2
i
n−2
,
n − 2 est le nombre de ddl
E(ˆσ2) = σ(n − 2) ?
Le coefficient de d´etermination R2
Le coefficient de d´etermination R2 est d´efini par :
R2
=
SCE
SCT
=
ˆY − ¯y1
Y − ¯y1
avec :
SCT = SCE + SCR
n
i=1
(yi − ¯y)2
=
n
i=1
(ˆyi − ¯y)2
+
n
i=1
ˆε2
i
Inf´erence statistique
Lois des estimateurs des MC : variance connue
1. ˆβ0 ∼ N(β0, ( 1
n
+ ¯x2
(n−1)SXX
)σ2)
2. ˆβ1 ∼ N(β1, σ2
(n−1)SXX
)
3. ˆβ =
ˆβ0
ˆβ1
∼ N(β =
β0
β1
, σ2V),
avec : V =
1
n
+ ¯x2
(n−1)SXX
−¯x
(n−1)SXX
−¯x
(n−1)SXX
1
(n−1)SXX
4. n−2
σ2 ˆσ2 ∼ χ2
n−2
5. (ˆβ0,ˆβ1) et ˆσ2 sont ind´ependants
Les lois des estimateurs des MC : variance
estim´ee
Lorsque σ2 est estim´ee par ˆσ2 nous avons :
1.
ˆβ0−β0
ˆσ2
0
∼ Tn−2, ˆσ0 = ˆσ 1
n
+ ¯x2
(n−1)SXX
2.
ˆβ1−β1
ˆσ2
1
∼ Tn−2, ˆσ1 = ˆσ 1
(n−1)SXX
3. 1
2 ˆσ2
(ˆβ − β) V−1(ˆβ − β) ∼ F2,n−2
Ces propri´et´es nous permettent de donner des intervalles de
confiance (IC) ou des r´egions de confiance (RC) des
param`etres inconnus.
Intervalles ET R´egion de confiance
1. IC(βi) : [ˆβi ± t1− α
2
× ˆσi].
2. Une r´egion de confiance simultan´ee des deux
param`etres inconnus βi est donn´ee par l’´equation :
1
2 ˆσ2
[n(ˆβ0 − β0)2
+ 2n¯x(ˆβ0 − β0)(ˆβ1 − β1)+
x2
i (ˆβ1 − β1)2
] ≤ f1−α
(2)
o`u : f1−α repr´esente le fractile de niveau (1 − α) d’une
loi de Fisher `a (2, n − 2) ddl.
3. IC(σ2) : [ n−2
c1− α
2
ˆσ2, n−2
c α
2
ˆσ2].
o`u : c1− α
2
(resp. cα
2
) repr´esente le fractile de niveau
(1 − α
2
) (de niveau ( α
2
)) d’une loi du χ2 `a (n − 2) ddl.
4. IC(E(yi) = β0 + β1xi) :
[ ˆyj ± t1− α
2
× ˆσ 1
n
+
(xj −¯x)2
(n−1)SXX
]
5. IC(yn+1 pr´evue) :
[ˆyp
n+1 ± t1− α
2
× ˆσ 1 + 1
n
+
(xj −¯x)2
(n−1)SXX
]
Code R
Pour une r´egresssion, nous commen¸cons toujours par
repr´esenter les donn´ees, pour rep´erer ce que nous semble une
tendance lin´eaire :
plot(X,Y) repr´esenter les donn´ees Y=f(X)
reg < − lm(Y ∼ X, data) effectuer la r´egression lin´eaire
summary(reg) obtenir un r´esum´e des r´esultat de la RL
predict(reg,...) pr´edire avec le mod`ele de RL
confint(parameter) IC de param`etres
df.residual(reg) ddl des r´esidus
coef(reg) capturer les coefficients du mod`ele
residuals(reg) capturer les r´esidus du mod`ele
deviance(reg) capturer l’´ecart du mod`ele
fitted(reg) les valeurs ajust´es par le mod`ele
R´ef´erences
[1] MATZNER-LOBER, ´Eric. R´egression : Th´eorie et
applications. Springer Science and Business Media, 2007.
Mohamed Ali Khouaja, PhD Student in applied mathematics and
financial engineering

Contenu connexe

Tendances

Methods of Optimization in Machine Learning
Methods of Optimization in Machine LearningMethods of Optimization in Machine Learning
Methods of Optimization in Machine LearningKnoldus Inc.
 
Decision Tree - C4.5&CART
Decision Tree - C4.5&CARTDecision Tree - C4.5&CART
Decision Tree - C4.5&CARTXueping Peng
 
NAIVE BAYES CLASSIFIER
NAIVE BAYES CLASSIFIERNAIVE BAYES CLASSIFIER
NAIVE BAYES CLASSIFIERKnoldus Inc.
 
Support vector machines
Support vector machinesSupport vector machines
Support vector machinesUjjawal
 
Introduction to random forest and gradient boosting methods a lecture
Introduction to random forest and gradient boosting methods   a lectureIntroduction to random forest and gradient boosting methods   a lecture
Introduction to random forest and gradient boosting methods a lectureShreyas S K
 
Data visualization using R
Data visualization using RData visualization using R
Data visualization using RUmmiya Mohammedi
 
Statistics For Data Science | Statistics Using R Programming Language | Hypot...
Statistics For Data Science | Statistics Using R Programming Language | Hypot...Statistics For Data Science | Statistics Using R Programming Language | Hypot...
Statistics For Data Science | Statistics Using R Programming Language | Hypot...Edureka!
 
Ways to evaluate a machine learning model’s performance
Ways to evaluate a machine learning model’s performanceWays to evaluate a machine learning model’s performance
Ways to evaluate a machine learning model’s performanceMala Deep Upadhaya
 
Bias and variance trade off
Bias and variance trade offBias and variance trade off
Bias and variance trade offVARUN KUMAR
 
Classification Algorithm.
Classification Algorithm.Classification Algorithm.
Classification Algorithm.Megha Sharma
 
Decision trees in Machine Learning
Decision trees in Machine Learning Decision trees in Machine Learning
Decision trees in Machine Learning Mohammad Junaid Khan
 

Tendances (20)

Methods of Optimization in Machine Learning
Methods of Optimization in Machine LearningMethods of Optimization in Machine Learning
Methods of Optimization in Machine Learning
 
Decision tree
Decision treeDecision tree
Decision tree
 
Decision Tree - C4.5&CART
Decision Tree - C4.5&CARTDecision Tree - C4.5&CART
Decision Tree - C4.5&CART
 
The Standard Normal Distribution
The Standard Normal DistributionThe Standard Normal Distribution
The Standard Normal Distribution
 
Probability
ProbabilityProbability
Probability
 
ARIMA Models - [Lab 3]
ARIMA Models - [Lab 3]ARIMA Models - [Lab 3]
ARIMA Models - [Lab 3]
 
NAIVE BAYES CLASSIFIER
NAIVE BAYES CLASSIFIERNAIVE BAYES CLASSIFIER
NAIVE BAYES CLASSIFIER
 
Decision tree
Decision treeDecision tree
Decision tree
 
Support vector machines
Support vector machinesSupport vector machines
Support vector machines
 
Introduction to random forest and gradient boosting methods a lecture
Introduction to random forest and gradient boosting methods   a lectureIntroduction to random forest and gradient boosting methods   a lecture
Introduction to random forest and gradient boosting methods a lecture
 
Pca ppt
Pca pptPca ppt
Pca ppt
 
Data visualization using R
Data visualization using RData visualization using R
Data visualization using R
 
Statistics For Data Science | Statistics Using R Programming Language | Hypot...
Statistics For Data Science | Statistics Using R Programming Language | Hypot...Statistics For Data Science | Statistics Using R Programming Language | Hypot...
Statistics For Data Science | Statistics Using R Programming Language | Hypot...
 
Ada boost
Ada boostAda boost
Ada boost
 
Random forest
Random forestRandom forest
Random forest
 
Ways to evaluate a machine learning model’s performance
Ways to evaluate a machine learning model’s performanceWays to evaluate a machine learning model’s performance
Ways to evaluate a machine learning model’s performance
 
Bias and variance trade off
Bias and variance trade offBias and variance trade off
Bias and variance trade off
 
Classification Algorithm.
Classification Algorithm.Classification Algorithm.
Classification Algorithm.
 
Decision trees in Machine Learning
Decision trees in Machine Learning Decision trees in Machine Learning
Decision trees in Machine Learning
 
Support Vector Machine
Support Vector MachineSupport Vector Machine
Support Vector Machine
 

Similaire à Cheat sheet régression linéaire simple Sous R

Devoir de synthèse_n°_02--2008-2009(mr_otay)[lycée__el_aghaliba]
Devoir de synthèse_n°_02--2008-2009(mr_otay)[lycée__el_aghaliba]Devoir de synthèse_n°_02--2008-2009(mr_otay)[lycée__el_aghaliba]
Devoir de synthèse_n°_02--2008-2009(mr_otay)[lycée__el_aghaliba]Yessin Abdelhedi
 
Exercices avec les solutions d'analyse complexe
Exercices avec les solutions d'analyse complexeExercices avec les solutions d'analyse complexe
Exercices avec les solutions d'analyse complexeKamel Djeddi
 
Math Bac 2009_Correction Session principale
Math Bac 2009_Correction Session principaleMath Bac 2009_Correction Session principale
Math Bac 2009_Correction Session principaleAchraf Frouja
 
Algebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.comAlgebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.cometude cours
 
Rappel mathématique pour étudiant d'économie gestion
Rappel mathématique pour étudiant d'économie gestionRappel mathématique pour étudiant d'économie gestion
Rappel mathématique pour étudiant d'économie gestionAli Hachimi Kamali
 
Nbr complexes
Nbr complexesNbr complexes
Nbr complexesbades12
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourierismailkziadi
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourierMehdi Maroun
 
Exercice fonctions réciproques
Exercice fonctions réciproquesExercice fonctions réciproques
Exercice fonctions réciproquesYessin Abdelhedi
 
Devoir Math Bac 2011_La Correction
Devoir Math Bac 2011_La CorrectionDevoir Math Bac 2011_La Correction
Devoir Math Bac 2011_La CorrectionAchraf Frouja
 
M1_exercices_corriges.pdf
M1_exercices_corriges.pdfM1_exercices_corriges.pdf
M1_exercices_corriges.pdfDurelDonfack
 

Similaire à Cheat sheet régression linéaire simple Sous R (20)

Am4 series
Am4 seriesAm4 series
Am4 series
 
Devoir de synthèse_n°_02--2008-2009(mr_otay)[lycée__el_aghaliba]
Devoir de synthèse_n°_02--2008-2009(mr_otay)[lycée__el_aghaliba]Devoir de synthèse_n°_02--2008-2009(mr_otay)[lycée__el_aghaliba]
Devoir de synthèse_n°_02--2008-2009(mr_otay)[lycée__el_aghaliba]
 
Exercice intégrales
Exercice intégralesExercice intégrales
Exercice intégrales
 
sol_TD4.pdf
sol_TD4.pdfsol_TD4.pdf
sol_TD4.pdf
 
Exercice exponontielle
Exercice exponontielleExercice exponontielle
Exercice exponontielle
 
Exercices avec les solutions d'analyse complexe
Exercices avec les solutions d'analyse complexeExercices avec les solutions d'analyse complexe
Exercices avec les solutions d'analyse complexe
 
Math Bac 2009_Correction Session principale
Math Bac 2009_Correction Session principaleMath Bac 2009_Correction Session principale
Math Bac 2009_Correction Session principale
 
Algebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.comAlgebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.com
 
Exercice logarithme
Exercice logarithmeExercice logarithme
Exercice logarithme
 
Rappel mathématique pour étudiant d'économie gestion
Rappel mathématique pour étudiant d'économie gestionRappel mathématique pour étudiant d'économie gestion
Rappel mathématique pour étudiant d'économie gestion
 
Corriges td algebre
Corriges td algebreCorriges td algebre
Corriges td algebre
 
Nbr complexes
Nbr complexesNbr complexes
Nbr complexes
 
Fic00126
Fic00126Fic00126
Fic00126
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourier
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourier
 
Exercice fonctions réciproques
Exercice fonctions réciproquesExercice fonctions réciproques
Exercice fonctions réciproques
 
Em
EmEm
Em
 
Devoir Math Bac 2011_La Correction
Devoir Math Bac 2011_La CorrectionDevoir Math Bac 2011_La Correction
Devoir Math Bac 2011_La Correction
 
M1_exercices_corriges.pdf
M1_exercices_corriges.pdfM1_exercices_corriges.pdf
M1_exercices_corriges.pdf
 
05 exos fonction_exponentielle
05 exos fonction_exponentielle05 exos fonction_exponentielle
05 exos fonction_exponentielle
 

Cheat sheet régression linéaire simple Sous R

  • 1. R´egression Lin´eaire Simple Probl`eme math´ematique argmin f∈G = n i=1 l(yi − f(xi)) (1) o`u : — l(.) une fonction de coˆut et G un ensemble de fonctions donn´ees. Pratiquement, on utilise la fonction de coˆut quadratique l(u) = u2. — Dans le cas de la mod´elisation par une droite (r´egression lin´eaire simple) nous prenons la classe de fonctions : G = {f : f(x) = ax + b, (a, b) ∈ R2} Mod´elisation statistique Y1, ..., Y1 ´echantillon avec Yi observ´e sous certain condition X. Le mod`ele : Y = β0 + β1X + ε X ∈ R non al´eatoire, par contre Y est al´eatoire et d´epend de X. Hypoth`eses du mod`ele 1. E(ε) = 0 c`ad E(Y ) = β0 + β1X. 2. V(ε) = σ2 = cste. 3. ε ∼ N(0, σ2). 4. εi⊥εj (cov(εi, εj = 0). Estimation des param`etres de mod`ele Trouver β0 et β1 qui minimisent la quantit´e : I(β0, β1) = n i=1 (yi − β0 − β1xi)2 = Y − β0 − β1X 2 . Les ˆβ0, ˆβ1 sont appel´es des estimateurs ; Sous H1, H2, H3 et H4, ces estimateurs obtenus par la m´ethode de maximum de vraissemblance ⇐⇒ `a ceux obtenus par la m´ethode des moindres carr´es. Mˆeme si les H3 et H4, ne sont pas v´erifi´ees, la MC consiste `a trouver β0 et β1 tq S est minimale : ∂I( ˆβ0, ˆβ1) ∂β0 = ∂I( ˆβ0, ˆβ1) ∂β1 = 0 Formules des estimateurs ˆβ1 = SXY SXX , ˆβ0 = ¯Y − ˆβ1 ¯X o`u : SXY = 1 n − 1 n i=1 (Xi − ¯X)(Yi − ¯Y ) SXX = 1 n − 1 n i=1 (Xi − ¯X)2 Propri´et´es de ˆβ0 et ˆβ1 E(ˆβ1) = β1, E(ˆβ0) = β0 V(ˆβ1) = σ2 (n−1)SXX , V(ˆβ0) = ( 1 n + ¯x2 (n−1)SXX )σ2 Estimation des erreurs (par les r´esidus) ˆεi = yi − ˆyi, ˆεi = 0 (propri´et´e) Estimation de σ2 ˆσ2 = ˆε2 i n−2 , n − 2 est le nombre de ddl E(ˆσ2) = σ(n − 2) ? Le coefficient de d´etermination R2 Le coefficient de d´etermination R2 est d´efini par : R2 = SCE SCT = ˆY − ¯y1 Y − ¯y1 avec : SCT = SCE + SCR n i=1 (yi − ¯y)2 = n i=1 (ˆyi − ¯y)2 + n i=1 ˆε2 i Inf´erence statistique Lois des estimateurs des MC : variance connue 1. ˆβ0 ∼ N(β0, ( 1 n + ¯x2 (n−1)SXX )σ2) 2. ˆβ1 ∼ N(β1, σ2 (n−1)SXX ) 3. ˆβ = ˆβ0 ˆβ1 ∼ N(β = β0 β1 , σ2V), avec : V = 1 n + ¯x2 (n−1)SXX −¯x (n−1)SXX −¯x (n−1)SXX 1 (n−1)SXX 4. n−2 σ2 ˆσ2 ∼ χ2 n−2 5. (ˆβ0,ˆβ1) et ˆσ2 sont ind´ependants Les lois des estimateurs des MC : variance estim´ee Lorsque σ2 est estim´ee par ˆσ2 nous avons : 1. ˆβ0−β0 ˆσ2 0 ∼ Tn−2, ˆσ0 = ˆσ 1 n + ¯x2 (n−1)SXX 2. ˆβ1−β1 ˆσ2 1 ∼ Tn−2, ˆσ1 = ˆσ 1 (n−1)SXX 3. 1 2 ˆσ2 (ˆβ − β) V−1(ˆβ − β) ∼ F2,n−2 Ces propri´et´es nous permettent de donner des intervalles de confiance (IC) ou des r´egions de confiance (RC) des param`etres inconnus. Intervalles ET R´egion de confiance 1. IC(βi) : [ˆβi ± t1− α 2 × ˆσi]. 2. Une r´egion de confiance simultan´ee des deux param`etres inconnus βi est donn´ee par l’´equation : 1 2 ˆσ2 [n(ˆβ0 − β0)2 + 2n¯x(ˆβ0 − β0)(ˆβ1 − β1)+ x2 i (ˆβ1 − β1)2 ] ≤ f1−α (2) o`u : f1−α repr´esente le fractile de niveau (1 − α) d’une loi de Fisher `a (2, n − 2) ddl. 3. IC(σ2) : [ n−2 c1− α 2 ˆσ2, n−2 c α 2 ˆσ2]. o`u : c1− α 2 (resp. cα 2 ) repr´esente le fractile de niveau (1 − α 2 ) (de niveau ( α 2 )) d’une loi du χ2 `a (n − 2) ddl. 4. IC(E(yi) = β0 + β1xi) : [ ˆyj ± t1− α 2 × ˆσ 1 n + (xj −¯x)2 (n−1)SXX ] 5. IC(yn+1 pr´evue) : [ˆyp n+1 ± t1− α 2 × ˆσ 1 + 1 n + (xj −¯x)2 (n−1)SXX ] Code R Pour une r´egresssion, nous commen¸cons toujours par repr´esenter les donn´ees, pour rep´erer ce que nous semble une tendance lin´eaire : plot(X,Y) repr´esenter les donn´ees Y=f(X) reg < − lm(Y ∼ X, data) effectuer la r´egression lin´eaire summary(reg) obtenir un r´esum´e des r´esultat de la RL predict(reg,...) pr´edire avec le mod`ele de RL confint(parameter) IC de param`etres df.residual(reg) ddl des r´esidus coef(reg) capturer les coefficients du mod`ele residuals(reg) capturer les r´esidus du mod`ele deviance(reg) capturer l’´ecart du mod`ele fitted(reg) les valeurs ajust´es par le mod`ele R´ef´erences [1] MATZNER-LOBER, ´Eric. R´egression : Th´eorie et applications. Springer Science and Business Media, 2007. Mohamed Ali Khouaja, PhD Student in applied mathematics and financial engineering