SlideShare une entreprise Scribd logo
1  sur  1
Télécharger pour lire hors ligne
R´egression Lin´eaire Simple
Probl`eme math´ematique
argmin
f∈G
=
n
i=1
l(yi − f(xi)) (1)
o`u :
— l(.) une fonction de coˆut et G un ensemble de
fonctions donn´ees. Pratiquement, on utilise la fonction
de coˆut quadratique l(u) = u2.
— Dans le cas de la mod´elisation par une droite
(r´egression lin´eaire simple) nous prenons la classe de
fonctions : G = {f : f(x) = ax + b, (a, b) ∈ R2}
Mod´elisation statistique
Y1, ..., Y1 ´echantillon avec Yi observ´e sous certain condition X.
Le mod`ele :
Y = β0 + β1X + ε
X ∈ R non al´eatoire, par contre Y est al´eatoire et d´epend de
X.
Hypoth`eses du mod`ele
1. E(ε) = 0 c`ad E(Y ) = β0 + β1X.
2. V(ε) = σ2 = cste.
3. ε ∼ N(0, σ2).
4. εi⊥εj (cov(εi, εj = 0).
Estimation des param`etres de mod`ele
Trouver β0 et β1 qui minimisent la quantit´e :
I(β0, β1) =
n
i=1
(yi − β0 − β1xi)2
= Y − β0 − β1X 2
. Les ˆβ0, ˆβ1 sont appel´es des estimateurs ;
Sous H1, H2, H3 et H4, ces estimateurs obtenus par la
m´ethode de maximum de vraissemblance ⇐⇒ `a ceux obtenus
par la m´ethode des moindres carr´es.
Mˆeme si les H3 et H4, ne sont pas v´erifi´ees, la MC consiste `a
trouver β0 et β1 tq S est minimale :
∂I( ˆβ0, ˆβ1)
∂β0
=
∂I( ˆβ0, ˆβ1)
∂β1
= 0
Formules des estimateurs
ˆβ1 = SXY
SXX
, ˆβ0 = ¯Y − ˆβ1
¯X
o`u :
SXY =
1
n − 1
n
i=1
(Xi − ¯X)(Yi − ¯Y )
SXX =
1
n − 1
n
i=1
(Xi − ¯X)2
Propri´et´es de ˆβ0 et ˆβ1
E(ˆβ1) = β1, E(ˆβ0) = β0
V(ˆβ1) = σ2
(n−1)SXX
, V(ˆβ0) = ( 1
n
+ ¯x2
(n−1)SXX
)σ2
Estimation des erreurs (par les r´esidus)
ˆεi = yi − ˆyi, ˆεi = 0 (propri´et´e)
Estimation de σ2
ˆσ2 =
ˆε2
i
n−2
,
n − 2 est le nombre de ddl
E(ˆσ2) = σ(n − 2) ?
Le coefficient de d´etermination R2
Le coefficient de d´etermination R2 est d´efini par :
R2
=
SCE
SCT
=
ˆY − ¯y1
Y − ¯y1
avec :
SCT = SCE + SCR
n
i=1
(yi − ¯y)2
=
n
i=1
(ˆyi − ¯y)2
+
n
i=1
ˆε2
i
Inf´erence statistique
Lois des estimateurs des MC : variance connue
1. ˆβ0 ∼ N(β0, ( 1
n
+ ¯x2
(n−1)SXX
)σ2)
2. ˆβ1 ∼ N(β1, σ2
(n−1)SXX
)
3. ˆβ =
ˆβ0
ˆβ1
∼ N(β =
β0
β1
, σ2V),
avec : V =
1
n
+ ¯x2
(n−1)SXX
−¯x
(n−1)SXX
−¯x
(n−1)SXX
1
(n−1)SXX
4. n−2
σ2 ˆσ2 ∼ χ2
n−2
5. (ˆβ0,ˆβ1) et ˆσ2 sont ind´ependants
Les lois des estimateurs des MC : variance
estim´ee
Lorsque σ2 est estim´ee par ˆσ2 nous avons :
1.
ˆβ0−β0
ˆσ2
0
∼ Tn−2, ˆσ0 = ˆσ 1
n
+ ¯x2
(n−1)SXX
2.
ˆβ1−β1
ˆσ2
1
∼ Tn−2, ˆσ1 = ˆσ 1
(n−1)SXX
3. 1
2 ˆσ2
(ˆβ − β) V−1(ˆβ − β) ∼ F2,n−2
Ces propri´et´es nous permettent de donner des intervalles de
confiance (IC) ou des r´egions de confiance (RC) des
param`etres inconnus.
Intervalles ET R´egion de confiance
1. IC(βi) : [ˆβi ± t1− α
2
× ˆσi].
2. Une r´egion de confiance simultan´ee des deux
param`etres inconnus βi est donn´ee par l’´equation :
1
2 ˆσ2
[n(ˆβ0 − β0)2
+ 2n¯x(ˆβ0 − β0)(ˆβ1 − β1)+
x2
i (ˆβ1 − β1)2
] ≤ f1−α
(2)
o`u : f1−α repr´esente le fractile de niveau (1 − α) d’une
loi de Fisher `a (2, n − 2) ddl.
3. IC(σ2) : [ n−2
c1− α
2
ˆσ2, n−2
c α
2
ˆσ2].
o`u : c1− α
2
(resp. cα
2
) repr´esente le fractile de niveau
(1 − α
2
) (de niveau ( α
2
)) d’une loi du χ2 `a (n − 2) ddl.
4. IC(E(yi) = β0 + β1xi) :
[ ˆyj ± t1− α
2
× ˆσ 1
n
+
(xj −¯x)2
(n−1)SXX
]
5. IC(yn+1 pr´evue) :
[ˆyp
n+1 ± t1− α
2
× ˆσ 1 + 1
n
+
(xj −¯x)2
(n−1)SXX
]
Code R
Pour une r´egresssion, nous commen¸cons toujours par
repr´esenter les donn´ees, pour rep´erer ce que nous semble une
tendance lin´eaire :
plot(X,Y) repr´esenter les donn´ees Y=f(X)
reg < − lm(Y ∼ X, data) effectuer la r´egression lin´eaire
summary(reg) obtenir un r´esum´e des r´esultat de la RL
predict(reg,...) pr´edire avec le mod`ele de RL
confint(parameter) IC de param`etres
df.residual(reg) ddl des r´esidus
coef(reg) capturer les coefficients du mod`ele
residuals(reg) capturer les r´esidus du mod`ele
deviance(reg) capturer l’´ecart du mod`ele
fitted(reg) les valeurs ajust´es par le mod`ele
R´ef´erences
[1] MATZNER-LOBER, ´Eric. R´egression : Th´eorie et
applications. Springer Science and Business Media, 2007.
Mohamed Ali Khouaja, PhD Student in applied mathematics and
financial engineering

Contenu connexe

Tendances

TD1-UML-correction
TD1-UML-correctionTD1-UML-correction
TD1-UML-correctionLilia Sfaxi
 
Gestion financière
Gestion financièreGestion financière
Gestion financièreManon Cuylits
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningBassem Brayek
 
base de données fédérés
base de données fédérésbase de données fédérés
base de données fédérésOussama Yoshiki
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression Mariem Chaaben
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisionsMariem Chaaben
 
Mise en place d'un Data Warehouse
Mise en place d'un Data WarehouseMise en place d'un Data Warehouse
Mise en place d'un Data WarehouseAbderrahmane Filali
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine LearningMathieu Goeminne
 
Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.arnaudm
 
Ia project Apprentissage Automatique
Ia project Apprentissage AutomatiqueIa project Apprentissage Automatique
Ia project Apprentissage AutomatiqueNizar Bechir
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning Niji
 
DeciLogic, la gestion d'un projet décisionnel
DeciLogic, la gestion d'un projet décisionnelDeciLogic, la gestion d'un projet décisionnel
DeciLogic, la gestion d'un projet décisionnelEric Mauvais
 
Chp2 - Diagramme des Cas d'Utilisation
Chp2 - Diagramme des Cas d'UtilisationChp2 - Diagramme des Cas d'Utilisation
Chp2 - Diagramme des Cas d'UtilisationLilia Sfaxi
 
Géoréférencer une image avec QGIS
Géoréférencer une image avec QGISGéoréférencer une image avec QGIS
Géoréférencer une image avec QGISRidel Cédric
 
6 investissement choix-d_investissement
6 investissement choix-d_investissement6 investissement choix-d_investissement
6 investissement choix-d_investissementBassem Jallouli
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 

Tendances (20)

TD1-UML-correction
TD1-UML-correctionTD1-UML-correction
TD1-UML-correction
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
Ch02 seance01-diapos
Ch02 seance01-diaposCh02 seance01-diapos
Ch02 seance01-diapos
 
Gestion financière
Gestion financièreGestion financière
Gestion financière
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learning
 
base de données fédérés
base de données fédérésbase de données fédérés
base de données fédérés
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression
 
Uml
UmlUml
Uml
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisions
 
Mise en place d'un Data Warehouse
Mise en place d'un Data WarehouseMise en place d'un Data Warehouse
Mise en place d'un Data Warehouse
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine Learning
 
Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.
 
Ia project Apprentissage Automatique
Ia project Apprentissage AutomatiqueIa project Apprentissage Automatique
Ia project Apprentissage Automatique
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning
 
DeciLogic, la gestion d'un projet décisionnel
DeciLogic, la gestion d'un projet décisionnelDeciLogic, la gestion d'un projet décisionnel
DeciLogic, la gestion d'un projet décisionnel
 
Bi
BiBi
Bi
 
Chp2 - Diagramme des Cas d'Utilisation
Chp2 - Diagramme des Cas d'UtilisationChp2 - Diagramme des Cas d'Utilisation
Chp2 - Diagramme des Cas d'Utilisation
 
Géoréférencer une image avec QGIS
Géoréférencer une image avec QGISGéoréférencer une image avec QGIS
Géoréférencer une image avec QGIS
 
6 investissement choix-d_investissement
6 investissement choix-d_investissement6 investissement choix-d_investissement
6 investissement choix-d_investissement
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 

Similaire à Cheat sheet régression linéaire simple Sous R

Devoir de synthèse_n°_02--2008-2009(mr_otay)[lycée__el_aghaliba]
Devoir de synthèse_n°_02--2008-2009(mr_otay)[lycée__el_aghaliba]Devoir de synthèse_n°_02--2008-2009(mr_otay)[lycée__el_aghaliba]
Devoir de synthèse_n°_02--2008-2009(mr_otay)[lycée__el_aghaliba]Yessin Abdelhedi
 
Exercices avec les solutions d'analyse complexe
Exercices avec les solutions d'analyse complexeExercices avec les solutions d'analyse complexe
Exercices avec les solutions d'analyse complexeKamel Djeddi
 
Math Bac 2009_Correction Session principale
Math Bac 2009_Correction Session principaleMath Bac 2009_Correction Session principale
Math Bac 2009_Correction Session principaleAchraf Frouja
 
Algebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.comAlgebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.cometude cours
 
Rappel mathématique pour étudiant d'économie gestion
Rappel mathématique pour étudiant d'économie gestionRappel mathématique pour étudiant d'économie gestion
Rappel mathématique pour étudiant d'économie gestionAli Hachimi Kamali
 
Nbr complexes
Nbr complexesNbr complexes
Nbr complexesbades12
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourierismailkziadi
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourierMehdi Maroun
 
Exercice fonctions réciproques
Exercice fonctions réciproquesExercice fonctions réciproques
Exercice fonctions réciproquesYessin Abdelhedi
 
Devoir Math Bac 2011_La Correction
Devoir Math Bac 2011_La CorrectionDevoir Math Bac 2011_La Correction
Devoir Math Bac 2011_La CorrectionAchraf Frouja
 
M1_exercices_corriges.pdf
M1_exercices_corriges.pdfM1_exercices_corriges.pdf
M1_exercices_corriges.pdfDurelDonfack
 

Similaire à Cheat sheet régression linéaire simple Sous R (20)

Am4 series
Am4 seriesAm4 series
Am4 series
 
Devoir de synthèse_n°_02--2008-2009(mr_otay)[lycée__el_aghaliba]
Devoir de synthèse_n°_02--2008-2009(mr_otay)[lycée__el_aghaliba]Devoir de synthèse_n°_02--2008-2009(mr_otay)[lycée__el_aghaliba]
Devoir de synthèse_n°_02--2008-2009(mr_otay)[lycée__el_aghaliba]
 
Exercice intégrales
Exercice intégralesExercice intégrales
Exercice intégrales
 
sol_TD4.pdf
sol_TD4.pdfsol_TD4.pdf
sol_TD4.pdf
 
Exercice exponontielle
Exercice exponontielleExercice exponontielle
Exercice exponontielle
 
Exercices avec les solutions d'analyse complexe
Exercices avec les solutions d'analyse complexeExercices avec les solutions d'analyse complexe
Exercices avec les solutions d'analyse complexe
 
Math Bac 2009_Correction Session principale
Math Bac 2009_Correction Session principaleMath Bac 2009_Correction Session principale
Math Bac 2009_Correction Session principale
 
Algebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.comAlgebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.com
 
Exercice logarithme
Exercice logarithmeExercice logarithme
Exercice logarithme
 
Rappel mathématique pour étudiant d'économie gestion
Rappel mathématique pour étudiant d'économie gestionRappel mathématique pour étudiant d'économie gestion
Rappel mathématique pour étudiant d'économie gestion
 
Corriges td algebre
Corriges td algebreCorriges td algebre
Corriges td algebre
 
Nbr complexes
Nbr complexesNbr complexes
Nbr complexes
 
Fic00126
Fic00126Fic00126
Fic00126
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourier
 
Cours series fourier
Cours series fourierCours series fourier
Cours series fourier
 
Exercice fonctions réciproques
Exercice fonctions réciproquesExercice fonctions réciproques
Exercice fonctions réciproques
 
Em
EmEm
Em
 
Devoir Math Bac 2011_La Correction
Devoir Math Bac 2011_La CorrectionDevoir Math Bac 2011_La Correction
Devoir Math Bac 2011_La Correction
 
M1_exercices_corriges.pdf
M1_exercices_corriges.pdfM1_exercices_corriges.pdf
M1_exercices_corriges.pdf
 
05 exos fonction_exponentielle
05 exos fonction_exponentielle05 exos fonction_exponentielle
05 exos fonction_exponentielle
 

Cheat sheet régression linéaire simple Sous R

  • 1. R´egression Lin´eaire Simple Probl`eme math´ematique argmin f∈G = n i=1 l(yi − f(xi)) (1) o`u : — l(.) une fonction de coˆut et G un ensemble de fonctions donn´ees. Pratiquement, on utilise la fonction de coˆut quadratique l(u) = u2. — Dans le cas de la mod´elisation par une droite (r´egression lin´eaire simple) nous prenons la classe de fonctions : G = {f : f(x) = ax + b, (a, b) ∈ R2} Mod´elisation statistique Y1, ..., Y1 ´echantillon avec Yi observ´e sous certain condition X. Le mod`ele : Y = β0 + β1X + ε X ∈ R non al´eatoire, par contre Y est al´eatoire et d´epend de X. Hypoth`eses du mod`ele 1. E(ε) = 0 c`ad E(Y ) = β0 + β1X. 2. V(ε) = σ2 = cste. 3. ε ∼ N(0, σ2). 4. εi⊥εj (cov(εi, εj = 0). Estimation des param`etres de mod`ele Trouver β0 et β1 qui minimisent la quantit´e : I(β0, β1) = n i=1 (yi − β0 − β1xi)2 = Y − β0 − β1X 2 . Les ˆβ0, ˆβ1 sont appel´es des estimateurs ; Sous H1, H2, H3 et H4, ces estimateurs obtenus par la m´ethode de maximum de vraissemblance ⇐⇒ `a ceux obtenus par la m´ethode des moindres carr´es. Mˆeme si les H3 et H4, ne sont pas v´erifi´ees, la MC consiste `a trouver β0 et β1 tq S est minimale : ∂I( ˆβ0, ˆβ1) ∂β0 = ∂I( ˆβ0, ˆβ1) ∂β1 = 0 Formules des estimateurs ˆβ1 = SXY SXX , ˆβ0 = ¯Y − ˆβ1 ¯X o`u : SXY = 1 n − 1 n i=1 (Xi − ¯X)(Yi − ¯Y ) SXX = 1 n − 1 n i=1 (Xi − ¯X)2 Propri´et´es de ˆβ0 et ˆβ1 E(ˆβ1) = β1, E(ˆβ0) = β0 V(ˆβ1) = σ2 (n−1)SXX , V(ˆβ0) = ( 1 n + ¯x2 (n−1)SXX )σ2 Estimation des erreurs (par les r´esidus) ˆεi = yi − ˆyi, ˆεi = 0 (propri´et´e) Estimation de σ2 ˆσ2 = ˆε2 i n−2 , n − 2 est le nombre de ddl E(ˆσ2) = σ(n − 2) ? Le coefficient de d´etermination R2 Le coefficient de d´etermination R2 est d´efini par : R2 = SCE SCT = ˆY − ¯y1 Y − ¯y1 avec : SCT = SCE + SCR n i=1 (yi − ¯y)2 = n i=1 (ˆyi − ¯y)2 + n i=1 ˆε2 i Inf´erence statistique Lois des estimateurs des MC : variance connue 1. ˆβ0 ∼ N(β0, ( 1 n + ¯x2 (n−1)SXX )σ2) 2. ˆβ1 ∼ N(β1, σ2 (n−1)SXX ) 3. ˆβ = ˆβ0 ˆβ1 ∼ N(β = β0 β1 , σ2V), avec : V = 1 n + ¯x2 (n−1)SXX −¯x (n−1)SXX −¯x (n−1)SXX 1 (n−1)SXX 4. n−2 σ2 ˆσ2 ∼ χ2 n−2 5. (ˆβ0,ˆβ1) et ˆσ2 sont ind´ependants Les lois des estimateurs des MC : variance estim´ee Lorsque σ2 est estim´ee par ˆσ2 nous avons : 1. ˆβ0−β0 ˆσ2 0 ∼ Tn−2, ˆσ0 = ˆσ 1 n + ¯x2 (n−1)SXX 2. ˆβ1−β1 ˆσ2 1 ∼ Tn−2, ˆσ1 = ˆσ 1 (n−1)SXX 3. 1 2 ˆσ2 (ˆβ − β) V−1(ˆβ − β) ∼ F2,n−2 Ces propri´et´es nous permettent de donner des intervalles de confiance (IC) ou des r´egions de confiance (RC) des param`etres inconnus. Intervalles ET R´egion de confiance 1. IC(βi) : [ˆβi ± t1− α 2 × ˆσi]. 2. Une r´egion de confiance simultan´ee des deux param`etres inconnus βi est donn´ee par l’´equation : 1 2 ˆσ2 [n(ˆβ0 − β0)2 + 2n¯x(ˆβ0 − β0)(ˆβ1 − β1)+ x2 i (ˆβ1 − β1)2 ] ≤ f1−α (2) o`u : f1−α repr´esente le fractile de niveau (1 − α) d’une loi de Fisher `a (2, n − 2) ddl. 3. IC(σ2) : [ n−2 c1− α 2 ˆσ2, n−2 c α 2 ˆσ2]. o`u : c1− α 2 (resp. cα 2 ) repr´esente le fractile de niveau (1 − α 2 ) (de niveau ( α 2 )) d’une loi du χ2 `a (n − 2) ddl. 4. IC(E(yi) = β0 + β1xi) : [ ˆyj ± t1− α 2 × ˆσ 1 n + (xj −¯x)2 (n−1)SXX ] 5. IC(yn+1 pr´evue) : [ˆyp n+1 ± t1− α 2 × ˆσ 1 + 1 n + (xj −¯x)2 (n−1)SXX ] Code R Pour une r´egresssion, nous commen¸cons toujours par repr´esenter les donn´ees, pour rep´erer ce que nous semble une tendance lin´eaire : plot(X,Y) repr´esenter les donn´ees Y=f(X) reg < − lm(Y ∼ X, data) effectuer la r´egression lin´eaire summary(reg) obtenir un r´esum´e des r´esultat de la RL predict(reg,...) pr´edire avec le mod`ele de RL confint(parameter) IC de param`etres df.residual(reg) ddl des r´esidus coef(reg) capturer les coefficients du mod`ele residuals(reg) capturer les r´esidus du mod`ele deviance(reg) capturer l’´ecart du mod`ele fitted(reg) les valeurs ajust´es par le mod`ele R´ef´erences [1] MATZNER-LOBER, ´Eric. R´egression : Th´eorie et applications. Springer Science and Business Media, 2007. Mohamed Ali Khouaja, PhD Student in applied mathematics and financial engineering