SlideShare une entreprise Scribd logo
1  sur  161
Télécharger pour lire hors ligne
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
1 
Principe de laRégression Linéaire
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
2 
Plan 
1.Question pratique 
2.Définition de la régression 
3.Estimation de la droite de régression 
4.Test de la pente 
5.Précision de la droite de régression 
6.Adéquation du modèle 
7.Régression Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
3 
I. Question pratique 
Lien entre la taille et l'âge ? 
Quand l'âge , la taille ? 
Connaissant l'âge, peut-on prédire la taille? 
But médical: détecter les retards de croissances 
1. Question
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
4 
Exercice 
Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles 
Importer le fichier de données FILLES.xls 
Moyenne globale de l’AGE 
m= ? mois 
Variance globale de l’AGE 
s²= ? mois2 
Graphiques 
ATF<-read.csv2("D:BIOSTATFILLES.csv", header=TRUE) 
transformer le fichier filles.xls en FILLES.csv 
attach(ATF) 
mean(AGE) 
var(AGE) 
hist(AGE, col="blue") 
boxplot(AGE, col="blue") 
par(mfrow=c(1,2))
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
5 
Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles 
Importer le fichier de données filles.xls 
Moyenne globale de l’AGE 
m= 112,12mois 
Variance globale de l’AGE 
s²= 6265,86mois2 
Graphiques 
ATF<-read.csv2("D:BIOSTATfilles.csv", header=TRUE) 
transformer le fichier filles.xls en filles.csv 
attach(ATF) 
mean(AGE) 
Exercice 
var(AGE) 
hist(AGE, col="blue") 
boxplot(AGE, col="blue") 
par(mfrow=c(1,2))
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
6 
Exercice 
Histogram of AGEAGE Frequency 050100200 020406080100050100150200250
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
7 
Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles 
Moyenne globale de la Taille (TAIL) 
m= ? cm 
Variance globale de la Taille (TAIL) 
s²= ? cm2 
Graphiques 
mean(TAIL) 
var(TAIL) 
hist(TAIL, col="red") 
boxplot(TAIL, col="red") 
Exercice 
par(mfrow=c(1,2))
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
8 
Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles 
Moyenne globale de la Taille (TAIL) 
m= 122,83cm 
Variance globale de la Taille (TAIL) 
s²= 1317,43cm2 
Graphiques 
mean(TAIL) 
var(TAIL) 
Exercice 
hist(TAIL, col="red") 
boxplot(TAIL, col="red") 
par(mfrow=c(1,2))
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
9 
Exercice 
Histogram of TAILTAIL Frequency 4080120160 020406080100406080100120140160180
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
10 
représenter la taille en fonction de l’age 
plot(AGE, TAIL) 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
11 
Exercice 
050100150200250 406080100120140160180 AGE TAIL
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
12 
II. Définition 
Régression de Y en X: 
Y= taille (cm) 
X= âge (mois) 
Comment la Taille évolue enfonctionde l'Age ? 
Taille= f(Age) 
1. Question 
2. Définition
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 13 
Comment évolue la Taille? 
= Quelle valeur de la Taille ? 
=>Pour chaque Age 
=> Sachant l'âge 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
1. Question 
2. Définition
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 14 
Comment évolue la Taille? 
= Quelle valeur de la Taille ? 
=>Pour chaque Age 
=> Sachant l'âge 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
18 mois 
1. Question 
2. Définition
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 15 
Comment évolue la Taille? 
= Quelle valeur de la Taille ? 
=>Pour chaque Age 
=> Sachant l'âge 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
? 
18 mois 
1. Question 
2. Définition
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
16 
Chez les filles de 18 mois, 
quelle est la taille moyenne? 
Quells est la variance de la taille ? 
Quelle est la distribution ? 
Exercice 
mean(TAIL[AGE==18]) 
hist(TAIL[AGE==18],col="magenta") 
var(TAIL[AGE==18])
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
17 
18 mois: quelle Taille? 
Moyenne observée: 
M(T/A=18)=79,23 cm 
Variance observée: 
V(T/A=18)=9,36 cm2 
Exercice
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 18 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
E(Taille / Age) 
1. Question 
Distribution conditionnelle 2. Définition
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 19 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
L(Taille / Age) 
1. Question 
Distribution conditionnelle 2. Définition
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 20 
Fonction de régression 
 Taille fonction de l'âge: 
M(Taille/Age)= f(Age) 
 Fonction f(): droite 
E(Taille / Age)    Age 
1. Question 
2. Définition
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 21 
Fonction de régression 
 Taille fonction de l'âge: 
M(Taille/Age)= f(Age) 
 Fonction f(): droite 
 Pour chaque sujet 
E(Taille / Age)    Age 
1. Question 
2. Définition 
Taille    Age 
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 22 
Fonction de régression 
 Taille fonction de l'âge: 
E(Taille/Age)= f(Age) 
 Fonction f(): droite 
 Pour chaque sujet 
E(Taille / Age)    Age 
1. Question 
2. Définition 
Taille    Age 
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 23 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
1. Question 
2. Définition Erreur individuelle
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 24 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
1. Question 
2. Définition Erreur individuelle
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 25 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
erreur 
1. Question 
2. Définition Erreur individuelle
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 26 
 Pourquoi Linéaire et pas un 
Polynôme? 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
... 3 
3 
2 
1 2 Y   X  X  X 
1. Question 
2. Définition
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
27 
Régression linéaire: 
modèle le plus simple: 
Interprétation 
Estimations des paramètres 
Prédiction 
1. Question 
2. Définition
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
28 
III. Estimation 
Droite de régression: 
Résume le mieuxle nuage de point 
=> La plus proche de tous les points 
=> Erreurs petits +++ 
1. Question 
2. Définition 
3. Estimation
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 29 
 Estimer  et  tel que  petits +++ 
 i: écart entre la droite et le point i 
i i i y    x  
E(Y / X)    X 
1. Question 
2. Définition 
3. Estimation 
Principe de l'estimation
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 30 
 Estimer  et  tel que  petits +++ 
 i: écart entre la droite et le point i 
i i i y    x  
E(Y / X)    X 
y E(Y / X) i i    
1. Question 
2. Définition 
3. Estimation 
Principe de l'estimation
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 31 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
i 
Erreur individuelle 
1. Question 
2. Définition 
3. Estimation
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 32 
Principe de l'estimation 
 Somme des Carrés des Ecarts 
 Estimer  et  tel que: 
SCE minimum 
 
 
  
n 
i 
SCE ( i ) 
1 
2 
1. Question 
2. Définition 
3. Estimation
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
33 
Estimation de le pente  
1. Question 
2. Définition 
3. Estimation 
bcovXYvarX
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 34 
 Estimation de le pente  
1. Question 
2. Définition 
3. Estimation 
b 
cov XY 
var X
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 35 
 Estimation de le pente  
1. Question 
2. Définition 
3. Estimation 
b 
cov XY 
var X
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 36 
Rappels 
 Estimation de Variance de X: 
 Estimation de la covariance de XY 
cov XY i 1 
n 
xi yi 
1 
n i 1 
n 
xi 
i 1 
n 
yi 
n 1 
S2 X i 1 
n 
xi 
2 1 
n i 1 
n 
x i 
2 
n 1 
1. Question 
2. Définition 
3. Estimation
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 37 
Covariance de la taille et de l’âge: 
cov(TAIL,AGE) 
Variance de l’âge 
var(AGE) 
Estimation de  
b<-cov(TAIL,AGE)/var(AGE) 
b 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
38 
Covariance de la taille et de l’âge: 
cov(TAIL,AGE) = 2742.587 
Variance de l’âge 
var(AGE) 
Estimation de  
b<-cov(TAIL,AGE)/var(AGE) 
b =0.437703Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
39 
Estimation de : 
La droite passe par mYet mX 
1. Question 
2. Définition 
3. Estimation 
mYabmX
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 40 
 Estimation de  : 
 La droite passe par mY et mX 
1. Question 
2. Définition 
3. Estimation 
mY a bm X 
a mY bm X
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
41 
Estimation de : 
a<-mean(TAIL)-b*mean(AGE) 
a =73.729Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
42 
Estimation de : 
a<-mean(TAIL)-b*mean(AGE) 
a =73.729 
l’équation s’écrit donc: Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
43 
Estimation de : 
a<-mean(TAIL)-b*mean(AGE) 
a =73.729 
l’équation s’écrit donc: 
Taille=73.73 +0.44 Age +  
ou 
E(Taille/Age)=73.73 +0.44 AgeExercice
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 44 
Interprétation 
 Pente : 
 =0: pas de lien, évolutions indépendantes 
filles 
40 
50 
60 
70 
80 
90 
100 
0 5 10 15 20 25 30 35 
1. Question 
2. Définition 
3. Estimation
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 45 
Interprétation 
 Pente : 
 =0: pas de lien, évolutions indépendantes 
 <0: évolutions en sens contraire 
filles 
40 
50 
60 
70 
80 
90 
100 
0 5 10 15 20 25 30 35 
1. Question 
2. Définition 
3. Estimation
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 46 
Interprétation 
 Pente : 
 =0: pas de lien, évolutions indépendantes 
 <0: évolutions en sens contraire 
 >0: évolutions dans le même sens 
filles 
40 
50 
60 
70 
80 
90 
100 
0 5 10 15 20 25 30 35 
1. Question 
2. Définition 
3. Estimation
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 47 
 Ordonnée à l'origine  
filles 
40 
50 
60 
70 
80 
90 
100 
0 5 10 15 20 25 30 35 
E(Y / X  0)  
1. Question 
2. Définition 
3. Estimation
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
48 
IV. Test de la pente 
Si =0 => pas de lien entre Y et X 
Lien entre Y et X est-il significatif? 
=> 0? 
bestimation de  
Hasard=> fluctuation de b observé 
=> Test statistique 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 49 
Hypothèses: 
H0: =0,il n'y a pas de lien entre X et Y 
H1: 0, il y a un lien entre X et Y 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 50 
 Sous H0 
~> Student à n-2 ddl 
Avec 
2 
0 
b s 
b 
t 
 
 
2 
2 
2 
2 
2 
 
 
 
n 
b 
s 
s 
s X 
Y 
b 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
51 
Modèle linéaire: utilisation du logiciel R 
=> fonction lmlinear model 
mod1<-lm(TAIL~1+AGE) 
mod1 
Call: glm(formula = TAIL ~ 1 + AGE, family = gaussian) 
Coefficients: 
(Intercept) AGE 
73.7290 0.4377 
Degrees of Freedom: 636 Total (i.e. Null); 635 Residual 
Null Deviance: 837900 
Residual Deviance: 74410 AIC: 4846 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
52 
Modèle linéaire: utilisation du logiciel R 
=> fonction lmlinear model 
mod1<-lm(TAIL~1+AGE) 
mod1 
Call: lm(formula = TAIL ~ 1 + AGE) 
Coefficients: 
(Intercept) AGE 
73.7290 0.4377 
Exercice
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
53 
Modèle linéaire: utilisation du logiciel R 
=> fonction lmlinear model 
mod1<-lm(TAIL~1+AGE) 
mod1 
Call: lm(formula = TAIL ~ 1 + AGE) 
Coefficients: 
(Intercept) AGE 
73.7290 0.4377 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 54 
Modèle linéaire: utilisation du logiciel R 
=> fonction lmlinear model 
mod1<-lm(TAIL~1+AGE) 
mod1 
Call: lm(formula = TAIL ~ 1 + AGE) 
Coefficients: 
(Intercept) AGE 
73.7290 0.4377 Exercice 
a 
b
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
55Call: glm(formula = TAIL ~ 1 + AGE, family = gaussian) Deviance Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for gaussian family taken to be 117.1764) Null deviance: 837886 on 636 degrees of freedomResidual deviance: 74407 on 635 degrees of freedomAIC: 4846.2Number of Fisher Scoring iterations: 2 
summary(mod1)Exercice
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
56 
Call: lm(formula = TAIL ~ AGE) 
Residuals: 
Min 1Q Median 3Q Max 
-40.030 -6.899 2.999 8.120 24.999 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 73.729005 0.744041 99.09 <2e-16 *** 
AGE 0.437703 0.005423 80.72 <2e-16 *** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 10.82 on 635 degrees of freedom 
Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111 
F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 
summary(mod1)Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
57 
Call: lm(formula = TAIL ~ AGE) 
Residuals: 
Min 1Q Median 3Q Max 
-40.030 -6.899 2.999 8.120 24.999 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 73.729005 0.744041 99.09 <2e-16 *** 
AGE 0.437703 0.005423 80.72 <2e-16 *** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 10.82 on 635 degrees of freedom 
Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111 
F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 
summary(mod1) 
Exerciceab
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
58Call: lm(formula = TAIL ~ AGE) Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.82 on 635 degrees of freedomMultiple R-squared: 0.9112, Adjusted R-squared: 0.9111 F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 
summary(mod1)Exercice 
test =0
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
59 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)constantes pour tout X 
à X donné, Yiindépendants 
La régression est linéaire 
1. Question 
2. Définition 
3. Estimation 
4. Test 

2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
60 
Linéarité 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
61 
Linéarité 
1. Question 
2. Définition 
3. Estimation 
4. Test 
Perte de Puissance
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 62 
Linéarité 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 63Perte de Puissance 
Linéarité 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
64 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)constantes pour tout X 
homoscédasticité 
à X donné, Yiindépendants 
La régression est linéaire 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
65 
qqnorm 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)constantes pour tout X 
homoscédasticité 
à X donné, Yiindépendants 
La régression est linéaire 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
66 
qqnorm 
plot(résidus,age estimé) 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)constantes pour tout X 
homoscédasticité 
à X donné, Yiindépendants 
La régression est linéaire 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
67 
qqnorm 
plot(résidus,age estimé) 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)constantes pour tout X 
homoscédasticité 
à X donné, Yiindépendants 
La régression est linéaireprotocole 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
68qqnorm 
plot(taille estimée,résidus) 
plot(taille,age) 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)constantes pour tout X 
homoscédasticité 
à X donné, Yiindépendants 
La régression est linéaireprotocole 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 69 
L(Y/X)~>N 
qqnorm(mod1$res) 
qqline(mod1$res) Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
70 
plot(mod1$fitted,mod1$res) Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
71 
hétéroscédasticité 
non-linéarité 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 72 
filles 
30 
50 
70 
90 
110 
130 
150 
170 
190 
0 50 100 150 200 250 
TAILLE(cm) 
AGE(mois) 
Exercice plot(AGE,TAIL)
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 73 
filles 
30 
50 
70 
90 
110 
130 
150 
170 
190 
0 50 100 150 200 250 
TAILLE(cm) 
AGE(mois) 
Exercice plot(AGE,TAIL)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
74 
Exercice 
050100150200250 406080100120140160180 AGE TAIL
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 75 
80 100 120 140 160 180 
-40 -20 0 20 
Fitted values 
Residuals 
Residuals vs Fitted 
392 
295 390 
-3 -2 -1 0 1 2 3 
-3 -2 -1 0 1 2 3 
Theoretical Quantiles 
Standardized residuals 
Normal Q-Q 
392 
392095 
80 100 120 140 160 180 
0.0 0.5 1.0 1.5 2.0 
Fitted values 
Standardized residuals 
Scale-Location 
392 
295 390 
0.000 0.002 0.004 0.006 
-4 -3 -2 -1 0 1 2 3 
Leverage 
Standardized residuals 
Cook's distance 
Residuals vs Leverage 
392 
339403 
par(mfrow=c(2,2)) 
plot(mod1)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 76 
V. Précision 
Hasard=> fluctuation de b 
Intervalle de confiance de la pente 
b~>tn-2 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
222b,nstb
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 77 
V. Précision 
 Hasard=> fluctuation de b 
 Intervalle de confiance de la pente 
 b~>tn-2 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
2 
2 
n 2, b 
b t   s  
 Conditions d'applications 
 L(Y/X)~>N 
 V(Y/X) constantes pour tout X 
 à X donné, Yi indépendants 
 La régression est linéaire 

2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
78 
Intervalles de confiance des paramètres 
confint(mod1) 
Exercice 
2.5 % 97.5 % 
(Intercept) 72.2707108 75.1872989 
AGE 0.42707510.4483309
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
79 
Intervalles de confiance des paramètres 
confint(mod1) Exercice 
2.5 % 97.5 % 
(Intercept) 72.2707108 75.1872989 
AGE 0.42707510.4483309
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 80 
 Intervalle de confiance de la droite 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
E(Y / X)  X 
Estimé par m a bX Y X   / 
2 
2 
Y X n 2, mY X m t  s 
 
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 81 
 Intervalle de confiance de la droite 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
E(Y / X)  X 
Estimé par m a bX Y X   / 
2 
2 
Y X n 2, mY X m t  s 
  
 Conditions d'applications 
 L(Y/X)~>N 
 V(Y/X) constantes pour tout X 
 à X donné, Yi indépendants 
 La régression est linéaire 

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 82 
42 
52 
62 
72 
82 
92 
0 5 10 15 20 25 30 35 
Taille=73.73+0.44xAge+ 
IC 95% 
mX=15,5 
mY=73,6
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
83 
Intervalle de prédiction 
Pour un Age (X) fixé, prédictionde la Taille (Y) 
Yp= a + b X 
Taillep=73,73+0,44 Age 
Précision: 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
22,2pystynp
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 84 
42 
52 
62 
72 
82 
92 
102 
0 5 10 15 20 25 30 35 
IC 95% 
IP 95% 
Taille=73.73+0.44xAge+
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
85 
valeur de l’âge: 
Prédiction/ estimation d’une taille 
predict(mod1, newdata=new.x, se.fit=TRUE) 
Exercice 
new.x=data.frame(AGE=18.2) 
$fit 
[1] 81.6952 
$se.fit 
[1] 0.6658326 
$residual.scale 
[1] 10.82480
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
86 
valeur de l’âge: 
Prédiction/ estimation d’une taille 
predict(mod1, newdata=new.x, se.fit=TRUE) 
Exercice 
new.x=data.frame(AGE=18.2) $fit[1] 81.6952$se.fit[1] 0.6658326$residual.scale[1] 10.82480
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
87 
valeur de l’âge: 
Prédiction/ estimation d’une taille 
TX<-predict(mod1, newdata=new.x, se.fit=TRUE) 
Exercice 
new.x=data.frame(AGE=18.2) $fit[1] 81.6952$se.fit[1] 0.6658326$residual.scale[1] 10.82480
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 88 
 Intervalle de confiance de la taille estimée: 
 Intervalle de prédiction de la taille prédite: 
2 
2, 2 
yp 
y t s p n   
Predint<-predict(mod1,newdata=new.x,interval="prediction") 
Confint<-predict(mod1,newdata=new.x,interval="confidence")
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
89 
Exercice 
Intervalle de confiance de la taille estimée: 
Intervalle de prédiction de la taille prédite: 
Confint$fitPredint$fit 
fit lwr upr 
1 81.6952 80.3877 83.0027 
fit lwr upr 
1 81.6952 60.39828 102.9921
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 90 
VI. Adéquation 
Le modèle est-il un bon résumé des observations? 
Pourcentage de variance expliquée: 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
Part de variance expliquée par la régression 
Variance totaleR2=
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
91 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
mY 
mX
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
92 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. AdéquationmY 
mX 
Variance totale S2Y
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
93 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. AdéquationmY 
Variance totale S2Y 
mY/X
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
94 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
mY 
Variance totale S2YmY/X 
Variance expliquée
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
95 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
mY 
Variance totale S2YmY/X 
Variance expliquée 
)my(ecart)mm(ecartRYYX/Y   2
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 96 
 Pourcentage de variance expliquée: 
 Exemple: R2=88% 
 Remarque: 
R: estimation du coefficient de 
corrélation entre X et Y 
  
  
 
 
 
 
2 
2 
2 
i Y 
Y / X Y 
y m 
m m 
R i 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
97 
Estimation du coefficient de corrélationentre X et Y 
Estimation de R² 
Exercice 
r<-cor(TAIL,AGE) 
var(mod1$fitted.value)/var(TAIL) 
r*r 
ou 
0.9545663 
0.9111967
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
98 
Estimation du coefficient de corrélationentre X et Y 
Estimation de R² 
Exercice 
r<-cor(TAIL,AGE) 
var(mod1$fitted.value)/var(TAIL) 
r*r 
ou 
0.9545663 
0.9111967
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
99 
Call: lm(formula = TAIL ~ AGE) 
Residuals: 
Min 1Q Median 3Q Max 
-40.030 -6.899 2.999 8.120 24.999 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 73.729005 0.744041 99.09 <2e-16 *** 
AGE 0.437703 0.005423 80.72 <2e-16 *** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 10.82 on 635 degrees of freedom 
Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111 
F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 
summary(mod1)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
100 
VII. Régression multiple 
Plusieurs causes dans l'évolution de la taille: 
Age (X1) 
Facteur socio-économiques (X2) 
Taux d'hormones de croissance (X3) 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
7. Multiple 
332211321),,/(XXXXXXYE
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 101 
 Estimation: 
 , 1, 2, 3 estimés en tenant 
compte des 3 VA 
=> Ajustement 
 Interactions 
1 2 3 1 1 2 2 3 3 4 2 3 E(Y / X , X , X )   X  X  X  X X 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
7. Multiple
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 102 
 Estimation: 
 , 1, 2, 3 estimés en tenant 
compte des 3 VA 
=> Ajustement 
 Interactions 
1 2 3 1 1 2 2 3 3 4 2 3 E(Y / X , X , X )   X  X  X  X X 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
103 
Tests des 1, 2, 3à 0 
Interprétation identique 
Adéquation identique 
Approche pas à pas 
Choix des variables: notion de modèle 
Variables très corrélées 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
104 
Prédire l’âge en fonction de 8 mesures 
Crâne (BIP) 
Tronc (LATHO) 
Membres supérieurs et inférieurs (LOMAIN, PERPOIGN, PERCHEV, PIEDS) 
Globales (STAT, POIDS) 
Echantillon de 1000 enfants de 2 à 16 ans 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
105 
En moyenne: 
AGE= +1xBIP+2xLATHO+3xLOMAIN+ 
4xPERPOIGN+5xPERCHEV+6xPIEDS+ 
7xSTAT+8xPOIDS 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
106 
En moyenne: 
AGE= +1xBIP+2xLATHO+3xLOMAIN+ 
4xPERPOIGN+5xPERCHEV+6xPIEDS+ 
7xSTAT+8xPOIDS 
Exercice 
TP<-read.csv2("C:BIOSTATAGE.csv", header=TRUE)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
107 
En moyenne: 
AGE= +1xBIP+2xLATHO+3xLOMAIN+ 
4xPERPOIGN+5xPERCHEV+6xPIEDS+ 
7xSTAT+8xPOIDS 
Statistiques descriptives 
Exercice 
TP<-read.csv2("C:BIOSTATAGE.csv", header=TRUE) 
mean(AGE) 
var(AGE) 
hist(AGE) 
attach(TP)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
108 
En moyenne: 
AGE= +1xBIP+2xLATHO+3xLOMAIN+ 
4xPERPOIGN+5xPERCHEV+6xPIEDS+ 
7xSTAT+8xPOIDS 
Statistiques descriptives 
Exercice 
mean(AGE) 
var(AGE) 
attach(TP) 
=10.373 
=11.53541 
TP<-read.csv2("C:BIOSTATAGE.csv", header=TRUE)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
109 
Graphique: 
splom (DATA) 
hist(AGE, col="blue") 
DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT) 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
110 
Exercice 
hist(AGE, col="blue")
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
111 
Graphique: 
splom (DATA) 
hist(AGE, col="blue") 
DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT) 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
112 
Graphique: 
splom (DATA) 
Exercice 
Erreur : impossible de trouver la fonction "splom" 
hist(AGE, col="blue") 
DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
113 
Graphique: 
splom (DATA) 
ExerciceErreur : impossible de trouver la fonction "splom" 
package lattice 
hist(AGE, col="blue") 
DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
114 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 115 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
116 
Estimation: 
reg1<-lm(AGE~1+BIP+LATHO+LOMAIN+PERPOIGN 
+PERCHEV+PIEDS+STAT+POIDS) 
AGE= +1xBIP+2xLATHO+3xLOMAIN+4xPERPOIGN 
+5xPERCHEV+6xPIEDS+7xSTAT+8xPOIDS 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 117 
summary(reg1) Call: glm(formula = AGE ~ 1 + BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + PIEDS + STAT + POIDS, family = gaussian) Deviance Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for gaussian family taken to be 1.175526) Null deviance: 11523.9 on 999 degrees of freedomResidual deviance: 1164.9 on 991 degrees of freedomAIC: 3010.6Number of Fisher Scoring iterations: 2Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
118 
summary(reg1) Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedomMultiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 
Exercice
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.12658 -0.72416 -0.04954 0.67239 4.36643 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** 
BIP 3.312e-02 5.423e-02 0.611 0.54156 
LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** 
LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . 
PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** 
PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . 
PIEDS 7.823e-04 2.612e-02 0.030 0.97611 
STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** 
POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.084 on 991 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 
F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
119 
summary(reg1) 
Exercicerégression
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.12658 -0.72416 -0.04954 0.67239 4.36643 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** 
BIP 3.312e-02 5.423e-02 0.611 0.54156 
LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** 
LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . 
PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** 
PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . 
PIEDS 7.823e-04 2.612e-02 0.030 0.97611 
STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** 
POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.084 on 991 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 
F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
120 
summary(reg1) 
Exercice 
Prédicteurs, 
Variables explicatives
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.12658 -0.72416 -0.04954 0.67239 4.36643 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** 
BIP 3.312e-02 5.423e-02 0.611 0.54156 
LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** 
LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . 
PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** 
PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . 
PIEDS 7.823e-04 2.612e-02 0.030 0.97611 
STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** 
POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.084 on 991 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 
F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 121 
summary(reg1) 
Exercice 
estimationsdes paramètres, ajustées
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.12658 -0.72416 -0.04954 0.67239 4.36643 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** 
BIP 3.312e-02 5.423e-02 0.611 0.54156 
LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** 
LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . 
PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** 
PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . 
PIEDS 7.823e-04 2.612e-02 0.030 0.97611 
STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** 
POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.084 on 991 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 
F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
122 
summary(reg1) 
Exercice 
AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV 
+0,001PIEDS+0,2STAT-0,02POIDS 
estimationsdes paramètres, ajustées
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.12658 -0.72416 -0.04954 0.67239 4.36643 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** 
BIP 3.312e-02 5.423e-02 0.611 0.54156 
LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** 
LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . 
PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** 
PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . 
PIEDS 7.823e-04 2.612e-02 0.030 0.97611 
STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** 
POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.084 on 991 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 
F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
123 
summary(reg1) 
Exercice 
AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV 
+0,001PIEDS+0,2STAT-0,02POIDS 
signification
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.12658 -0.72416 -0.04954 0.67239 4.36643 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** 
BIP 3.312e-02 5.423e-02 0.611 0.54156 
LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** 
LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . 
PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** 
PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . 
PIEDS 7.823e-04 2.612e-02 0.030 0.97611 
STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** 
POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.084 on 991 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 
F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
124 
summary(reg1) Exercice 
AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV 
+0,001PIEDS+0,2STAT-0,02POIDS 
signification
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 125 
Que faut-il regarder ensuite ? 
conditions d’application 
intervalles de confiance des paramètres 
adéquation: R² 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
126 
qqnorm 
plot(age estimé, résidus) 
plot(AGE,prédicteurs) 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)constantes pour tout X 
homoscédasticité 
à X donné, Yiindépendants 
La régression est linéaireprotocole 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
7. Multiple
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 127 
qqnorm(reg1$res) 
qqline(reg1$res) 
5 10 15 
-4 -2 0 2 4 
Fitted values 
Residuals 
Residuals vs Fitted 
892 
994 
993 
-3 -2 -1 0 1 2 3 
-2 0 2 4 
Theoretical Quantiles 
Standardized residuals 
Normal Q-Q 
892 
994 
993 
5 10 15 
0.0 0.5 1.0 1.5 2.0 
Fitted values 
Standardized residuals 
Scale-Location 
892 
994 993 
0.00 0.02 0.04 0.06 
-2 0 2 4 
Leverage 
Standardized residuals 
Cook's distance 
Residuals vs Leverage 
993 
994 
418 
Exercice 
par(mfrow=c(2,2) 
plot(reg1)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 128 
confint(reg1) 2.5 % 97.5 % (Intercept) -14.63496676 -11.151092838BIP -0.07064460 0.146350137LATHO 0.07003811 0.178218882LOMAIN -0.03754588 0.206770294PERPOIGN -0.23572192 -0.046974279PERCHEV -0.09335361 0.010661467PIEDS -0.06133569 0.044411154STAT 0.14244571 0.171636649POIDS -0.03516689 -0.006578439Exercice 
Intervalles de confiance des paramètres
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
129 
2.5 % 97.5 % 
(Intercept) -14.70058351 -11.292408725 
BIP -0.07330209 0.139535454 
LATHO 0.06968244 0.174040764 
LOMAIN -0.01538828 0.218001320 
PERPOIGN -0.22908876 -0.044831392 
PERCHEV -0.09750881 0.004420695 
PIEDS -0.05047023 0.052034764 
STAT 0.14037312 0.168879663 
POIDS -0.03450573 -0.006430739 
confint(reg1) 
Exercice 
Intervalles de confiance des paramètres
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 130 
2.5 % 97.5 % 
(Intercept) -14.70058351 -11.292408725 
BIP -0.07330209 0.139535454 
LATHO 0.06968244 0.174040764 
LOMAIN -0.01538828 0.218001320 
PERPOIGN -0.22908876 -0.044831392 
PERCHEV -0.09750881 0.004420695 
PIEDS -0.05047023 0.052034764 
STAT 0.14037312 0.168879663 
POIDS -0.03450573 -0.006430739 
confint(reg1) Exercice 
Intervalles de confiance des paramètres
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
131 
2.5 % 97.5 % 
(Intercept) -14.70058351 -11.292408725 
BIP -0.07330209 0.139535454 
LATHO 0.06968244 0.174040764 
LOMAIN -0.01538828 0.218001320 
PERPOIGN -0.22908876 -0.044831392 
PERCHEV -0.09750881 0.004420695 
PIEDS -0.05047023 0.052034764 
STAT 0.14037312 0.168879663 
POIDS -0.03450573 -0.006430739 
confint(reg1) 
Exercice 
Intervalles de confiance des paramètres
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
132 
2.5 % 97.5 % 
(Intercept) -14.70058351 -11.292408725 
BIP -0.07330209 0.139535454 
LATHO 0.06968244 0.174040764 
LOMAIN -0.01538828 0.218001320 
PERPOIGN -0.22908876 -0.044831392 
PERCHEV -0.09750881 0.004420695 
PIEDS -0.05047023 0.052034764 
STAT 0.14037312 0.168879663 
POIDS -0.03450573 -0.006430739 
confint(reg1) 
Exercice 
Intervalles de confiance des paramètres
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
133 
2.5 % 97.5 % 
(Intercept) -14.70058351 -11.292408725 
BIP -0.07330209 0.139535454 
LATHO 0.06968244 0.174040764 
LOMAIN -0.01538828 0.218001320 
PERPOIGN -0.22908876 -0.044831392 
PERCHEV -0.09750881 0.004420695 
PIEDS -0.05047023 0.052034764 
STAT 0.14037312 0.168879663 
POIDS -0.03450573 -0.006430739 
confint(reg1) Exercice 
Intervalles de confiance des paramètres
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
134 
Exercice 
Adéquation: R² 
var(reg1$fitted.value)/var(AGE) 
0.8989102
POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.084 on 991 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 
F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
135 
Exercice 
Adéquation: R² 
var(reg1$fitted.value)/var(AGE) 0.8989102
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
136 
Prédiction 
nouvelles valeurs des prédicteurs 
ex: AGE? 
14,2 
23,5 
15,9 
148,2 
15,5 
23 
36 
38 
BIP 
LA 
THO 
LO 
MAIN 
STAT 
PER 
POiGN 
PER 
CHEV 
POIDS 
PIEDS 
new.x<-data.frame(BIP=14.2, LATHO=23.5, LOMAIN=15.9, 
STAT=148.2, PERPOIGN=15.5, PERCHEV=23, POIDS=36, PIEDS=38) 
new.x 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
137 
Prédiction 
nouvelles valeurs des prédicteurs 
ex: AGE? 
14,2 
23,5 
15,9 
148,2 
15,5 
23 
36 
38 
BIP 
LA 
THO 
LO 
MAIN 
STAT 
PER 
POiGN 
PER 
CHEV 
POIDS 
PIEDS 
new.x<-data.frame(BIP=14.2, LATHO=23.5, LOMAIN=15.9, 
STAT=148.2, PERPOIGN=15.5, PERCHEV=23, POIDS=36, PIEDS=38) 
new.xBIP LATHO LOMAIN STAT PERPOIGN PERCHEV POIDS PIEDS1 14.2 23.5 15.9 148.2 15.5 23 36 38 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
138 
Prédiction 
nouvelles valeurs des prédicteurs 
ex: AGE? 
14,2 
23,5 
15,9 
148,2 
15,5 
23 
36 
38 
BIP 
LA 
THO 
LO 
MAIN 
STAT 
PER 
POiGN 
PER 
CHEV 
POIDS 
PIEDS 
AX<-predict(reg1,newdata=new.x,se.fit=TRUE) 
$fit 
[1] 10.96339 
$se.fit 
[1] 0.09568086 
$residual.scale 
[1] 1.084217 
age réel = 11 ans 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
139 
Prédiction 
nouvelles valeurs des prédicteurs 
ex: AGE? 
14,2 
23,5 
15,9 
148,2 
15,5 
23 
36 
38 
BIP 
LA 
THO 
LO 
MAIN 
STAT 
PER 
POiGN 
PER 
CHEV 
POIDS 
PIEDS 
AX<-predict(reg1,newdata=new.x,se.fit=TRUE) 
$fit 
[1] 10.96339 
$se.fit 
[1] 0.09568086 
$residual.scale 
[1] 1.084217 
age réel = 11 ans 
Exercice
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
140 
Intervalle de confiance 
Intervalle de prédiction 
age réel = 11 ans 
Exercice 
predict(reg1,newdata=new.x,se.fit=TRUE,interval="prediction" ) 
predict(reg1,newdata=new.x,se.fit=TRUE,interval="confidence" ) 
$fit 
fit lwr upr 
1 10.96339 10.77563 11.15115 
$fitfit lwr upr1 10.96339 8.827496 13.09928
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
141 
Sélection de variables 
Guillaume d’Ockham, 1285-1349 
«Les multiples ne doivent 
pas êtres utilisés sans nécessité» 
= principe de parcimonie 
=> ne pas ajouter de nouvelles variables tant que celles présentes suffisent 
=> balance entre explication / prédiction 
trop de variables: explication + / prédiction – 
overfitting~hyperadéquation 
... 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
142 
Critère de sélection 
Akaike Information Criterion AIC 
AIC=2p-2ln(L) 
nombre de paramètres 
vraisemblance=>AIC le plus petit possible 
Sélection de variables 
... 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
143 
Critère de sélection 
Akaike Information Criterion AIC 
AIC=2p-2ln(L) 
nombre de paramètres 
vraisemblance 
=>AIC le plus petit possible 
Sélection de variables 
... 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
144 
Sélection de variables: pas à pas 
reglow<-lm(AGE~1+STAT) 
summary(reglow) 
Call: glm(formula = AGE ~ 1 + STAT) 
Deviance Residuals: 
Min 1Q Median 3Q Max 
-3.22224 -0.74277 -0.02807 0.73413 4.29016 
Coefficients: Estimate Std. Error t value Pr(>|t|) 
(Intercept) -11.909459 0.244761 -48.66 <2e-16 *** 
STAT 0.153978 0.001674 91.98 <2e-16 *** 
--- 
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
(Dispersion parameter for gaussian family taken to be 1.218439) 
Null deviance: 11524 on 999 degrees of freedom 
Residual deviance: 1216 on 998 degrees of freedom 
AIC: 3039.4 
Number of Fisher Scoring iterations: 2 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
145 
Sélection de variables: pas à pas 
reglow<-lm(AGE~1+STAT) 
summary(reglow) 
Call: lm(formula = AGE ~ 1 + STAT) 
Residuals: 
Min 1Q Median 3Q Max 
-3.22224 -0.74277 -0.02807 0.73413 4.29016 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -11.909459 0.244761 -48.66 <2e-16 *** 
STAT 0.153978 0.001674 91.98 <2e-16 *** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.104 on 998 degrees of freedom 
Multiple R-squared: 0.8945, Adjusted R-squared: 0.8944 
F-statistic: 8460 on 1 and 998 DF, p-value: < 2.2e-16 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
146 
Sélection de variables: pas à pas 
aicreg<-stepAIC(reg1,scope=list(upper=reg1,lower=reglow),direction=c("both")) 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
147 
Régression linéaire Multiple 
Sélection de variables: pas à pas 
aicreg<-stepAIC(reg1,scope=list(upper=reg,lower=reg1),direction=c("both")) 
Start: AIC=170.67 
AGE ~ 1 + BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + PIEDS + 
STAT + POIDS 
Df Sum of Sq RSS AIC 
-PIEDS 1 0.0011 1165.0 168.68 
-BIP 1 0.4384 1165.4 169.05 
<none> 1165.0 170.68 
-LOMAIN 1 3.4116 1168.4 171.60 
-PERCHEV 1 3.7755 1168.7 171.91 
-POIDS 1 9.6243 1174.6 176.90 
-PERPOIGN 1 10.0043 1175.0 177.23 
-LATHO 1 24.6905 1189.6 189.65 
Step: AIC=168.68 
AGE ~ BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS 
Df Sum of Sq RSS AIC 
-BIP 1 0.4433 1165.4 167.06 
<none> 1165.0 168.68 
-LOMAIN 1 3.6758 1168.6 169.83 
-PERCHEV 1 4.0625 1169.0 170.16 
+ PIEDS 1 0.0011 1165.0 170.68 
-POIDS 1 9.9216 1174.9 175.16 
-PERPOIGN 1 10.4397 1175.4 175.60 
-LATHO 1 24.7051 1189.7 187.66
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
148 
Régression linéaire Multiple 
Sélection de variables: pas à pas 
aicreg<-stepAIC(reg1,scope=list(upper=reg,lower=reg1),direction=c("both")) 
Step: AIC=167.06 
AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS 
Df Sum of Sq RSS AIC 
<none> 1165.4 167.06 
-PERCHEV 1 3.7648 1169.2 168.28 
-LOMAIN 1 3.8633 1169.2 168.37 
+ BIP 1 0.4433 1165.0 168.68 
+ PIEDS 1 0.0060 1165.4 169.05 
-POIDS 1 9.7153 1175.1 173.36 
-PERPOIGN 1 10.6173 1176.0 174.12 
-LATHO 1 26.2754 1191.7 187.35
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
149 
Sélection de variables: modèle final 
regfin<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) 
Call: 
lm(formula=AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.14469 -0.73537 -0.04168 0.68040 4.37259 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -12.611320 0.592893 -21.271 < 2e-16 *** 
LATHO 0.124299 0.026270 4.732 2.55e-06 *** 
LOMAIN 0.104090 0.057371 1.814 0.0699 . 
PERPOIGN -0.137719 0.045788 -3.008 0.0027 ** 
PERCHEV -0.044138 0.024643 -1.791 0.0736 . 
STAT 0.154353 0.006506 23.724 < 2e-16 *** 
POIDS -0.020256 0.007040 -2.877 0.0041 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.083 on 993 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8983 
F-statistic: 1471 on 6 and 993 DF, p-value: < 2.2e-16 
Exercice
Call: 
lm(formula=AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.14469 -0.73537 -0.04168 0.68040 4.37259 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -12.611320 0.592893 -21.271 < 2e-16 *** 
LATHO 0.124299 0.026270 4.732 2.55e-06 *** 
LOMAIN 0.104090 0.057371 1.814 0.0699 . 
PERPOIGN -0.137719 0.045788 -3.008 0.0027 ** 
PERCHEV -0.044138 0.024643 -1.791 0.0736 . 
STAT 0.154353 0.006506 23.724 < 2e-16 *** 
POIDS -0.020256 0.007040 -2.877 0.0041 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.083 on 993 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8983 
F-statistic: 1471 on 6 and 993 DF, p-value: < 2.2e-16 
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
150 
Sélection de variables: modèle final 
regfin<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
151 
Interaction entre les variables 
... 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 152 
Interaction 
En moyenne: 
AGE= +1.LATHO+2.LOMAIN+3.PERPOIGN 
+4.PERCHEV+5.STAT+6.POIDS 
+7.LOMAIN.STAT+8.LATHO.POIDS+9.POIDS.STAT 
regint<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS+LOMAIN:STAT+LATHO:POIDS+POIDS:STAT) 
... 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
153 
Call: 
lm(formula = AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + 
STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STAT) 
Residuals: 
Min 1Q Median 3Q Max 
-3.158979 -0.691690 -0.009895 0.639070 3.631405 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.887e+01 2.750e+00 -6.861 1.21e-11 *** 
LATHO 1.812e-01 5.837e-02 3.105 0.001957 ** 
LOMAIN 4.456e-01 2.862e-01 1.557 0.119725 
PERPOIGN -2.179e-01 4.417e-02 -4.932 9.53e-07 *** 
PERCHEV -7.357e-02 2.348e-02 -3.134 0.001776 ** 
STAT 1.875e-01 1.715e-02 10.932 < 2e-16 *** 
POIDS 1.787e-01 5.293e-02 3.376 0.000763 *** 
LOMAIN:STAT -2.090e-03 1.892e-03 -1.105 0.269638 
LATHO:POIDS -1.412e-03 1.165e-03 -1.212 0.225948 
STAT:POIDS -8.564e-04 4.194e-04 -2.042 0.041409 * 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.024 on 990 degrees of freedom 
Multiple R-squared: 0.9099, Adjusted R-squared: 0.9091 
F-statistic: 1111 on 9 and 990 DF, p-value: < 2.2e-16
Call: 
lm(formula = AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + 
STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STAT) 
Residuals: 
Min 1Q Median 3Q Max 
-3.158979 -0.691690 -0.009895 0.639070 3.631405 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.887e+01 2.750e+00 -6.861 1.21e-11 *** 
LATHO 1.812e-01 5.837e-02 3.105 0.001957 ** 
LOMAIN 4.456e-01 2.862e-01 1.557 0.119725 
PERPOIGN -2.179e-01 4.417e-02 -4.932 9.53e-07 *** 
PERCHEV -7.357e-02 2.348e-02 -3.134 0.001776 ** 
STAT 1.875e-01 1.715e-02 10.932 < 2e-16 *** 
POIDS 1.787e-01 5.293e-02 3.376 0.000763 *** 
LOMAIN:STAT -2.090e-03 1.892e-03 -1.105 0.269638 
LATHO:POIDS -1.412e-03 1.165e-03 -1.212 0.225948 
STAT:POIDS -8.564e-04 4.194e-04 -2.042 0.041409 * 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.024 on 990 degrees of freedom 
Multiple R-squared: 0.9099, Adjusted R-squared: 0.9091 
F-statistic: 1111 on 9 and 990 DF, p-value: < 2.2e-16 
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 154
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
155Start: AIC=57.65AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STATDf Sum of Sq RSS AIC-LOMAIN:STAT 1 1.2796 1039.7 56.884-LATHO:POIDS 1 1.5397 1039.9 57.135<none> 1038.4 57.653-STAT:POIDS 1 4.3738 1042.7 59.856-PERCHEV 1 10.3005 1048.7 65.524 
-PERPOIGN 1 25.5159 1063.9 79.929 
aicreg<-stepAIC(regint,scope=list(upper=regint,lower=reglow), 
direction=c("both")) 
Exercice 
(...)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
156Step: AIC=56.88AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LATHO:POIDS + STAT:POIDSDf Sum of Sq RSS AIC-LATHO:POIDS 1 0.711 1040.4 55.568<none> 1039.7 56.884+ LOMAIN:STAT 1 1.280 1038.4 57.653-LOMAIN 1 6.496 1046.2 61.114-PERCHEV 1 10.573 1050.2 65.003-PERPOIGN 1 26.222 1065.9 79.793-STAT:POIDS 1 50.998 1090.7 102.772Step: AIC=55.57AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + STAT:POIDSDf Sum of Sq RSS AIC<none> 1040.4 55.568+ LATHO:POIDS 1 0.711 1039.7 56.884+ LOMAIN:STAT 1 0.451 1039.9 57.135-LOMAIN 1 6.699 1047.1 59.986-PERCHEV 1 10.513 1050.9 63.622-LATHO 1 22.727 1063.1 75.178-PERPOIGN 1 25.628 1066.0 77.903-STAT:POIDS 1 125.029 1165.4 167.056 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
157 
Call: 
lm(formula=AGE~LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS+STAT:POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.12506 -0.68523 -0.01197 0.65241 3.61796 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.583e+01 6.333e-01 -24.997 < 2e-16 *** 
LATHO 1.157e-01 2.485e-02 4.655 3.68e-06 *** 
LOMAIN 1.373e-01 5.432e-02 2.527 0.01165 * 
PERPOIGN -2.170e-01 4.389e-02 -4.943 9.01e-07 *** 
PERCHEV -7.427e-02 2.346e-02 -3.166 0.00159 ** 
STAT 1.768e-01 6.486e-03 27.265 < 2e-16 *** 
POIDS 2.246e-01 2.339e-02 9.602 < 2e-16 *** 
STAT:POIDS -1.382e-03 1.266e-04 -10.919 < 2e-16 *** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.024 on 992 degrees of freedom 
Multiple R-squared: 0.9097, Adjusted R-squared: 0.9091 
F-statistic: 1428 on 7 and 992 DF, p-value: < 2.2e-16 
Summary(aicreg) Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
158 
Vérifier l’adéquation: 
Donner les intervalles de confiance des paramètres 
Vérifier les conditions d’applicationR²=0.9097212 
Exercice 
confint(regfin) 
2.5 % 97.5 % 
(Intercept) -17.071155758 -14.588806731 
LATHO 0.066963177 0.164356035 
LOMAIN 0.030823120 0.243748696 
PERPOIGN -0.302970654 -0.130934549 
PERCHEV -0.120248659 -0.028292907 
STAT 0.164115926 0.189539112 
POIDS 0.178761670 0.270460878 
STAT:POIDS -0.001629865 -0.001133776
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 159 
Vérifier l’adéquation: 
Donner les intervalles de confiance des paramètres 
Vérifier les conditions d’application 
R²=0.9097212Exercice 
confint(regfin) 
2.5 % 97.5 % 
(Intercept) -17.071155758 -14.588806731 
LATHO 0.066963177 0.164356035 
LOMAIN 0.030823120 0.243748696 
PERPOIGN -0.302970654 -0.130934549 
PERCHEV -0.120248659 -0.028292907 
STAT 0.164115926 0.189539112 
POIDS 0.178761670 0.270460878 
STAT:POIDS -0.001629865 -0.001133776
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 160 
Exercice 
par(mfrow=c(2,2)) 
plot(aicreg) 
051015 -2024 Fitted values Residuals Residuals vs Fitted892242228-3-2-10123 -3-2-101234 Theoretical Quantiles Standardized residuals Normal Q-Q892242228051015 0.00.51.01.5 Fitted values Standardized residuals Scale-Location8922422280.000.010.020.030.040.050.06 -2024 Leverage Standardized residuals Cook's distanceResiduals vs Leverage892418451
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
161 
Références 
J. Bouyer: Méthodesstatistiques, Médecine-Biologie, edINSERM 
J. Bouyer: Epidémiologiequantitative, edINSERM 
CIMES: Biostatistiques, edOmnisciences 
JJ. Faraway: Linear Models with R, edChapman&Hall 
Contactjean.gaudart@univmed.fr 
http://lertim.org 
Labo. d’Enseignementet de Recherchesurle Traitementde l’InformationMédicale, 
Facultéde Médecinede Marseille

Contenu connexe

Tendances

logistic_regression_ml.pdf
logistic_regression_ml.pdflogistic_regression_ml.pdf
logistic_regression_ml.pdfSidiAbdallah1
 
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)Adad Med Chérif
 
Chapitre 4 récursivité
Chapitre 4 récursivitéChapitre 4 récursivité
Chapitre 4 récursivitéSana Aroussi
 
Donnees de panel
Donnees de panelDonnees de panel
Donnees de panelzizou36
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1Adad Med Chérif
 
Probabilité +echantillonage
Probabilité +echantillonageProbabilité +echantillonage
Probabilité +echantillonageImad Cov
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_amanMehdi Aman
 
S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3Jamal Yasser
 
Analyse de régression linéaire
Analyse de régression linéaire Analyse de régression linéaire
Analyse de régression linéaire Adad Med Chérif
 
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Adad Med Chérif
 
Analyse de régression multiple
Analyse de régression multipleAnalyse de régression multiple
Analyse de régression multipleAdad Med Chérif
 
Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée Adad Med Chérif
 
Cours python
Cours pythonCours python
Cours pythonsalmazen
 
Modèle régression simple, Etude de cas sur Rstudio
Modèle régression simple, Etude de cas sur RstudioModèle régression simple, Etude de cas sur Rstudio
Modèle régression simple, Etude de cas sur RstudioAS Stitou
 

Tendances (20)

logistic_regression_ml.pdf
logistic_regression_ml.pdflogistic_regression_ml.pdf
logistic_regression_ml.pdf
 
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
 
Chapitre 4 récursivité
Chapitre 4 récursivitéChapitre 4 récursivité
Chapitre 4 récursivité
 
Donnees de panel
Donnees de panelDonnees de panel
Donnees de panel
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1
 
Series temporelles
Series temporellesSeries temporelles
Series temporelles
 
Probabilité +echantillonage
Probabilité +echantillonageProbabilité +echantillonage
Probabilité +echantillonage
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_aman
 
Stat3 Intervalle De Confiance
Stat3  Intervalle De ConfianceStat3  Intervalle De Confiance
Stat3 Intervalle De Confiance
 
S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3S3.echantillonnage estimation-s3
S3.echantillonnage estimation-s3
 
Analyse de régression linéaire
Analyse de régression linéaire Analyse de régression linéaire
Analyse de régression linéaire
 
Slides act6420-e2014-partie-2
Slides act6420-e2014-partie-2Slides act6420-e2014-partie-2
Slides act6420-e2014-partie-2
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 
Clustering
ClusteringClustering
Clustering
 
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
 
Analyse de régression multiple
Analyse de régression multipleAnalyse de régression multiple
Analyse de régression multiple
 
Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée
 
Cours python
Cours pythonCours python
Cours python
 
COURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLESCOURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLES
 
Modèle régression simple, Etude de cas sur Rstudio
Modèle régression simple, Etude de cas sur RstudioModèle régression simple, Etude de cas sur Rstudio
Modèle régression simple, Etude de cas sur Rstudio
 

En vedette

Cours9 programmation linéaire
Cours9 programmation linéaireCours9 programmation linéaire
Cours9 programmation linéaireAroussia Othmen
 
Examen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionExamen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionInes Ouaz
 
Recherche Opérationnelle - Optimisation (notions de base)
Recherche Opérationnelle - Optimisation (notions de base)Recherche Opérationnelle - Optimisation (notions de base)
Recherche Opérationnelle - Optimisation (notions de base)Mohammed TAMALI
 
Têtes de liste départementales Dominique Reynié
Têtes de liste départementales Dominique ReyniéTêtes de liste départementales Dominique Reynié
Têtes de liste départementales Dominique ReyniéFabrice Valéry
 
Civilisation français, la vie quotidien
Civilisation français, la vie quotidienCivilisation français, la vie quotidien
Civilisation français, la vie quotidienOpie Noviyanti
 
Centralité urbaine 01
Centralité urbaine 01Centralité urbaine 01
Centralité urbaine 01Sami Sahli
 
Programmation lineaire algorithme_du_simplexe
Programmation lineaire algorithme_du_simplexeProgrammation lineaire algorithme_du_simplexe
Programmation lineaire algorithme_du_simplexeJiijishady
 
Nsg 5592 module 1
Nsg 5592 module 1Nsg 5592 module 1
Nsg 5592 module 1aduboi4
 
Exercice corrige statistiques_1_stg
Exercice corrige statistiques_1_stgExercice corrige statistiques_1_stg
Exercice corrige statistiques_1_stgsalah16
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)mohamedchaouche
 
Analyse de variance et correlation
Analyse de variance et correlationAnalyse de variance et correlation
Analyse de variance et correlationYoucef63000
 
Tests relatifs aux variances et aux moyennes
Tests relatifs aux variances et aux moyennesTests relatifs aux variances et aux moyennes
Tests relatifs aux variances et aux moyennesYoucef63000
 
Statistique descriptive et lois de probabilités
Statistique descriptive et lois de probabilitésStatistique descriptive et lois de probabilités
Statistique descriptive et lois de probabilitésYoucef63000
 
Tests relatifs aux fréquences et au khi deux
Tests relatifs aux fréquences et au khi deuxTests relatifs aux fréquences et au khi deux
Tests relatifs aux fréquences et au khi deuxYoucef63000
 
Le paradoxe des banques coopératives
Le paradoxe des banques coopérativesLe paradoxe des banques coopératives
Le paradoxe des banques coopérativesDelphine Pennec
 
Minería en Colombia, Contraloría vol-ii
Minería en Colombia, Contraloría vol-iiMinería en Colombia, Contraloría vol-ii
Minería en Colombia, Contraloría vol-iinecromaniack
 

En vedette (20)

Cours9 programmation linéaire
Cours9 programmation linéaireCours9 programmation linéaire
Cours9 programmation linéaire
 
Examen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionExamen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correction
 
Recherche Opérationnelle - Optimisation (notions de base)
Recherche Opérationnelle - Optimisation (notions de base)Recherche Opérationnelle - Optimisation (notions de base)
Recherche Opérationnelle - Optimisation (notions de base)
 
Têtes de liste départementales Dominique Reynié
Têtes de liste départementales Dominique ReyniéTêtes de liste départementales Dominique Reynié
Têtes de liste départementales Dominique Reynié
 
Civilisation français, la vie quotidien
Civilisation français, la vie quotidienCivilisation français, la vie quotidien
Civilisation français, la vie quotidien
 
Biostatistique
BiostatistiqueBiostatistique
Biostatistique
 
Centralité urbaine 01
Centralité urbaine 01Centralité urbaine 01
Centralité urbaine 01
 
Programmation lineaire algorithme_du_simplexe
Programmation lineaire algorithme_du_simplexeProgrammation lineaire algorithme_du_simplexe
Programmation lineaire algorithme_du_simplexe
 
Nsg 5592 module 1
Nsg 5592 module 1Nsg 5592 module 1
Nsg 5592 module 1
 
Exercice corrige statistiques_1_stg
Exercice corrige statistiques_1_stgExercice corrige statistiques_1_stg
Exercice corrige statistiques_1_stg
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)
 
Analyse de variance et correlation
Analyse de variance et correlationAnalyse de variance et correlation
Analyse de variance et correlation
 
Tests relatifs aux variances et aux moyennes
Tests relatifs aux variances et aux moyennesTests relatifs aux variances et aux moyennes
Tests relatifs aux variances et aux moyennes
 
Statistique descriptive et lois de probabilités
Statistique descriptive et lois de probabilitésStatistique descriptive et lois de probabilités
Statistique descriptive et lois de probabilités
 
Tests relatifs aux fréquences et au khi deux
Tests relatifs aux fréquences et au khi deuxTests relatifs aux fréquences et au khi deux
Tests relatifs aux fréquences et au khi deux
 
Survol Des Modèles Linéaires
Survol Des Modèles LinéairesSurvol Des Modèles Linéaires
Survol Des Modèles Linéaires
 
Stat1
Stat1Stat1
Stat1
 
Stat8 Anova
Stat8  AnovaStat8  Anova
Stat8 Anova
 
Le paradoxe des banques coopératives
Le paradoxe des banques coopérativesLe paradoxe des banques coopératives
Le paradoxe des banques coopératives
 
Minería en Colombia, Contraloría vol-ii
Minería en Colombia, Contraloría vol-iiMinería en Colombia, Contraloría vol-ii
Minería en Colombia, Contraloría vol-ii
 

La Regression lineaire

  • 1. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 1 Principe de laRégression Linéaire
  • 2. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 2 Plan 1.Question pratique 2.Définition de la régression 3.Estimation de la droite de régression 4.Test de la pente 5.Précision de la droite de régression 6.Adéquation du modèle 7.Régression Multiple
  • 3. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 3 I. Question pratique Lien entre la taille et l'âge ? Quand l'âge , la taille ? Connaissant l'âge, peut-on prédire la taille? But médical: détecter les retards de croissances 1. Question
  • 4. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 4 Exercice Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles Importer le fichier de données FILLES.xls Moyenne globale de l’AGE m= ? mois Variance globale de l’AGE s²= ? mois2 Graphiques ATF<-read.csv2("D:BIOSTATFILLES.csv", header=TRUE) transformer le fichier filles.xls en FILLES.csv attach(ATF) mean(AGE) var(AGE) hist(AGE, col="blue") boxplot(AGE, col="blue") par(mfrow=c(1,2))
  • 5. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 5 Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles Importer le fichier de données filles.xls Moyenne globale de l’AGE m= 112,12mois Variance globale de l’AGE s²= 6265,86mois2 Graphiques ATF<-read.csv2("D:BIOSTATfilles.csv", header=TRUE) transformer le fichier filles.xls en filles.csv attach(ATF) mean(AGE) Exercice var(AGE) hist(AGE, col="blue") boxplot(AGE, col="blue") par(mfrow=c(1,2))
  • 6. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 6 Exercice Histogram of AGEAGE Frequency 050100200 020406080100050100150200250
  • 7. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 7 Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles Moyenne globale de la Taille (TAIL) m= ? cm Variance globale de la Taille (TAIL) s²= ? cm2 Graphiques mean(TAIL) var(TAIL) hist(TAIL, col="red") boxplot(TAIL, col="red") Exercice par(mfrow=c(1,2))
  • 8. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 8 Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles Moyenne globale de la Taille (TAIL) m= 122,83cm Variance globale de la Taille (TAIL) s²= 1317,43cm2 Graphiques mean(TAIL) var(TAIL) Exercice hist(TAIL, col="red") boxplot(TAIL, col="red") par(mfrow=c(1,2))
  • 9. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 9 Exercice Histogram of TAILTAIL Frequency 4080120160 020406080100406080100120140160180
  • 10. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 10 représenter la taille en fonction de l’age plot(AGE, TAIL) Exercice
  • 11. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 11 Exercice 050100150200250 406080100120140160180 AGE TAIL
  • 12. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 12 II. Définition Régression de Y en X: Y= taille (cm) X= âge (mois) Comment la Taille évolue enfonctionde l'Age ? Taille= f(Age) 1. Question 2. Définition
  • 13. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 13 Comment évolue la Taille? = Quelle valeur de la Taille ? =>Pour chaque Age => Sachant l'âge filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 1. Question 2. Définition
  • 14. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 14 Comment évolue la Taille? = Quelle valeur de la Taille ? =>Pour chaque Age => Sachant l'âge filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 18 mois 1. Question 2. Définition
  • 15. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 15 Comment évolue la Taille? = Quelle valeur de la Taille ? =>Pour chaque Age => Sachant l'âge filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 ? 18 mois 1. Question 2. Définition
  • 16. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 16 Chez les filles de 18 mois, quelle est la taille moyenne? Quells est la variance de la taille ? Quelle est la distribution ? Exercice mean(TAIL[AGE==18]) hist(TAIL[AGE==18],col="magenta") var(TAIL[AGE==18])
  • 17. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 17 18 mois: quelle Taille? Moyenne observée: M(T/A=18)=79,23 cm Variance observée: V(T/A=18)=9,36 cm2 Exercice
  • 18. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 18 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 E(Taille / Age) 1. Question Distribution conditionnelle 2. Définition
  • 19. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 19 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 L(Taille / Age) 1. Question Distribution conditionnelle 2. Définition
  • 20. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 20 Fonction de régression  Taille fonction de l'âge: M(Taille/Age)= f(Age)  Fonction f(): droite E(Taille / Age)    Age 1. Question 2. Définition
  • 21. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 21 Fonction de régression  Taille fonction de l'âge: M(Taille/Age)= f(Age)  Fonction f(): droite  Pour chaque sujet E(Taille / Age)    Age 1. Question 2. Définition Taille    Age 
  • 22. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 22 Fonction de régression  Taille fonction de l'âge: E(Taille/Age)= f(Age)  Fonction f(): droite  Pour chaque sujet E(Taille / Age)    Age 1. Question 2. Définition Taille    Age 
  • 23. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 23 filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 1. Question 2. Définition Erreur individuelle
  • 24. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 24 filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 1. Question 2. Définition Erreur individuelle
  • 25. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 25 filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 erreur 1. Question 2. Définition Erreur individuelle
  • 26. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 26  Pourquoi Linéaire et pas un Polynôme? 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 ... 3 3 2 1 2 Y   X  X  X 1. Question 2. Définition
  • 27. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 27 Régression linéaire: modèle le plus simple: Interprétation Estimations des paramètres Prédiction 1. Question 2. Définition
  • 28. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 28 III. Estimation Droite de régression: Résume le mieuxle nuage de point => La plus proche de tous les points => Erreurs petits +++ 1. Question 2. Définition 3. Estimation
  • 29. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 29  Estimer  et  tel que  petits +++  i: écart entre la droite et le point i i i i y    x  E(Y / X)    X 1. Question 2. Définition 3. Estimation Principe de l'estimation
  • 30. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 30  Estimer  et  tel que  petits +++  i: écart entre la droite et le point i i i i y    x  E(Y / X)    X y E(Y / X) i i    1. Question 2. Définition 3. Estimation Principe de l'estimation
  • 31. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 31 filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 i Erreur individuelle 1. Question 2. Définition 3. Estimation
  • 32. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 32 Principe de l'estimation  Somme des Carrés des Ecarts  Estimer  et  tel que: SCE minimum     n i SCE ( i ) 1 2 1. Question 2. Définition 3. Estimation
  • 33. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 33 Estimation de le pente  1. Question 2. Définition 3. Estimation bcovXYvarX
  • 34. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 34  Estimation de le pente  1. Question 2. Définition 3. Estimation b cov XY var X
  • 35. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 35  Estimation de le pente  1. Question 2. Définition 3. Estimation b cov XY var X
  • 36. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 36 Rappels  Estimation de Variance de X:  Estimation de la covariance de XY cov XY i 1 n xi yi 1 n i 1 n xi i 1 n yi n 1 S2 X i 1 n xi 2 1 n i 1 n x i 2 n 1 1. Question 2. Définition 3. Estimation
  • 37. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 37 Covariance de la taille et de l’âge: cov(TAIL,AGE) Variance de l’âge var(AGE) Estimation de  b<-cov(TAIL,AGE)/var(AGE) b Exercice
  • 38. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 38 Covariance de la taille et de l’âge: cov(TAIL,AGE) = 2742.587 Variance de l’âge var(AGE) Estimation de  b<-cov(TAIL,AGE)/var(AGE) b =0.437703Exercice
  • 39. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 39 Estimation de : La droite passe par mYet mX 1. Question 2. Définition 3. Estimation mYabmX
  • 40. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 40  Estimation de  :  La droite passe par mY et mX 1. Question 2. Définition 3. Estimation mY a bm X a mY bm X
  • 41. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 41 Estimation de : a<-mean(TAIL)-b*mean(AGE) a =73.729Exercice
  • 42. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 42 Estimation de : a<-mean(TAIL)-b*mean(AGE) a =73.729 l’équation s’écrit donc: Exercice
  • 43. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 43 Estimation de : a<-mean(TAIL)-b*mean(AGE) a =73.729 l’équation s’écrit donc: Taille=73.73 +0.44 Age +  ou E(Taille/Age)=73.73 +0.44 AgeExercice
  • 44. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 44 Interprétation  Pente :  =0: pas de lien, évolutions indépendantes filles 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 1. Question 2. Définition 3. Estimation
  • 45. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 45 Interprétation  Pente :  =0: pas de lien, évolutions indépendantes  <0: évolutions en sens contraire filles 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 1. Question 2. Définition 3. Estimation
  • 46. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 46 Interprétation  Pente :  =0: pas de lien, évolutions indépendantes  <0: évolutions en sens contraire  >0: évolutions dans le même sens filles 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 1. Question 2. Définition 3. Estimation
  • 47. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 47  Ordonnée à l'origine  filles 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 E(Y / X  0)  1. Question 2. Définition 3. Estimation
  • 48. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 48 IV. Test de la pente Si =0 => pas de lien entre Y et X Lien entre Y et X est-il significatif? => 0? bestimation de  Hasard=> fluctuation de b observé => Test statistique 1. Question 2. Définition 3. Estimation 4. Test
  • 49. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 49 Hypothèses: H0: =0,il n'y a pas de lien entre X et Y H1: 0, il y a un lien entre X et Y 1. Question 2. Définition 3. Estimation 4. Test
  • 50. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 50  Sous H0 ~> Student à n-2 ddl Avec 2 0 b s b t   2 2 2 2 2    n b s s s X Y b 1. Question 2. Définition 3. Estimation 4. Test
  • 51. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 51 Modèle linéaire: utilisation du logiciel R => fonction lmlinear model mod1<-lm(TAIL~1+AGE) mod1 Call: glm(formula = TAIL ~ 1 + AGE, family = gaussian) Coefficients: (Intercept) AGE 73.7290 0.4377 Degrees of Freedom: 636 Total (i.e. Null); 635 Residual Null Deviance: 837900 Residual Deviance: 74410 AIC: 4846 Exercice
  • 52. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 52 Modèle linéaire: utilisation du logiciel R => fonction lmlinear model mod1<-lm(TAIL~1+AGE) mod1 Call: lm(formula = TAIL ~ 1 + AGE) Coefficients: (Intercept) AGE 73.7290 0.4377 Exercice
  • 53. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 53 Modèle linéaire: utilisation du logiciel R => fonction lmlinear model mod1<-lm(TAIL~1+AGE) mod1 Call: lm(formula = TAIL ~ 1 + AGE) Coefficients: (Intercept) AGE 73.7290 0.4377 Exercice
  • 54. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 54 Modèle linéaire: utilisation du logiciel R => fonction lmlinear model mod1<-lm(TAIL~1+AGE) mod1 Call: lm(formula = TAIL ~ 1 + AGE) Coefficients: (Intercept) AGE 73.7290 0.4377 Exercice a b
  • 55. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 55Call: glm(formula = TAIL ~ 1 + AGE, family = gaussian) Deviance Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for gaussian family taken to be 117.1764) Null deviance: 837886 on 636 degrees of freedomResidual deviance: 74407 on 635 degrees of freedomAIC: 4846.2Number of Fisher Scoring iterations: 2 summary(mod1)Exercice
  • 56. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 56 Call: lm(formula = TAIL ~ AGE) Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.82 on 635 degrees of freedom Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111 F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 summary(mod1)Exercice
  • 57. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 57 Call: lm(formula = TAIL ~ AGE) Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.82 on 635 degrees of freedom Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111 F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 summary(mod1) Exerciceab
  • 58. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 58Call: lm(formula = TAIL ~ AGE) Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.82 on 635 degrees of freedomMultiple R-squared: 0.9112, Adjusted R-squared: 0.9111 F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 summary(mod1)Exercice test =0
  • 59. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 59 Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X à X donné, Yiindépendants La régression est linéaire 1. Question 2. Définition 3. Estimation 4. Test 
  • 60. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 60 Linéarité 1. Question 2. Définition 3. Estimation 4. Test
  • 61. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 61 Linéarité 1. Question 2. Définition 3. Estimation 4. Test Perte de Puissance
  • 62. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 62 Linéarité 1. Question 2. Définition 3. Estimation 4. Test
  • 63. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 63Perte de Puissance Linéarité 1. Question 2. Définition 3. Estimation 4. Test
  • 64. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 64 Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaire 1. Question 2. Définition 3. Estimation 4. Test
  • 65. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 65 qqnorm Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaire 1. Question 2. Définition 3. Estimation 4. Test
  • 66. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 66 qqnorm plot(résidus,age estimé) Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaire 1. Question 2. Définition 3. Estimation 4. Test
  • 67. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 67 qqnorm plot(résidus,age estimé) Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaireprotocole 1. Question 2. Définition 3. Estimation 4. Test
  • 68. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 68qqnorm plot(taille estimée,résidus) plot(taille,age) Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaireprotocole 1. Question 2. Définition 3. Estimation 4. Test
  • 69. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 69 L(Y/X)~>N qqnorm(mod1$res) qqline(mod1$res) Exercice
  • 70. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 70 plot(mod1$fitted,mod1$res) Exercice
  • 71. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 71 hétéroscédasticité non-linéarité 1. Question 2. Définition 3. Estimation 4. Test
  • 72. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 72 filles 30 50 70 90 110 130 150 170 190 0 50 100 150 200 250 TAILLE(cm) AGE(mois) Exercice plot(AGE,TAIL)
  • 73. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 73 filles 30 50 70 90 110 130 150 170 190 0 50 100 150 200 250 TAILLE(cm) AGE(mois) Exercice plot(AGE,TAIL)
  • 74. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 74 Exercice 050100150200250 406080100120140160180 AGE TAIL
  • 75. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 75 80 100 120 140 160 180 -40 -20 0 20 Fitted values Residuals Residuals vs Fitted 392 295 390 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 Theoretical Quantiles Standardized residuals Normal Q-Q 392 392095 80 100 120 140 160 180 0.0 0.5 1.0 1.5 2.0 Fitted values Standardized residuals Scale-Location 392 295 390 0.000 0.002 0.004 0.006 -4 -3 -2 -1 0 1 2 3 Leverage Standardized residuals Cook's distance Residuals vs Leverage 392 339403 par(mfrow=c(2,2)) plot(mod1)
  • 76. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 76 V. Précision Hasard=> fluctuation de b Intervalle de confiance de la pente b~>tn-2 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 222b,nstb
  • 77. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 77 V. Précision  Hasard=> fluctuation de b  Intervalle de confiance de la pente  b~>tn-2 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 2 2 n 2, b b t   s   Conditions d'applications  L(Y/X)~>N  V(Y/X) constantes pour tout X  à X donné, Yi indépendants  La régression est linéaire 
  • 78. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 78 Intervalles de confiance des paramètres confint(mod1) Exercice 2.5 % 97.5 % (Intercept) 72.2707108 75.1872989 AGE 0.42707510.4483309
  • 79. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 79 Intervalles de confiance des paramètres confint(mod1) Exercice 2.5 % 97.5 % (Intercept) 72.2707108 75.1872989 AGE 0.42707510.4483309
  • 80. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 80  Intervalle de confiance de la droite 1. Question 2. Définition 3. Estimation 4. Test 5. Précision E(Y / X)  X Estimé par m a bX Y X   / 2 2 Y X n 2, mY X m t  s  
  • 81. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 81  Intervalle de confiance de la droite 1. Question 2. Définition 3. Estimation 4. Test 5. Précision E(Y / X)  X Estimé par m a bX Y X   / 2 2 Y X n 2, mY X m t  s    Conditions d'applications  L(Y/X)~>N  V(Y/X) constantes pour tout X  à X donné, Yi indépendants  La régression est linéaire 
  • 82. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 82 42 52 62 72 82 92 0 5 10 15 20 25 30 35 Taille=73.73+0.44xAge+ IC 95% mX=15,5 mY=73,6
  • 83. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 83 Intervalle de prédiction Pour un Age (X) fixé, prédictionde la Taille (Y) Yp= a + b X Taillep=73,73+0,44 Age Précision: 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 22,2pystynp
  • 84. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 84 42 52 62 72 82 92 102 0 5 10 15 20 25 30 35 IC 95% IP 95% Taille=73.73+0.44xAge+
  • 85. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 85 valeur de l’âge: Prédiction/ estimation d’une taille predict(mod1, newdata=new.x, se.fit=TRUE) Exercice new.x=data.frame(AGE=18.2) $fit [1] 81.6952 $se.fit [1] 0.6658326 $residual.scale [1] 10.82480
  • 86. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 86 valeur de l’âge: Prédiction/ estimation d’une taille predict(mod1, newdata=new.x, se.fit=TRUE) Exercice new.x=data.frame(AGE=18.2) $fit[1] 81.6952$se.fit[1] 0.6658326$residual.scale[1] 10.82480
  • 87. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 87 valeur de l’âge: Prédiction/ estimation d’une taille TX<-predict(mod1, newdata=new.x, se.fit=TRUE) Exercice new.x=data.frame(AGE=18.2) $fit[1] 81.6952$se.fit[1] 0.6658326$residual.scale[1] 10.82480
  • 88. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 88  Intervalle de confiance de la taille estimée:  Intervalle de prédiction de la taille prédite: 2 2, 2 yp y t s p n   Predint<-predict(mod1,newdata=new.x,interval="prediction") Confint<-predict(mod1,newdata=new.x,interval="confidence")
  • 89. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 89 Exercice Intervalle de confiance de la taille estimée: Intervalle de prédiction de la taille prédite: Confint$fitPredint$fit fit lwr upr 1 81.6952 80.3877 83.0027 fit lwr upr 1 81.6952 60.39828 102.9921
  • 90. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 90 VI. Adéquation Le modèle est-il un bon résumé des observations? Pourcentage de variance expliquée: 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation Part de variance expliquée par la régression Variance totaleR2=
  • 91. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 91 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation mY mX
  • 92. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 92 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. AdéquationmY mX Variance totale S2Y
  • 93. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 93 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. AdéquationmY Variance totale S2Y mY/X
  • 94. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 94 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation mY Variance totale S2YmY/X Variance expliquée
  • 95. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 95 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation mY Variance totale S2YmY/X Variance expliquée )my(ecart)mm(ecartRYYX/Y   2
  • 96. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 96  Pourcentage de variance expliquée:  Exemple: R2=88%  Remarque: R: estimation du coefficient de corrélation entre X et Y         2 2 2 i Y Y / X Y y m m m R i 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation
  • 97. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 97 Estimation du coefficient de corrélationentre X et Y Estimation de R² Exercice r<-cor(TAIL,AGE) var(mod1$fitted.value)/var(TAIL) r*r ou 0.9545663 0.9111967
  • 98. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 98 Estimation du coefficient de corrélationentre X et Y Estimation de R² Exercice r<-cor(TAIL,AGE) var(mod1$fitted.value)/var(TAIL) r*r ou 0.9545663 0.9111967
  • 99. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 99 Call: lm(formula = TAIL ~ AGE) Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.82 on 635 degrees of freedom Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111 F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 summary(mod1)
  • 100. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 100 VII. Régression multiple Plusieurs causes dans l'évolution de la taille: Age (X1) Facteur socio-économiques (X2) Taux d'hormones de croissance (X3) 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple 332211321),,/(XXXXXXYE
  • 101. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 101  Estimation:  , 1, 2, 3 estimés en tenant compte des 3 VA => Ajustement  Interactions 1 2 3 1 1 2 2 3 3 4 2 3 E(Y / X , X , X )   X  X  X  X X 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple
  • 102. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 102  Estimation:  , 1, 2, 3 estimés en tenant compte des 3 VA => Ajustement  Interactions 1 2 3 1 1 2 2 3 3 4 2 3 E(Y / X , X , X )   X  X  X  X X 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple
  • 103. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 103 Tests des 1, 2, 3à 0 Interprétation identique Adéquation identique Approche pas à pas Choix des variables: notion de modèle Variables très corrélées 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple
  • 104. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 104 Prédire l’âge en fonction de 8 mesures Crâne (BIP) Tronc (LATHO) Membres supérieurs et inférieurs (LOMAIN, PERPOIGN, PERCHEV, PIEDS) Globales (STAT, POIDS) Echantillon de 1000 enfants de 2 à 16 ans Exercice
  • 105. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 105 En moyenne: AGE= +1xBIP+2xLATHO+3xLOMAIN+ 4xPERPOIGN+5xPERCHEV+6xPIEDS+ 7xSTAT+8xPOIDS Exercice
  • 106. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 106 En moyenne: AGE= +1xBIP+2xLATHO+3xLOMAIN+ 4xPERPOIGN+5xPERCHEV+6xPIEDS+ 7xSTAT+8xPOIDS Exercice TP<-read.csv2("C:BIOSTATAGE.csv", header=TRUE)
  • 107. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 107 En moyenne: AGE= +1xBIP+2xLATHO+3xLOMAIN+ 4xPERPOIGN+5xPERCHEV+6xPIEDS+ 7xSTAT+8xPOIDS Statistiques descriptives Exercice TP<-read.csv2("C:BIOSTATAGE.csv", header=TRUE) mean(AGE) var(AGE) hist(AGE) attach(TP)
  • 108. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 108 En moyenne: AGE= +1xBIP+2xLATHO+3xLOMAIN+ 4xPERPOIGN+5xPERCHEV+6xPIEDS+ 7xSTAT+8xPOIDS Statistiques descriptives Exercice mean(AGE) var(AGE) attach(TP) =10.373 =11.53541 TP<-read.csv2("C:BIOSTATAGE.csv", header=TRUE)
  • 109. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 109 Graphique: splom (DATA) hist(AGE, col="blue") DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT) Exercice
  • 110. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 110 Exercice hist(AGE, col="blue")
  • 111. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 111 Graphique: splom (DATA) hist(AGE, col="blue") DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT) Exercice
  • 112. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 112 Graphique: splom (DATA) Exercice Erreur : impossible de trouver la fonction "splom" hist(AGE, col="blue") DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT)
  • 113. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 113 Graphique: splom (DATA) ExerciceErreur : impossible de trouver la fonction "splom" package lattice hist(AGE, col="blue") DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT)
  • 114. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 114 Exercice
  • 115. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 115 Exercice
  • 116. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 116 Estimation: reg1<-lm(AGE~1+BIP+LATHO+LOMAIN+PERPOIGN +PERCHEV+PIEDS+STAT+POIDS) AGE= +1xBIP+2xLATHO+3xLOMAIN+4xPERPOIGN +5xPERCHEV+6xPIEDS+7xSTAT+8xPOIDS Exercice
  • 117. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 117 summary(reg1) Call: glm(formula = AGE ~ 1 + BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + PIEDS + STAT + POIDS, family = gaussian) Deviance Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for gaussian family taken to be 1.175526) Null deviance: 11523.9 on 999 degrees of freedomResidual deviance: 1164.9 on 991 degrees of freedomAIC: 3010.6Number of Fisher Scoring iterations: 2Exercice
  • 118. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 118 summary(reg1) Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedomMultiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 Exercice
  • 119. Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 119 summary(reg1) Exercicerégression
  • 120. Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 120 summary(reg1) Exercice Prédicteurs, Variables explicatives
  • 121. Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 121 summary(reg1) Exercice estimationsdes paramètres, ajustées
  • 122. Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 122 summary(reg1) Exercice AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV +0,001PIEDS+0,2STAT-0,02POIDS estimationsdes paramètres, ajustées
  • 123. Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 123 summary(reg1) Exercice AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV +0,001PIEDS+0,2STAT-0,02POIDS signification
  • 124. Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 124 summary(reg1) Exercice AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV +0,001PIEDS+0,2STAT-0,02POIDS signification
  • 125. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 125 Que faut-il regarder ensuite ? conditions d’application intervalles de confiance des paramètres adéquation: R² 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple
  • 126. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 126 qqnorm plot(age estimé, résidus) plot(AGE,prédicteurs) Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaireprotocole 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple
  • 127. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 127 qqnorm(reg1$res) qqline(reg1$res) 5 10 15 -4 -2 0 2 4 Fitted values Residuals Residuals vs Fitted 892 994 993 -3 -2 -1 0 1 2 3 -2 0 2 4 Theoretical Quantiles Standardized residuals Normal Q-Q 892 994 993 5 10 15 0.0 0.5 1.0 1.5 2.0 Fitted values Standardized residuals Scale-Location 892 994 993 0.00 0.02 0.04 0.06 -2 0 2 4 Leverage Standardized residuals Cook's distance Residuals vs Leverage 993 994 418 Exercice par(mfrow=c(2,2) plot(reg1)
  • 128. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 128 confint(reg1) 2.5 % 97.5 % (Intercept) -14.63496676 -11.151092838BIP -0.07064460 0.146350137LATHO 0.07003811 0.178218882LOMAIN -0.03754588 0.206770294PERPOIGN -0.23572192 -0.046974279PERCHEV -0.09335361 0.010661467PIEDS -0.06133569 0.044411154STAT 0.14244571 0.171636649POIDS -0.03516689 -0.006578439Exercice Intervalles de confiance des paramètres
  • 129. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 129 2.5 % 97.5 % (Intercept) -14.70058351 -11.292408725 BIP -0.07330209 0.139535454 LATHO 0.06968244 0.174040764 LOMAIN -0.01538828 0.218001320 PERPOIGN -0.22908876 -0.044831392 PERCHEV -0.09750881 0.004420695 PIEDS -0.05047023 0.052034764 STAT 0.14037312 0.168879663 POIDS -0.03450573 -0.006430739 confint(reg1) Exercice Intervalles de confiance des paramètres
  • 130. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 130 2.5 % 97.5 % (Intercept) -14.70058351 -11.292408725 BIP -0.07330209 0.139535454 LATHO 0.06968244 0.174040764 LOMAIN -0.01538828 0.218001320 PERPOIGN -0.22908876 -0.044831392 PERCHEV -0.09750881 0.004420695 PIEDS -0.05047023 0.052034764 STAT 0.14037312 0.168879663 POIDS -0.03450573 -0.006430739 confint(reg1) Exercice Intervalles de confiance des paramètres
  • 131. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 131 2.5 % 97.5 % (Intercept) -14.70058351 -11.292408725 BIP -0.07330209 0.139535454 LATHO 0.06968244 0.174040764 LOMAIN -0.01538828 0.218001320 PERPOIGN -0.22908876 -0.044831392 PERCHEV -0.09750881 0.004420695 PIEDS -0.05047023 0.052034764 STAT 0.14037312 0.168879663 POIDS -0.03450573 -0.006430739 confint(reg1) Exercice Intervalles de confiance des paramètres
  • 132. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 132 2.5 % 97.5 % (Intercept) -14.70058351 -11.292408725 BIP -0.07330209 0.139535454 LATHO 0.06968244 0.174040764 LOMAIN -0.01538828 0.218001320 PERPOIGN -0.22908876 -0.044831392 PERCHEV -0.09750881 0.004420695 PIEDS -0.05047023 0.052034764 STAT 0.14037312 0.168879663 POIDS -0.03450573 -0.006430739 confint(reg1) Exercice Intervalles de confiance des paramètres
  • 133. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 133 2.5 % 97.5 % (Intercept) -14.70058351 -11.292408725 BIP -0.07330209 0.139535454 LATHO 0.06968244 0.174040764 LOMAIN -0.01538828 0.218001320 PERPOIGN -0.22908876 -0.044831392 PERCHEV -0.09750881 0.004420695 PIEDS -0.05047023 0.052034764 STAT 0.14037312 0.168879663 POIDS -0.03450573 -0.006430739 confint(reg1) Exercice Intervalles de confiance des paramètres
  • 134. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 134 Exercice Adéquation: R² var(reg1$fitted.value)/var(AGE) 0.8989102
  • 135. POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 135 Exercice Adéquation: R² var(reg1$fitted.value)/var(AGE) 0.8989102
  • 136. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 136 Prédiction nouvelles valeurs des prédicteurs ex: AGE? 14,2 23,5 15,9 148,2 15,5 23 36 38 BIP LA THO LO MAIN STAT PER POiGN PER CHEV POIDS PIEDS new.x<-data.frame(BIP=14.2, LATHO=23.5, LOMAIN=15.9, STAT=148.2, PERPOIGN=15.5, PERCHEV=23, POIDS=36, PIEDS=38) new.x Exercice
  • 137. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 137 Prédiction nouvelles valeurs des prédicteurs ex: AGE? 14,2 23,5 15,9 148,2 15,5 23 36 38 BIP LA THO LO MAIN STAT PER POiGN PER CHEV POIDS PIEDS new.x<-data.frame(BIP=14.2, LATHO=23.5, LOMAIN=15.9, STAT=148.2, PERPOIGN=15.5, PERCHEV=23, POIDS=36, PIEDS=38) new.xBIP LATHO LOMAIN STAT PERPOIGN PERCHEV POIDS PIEDS1 14.2 23.5 15.9 148.2 15.5 23 36 38 Exercice
  • 138. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 138 Prédiction nouvelles valeurs des prédicteurs ex: AGE? 14,2 23,5 15,9 148,2 15,5 23 36 38 BIP LA THO LO MAIN STAT PER POiGN PER CHEV POIDS PIEDS AX<-predict(reg1,newdata=new.x,se.fit=TRUE) $fit [1] 10.96339 $se.fit [1] 0.09568086 $residual.scale [1] 1.084217 age réel = 11 ans Exercice
  • 139. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 139 Prédiction nouvelles valeurs des prédicteurs ex: AGE? 14,2 23,5 15,9 148,2 15,5 23 36 38 BIP LA THO LO MAIN STAT PER POiGN PER CHEV POIDS PIEDS AX<-predict(reg1,newdata=new.x,se.fit=TRUE) $fit [1] 10.96339 $se.fit [1] 0.09568086 $residual.scale [1] 1.084217 age réel = 11 ans Exercice
  • 140. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 140 Intervalle de confiance Intervalle de prédiction age réel = 11 ans Exercice predict(reg1,newdata=new.x,se.fit=TRUE,interval="prediction" ) predict(reg1,newdata=new.x,se.fit=TRUE,interval="confidence" ) $fit fit lwr upr 1 10.96339 10.77563 11.15115 $fitfit lwr upr1 10.96339 8.827496 13.09928
  • 141. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 141 Sélection de variables Guillaume d’Ockham, 1285-1349 «Les multiples ne doivent pas êtres utilisés sans nécessité» = principe de parcimonie => ne pas ajouter de nouvelles variables tant que celles présentes suffisent => balance entre explication / prédiction trop de variables: explication + / prédiction – overfitting~hyperadéquation ... 7. Multiple
  • 142. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 142 Critère de sélection Akaike Information Criterion AIC AIC=2p-2ln(L) nombre de paramètres vraisemblance=>AIC le plus petit possible Sélection de variables ... 7. Multiple
  • 143. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 143 Critère de sélection Akaike Information Criterion AIC AIC=2p-2ln(L) nombre de paramètres vraisemblance =>AIC le plus petit possible Sélection de variables ... 7. Multiple
  • 144. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 144 Sélection de variables: pas à pas reglow<-lm(AGE~1+STAT) summary(reglow) Call: glm(formula = AGE ~ 1 + STAT) Deviance Residuals: Min 1Q Median 3Q Max -3.22224 -0.74277 -0.02807 0.73413 4.29016 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -11.909459 0.244761 -48.66 <2e-16 *** STAT 0.153978 0.001674 91.98 <2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for gaussian family taken to be 1.218439) Null deviance: 11524 on 999 degrees of freedom Residual deviance: 1216 on 998 degrees of freedom AIC: 3039.4 Number of Fisher Scoring iterations: 2 Exercice
  • 145. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 145 Sélection de variables: pas à pas reglow<-lm(AGE~1+STAT) summary(reglow) Call: lm(formula = AGE ~ 1 + STAT) Residuals: Min 1Q Median 3Q Max -3.22224 -0.74277 -0.02807 0.73413 4.29016 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -11.909459 0.244761 -48.66 <2e-16 *** STAT 0.153978 0.001674 91.98 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.104 on 998 degrees of freedom Multiple R-squared: 0.8945, Adjusted R-squared: 0.8944 F-statistic: 8460 on 1 and 998 DF, p-value: < 2.2e-16 Exercice
  • 146. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 146 Sélection de variables: pas à pas aicreg<-stepAIC(reg1,scope=list(upper=reg1,lower=reglow),direction=c("both")) Exercice
  • 147. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 147 Régression linéaire Multiple Sélection de variables: pas à pas aicreg<-stepAIC(reg1,scope=list(upper=reg,lower=reg1),direction=c("both")) Start: AIC=170.67 AGE ~ 1 + BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + PIEDS + STAT + POIDS Df Sum of Sq RSS AIC -PIEDS 1 0.0011 1165.0 168.68 -BIP 1 0.4384 1165.4 169.05 <none> 1165.0 170.68 -LOMAIN 1 3.4116 1168.4 171.60 -PERCHEV 1 3.7755 1168.7 171.91 -POIDS 1 9.6243 1174.6 176.90 -PERPOIGN 1 10.0043 1175.0 177.23 -LATHO 1 24.6905 1189.6 189.65 Step: AIC=168.68 AGE ~ BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS Df Sum of Sq RSS AIC -BIP 1 0.4433 1165.4 167.06 <none> 1165.0 168.68 -LOMAIN 1 3.6758 1168.6 169.83 -PERCHEV 1 4.0625 1169.0 170.16 + PIEDS 1 0.0011 1165.0 170.68 -POIDS 1 9.9216 1174.9 175.16 -PERPOIGN 1 10.4397 1175.4 175.60 -LATHO 1 24.7051 1189.7 187.66
  • 148. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 148 Régression linéaire Multiple Sélection de variables: pas à pas aicreg<-stepAIC(reg1,scope=list(upper=reg,lower=reg1),direction=c("both")) Step: AIC=167.06 AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS Df Sum of Sq RSS AIC <none> 1165.4 167.06 -PERCHEV 1 3.7648 1169.2 168.28 -LOMAIN 1 3.8633 1169.2 168.37 + BIP 1 0.4433 1165.0 168.68 + PIEDS 1 0.0060 1165.4 169.05 -POIDS 1 9.7153 1175.1 173.36 -PERPOIGN 1 10.6173 1176.0 174.12 -LATHO 1 26.2754 1191.7 187.35
  • 149. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 149 Sélection de variables: modèle final regfin<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) Call: lm(formula=AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.14469 -0.73537 -0.04168 0.68040 4.37259 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -12.611320 0.592893 -21.271 < 2e-16 *** LATHO 0.124299 0.026270 4.732 2.55e-06 *** LOMAIN 0.104090 0.057371 1.814 0.0699 . PERPOIGN -0.137719 0.045788 -3.008 0.0027 ** PERCHEV -0.044138 0.024643 -1.791 0.0736 . STAT 0.154353 0.006506 23.724 < 2e-16 *** POIDS -0.020256 0.007040 -2.877 0.0041 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.083 on 993 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8983 F-statistic: 1471 on 6 and 993 DF, p-value: < 2.2e-16 Exercice
  • 150. Call: lm(formula=AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.14469 -0.73537 -0.04168 0.68040 4.37259 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -12.611320 0.592893 -21.271 < 2e-16 *** LATHO 0.124299 0.026270 4.732 2.55e-06 *** LOMAIN 0.104090 0.057371 1.814 0.0699 . PERPOIGN -0.137719 0.045788 -3.008 0.0027 ** PERCHEV -0.044138 0.024643 -1.791 0.0736 . STAT 0.154353 0.006506 23.724 < 2e-16 *** POIDS -0.020256 0.007040 -2.877 0.0041 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.083 on 993 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8983 F-statistic: 1471 on 6 and 993 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 150 Sélection de variables: modèle final regfin<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) Exercice
  • 151. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 151 Interaction entre les variables ... 7. Multiple
  • 152. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 152 Interaction En moyenne: AGE= +1.LATHO+2.LOMAIN+3.PERPOIGN +4.PERCHEV+5.STAT+6.POIDS +7.LOMAIN.STAT+8.LATHO.POIDS+9.POIDS.STAT regint<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS+LOMAIN:STAT+LATHO:POIDS+POIDS:STAT) ... 7. Multiple
  • 153. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 153 Call: lm(formula = AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STAT) Residuals: Min 1Q Median 3Q Max -3.158979 -0.691690 -0.009895 0.639070 3.631405 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.887e+01 2.750e+00 -6.861 1.21e-11 *** LATHO 1.812e-01 5.837e-02 3.105 0.001957 ** LOMAIN 4.456e-01 2.862e-01 1.557 0.119725 PERPOIGN -2.179e-01 4.417e-02 -4.932 9.53e-07 *** PERCHEV -7.357e-02 2.348e-02 -3.134 0.001776 ** STAT 1.875e-01 1.715e-02 10.932 < 2e-16 *** POIDS 1.787e-01 5.293e-02 3.376 0.000763 *** LOMAIN:STAT -2.090e-03 1.892e-03 -1.105 0.269638 LATHO:POIDS -1.412e-03 1.165e-03 -1.212 0.225948 STAT:POIDS -8.564e-04 4.194e-04 -2.042 0.041409 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.024 on 990 degrees of freedom Multiple R-squared: 0.9099, Adjusted R-squared: 0.9091 F-statistic: 1111 on 9 and 990 DF, p-value: < 2.2e-16
  • 154. Call: lm(formula = AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STAT) Residuals: Min 1Q Median 3Q Max -3.158979 -0.691690 -0.009895 0.639070 3.631405 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.887e+01 2.750e+00 -6.861 1.21e-11 *** LATHO 1.812e-01 5.837e-02 3.105 0.001957 ** LOMAIN 4.456e-01 2.862e-01 1.557 0.119725 PERPOIGN -2.179e-01 4.417e-02 -4.932 9.53e-07 *** PERCHEV -7.357e-02 2.348e-02 -3.134 0.001776 ** STAT 1.875e-01 1.715e-02 10.932 < 2e-16 *** POIDS 1.787e-01 5.293e-02 3.376 0.000763 *** LOMAIN:STAT -2.090e-03 1.892e-03 -1.105 0.269638 LATHO:POIDS -1.412e-03 1.165e-03 -1.212 0.225948 STAT:POIDS -8.564e-04 4.194e-04 -2.042 0.041409 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.024 on 990 degrees of freedom Multiple R-squared: 0.9099, Adjusted R-squared: 0.9091 F-statistic: 1111 on 9 and 990 DF, p-value: < 2.2e-16 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 154
  • 155. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 155Start: AIC=57.65AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STATDf Sum of Sq RSS AIC-LOMAIN:STAT 1 1.2796 1039.7 56.884-LATHO:POIDS 1 1.5397 1039.9 57.135<none> 1038.4 57.653-STAT:POIDS 1 4.3738 1042.7 59.856-PERCHEV 1 10.3005 1048.7 65.524 -PERPOIGN 1 25.5159 1063.9 79.929 aicreg<-stepAIC(regint,scope=list(upper=regint,lower=reglow), direction=c("both")) Exercice (...)
  • 156. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 156Step: AIC=56.88AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LATHO:POIDS + STAT:POIDSDf Sum of Sq RSS AIC-LATHO:POIDS 1 0.711 1040.4 55.568<none> 1039.7 56.884+ LOMAIN:STAT 1 1.280 1038.4 57.653-LOMAIN 1 6.496 1046.2 61.114-PERCHEV 1 10.573 1050.2 65.003-PERPOIGN 1 26.222 1065.9 79.793-STAT:POIDS 1 50.998 1090.7 102.772Step: AIC=55.57AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + STAT:POIDSDf Sum of Sq RSS AIC<none> 1040.4 55.568+ LATHO:POIDS 1 0.711 1039.7 56.884+ LOMAIN:STAT 1 0.451 1039.9 57.135-LOMAIN 1 6.699 1047.1 59.986-PERCHEV 1 10.513 1050.9 63.622-LATHO 1 22.727 1063.1 75.178-PERPOIGN 1 25.628 1066.0 77.903-STAT:POIDS 1 125.029 1165.4 167.056 Exercice
  • 157. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 157 Call: lm(formula=AGE~LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS+STAT:POIDS) Residuals: Min 1Q Median 3Q Max -3.12506 -0.68523 -0.01197 0.65241 3.61796 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.583e+01 6.333e-01 -24.997 < 2e-16 *** LATHO 1.157e-01 2.485e-02 4.655 3.68e-06 *** LOMAIN 1.373e-01 5.432e-02 2.527 0.01165 * PERPOIGN -2.170e-01 4.389e-02 -4.943 9.01e-07 *** PERCHEV -7.427e-02 2.346e-02 -3.166 0.00159 ** STAT 1.768e-01 6.486e-03 27.265 < 2e-16 *** POIDS 2.246e-01 2.339e-02 9.602 < 2e-16 *** STAT:POIDS -1.382e-03 1.266e-04 -10.919 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.024 on 992 degrees of freedom Multiple R-squared: 0.9097, Adjusted R-squared: 0.9091 F-statistic: 1428 on 7 and 992 DF, p-value: < 2.2e-16 Summary(aicreg) Exercice
  • 158. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 158 Vérifier l’adéquation: Donner les intervalles de confiance des paramètres Vérifier les conditions d’applicationR²=0.9097212 Exercice confint(regfin) 2.5 % 97.5 % (Intercept) -17.071155758 -14.588806731 LATHO 0.066963177 0.164356035 LOMAIN 0.030823120 0.243748696 PERPOIGN -0.302970654 -0.130934549 PERCHEV -0.120248659 -0.028292907 STAT 0.164115926 0.189539112 POIDS 0.178761670 0.270460878 STAT:POIDS -0.001629865 -0.001133776
  • 159. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 159 Vérifier l’adéquation: Donner les intervalles de confiance des paramètres Vérifier les conditions d’application R²=0.9097212Exercice confint(regfin) 2.5 % 97.5 % (Intercept) -17.071155758 -14.588806731 LATHO 0.066963177 0.164356035 LOMAIN 0.030823120 0.243748696 PERPOIGN -0.302970654 -0.130934549 PERCHEV -0.120248659 -0.028292907 STAT 0.164115926 0.189539112 POIDS 0.178761670 0.270460878 STAT:POIDS -0.001629865 -0.001133776
  • 160. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 160 Exercice par(mfrow=c(2,2)) plot(aicreg) 051015 -2024 Fitted values Residuals Residuals vs Fitted892242228-3-2-10123 -3-2-101234 Theoretical Quantiles Standardized residuals Normal Q-Q892242228051015 0.00.51.01.5 Fitted values Standardized residuals Scale-Location8922422280.000.010.020.030.040.050.06 -2024 Leverage Standardized residuals Cook's distanceResiduals vs Leverage892418451
  • 161. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 161 Références J. Bouyer: Méthodesstatistiques, Médecine-Biologie, edINSERM J. Bouyer: Epidémiologiequantitative, edINSERM CIMES: Biostatistiques, edOmnisciences JJ. Faraway: Linear Models with R, edChapman&Hall Contactjean.gaudart@univmed.fr http://lertim.org Labo. d’Enseignementet de Recherchesurle Traitementde l’InformationMédicale, Facultéde Médecinede Marseille