2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
1 
Principe de laRégression Linéaire
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
2 
Plan 
1.Question pratique 
2.Définition de la régression 
3.Estimation de la droite de régression 
4.Test de la pente 
5.Précision de la droite de régression 
6.Adéquation du modèle 
7.Régression Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
3 
I. Question pratique 
Lien entre la taille et l'âge ? 
Quand l'âge , la taille ? 
Connaissant l'âge, peut-on prédire la taille? 
But médical: détecter les retards de croissances 
1. Question
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
4 
Exercice 
Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles 
Importer le fichier de données FILLES.xls 
Moyenne globale de l’AGE 
m= ? mois 
Variance globale de l’AGE 
s²= ? mois2 
Graphiques 
ATF<-read.csv2("D:BIOSTATFILLES.csv", header=TRUE) 
transformer le fichier filles.xls en FILLES.csv 
attach(ATF) 
mean(AGE) 
var(AGE) 
hist(AGE, col="blue") 
boxplot(AGE, col="blue") 
par(mfrow=c(1,2))
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
5 
Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles 
Importer le fichier de données filles.xls 
Moyenne globale de l’AGE 
m= 112,12mois 
Variance globale de l’AGE 
s²= 6265,86mois2 
Graphiques 
ATF<-read.csv2("D:BIOSTATfilles.csv", header=TRUE) 
transformer le fichier filles.xls en filles.csv 
attach(ATF) 
mean(AGE) 
Exercice 
var(AGE) 
hist(AGE, col="blue") 
boxplot(AGE, col="blue") 
par(mfrow=c(1,2))
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
6 
Exercice 
Histogram of AGEAGE Frequency 050100200 020406080100050100150200250
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
7 
Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles 
Moyenne globale de la Taille (TAIL) 
m= ? cm 
Variance globale de la Taille (TAIL) 
s²= ? cm2 
Graphiques 
mean(TAIL) 
var(TAIL) 
hist(TAIL, col="red") 
boxplot(TAIL, col="red") 
Exercice 
par(mfrow=c(1,2))
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
8 
Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles 
Moyenne globale de la Taille (TAIL) 
m= 122,83cm 
Variance globale de la Taille (TAIL) 
s²= 1317,43cm2 
Graphiques 
mean(TAIL) 
var(TAIL) 
Exercice 
hist(TAIL, col="red") 
boxplot(TAIL, col="red") 
par(mfrow=c(1,2))
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
9 
Exercice 
Histogram of TAILTAIL Frequency 4080120160 020406080100406080100120140160180
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
10 
représenter la taille en fonction de l’age 
plot(AGE, TAIL) 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
11 
Exercice 
050100150200250 406080100120140160180 AGE TAIL
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
12 
II. Définition 
Régression de Y en X: 
Y= taille (cm) 
X= âge (mois) 
Comment la Taille évolue enfonctionde l'Age ? 
Taille= f(Age) 
1. Question 
2. Définition
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 13 
Comment évolue la Taille? 
= Quelle valeur de la Taille ? 
=>Pour chaque Age 
=> Sachant l'âge 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
1. Question 
2. Définition
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 14 
Comment évolue la Taille? 
= Quelle valeur de la Taille ? 
=>Pour chaque Age 
=> Sachant l'âge 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
18 mois 
1. Question 
2. Définition
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 15 
Comment évolue la Taille? 
= Quelle valeur de la Taille ? 
=>Pour chaque Age 
=> Sachant l'âge 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
? 
18 mois 
1. Question 
2. Définition
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
16 
Chez les filles de 18 mois, 
quelle est la taille moyenne? 
Quells est la variance de la taille ? 
Quelle est la distribution ? 
Exercice 
mean(TAIL[AGE==18]) 
hist(TAIL[AGE==18],col="magenta") 
var(TAIL[AGE==18])
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
17 
18 mois: quelle Taille? 
Moyenne observée: 
M(T/A=18)=79,23 cm 
Variance observée: 
V(T/A=18)=9,36 cm2 
Exercice
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 18 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
E(Taille / Age) 
1. Question 
Distribution conditionnelle 2. Définition
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 19 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
L(Taille / Age) 
1. Question 
Distribution conditionnelle 2. Définition
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 20 
Fonction de régression 
 Taille fonction de l'âge: 
M(Taille/Age)= f(Age) 
 Fonction f(): droite 
E(Taille / Age)    Age 
1. Question 
2. Définition
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 21 
Fonction de régression 
 Taille fonction de l'âge: 
M(Taille/Age)= f(Age) 
 Fonction f(): droite 
 Pour chaque sujet 
E(Taille / Age)    Age 
1. Question 
2. Définition 
Taille    Age 
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 22 
Fonction de régression 
 Taille fonction de l'âge: 
E(Taille/Age)= f(Age) 
 Fonction f(): droite 
 Pour chaque sujet 
E(Taille / Age)    Age 
1. Question 
2. Définition 
Taille    Age 
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 23 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
1. Question 
2. Définition Erreur individuelle
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 24 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
1. Question 
2. Définition Erreur individuelle
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 25 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
erreur 
1. Question 
2. Définition Erreur individuelle
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 26 
 Pourquoi Linéaire et pas un 
Polynôme? 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
... 3 
3 
2 
1 2 Y   X  X  X 
1. Question 
2. Définition
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
27 
Régression linéaire: 
modèle le plus simple: 
Interprétation 
Estimations des paramètres 
Prédiction 
1. Question 
2. Définition
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
28 
III. Estimation 
Droite de régression: 
Résume le mieuxle nuage de point 
=> La plus proche de tous les points 
=> Erreurs petits +++ 
1. Question 
2. Définition 
3. Estimation
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 29 
 Estimer  et  tel que  petits +++ 
 i: écart entre la droite et le point i 
i i i y    x  
E(Y / X)    X 
1. Question 
2. Définition 
3. Estimation 
Principe de l'estimation
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 30 
 Estimer  et  tel que  petits +++ 
 i: écart entre la droite et le point i 
i i i y    x  
E(Y / X)    X 
y E(Y / X) i i    
1. Question 
2. Définition 
3. Estimation 
Principe de l'estimation
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 31 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
i 
Erreur individuelle 
1. Question 
2. Définition 
3. Estimation
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 32 
Principe de l'estimation 
 Somme des Carrés des Ecarts 
 Estimer  et  tel que: 
SCE minimum 
 
 
  
n 
i 
SCE ( i ) 
1 
2 
1. Question 
2. Définition 
3. Estimation
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
33 
Estimation de le pente  
1. Question 
2. Définition 
3. Estimation 
bcovXYvarX
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 34 
 Estimation de le pente  
1. Question 
2. Définition 
3. Estimation 
b 
cov XY 
var X
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 35 
 Estimation de le pente  
1. Question 
2. Définition 
3. Estimation 
b 
cov XY 
var X
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 36 
Rappels 
 Estimation de Variance de X: 
 Estimation de la covariance de XY 
cov XY i 1 
n 
xi yi 
1 
n i 1 
n 
xi 
i 1 
n 
yi 
n 1 
S2 X i 1 
n 
xi 
2 1 
n i 1 
n 
x i 
2 
n 1 
1. Question 
2. Définition 
3. Estimation
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 37 
Covariance de la taille et de l’âge: 
cov(TAIL,AGE) 
Variance de l’âge 
var(AGE) 
Estimation de  
b<-cov(TAIL,AGE)/var(AGE) 
b 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
38 
Covariance de la taille et de l’âge: 
cov(TAIL,AGE) = 2742.587 
Variance de l’âge 
var(AGE) 
Estimation de  
b<-cov(TAIL,AGE)/var(AGE) 
b =0.437703Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
39 
Estimation de : 
La droite passe par mYet mX 
1. Question 
2. Définition 
3. Estimation 
mYabmX
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 40 
 Estimation de  : 
 La droite passe par mY et mX 
1. Question 
2. Définition 
3. Estimation 
mY a bm X 
a mY bm X
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
41 
Estimation de : 
a<-mean(TAIL)-b*mean(AGE) 
a =73.729Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
42 
Estimation de : 
a<-mean(TAIL)-b*mean(AGE) 
a =73.729 
l’équation s’écrit donc: Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
43 
Estimation de : 
a<-mean(TAIL)-b*mean(AGE) 
a =73.729 
l’équation s’écrit donc: 
Taille=73.73 +0.44 Age +  
ou 
E(Taille/Age)=73.73 +0.44 AgeExercice
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 44 
Interprétation 
 Pente : 
 =0: pas de lien, évolutions indépendantes 
filles 
40 
50 
60 
70 
80 
90 
100 
0 5 10 15 20 25 30 35 
1. Question 
2. Définition 
3. Estimation
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 45 
Interprétation 
 Pente : 
 =0: pas de lien, évolutions indépendantes 
 <0: évolutions en sens contraire 
filles 
40 
50 
60 
70 
80 
90 
100 
0 5 10 15 20 25 30 35 
1. Question 
2. Définition 
3. Estimation
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 46 
Interprétation 
 Pente : 
 =0: pas de lien, évolutions indépendantes 
 <0: évolutions en sens contraire 
 >0: évolutions dans le même sens 
filles 
40 
50 
60 
70 
80 
90 
100 
0 5 10 15 20 25 30 35 
1. Question 
2. Définition 
3. Estimation
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 47 
 Ordonnée à l'origine  
filles 
40 
50 
60 
70 
80 
90 
100 
0 5 10 15 20 25 30 35 
E(Y / X  0)  
1. Question 
2. Définition 
3. Estimation
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
48 
IV. Test de la pente 
Si =0 => pas de lien entre Y et X 
Lien entre Y et X est-il significatif? 
=> 0? 
bestimation de  
Hasard=> fluctuation de b observé 
=> Test statistique 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 49 
Hypothèses: 
H0: =0,il n'y a pas de lien entre X et Y 
H1: 0, il y a un lien entre X et Y 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 50 
 Sous H0 
~> Student à n-2 ddl 
Avec 
2 
0 
b s 
b 
t 
 
 
2 
2 
2 
2 
2 
 
 
 
n 
b 
s 
s 
s X 
Y 
b 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
51 
Modèle linéaire: utilisation du logiciel R 
=> fonction lmlinear model 
mod1<-lm(TAIL~1+AGE) 
mod1 
Call: glm(formula = TAIL ~ 1 + AGE, family = gaussian) 
Coefficients: 
(Intercept) AGE 
73.7290 0.4377 
Degrees of Freedom: 636 Total (i.e. Null); 635 Residual 
Null Deviance: 837900 
Residual Deviance: 74410 AIC: 4846 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
52 
Modèle linéaire: utilisation du logiciel R 
=> fonction lmlinear model 
mod1<-lm(TAIL~1+AGE) 
mod1 
Call: lm(formula = TAIL ~ 1 + AGE) 
Coefficients: 
(Intercept) AGE 
73.7290 0.4377 
Exercice
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
53 
Modèle linéaire: utilisation du logiciel R 
=> fonction lmlinear model 
mod1<-lm(TAIL~1+AGE) 
mod1 
Call: lm(formula = TAIL ~ 1 + AGE) 
Coefficients: 
(Intercept) AGE 
73.7290 0.4377 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 54 
Modèle linéaire: utilisation du logiciel R 
=> fonction lmlinear model 
mod1<-lm(TAIL~1+AGE) 
mod1 
Call: lm(formula = TAIL ~ 1 + AGE) 
Coefficients: 
(Intercept) AGE 
73.7290 0.4377 Exercice 
a 
b
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
55Call: glm(formula = TAIL ~ 1 + AGE, family = gaussian) Deviance Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for gaussian family taken to be 117.1764) Null deviance: 837886 on 636 degrees of freedomResidual deviance: 74407 on 635 degrees of freedomAIC: 4846.2Number of Fisher Scoring iterations: 2 
summary(mod1)Exercice
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
56 
Call: lm(formula = TAIL ~ AGE) 
Residuals: 
Min 1Q Median 3Q Max 
-40.030 -6.899 2.999 8.120 24.999 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 73.729005 0.744041 99.09 <2e-16 *** 
AGE 0.437703 0.005423 80.72 <2e-16 *** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 10.82 on 635 degrees of freedom 
Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111 
F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 
summary(mod1)Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
57 
Call: lm(formula = TAIL ~ AGE) 
Residuals: 
Min 1Q Median 3Q Max 
-40.030 -6.899 2.999 8.120 24.999 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 73.729005 0.744041 99.09 <2e-16 *** 
AGE 0.437703 0.005423 80.72 <2e-16 *** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 10.82 on 635 degrees of freedom 
Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111 
F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 
summary(mod1) 
Exerciceab
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
58Call: lm(formula = TAIL ~ AGE) Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.82 on 635 degrees of freedomMultiple R-squared: 0.9112, Adjusted R-squared: 0.9111 F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 
summary(mod1)Exercice 
test =0
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
59 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)constantes pour tout X 
à X donné, Yiindépendants 
La régression est linéaire 
1. Question 
2. Définition 
3. Estimation 
4. Test 

2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
60 
Linéarité 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
61 
Linéarité 
1. Question 
2. Définition 
3. Estimation 
4. Test 
Perte de Puissance
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 62 
Linéarité 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 63Perte de Puissance 
Linéarité 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
64 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)constantes pour tout X 
homoscédasticité 
à X donné, Yiindépendants 
La régression est linéaire 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
65 
qqnorm 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)constantes pour tout X 
homoscédasticité 
à X donné, Yiindépendants 
La régression est linéaire 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
66 
qqnorm 
plot(résidus,age estimé) 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)constantes pour tout X 
homoscédasticité 
à X donné, Yiindépendants 
La régression est linéaire 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
67 
qqnorm 
plot(résidus,age estimé) 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)constantes pour tout X 
homoscédasticité 
à X donné, Yiindépendants 
La régression est linéaireprotocole 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
68qqnorm 
plot(taille estimée,résidus) 
plot(taille,age) 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)constantes pour tout X 
homoscédasticité 
à X donné, Yiindépendants 
La régression est linéaireprotocole 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 69 
L(Y/X)~>N 
qqnorm(mod1$res) 
qqline(mod1$res) Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
70 
plot(mod1$fitted,mod1$res) Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
71 
hétéroscédasticité 
non-linéarité 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 72 
filles 
30 
50 
70 
90 
110 
130 
150 
170 
190 
0 50 100 150 200 250 
TAILLE(cm) 
AGE(mois) 
Exercice plot(AGE,TAIL)
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 73 
filles 
30 
50 
70 
90 
110 
130 
150 
170 
190 
0 50 100 150 200 250 
TAILLE(cm) 
AGE(mois) 
Exercice plot(AGE,TAIL)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
74 
Exercice 
050100150200250 406080100120140160180 AGE TAIL
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 75 
80 100 120 140 160 180 
-40 -20 0 20 
Fitted values 
Residuals 
Residuals vs Fitted 
392 
295 390 
-3 -2 -1 0 1 2 3 
-3 -2 -1 0 1 2 3 
Theoretical Quantiles 
Standardized residuals 
Normal Q-Q 
392 
392095 
80 100 120 140 160 180 
0.0 0.5 1.0 1.5 2.0 
Fitted values 
Standardized residuals 
Scale-Location 
392 
295 390 
0.000 0.002 0.004 0.006 
-4 -3 -2 -1 0 1 2 3 
Leverage 
Standardized residuals 
Cook's distance 
Residuals vs Leverage 
392 
339403 
par(mfrow=c(2,2)) 
plot(mod1)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 76 
V. Précision 
Hasard=> fluctuation de b 
Intervalle de confiance de la pente 
b~>tn-2 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
222b,nstb
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 77 
V. Précision 
 Hasard=> fluctuation de b 
 Intervalle de confiance de la pente 
 b~>tn-2 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
2 
2 
n 2, b 
b t   s  
 Conditions d'applications 
 L(Y/X)~>N 
 V(Y/X) constantes pour tout X 
 à X donné, Yi indépendants 
 La régression est linéaire 

2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
78 
Intervalles de confiance des paramètres 
confint(mod1) 
Exercice 
2.5 % 97.5 % 
(Intercept) 72.2707108 75.1872989 
AGE 0.42707510.4483309
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
79 
Intervalles de confiance des paramètres 
confint(mod1) Exercice 
2.5 % 97.5 % 
(Intercept) 72.2707108 75.1872989 
AGE 0.42707510.4483309
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 80 
 Intervalle de confiance de la droite 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
E(Y / X)  X 
Estimé par m a bX Y X   / 
2 
2 
Y X n 2, mY X m t  s 
 
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 81 
 Intervalle de confiance de la droite 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
E(Y / X)  X 
Estimé par m a bX Y X   / 
2 
2 
Y X n 2, mY X m t  s 
  
 Conditions d'applications 
 L(Y/X)~>N 
 V(Y/X) constantes pour tout X 
 à X donné, Yi indépendants 
 La régression est linéaire 

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 82 
42 
52 
62 
72 
82 
92 
0 5 10 15 20 25 30 35 
Taille=73.73+0.44xAge+ 
IC 95% 
mX=15,5 
mY=73,6
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
83 
Intervalle de prédiction 
Pour un Age (X) fixé, prédictionde la Taille (Y) 
Yp= a + b X 
Taillep=73,73+0,44 Age 
Précision: 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
22,2pystynp
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 84 
42 
52 
62 
72 
82 
92 
102 
0 5 10 15 20 25 30 35 
IC 95% 
IP 95% 
Taille=73.73+0.44xAge+
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
85 
valeur de l’âge: 
Prédiction/ estimation d’une taille 
predict(mod1, newdata=new.x, se.fit=TRUE) 
Exercice 
new.x=data.frame(AGE=18.2) 
$fit 
[1] 81.6952 
$se.fit 
[1] 0.6658326 
$residual.scale 
[1] 10.82480
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
86 
valeur de l’âge: 
Prédiction/ estimation d’une taille 
predict(mod1, newdata=new.x, se.fit=TRUE) 
Exercice 
new.x=data.frame(AGE=18.2) $fit[1] 81.6952$se.fit[1] 0.6658326$residual.scale[1] 10.82480
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
87 
valeur de l’âge: 
Prédiction/ estimation d’une taille 
TX<-predict(mod1, newdata=new.x, se.fit=TRUE) 
Exercice 
new.x=data.frame(AGE=18.2) $fit[1] 81.6952$se.fit[1] 0.6658326$residual.scale[1] 10.82480
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 88 
 Intervalle de confiance de la taille estimée: 
 Intervalle de prédiction de la taille prédite: 
2 
2, 2 
yp 
y t s p n   
Predint<-predict(mod1,newdata=new.x,interval="prediction") 
Confint<-predict(mod1,newdata=new.x,interval="confidence")
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
89 
Exercice 
Intervalle de confiance de la taille estimée: 
Intervalle de prédiction de la taille prédite: 
Confint$fitPredint$fit 
fit lwr upr 
1 81.6952 80.3877 83.0027 
fit lwr upr 
1 81.6952 60.39828 102.9921
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 90 
VI. Adéquation 
Le modèle est-il un bon résumé des observations? 
Pourcentage de variance expliquée: 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
Part de variance expliquée par la régression 
Variance totaleR2=
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
91 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
mY 
mX
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
92 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. AdéquationmY 
mX 
Variance totale S2Y
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
93 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. AdéquationmY 
Variance totale S2Y 
mY/X
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
94 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
mY 
Variance totale S2YmY/X 
Variance expliquée
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
95 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
mY 
Variance totale S2YmY/X 
Variance expliquée 
)my(ecart)mm(ecartRYYX/Y   2
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 96 
 Pourcentage de variance expliquée: 
 Exemple: R2=88% 
 Remarque: 
R: estimation du coefficient de 
corrélation entre X et Y 
  
  
 
 
 
 
2 
2 
2 
i Y 
Y / X Y 
y m 
m m 
R i 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
97 
Estimation du coefficient de corrélationentre X et Y 
Estimation de R² 
Exercice 
r<-cor(TAIL,AGE) 
var(mod1$fitted.value)/var(TAIL) 
r*r 
ou 
0.9545663 
0.9111967
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
98 
Estimation du coefficient de corrélationentre X et Y 
Estimation de R² 
Exercice 
r<-cor(TAIL,AGE) 
var(mod1$fitted.value)/var(TAIL) 
r*r 
ou 
0.9545663 
0.9111967
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
99 
Call: lm(formula = TAIL ~ AGE) 
Residuals: 
Min 1Q Median 3Q Max 
-40.030 -6.899 2.999 8.120 24.999 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 73.729005 0.744041 99.09 <2e-16 *** 
AGE 0.437703 0.005423 80.72 <2e-16 *** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 10.82 on 635 degrees of freedom 
Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111 
F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 
summary(mod1)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
100 
VII. Régression multiple 
Plusieurs causes dans l'évolution de la taille: 
Age (X1) 
Facteur socio-économiques (X2) 
Taux d'hormones de croissance (X3) 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
7. Multiple 
332211321),,/(XXXXXXYE
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 101 
 Estimation: 
 , 1, 2, 3 estimés en tenant 
compte des 3 VA 
=> Ajustement 
 Interactions 
1 2 3 1 1 2 2 3 3 4 2 3 E(Y / X , X , X )   X  X  X  X X 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
7. Multiple
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 102 
 Estimation: 
 , 1, 2, 3 estimés en tenant 
compte des 3 VA 
=> Ajustement 
 Interactions 
1 2 3 1 1 2 2 3 3 4 2 3 E(Y / X , X , X )   X  X  X  X X 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
103 
Tests des 1, 2, 3à 0 
Interprétation identique 
Adéquation identique 
Approche pas à pas 
Choix des variables: notion de modèle 
Variables très corrélées 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
104 
Prédire l’âge en fonction de 8 mesures 
Crâne (BIP) 
Tronc (LATHO) 
Membres supérieurs et inférieurs (LOMAIN, PERPOIGN, PERCHEV, PIEDS) 
Globales (STAT, POIDS) 
Echantillon de 1000 enfants de 2 à 16 ans 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
105 
En moyenne: 
AGE= +1xBIP+2xLATHO+3xLOMAIN+ 
4xPERPOIGN+5xPERCHEV+6xPIEDS+ 
7xSTAT+8xPOIDS 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
106 
En moyenne: 
AGE= +1xBIP+2xLATHO+3xLOMAIN+ 
4xPERPOIGN+5xPERCHEV+6xPIEDS+ 
7xSTAT+8xPOIDS 
Exercice 
TP<-read.csv2("C:BIOSTATAGE.csv", header=TRUE)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
107 
En moyenne: 
AGE= +1xBIP+2xLATHO+3xLOMAIN+ 
4xPERPOIGN+5xPERCHEV+6xPIEDS+ 
7xSTAT+8xPOIDS 
Statistiques descriptives 
Exercice 
TP<-read.csv2("C:BIOSTATAGE.csv", header=TRUE) 
mean(AGE) 
var(AGE) 
hist(AGE) 
attach(TP)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
108 
En moyenne: 
AGE= +1xBIP+2xLATHO+3xLOMAIN+ 
4xPERPOIGN+5xPERCHEV+6xPIEDS+ 
7xSTAT+8xPOIDS 
Statistiques descriptives 
Exercice 
mean(AGE) 
var(AGE) 
attach(TP) 
=10.373 
=11.53541 
TP<-read.csv2("C:BIOSTATAGE.csv", header=TRUE)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
109 
Graphique: 
splom (DATA) 
hist(AGE, col="blue") 
DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT) 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
110 
Exercice 
hist(AGE, col="blue")
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
111 
Graphique: 
splom (DATA) 
hist(AGE, col="blue") 
DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT) 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
112 
Graphique: 
splom (DATA) 
Exercice 
Erreur : impossible de trouver la fonction "splom" 
hist(AGE, col="blue") 
DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
113 
Graphique: 
splom (DATA) 
ExerciceErreur : impossible de trouver la fonction "splom" 
package lattice 
hist(AGE, col="blue") 
DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
114 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 115 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
116 
Estimation: 
reg1<-lm(AGE~1+BIP+LATHO+LOMAIN+PERPOIGN 
+PERCHEV+PIEDS+STAT+POIDS) 
AGE= +1xBIP+2xLATHO+3xLOMAIN+4xPERPOIGN 
+5xPERCHEV+6xPIEDS+7xSTAT+8xPOIDS 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 117 
summary(reg1) Call: glm(formula = AGE ~ 1 + BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + PIEDS + STAT + POIDS, family = gaussian) Deviance Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for gaussian family taken to be 1.175526) Null deviance: 11523.9 on 999 degrees of freedomResidual deviance: 1164.9 on 991 degrees of freedomAIC: 3010.6Number of Fisher Scoring iterations: 2Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
118 
summary(reg1) Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedomMultiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 
Exercice
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.12658 -0.72416 -0.04954 0.67239 4.36643 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** 
BIP 3.312e-02 5.423e-02 0.611 0.54156 
LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** 
LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . 
PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** 
PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . 
PIEDS 7.823e-04 2.612e-02 0.030 0.97611 
STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** 
POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.084 on 991 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 
F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
119 
summary(reg1) 
Exercicerégression
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.12658 -0.72416 -0.04954 0.67239 4.36643 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** 
BIP 3.312e-02 5.423e-02 0.611 0.54156 
LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** 
LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . 
PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** 
PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . 
PIEDS 7.823e-04 2.612e-02 0.030 0.97611 
STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** 
POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.084 on 991 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 
F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
120 
summary(reg1) 
Exercice 
Prédicteurs, 
Variables explicatives
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.12658 -0.72416 -0.04954 0.67239 4.36643 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** 
BIP 3.312e-02 5.423e-02 0.611 0.54156 
LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** 
LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . 
PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** 
PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . 
PIEDS 7.823e-04 2.612e-02 0.030 0.97611 
STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** 
POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.084 on 991 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 
F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 121 
summary(reg1) 
Exercice 
estimationsdes paramètres, ajustées
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.12658 -0.72416 -0.04954 0.67239 4.36643 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** 
BIP 3.312e-02 5.423e-02 0.611 0.54156 
LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** 
LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . 
PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** 
PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . 
PIEDS 7.823e-04 2.612e-02 0.030 0.97611 
STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** 
POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.084 on 991 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 
F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
122 
summary(reg1) 
Exercice 
AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV 
+0,001PIEDS+0,2STAT-0,02POIDS 
estimationsdes paramètres, ajustées
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.12658 -0.72416 -0.04954 0.67239 4.36643 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** 
BIP 3.312e-02 5.423e-02 0.611 0.54156 
LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** 
LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . 
PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** 
PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . 
PIEDS 7.823e-04 2.612e-02 0.030 0.97611 
STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** 
POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.084 on 991 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 
F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
123 
summary(reg1) 
Exercice 
AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV 
+0,001PIEDS+0,2STAT-0,02POIDS 
signification
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.12658 -0.72416 -0.04954 0.67239 4.36643 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** 
BIP 3.312e-02 5.423e-02 0.611 0.54156 
LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** 
LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . 
PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** 
PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . 
PIEDS 7.823e-04 2.612e-02 0.030 0.97611 
STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** 
POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.084 on 991 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 
F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
124 
summary(reg1) Exercice 
AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV 
+0,001PIEDS+0,2STAT-0,02POIDS 
signification
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 125 
Que faut-il regarder ensuite ? 
conditions d’application 
intervalles de confiance des paramètres 
adéquation: R² 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
126 
qqnorm 
plot(age estimé, résidus) 
plot(AGE,prédicteurs) 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)constantes pour tout X 
homoscédasticité 
à X donné, Yiindépendants 
La régression est linéaireprotocole 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Précision 
6. Adéquation 
7. Multiple
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 127 
qqnorm(reg1$res) 
qqline(reg1$res) 
5 10 15 
-4 -2 0 2 4 
Fitted values 
Residuals 
Residuals vs Fitted 
892 
994 
993 
-3 -2 -1 0 1 2 3 
-2 0 2 4 
Theoretical Quantiles 
Standardized residuals 
Normal Q-Q 
892 
994 
993 
5 10 15 
0.0 0.5 1.0 1.5 2.0 
Fitted values 
Standardized residuals 
Scale-Location 
892 
994 993 
0.00 0.02 0.04 0.06 
-2 0 2 4 
Leverage 
Standardized residuals 
Cook's distance 
Residuals vs Leverage 
993 
994 
418 
Exercice 
par(mfrow=c(2,2) 
plot(reg1)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 128 
confint(reg1) 2.5 % 97.5 % (Intercept) -14.63496676 -11.151092838BIP -0.07064460 0.146350137LATHO 0.07003811 0.178218882LOMAIN -0.03754588 0.206770294PERPOIGN -0.23572192 -0.046974279PERCHEV -0.09335361 0.010661467PIEDS -0.06133569 0.044411154STAT 0.14244571 0.171636649POIDS -0.03516689 -0.006578439Exercice 
Intervalles de confiance des paramètres
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
129 
2.5 % 97.5 % 
(Intercept) -14.70058351 -11.292408725 
BIP -0.07330209 0.139535454 
LATHO 0.06968244 0.174040764 
LOMAIN -0.01538828 0.218001320 
PERPOIGN -0.22908876 -0.044831392 
PERCHEV -0.09750881 0.004420695 
PIEDS -0.05047023 0.052034764 
STAT 0.14037312 0.168879663 
POIDS -0.03450573 -0.006430739 
confint(reg1) 
Exercice 
Intervalles de confiance des paramètres
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 130 
2.5 % 97.5 % 
(Intercept) -14.70058351 -11.292408725 
BIP -0.07330209 0.139535454 
LATHO 0.06968244 0.174040764 
LOMAIN -0.01538828 0.218001320 
PERPOIGN -0.22908876 -0.044831392 
PERCHEV -0.09750881 0.004420695 
PIEDS -0.05047023 0.052034764 
STAT 0.14037312 0.168879663 
POIDS -0.03450573 -0.006430739 
confint(reg1) Exercice 
Intervalles de confiance des paramètres
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
131 
2.5 % 97.5 % 
(Intercept) -14.70058351 -11.292408725 
BIP -0.07330209 0.139535454 
LATHO 0.06968244 0.174040764 
LOMAIN -0.01538828 0.218001320 
PERPOIGN -0.22908876 -0.044831392 
PERCHEV -0.09750881 0.004420695 
PIEDS -0.05047023 0.052034764 
STAT 0.14037312 0.168879663 
POIDS -0.03450573 -0.006430739 
confint(reg1) 
Exercice 
Intervalles de confiance des paramètres
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
132 
2.5 % 97.5 % 
(Intercept) -14.70058351 -11.292408725 
BIP -0.07330209 0.139535454 
LATHO 0.06968244 0.174040764 
LOMAIN -0.01538828 0.218001320 
PERPOIGN -0.22908876 -0.044831392 
PERCHEV -0.09750881 0.004420695 
PIEDS -0.05047023 0.052034764 
STAT 0.14037312 0.168879663 
POIDS -0.03450573 -0.006430739 
confint(reg1) 
Exercice 
Intervalles de confiance des paramètres
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
133 
2.5 % 97.5 % 
(Intercept) -14.70058351 -11.292408725 
BIP -0.07330209 0.139535454 
LATHO 0.06968244 0.174040764 
LOMAIN -0.01538828 0.218001320 
PERPOIGN -0.22908876 -0.044831392 
PERCHEV -0.09750881 0.004420695 
PIEDS -0.05047023 0.052034764 
STAT 0.14037312 0.168879663 
POIDS -0.03450573 -0.006430739 
confint(reg1) Exercice 
Intervalles de confiance des paramètres
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
134 
Exercice 
Adéquation: R² 
var(reg1$fitted.value)/var(AGE) 
0.8989102
POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.084 on 991 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 
F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
135 
Exercice 
Adéquation: R² 
var(reg1$fitted.value)/var(AGE) 0.8989102
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
136 
Prédiction 
nouvelles valeurs des prédicteurs 
ex: AGE? 
14,2 
23,5 
15,9 
148,2 
15,5 
23 
36 
38 
BIP 
LA 
THO 
LO 
MAIN 
STAT 
PER 
POiGN 
PER 
CHEV 
POIDS 
PIEDS 
new.x<-data.frame(BIP=14.2, LATHO=23.5, LOMAIN=15.9, 
STAT=148.2, PERPOIGN=15.5, PERCHEV=23, POIDS=36, PIEDS=38) 
new.x 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
137 
Prédiction 
nouvelles valeurs des prédicteurs 
ex: AGE? 
14,2 
23,5 
15,9 
148,2 
15,5 
23 
36 
38 
BIP 
LA 
THO 
LO 
MAIN 
STAT 
PER 
POiGN 
PER 
CHEV 
POIDS 
PIEDS 
new.x<-data.frame(BIP=14.2, LATHO=23.5, LOMAIN=15.9, 
STAT=148.2, PERPOIGN=15.5, PERCHEV=23, POIDS=36, PIEDS=38) 
new.xBIP LATHO LOMAIN STAT PERPOIGN PERCHEV POIDS PIEDS1 14.2 23.5 15.9 148.2 15.5 23 36 38 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
138 
Prédiction 
nouvelles valeurs des prédicteurs 
ex: AGE? 
14,2 
23,5 
15,9 
148,2 
15,5 
23 
36 
38 
BIP 
LA 
THO 
LO 
MAIN 
STAT 
PER 
POiGN 
PER 
CHEV 
POIDS 
PIEDS 
AX<-predict(reg1,newdata=new.x,se.fit=TRUE) 
$fit 
[1] 10.96339 
$se.fit 
[1] 0.09568086 
$residual.scale 
[1] 1.084217 
age réel = 11 ans 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
139 
Prédiction 
nouvelles valeurs des prédicteurs 
ex: AGE? 
14,2 
23,5 
15,9 
148,2 
15,5 
23 
36 
38 
BIP 
LA 
THO 
LO 
MAIN 
STAT 
PER 
POiGN 
PER 
CHEV 
POIDS 
PIEDS 
AX<-predict(reg1,newdata=new.x,se.fit=TRUE) 
$fit 
[1] 10.96339 
$se.fit 
[1] 0.09568086 
$residual.scale 
[1] 1.084217 
age réel = 11 ans 
Exercice
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
140 
Intervalle de confiance 
Intervalle de prédiction 
age réel = 11 ans 
Exercice 
predict(reg1,newdata=new.x,se.fit=TRUE,interval="prediction" ) 
predict(reg1,newdata=new.x,se.fit=TRUE,interval="confidence" ) 
$fit 
fit lwr upr 
1 10.96339 10.77563 11.15115 
$fitfit lwr upr1 10.96339 8.827496 13.09928
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
141 
Sélection de variables 
Guillaume d’Ockham, 1285-1349 
«Les multiples ne doivent 
pas êtres utilisés sans nécessité» 
= principe de parcimonie 
=> ne pas ajouter de nouvelles variables tant que celles présentes suffisent 
=> balance entre explication / prédiction 
trop de variables: explication + / prédiction – 
overfitting~hyperadéquation 
... 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
142 
Critère de sélection 
Akaike Information Criterion AIC 
AIC=2p-2ln(L) 
nombre de paramètres 
vraisemblance=>AIC le plus petit possible 
Sélection de variables 
... 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
143 
Critère de sélection 
Akaike Information Criterion AIC 
AIC=2p-2ln(L) 
nombre de paramètres 
vraisemblance 
=>AIC le plus petit possible 
Sélection de variables 
... 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
144 
Sélection de variables: pas à pas 
reglow<-lm(AGE~1+STAT) 
summary(reglow) 
Call: glm(formula = AGE ~ 1 + STAT) 
Deviance Residuals: 
Min 1Q Median 3Q Max 
-3.22224 -0.74277 -0.02807 0.73413 4.29016 
Coefficients: Estimate Std. Error t value Pr(>|t|) 
(Intercept) -11.909459 0.244761 -48.66 <2e-16 *** 
STAT 0.153978 0.001674 91.98 <2e-16 *** 
--- 
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
(Dispersion parameter for gaussian family taken to be 1.218439) 
Null deviance: 11524 on 999 degrees of freedom 
Residual deviance: 1216 on 998 degrees of freedom 
AIC: 3039.4 
Number of Fisher Scoring iterations: 2 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
145 
Sélection de variables: pas à pas 
reglow<-lm(AGE~1+STAT) 
summary(reglow) 
Call: lm(formula = AGE ~ 1 + STAT) 
Residuals: 
Min 1Q Median 3Q Max 
-3.22224 -0.74277 -0.02807 0.73413 4.29016 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -11.909459 0.244761 -48.66 <2e-16 *** 
STAT 0.153978 0.001674 91.98 <2e-16 *** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.104 on 998 degrees of freedom 
Multiple R-squared: 0.8945, Adjusted R-squared: 0.8944 
F-statistic: 8460 on 1 and 998 DF, p-value: < 2.2e-16 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
146 
Sélection de variables: pas à pas 
aicreg<-stepAIC(reg1,scope=list(upper=reg1,lower=reglow),direction=c("both")) 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
147 
Régression linéaire Multiple 
Sélection de variables: pas à pas 
aicreg<-stepAIC(reg1,scope=list(upper=reg,lower=reg1),direction=c("both")) 
Start: AIC=170.67 
AGE ~ 1 + BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + PIEDS + 
STAT + POIDS 
Df Sum of Sq RSS AIC 
-PIEDS 1 0.0011 1165.0 168.68 
-BIP 1 0.4384 1165.4 169.05 
<none> 1165.0 170.68 
-LOMAIN 1 3.4116 1168.4 171.60 
-PERCHEV 1 3.7755 1168.7 171.91 
-POIDS 1 9.6243 1174.6 176.90 
-PERPOIGN 1 10.0043 1175.0 177.23 
-LATHO 1 24.6905 1189.6 189.65 
Step: AIC=168.68 
AGE ~ BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS 
Df Sum of Sq RSS AIC 
-BIP 1 0.4433 1165.4 167.06 
<none> 1165.0 168.68 
-LOMAIN 1 3.6758 1168.6 169.83 
-PERCHEV 1 4.0625 1169.0 170.16 
+ PIEDS 1 0.0011 1165.0 170.68 
-POIDS 1 9.9216 1174.9 175.16 
-PERPOIGN 1 10.4397 1175.4 175.60 
-LATHO 1 24.7051 1189.7 187.66
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
148 
Régression linéaire Multiple 
Sélection de variables: pas à pas 
aicreg<-stepAIC(reg1,scope=list(upper=reg,lower=reg1),direction=c("both")) 
Step: AIC=167.06 
AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS 
Df Sum of Sq RSS AIC 
<none> 1165.4 167.06 
-PERCHEV 1 3.7648 1169.2 168.28 
-LOMAIN 1 3.8633 1169.2 168.37 
+ BIP 1 0.4433 1165.0 168.68 
+ PIEDS 1 0.0060 1165.4 169.05 
-POIDS 1 9.7153 1175.1 173.36 
-PERPOIGN 1 10.6173 1176.0 174.12 
-LATHO 1 26.2754 1191.7 187.35
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
149 
Sélection de variables: modèle final 
regfin<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) 
Call: 
lm(formula=AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.14469 -0.73537 -0.04168 0.68040 4.37259 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -12.611320 0.592893 -21.271 < 2e-16 *** 
LATHO 0.124299 0.026270 4.732 2.55e-06 *** 
LOMAIN 0.104090 0.057371 1.814 0.0699 . 
PERPOIGN -0.137719 0.045788 -3.008 0.0027 ** 
PERCHEV -0.044138 0.024643 -1.791 0.0736 . 
STAT 0.154353 0.006506 23.724 < 2e-16 *** 
POIDS -0.020256 0.007040 -2.877 0.0041 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.083 on 993 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8983 
F-statistic: 1471 on 6 and 993 DF, p-value: < 2.2e-16 
Exercice
Call: 
lm(formula=AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.14469 -0.73537 -0.04168 0.68040 4.37259 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -12.611320 0.592893 -21.271 < 2e-16 *** 
LATHO 0.124299 0.026270 4.732 2.55e-06 *** 
LOMAIN 0.104090 0.057371 1.814 0.0699 . 
PERPOIGN -0.137719 0.045788 -3.008 0.0027 ** 
PERCHEV -0.044138 0.024643 -1.791 0.0736 . 
STAT 0.154353 0.006506 23.724 < 2e-16 *** 
POIDS -0.020256 0.007040 -2.877 0.0041 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.083 on 993 degrees of freedom 
Multiple R-squared: 0.8989, Adjusted R-squared: 0.8983 
F-statistic: 1471 on 6 and 993 DF, p-value: < 2.2e-16 
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
150 
Sélection de variables: modèle final 
regfin<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
151 
Interaction entre les variables 
... 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 152 
Interaction 
En moyenne: 
AGE= +1.LATHO+2.LOMAIN+3.PERPOIGN 
+4.PERCHEV+5.STAT+6.POIDS 
+7.LOMAIN.STAT+8.LATHO.POIDS+9.POIDS.STAT 
regint<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS+LOMAIN:STAT+LATHO:POIDS+POIDS:STAT) 
... 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
153 
Call: 
lm(formula = AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + 
STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STAT) 
Residuals: 
Min 1Q Median 3Q Max 
-3.158979 -0.691690 -0.009895 0.639070 3.631405 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.887e+01 2.750e+00 -6.861 1.21e-11 *** 
LATHO 1.812e-01 5.837e-02 3.105 0.001957 ** 
LOMAIN 4.456e-01 2.862e-01 1.557 0.119725 
PERPOIGN -2.179e-01 4.417e-02 -4.932 9.53e-07 *** 
PERCHEV -7.357e-02 2.348e-02 -3.134 0.001776 ** 
STAT 1.875e-01 1.715e-02 10.932 < 2e-16 *** 
POIDS 1.787e-01 5.293e-02 3.376 0.000763 *** 
LOMAIN:STAT -2.090e-03 1.892e-03 -1.105 0.269638 
LATHO:POIDS -1.412e-03 1.165e-03 -1.212 0.225948 
STAT:POIDS -8.564e-04 4.194e-04 -2.042 0.041409 * 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.024 on 990 degrees of freedom 
Multiple R-squared: 0.9099, Adjusted R-squared: 0.9091 
F-statistic: 1111 on 9 and 990 DF, p-value: < 2.2e-16
Call: 
lm(formula = AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + 
STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STAT) 
Residuals: 
Min 1Q Median 3Q Max 
-3.158979 -0.691690 -0.009895 0.639070 3.631405 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.887e+01 2.750e+00 -6.861 1.21e-11 *** 
LATHO 1.812e-01 5.837e-02 3.105 0.001957 ** 
LOMAIN 4.456e-01 2.862e-01 1.557 0.119725 
PERPOIGN -2.179e-01 4.417e-02 -4.932 9.53e-07 *** 
PERCHEV -7.357e-02 2.348e-02 -3.134 0.001776 ** 
STAT 1.875e-01 1.715e-02 10.932 < 2e-16 *** 
POIDS 1.787e-01 5.293e-02 3.376 0.000763 *** 
LOMAIN:STAT -2.090e-03 1.892e-03 -1.105 0.269638 
LATHO:POIDS -1.412e-03 1.165e-03 -1.212 0.225948 
STAT:POIDS -8.564e-04 4.194e-04 -2.042 0.041409 * 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.024 on 990 degrees of freedom 
Multiple R-squared: 0.9099, Adjusted R-squared: 0.9091 
F-statistic: 1111 on 9 and 990 DF, p-value: < 2.2e-16 
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 154
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
155Start: AIC=57.65AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STATDf Sum of Sq RSS AIC-LOMAIN:STAT 1 1.2796 1039.7 56.884-LATHO:POIDS 1 1.5397 1039.9 57.135<none> 1038.4 57.653-STAT:POIDS 1 4.3738 1042.7 59.856-PERCHEV 1 10.3005 1048.7 65.524 
-PERPOIGN 1 25.5159 1063.9 79.929 
aicreg<-stepAIC(regint,scope=list(upper=regint,lower=reglow), 
direction=c("both")) 
Exercice 
(...)
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
156Step: AIC=56.88AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LATHO:POIDS + STAT:POIDSDf Sum of Sq RSS AIC-LATHO:POIDS 1 0.711 1040.4 55.568<none> 1039.7 56.884+ LOMAIN:STAT 1 1.280 1038.4 57.653-LOMAIN 1 6.496 1046.2 61.114-PERCHEV 1 10.573 1050.2 65.003-PERPOIGN 1 26.222 1065.9 79.793-STAT:POIDS 1 50.998 1090.7 102.772Step: AIC=55.57AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + STAT:POIDSDf Sum of Sq RSS AIC<none> 1040.4 55.568+ LATHO:POIDS 1 0.711 1039.7 56.884+ LOMAIN:STAT 1 0.451 1039.9 57.135-LOMAIN 1 6.699 1047.1 59.986-PERCHEV 1 10.513 1050.9 63.622-LATHO 1 22.727 1063.1 75.178-PERPOIGN 1 25.628 1066.0 77.903-STAT:POIDS 1 125.029 1165.4 167.056 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
157 
Call: 
lm(formula=AGE~LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS+STAT:POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.12506 -0.68523 -0.01197 0.65241 3.61796 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.583e+01 6.333e-01 -24.997 < 2e-16 *** 
LATHO 1.157e-01 2.485e-02 4.655 3.68e-06 *** 
LOMAIN 1.373e-01 5.432e-02 2.527 0.01165 * 
PERPOIGN -2.170e-01 4.389e-02 -4.943 9.01e-07 *** 
PERCHEV -7.427e-02 2.346e-02 -3.166 0.00159 ** 
STAT 1.768e-01 6.486e-03 27.265 < 2e-16 *** 
POIDS 2.246e-01 2.339e-02 9.602 < 2e-16 *** 
STAT:POIDS -1.382e-03 1.266e-04 -10.919 < 2e-16 *** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 1.024 on 992 degrees of freedom 
Multiple R-squared: 0.9097, Adjusted R-squared: 0.9091 
F-statistic: 1428 on 7 and 992 DF, p-value: < 2.2e-16 
Summary(aicreg) Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
158 
Vérifier l’adéquation: 
Donner les intervalles de confiance des paramètres 
Vérifier les conditions d’applicationR²=0.9097212 
Exercice 
confint(regfin) 
2.5 % 97.5 % 
(Intercept) -17.071155758 -14.588806731 
LATHO 0.066963177 0.164356035 
LOMAIN 0.030823120 0.243748696 
PERPOIGN -0.302970654 -0.130934549 
PERCHEV -0.120248659 -0.028292907 
STAT 0.164115926 0.189539112 
POIDS 0.178761670 0.270460878 
STAT:POIDS -0.001629865 -0.001133776
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 159 
Vérifier l’adéquation: 
Donner les intervalles de confiance des paramètres 
Vérifier les conditions d’application 
R²=0.9097212Exercice 
confint(regfin) 
2.5 % 97.5 % 
(Intercept) -17.071155758 -14.588806731 
LATHO 0.066963177 0.164356035 
LOMAIN 0.030823120 0.243748696 
PERPOIGN -0.302970654 -0.130934549 
PERCHEV -0.120248659 -0.028292907 
STAT 0.164115926 0.189539112 
POIDS 0.178761670 0.270460878 
STAT:POIDS -0.001629865 -0.001133776
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 160 
Exercice 
par(mfrow=c(2,2)) 
plot(aicreg) 
051015 -2024 Fitted values Residuals Residuals vs Fitted892242228-3-2-10123 -3-2-101234 Theoretical Quantiles Standardized residuals Normal Q-Q892242228051015 0.00.51.01.5 Fitted values Standardized residuals Scale-Location8922422280.000.010.020.030.040.050.06 -2024 Leverage Standardized residuals Cook's distanceResiduals vs Leverage892418451
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
161 
Références 
J. Bouyer: Méthodesstatistiques, Médecine-Biologie, edINSERM 
J. Bouyer: Epidémiologiequantitative, edINSERM 
CIMES: Biostatistiques, edOmnisciences 
JJ. Faraway: Linear Models with R, edChapman&Hall 
Contactjean.gaudart@univmed.fr 
http://lertim.org 
Labo. d’Enseignementet de Recherchesurle Traitementde l’InformationMédicale, 
Facultéde Médecinede Marseille

La Regression lineaire

  • 1.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 1 Principe de laRégression Linéaire
  • 2.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 2 Plan 1.Question pratique 2.Définition de la régression 3.Estimation de la droite de régression 4.Test de la pente 5.Précision de la droite de régression 6.Adéquation du modèle 7.Régression Multiple
  • 3.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 3 I. Question pratique Lien entre la taille et l'âge ? Quand l'âge , la taille ? Connaissant l'âge, peut-on prédire la taille? But médical: détecter les retards de croissances 1. Question
  • 4.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 4 Exercice Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles Importer le fichier de données FILLES.xls Moyenne globale de l’AGE m= ? mois Variance globale de l’AGE s²= ? mois2 Graphiques ATF<-read.csv2("D:BIOSTATFILLES.csv", header=TRUE) transformer le fichier filles.xls en FILLES.csv attach(ATF) mean(AGE) var(AGE) hist(AGE, col="blue") boxplot(AGE, col="blue") par(mfrow=c(1,2))
  • 5.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 5 Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles Importer le fichier de données filles.xls Moyenne globale de l’AGE m= 112,12mois Variance globale de l’AGE s²= 6265,86mois2 Graphiques ATF<-read.csv2("D:BIOSTATfilles.csv", header=TRUE) transformer le fichier filles.xls en filles.csv attach(ATF) mean(AGE) Exercice var(AGE) hist(AGE, col="blue") boxplot(AGE, col="blue") par(mfrow=c(1,2))
  • 6.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 6 Exercice Histogram of AGEAGE Frequency 050100200 020406080100050100150200250
  • 7.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 7 Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles Moyenne globale de la Taille (TAIL) m= ? cm Variance globale de la Taille (TAIL) s²= ? cm2 Graphiques mean(TAIL) var(TAIL) hist(TAIL, col="red") boxplot(TAIL, col="red") Exercice par(mfrow=c(1,2))
  • 8.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 8 Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles Moyenne globale de la Taille (TAIL) m= 122,83cm Variance globale de la Taille (TAIL) s²= 1317,43cm2 Graphiques mean(TAIL) var(TAIL) Exercice hist(TAIL, col="red") boxplot(TAIL, col="red") par(mfrow=c(1,2))
  • 9.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 9 Exercice Histogram of TAILTAIL Frequency 4080120160 020406080100406080100120140160180
  • 10.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 10 représenter la taille en fonction de l’age plot(AGE, TAIL) Exercice
  • 11.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 11 Exercice 050100150200250 406080100120140160180 AGE TAIL
  • 12.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 12 II. Définition Régression de Y en X: Y= taille (cm) X= âge (mois) Comment la Taille évolue enfonctionde l'Age ? Taille= f(Age) 1. Question 2. Définition
  • 13.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 13 Comment évolue la Taille? = Quelle valeur de la Taille ? =>Pour chaque Age => Sachant l'âge filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 1. Question 2. Définition
  • 14.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 14 Comment évolue la Taille? = Quelle valeur de la Taille ? =>Pour chaque Age => Sachant l'âge filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 18 mois 1. Question 2. Définition
  • 15.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 15 Comment évolue la Taille? = Quelle valeur de la Taille ? =>Pour chaque Age => Sachant l'âge filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 ? 18 mois 1. Question 2. Définition
  • 16.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 16 Chez les filles de 18 mois, quelle est la taille moyenne? Quells est la variance de la taille ? Quelle est la distribution ? Exercice mean(TAIL[AGE==18]) hist(TAIL[AGE==18],col="magenta") var(TAIL[AGE==18])
  • 17.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 17 18 mois: quelle Taille? Moyenne observée: M(T/A=18)=79,23 cm Variance observée: V(T/A=18)=9,36 cm2 Exercice
  • 18.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 18 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 E(Taille / Age) 1. Question Distribution conditionnelle 2. Définition
  • 19.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 19 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 L(Taille / Age) 1. Question Distribution conditionnelle 2. Définition
  • 20.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 20 Fonction de régression  Taille fonction de l'âge: M(Taille/Age)= f(Age)  Fonction f(): droite E(Taille / Age)    Age 1. Question 2. Définition
  • 21.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 21 Fonction de régression  Taille fonction de l'âge: M(Taille/Age)= f(Age)  Fonction f(): droite  Pour chaque sujet E(Taille / Age)    Age 1. Question 2. Définition Taille    Age 
  • 22.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 22 Fonction de régression  Taille fonction de l'âge: E(Taille/Age)= f(Age)  Fonction f(): droite  Pour chaque sujet E(Taille / Age)    Age 1. Question 2. Définition Taille    Age 
  • 23.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 23 filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 1. Question 2. Définition Erreur individuelle
  • 24.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 24 filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 1. Question 2. Définition Erreur individuelle
  • 25.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 25 filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 erreur 1. Question 2. Définition Erreur individuelle
  • 26.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 26  Pourquoi Linéaire et pas un Polynôme? 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 ... 3 3 2 1 2 Y   X  X  X 1. Question 2. Définition
  • 27.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 27 Régression linéaire: modèle le plus simple: Interprétation Estimations des paramètres Prédiction 1. Question 2. Définition
  • 28.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 28 III. Estimation Droite de régression: Résume le mieuxle nuage de point => La plus proche de tous les points => Erreurs petits +++ 1. Question 2. Définition 3. Estimation
  • 29.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 29  Estimer  et  tel que  petits +++  i: écart entre la droite et le point i i i i y    x  E(Y / X)    X 1. Question 2. Définition 3. Estimation Principe de l'estimation
  • 30.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 30  Estimer  et  tel que  petits +++  i: écart entre la droite et le point i i i i y    x  E(Y / X)    X y E(Y / X) i i    1. Question 2. Définition 3. Estimation Principe de l'estimation
  • 31.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 31 filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 i Erreur individuelle 1. Question 2. Définition 3. Estimation
  • 32.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 32 Principe de l'estimation  Somme des Carrés des Ecarts  Estimer  et  tel que: SCE minimum     n i SCE ( i ) 1 2 1. Question 2. Définition 3. Estimation
  • 33.
    2011© J Gaudart,LERTIM, Faculté de Médecine Marseille 33 Estimation de le pente  1. Question 2. Définition 3. Estimation bcovXYvarX
  • 34.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 34  Estimation de le pente  1. Question 2. Définition 3. Estimation b cov XY var X
  • 35.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 35  Estimation de le pente  1. Question 2. Définition 3. Estimation b cov XY var X
  • 36.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 36 Rappels  Estimation de Variance de X:  Estimation de la covariance de XY cov XY i 1 n xi yi 1 n i 1 n xi i 1 n yi n 1 S2 X i 1 n xi 2 1 n i 1 n x i 2 n 1 1. Question 2. Définition 3. Estimation
  • 37.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 37 Covariance de la taille et de l’âge: cov(TAIL,AGE) Variance de l’âge var(AGE) Estimation de  b<-cov(TAIL,AGE)/var(AGE) b Exercice
  • 38.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 38 Covariance de la taille et de l’âge: cov(TAIL,AGE) = 2742.587 Variance de l’âge var(AGE) Estimation de  b<-cov(TAIL,AGE)/var(AGE) b =0.437703Exercice
  • 39.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 39 Estimation de : La droite passe par mYet mX 1. Question 2. Définition 3. Estimation mYabmX
  • 40.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 40  Estimation de  :  La droite passe par mY et mX 1. Question 2. Définition 3. Estimation mY a bm X a mY bm X
  • 41.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 41 Estimation de : a<-mean(TAIL)-b*mean(AGE) a =73.729Exercice
  • 42.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 42 Estimation de : a<-mean(TAIL)-b*mean(AGE) a =73.729 l’équation s’écrit donc: Exercice
  • 43.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 43 Estimation de : a<-mean(TAIL)-b*mean(AGE) a =73.729 l’équation s’écrit donc: Taille=73.73 +0.44 Age +  ou E(Taille/Age)=73.73 +0.44 AgeExercice
  • 44.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 44 Interprétation  Pente :  =0: pas de lien, évolutions indépendantes filles 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 1. Question 2. Définition 3. Estimation
  • 45.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 45 Interprétation  Pente :  =0: pas de lien, évolutions indépendantes  <0: évolutions en sens contraire filles 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 1. Question 2. Définition 3. Estimation
  • 46.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 46 Interprétation  Pente :  =0: pas de lien, évolutions indépendantes  <0: évolutions en sens contraire  >0: évolutions dans le même sens filles 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 1. Question 2. Définition 3. Estimation
  • 47.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 47  Ordonnée à l'origine  filles 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 E(Y / X  0)  1. Question 2. Définition 3. Estimation
  • 48.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 48 IV. Test de la pente Si =0 => pas de lien entre Y et X Lien entre Y et X est-il significatif? => 0? bestimation de  Hasard=> fluctuation de b observé => Test statistique 1. Question 2. Définition 3. Estimation 4. Test
  • 49.
    2011© J Gaudart,LERTIM, Faculté de Médecine Marseille 49 Hypothèses: H0: =0,il n'y a pas de lien entre X et Y H1: 0, il y a un lien entre X et Y 1. Question 2. Définition 3. Estimation 4. Test
  • 50.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 50  Sous H0 ~> Student à n-2 ddl Avec 2 0 b s b t   2 2 2 2 2    n b s s s X Y b 1. Question 2. Définition 3. Estimation 4. Test
  • 51.
    2011© J Gaudart,LERTIM, Faculté de Médecine Marseille 51 Modèle linéaire: utilisation du logiciel R => fonction lmlinear model mod1<-lm(TAIL~1+AGE) mod1 Call: glm(formula = TAIL ~ 1 + AGE, family = gaussian) Coefficients: (Intercept) AGE 73.7290 0.4377 Degrees of Freedom: 636 Total (i.e. Null); 635 Residual Null Deviance: 837900 Residual Deviance: 74410 AIC: 4846 Exercice
  • 52.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 52 Modèle linéaire: utilisation du logiciel R => fonction lmlinear model mod1<-lm(TAIL~1+AGE) mod1 Call: lm(formula = TAIL ~ 1 + AGE) Coefficients: (Intercept) AGE 73.7290 0.4377 Exercice
  • 53.
    2011© J Gaudart,LERTIM, Faculté de Médecine Marseille 53 Modèle linéaire: utilisation du logiciel R => fonction lmlinear model mod1<-lm(TAIL~1+AGE) mod1 Call: lm(formula = TAIL ~ 1 + AGE) Coefficients: (Intercept) AGE 73.7290 0.4377 Exercice
  • 54.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 54 Modèle linéaire: utilisation du logiciel R => fonction lmlinear model mod1<-lm(TAIL~1+AGE) mod1 Call: lm(formula = TAIL ~ 1 + AGE) Coefficients: (Intercept) AGE 73.7290 0.4377 Exercice a b
  • 55.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 55Call: glm(formula = TAIL ~ 1 + AGE, family = gaussian) Deviance Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for gaussian family taken to be 117.1764) Null deviance: 837886 on 636 degrees of freedomResidual deviance: 74407 on 635 degrees of freedomAIC: 4846.2Number of Fisher Scoring iterations: 2 summary(mod1)Exercice
  • 56.
    2011© J Gaudart,LERTIM, Faculté de Médecine Marseille 56 Call: lm(formula = TAIL ~ AGE) Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.82 on 635 degrees of freedom Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111 F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 summary(mod1)Exercice
  • 57.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 57 Call: lm(formula = TAIL ~ AGE) Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.82 on 635 degrees of freedom Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111 F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 summary(mod1) Exerciceab
  • 58.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 58Call: lm(formula = TAIL ~ AGE) Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.82 on 635 degrees of freedomMultiple R-squared: 0.9112, Adjusted R-squared: 0.9111 F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 summary(mod1)Exercice test =0
  • 59.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 59 Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X à X donné, Yiindépendants La régression est linéaire 1. Question 2. Définition 3. Estimation 4. Test 
  • 60.
    2011© J Gaudart,LERTIM, Faculté de Médecine Marseille 60 Linéarité 1. Question 2. Définition 3. Estimation 4. Test
  • 61.
    2011© J Gaudart,LERTIM, Faculté de Médecine Marseille 61 Linéarité 1. Question 2. Définition 3. Estimation 4. Test Perte de Puissance
  • 62.
    2011© J Gaudart,LERTIM, Faculté de Médecine Marseille 62 Linéarité 1. Question 2. Définition 3. Estimation 4. Test
  • 63.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 63Perte de Puissance Linéarité 1. Question 2. Définition 3. Estimation 4. Test
  • 64.
    2011© J Gaudart,LERTIM, Faculté de Médecine Marseille 64 Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaire 1. Question 2. Définition 3. Estimation 4. Test
  • 65.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 65 qqnorm Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaire 1. Question 2. Définition 3. Estimation 4. Test
  • 66.
    2011© J Gaudart,LERTIM, Faculté de Médecine Marseille 66 qqnorm plot(résidus,age estimé) Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaire 1. Question 2. Définition 3. Estimation 4. Test
  • 67.
    2011© J Gaudart,LERTIM, Faculté de Médecine Marseille 67 qqnorm plot(résidus,age estimé) Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaireprotocole 1. Question 2. Définition 3. Estimation 4. Test
  • 68.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 68qqnorm plot(taille estimée,résidus) plot(taille,age) Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaireprotocole 1. Question 2. Définition 3. Estimation 4. Test
  • 69.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 69 L(Y/X)~>N qqnorm(mod1$res) qqline(mod1$res) Exercice
  • 70.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 70 plot(mod1$fitted,mod1$res) Exercice
  • 71.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 71 hétéroscédasticité non-linéarité 1. Question 2. Définition 3. Estimation 4. Test
  • 72.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 72 filles 30 50 70 90 110 130 150 170 190 0 50 100 150 200 250 TAILLE(cm) AGE(mois) Exercice plot(AGE,TAIL)
  • 73.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 73 filles 30 50 70 90 110 130 150 170 190 0 50 100 150 200 250 TAILLE(cm) AGE(mois) Exercice plot(AGE,TAIL)
  • 74.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 74 Exercice 050100150200250 406080100120140160180 AGE TAIL
  • 75.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 75 80 100 120 140 160 180 -40 -20 0 20 Fitted values Residuals Residuals vs Fitted 392 295 390 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 Theoretical Quantiles Standardized residuals Normal Q-Q 392 392095 80 100 120 140 160 180 0.0 0.5 1.0 1.5 2.0 Fitted values Standardized residuals Scale-Location 392 295 390 0.000 0.002 0.004 0.006 -4 -3 -2 -1 0 1 2 3 Leverage Standardized residuals Cook's distance Residuals vs Leverage 392 339403 par(mfrow=c(2,2)) plot(mod1)
  • 76.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 76 V. Précision Hasard=> fluctuation de b Intervalle de confiance de la pente b~>tn-2 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 222b,nstb
  • 77.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 77 V. Précision  Hasard=> fluctuation de b  Intervalle de confiance de la pente  b~>tn-2 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 2 2 n 2, b b t   s   Conditions d'applications  L(Y/X)~>N  V(Y/X) constantes pour tout X  à X donné, Yi indépendants  La régression est linéaire 
  • 78.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 78 Intervalles de confiance des paramètres confint(mod1) Exercice 2.5 % 97.5 % (Intercept) 72.2707108 75.1872989 AGE 0.42707510.4483309
  • 79.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 79 Intervalles de confiance des paramètres confint(mod1) Exercice 2.5 % 97.5 % (Intercept) 72.2707108 75.1872989 AGE 0.42707510.4483309
  • 80.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 80  Intervalle de confiance de la droite 1. Question 2. Définition 3. Estimation 4. Test 5. Précision E(Y / X)  X Estimé par m a bX Y X   / 2 2 Y X n 2, mY X m t  s  
  • 81.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 81  Intervalle de confiance de la droite 1. Question 2. Définition 3. Estimation 4. Test 5. Précision E(Y / X)  X Estimé par m a bX Y X   / 2 2 Y X n 2, mY X m t  s    Conditions d'applications  L(Y/X)~>N  V(Y/X) constantes pour tout X  à X donné, Yi indépendants  La régression est linéaire 
  • 82.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 82 42 52 62 72 82 92 0 5 10 15 20 25 30 35 Taille=73.73+0.44xAge+ IC 95% mX=15,5 mY=73,6
  • 83.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 83 Intervalle de prédiction Pour un Age (X) fixé, prédictionde la Taille (Y) Yp= a + b X Taillep=73,73+0,44 Age Précision: 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 22,2pystynp
  • 84.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 84 42 52 62 72 82 92 102 0 5 10 15 20 25 30 35 IC 95% IP 95% Taille=73.73+0.44xAge+
  • 85.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 85 valeur de l’âge: Prédiction/ estimation d’une taille predict(mod1, newdata=new.x, se.fit=TRUE) Exercice new.x=data.frame(AGE=18.2) $fit [1] 81.6952 $se.fit [1] 0.6658326 $residual.scale [1] 10.82480
  • 86.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 86 valeur de l’âge: Prédiction/ estimation d’une taille predict(mod1, newdata=new.x, se.fit=TRUE) Exercice new.x=data.frame(AGE=18.2) $fit[1] 81.6952$se.fit[1] 0.6658326$residual.scale[1] 10.82480
  • 87.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 87 valeur de l’âge: Prédiction/ estimation d’une taille TX<-predict(mod1, newdata=new.x, se.fit=TRUE) Exercice new.x=data.frame(AGE=18.2) $fit[1] 81.6952$se.fit[1] 0.6658326$residual.scale[1] 10.82480
  • 88.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 88  Intervalle de confiance de la taille estimée:  Intervalle de prédiction de la taille prédite: 2 2, 2 yp y t s p n   Predint<-predict(mod1,newdata=new.x,interval="prediction") Confint<-predict(mod1,newdata=new.x,interval="confidence")
  • 89.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 89 Exercice Intervalle de confiance de la taille estimée: Intervalle de prédiction de la taille prédite: Confint$fitPredint$fit fit lwr upr 1 81.6952 80.3877 83.0027 fit lwr upr 1 81.6952 60.39828 102.9921
  • 90.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 90 VI. Adéquation Le modèle est-il un bon résumé des observations? Pourcentage de variance expliquée: 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation Part de variance expliquée par la régression Variance totaleR2=
  • 91.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 91 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation mY mX
  • 92.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 92 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. AdéquationmY mX Variance totale S2Y
  • 93.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 93 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. AdéquationmY Variance totale S2Y mY/X
  • 94.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 94 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation mY Variance totale S2YmY/X Variance expliquée
  • 95.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 95 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation mY Variance totale S2YmY/X Variance expliquée )my(ecart)mm(ecartRYYX/Y   2
  • 96.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 96  Pourcentage de variance expliquée:  Exemple: R2=88%  Remarque: R: estimation du coefficient de corrélation entre X et Y         2 2 2 i Y Y / X Y y m m m R i 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation
  • 97.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 97 Estimation du coefficient de corrélationentre X et Y Estimation de R² Exercice r<-cor(TAIL,AGE) var(mod1$fitted.value)/var(TAIL) r*r ou 0.9545663 0.9111967
  • 98.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 98 Estimation du coefficient de corrélationentre X et Y Estimation de R² Exercice r<-cor(TAIL,AGE) var(mod1$fitted.value)/var(TAIL) r*r ou 0.9545663 0.9111967
  • 99.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 99 Call: lm(formula = TAIL ~ AGE) Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.82 on 635 degrees of freedom Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111 F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 summary(mod1)
  • 100.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 100 VII. Régression multiple Plusieurs causes dans l'évolution de la taille: Age (X1) Facteur socio-économiques (X2) Taux d'hormones de croissance (X3) 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple 332211321),,/(XXXXXXYE
  • 101.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 101  Estimation:  , 1, 2, 3 estimés en tenant compte des 3 VA => Ajustement  Interactions 1 2 3 1 1 2 2 3 3 4 2 3 E(Y / X , X , X )   X  X  X  X X 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple
  • 102.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 102  Estimation:  , 1, 2, 3 estimés en tenant compte des 3 VA => Ajustement  Interactions 1 2 3 1 1 2 2 3 3 4 2 3 E(Y / X , X , X )   X  X  X  X X 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple
  • 103.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 103 Tests des 1, 2, 3à 0 Interprétation identique Adéquation identique Approche pas à pas Choix des variables: notion de modèle Variables très corrélées 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple
  • 104.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 104 Prédire l’âge en fonction de 8 mesures Crâne (BIP) Tronc (LATHO) Membres supérieurs et inférieurs (LOMAIN, PERPOIGN, PERCHEV, PIEDS) Globales (STAT, POIDS) Echantillon de 1000 enfants de 2 à 16 ans Exercice
  • 105.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 105 En moyenne: AGE= +1xBIP+2xLATHO+3xLOMAIN+ 4xPERPOIGN+5xPERCHEV+6xPIEDS+ 7xSTAT+8xPOIDS Exercice
  • 106.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 106 En moyenne: AGE= +1xBIP+2xLATHO+3xLOMAIN+ 4xPERPOIGN+5xPERCHEV+6xPIEDS+ 7xSTAT+8xPOIDS Exercice TP<-read.csv2("C:BIOSTATAGE.csv", header=TRUE)
  • 107.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 107 En moyenne: AGE= +1xBIP+2xLATHO+3xLOMAIN+ 4xPERPOIGN+5xPERCHEV+6xPIEDS+ 7xSTAT+8xPOIDS Statistiques descriptives Exercice TP<-read.csv2("C:BIOSTATAGE.csv", header=TRUE) mean(AGE) var(AGE) hist(AGE) attach(TP)
  • 108.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 108 En moyenne: AGE= +1xBIP+2xLATHO+3xLOMAIN+ 4xPERPOIGN+5xPERCHEV+6xPIEDS+ 7xSTAT+8xPOIDS Statistiques descriptives Exercice mean(AGE) var(AGE) attach(TP) =10.373 =11.53541 TP<-read.csv2("C:BIOSTATAGE.csv", header=TRUE)
  • 109.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 109 Graphique: splom (DATA) hist(AGE, col="blue") DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT) Exercice
  • 110.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 110 Exercice hist(AGE, col="blue")
  • 111.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 111 Graphique: splom (DATA) hist(AGE, col="blue") DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT) Exercice
  • 112.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 112 Graphique: splom (DATA) Exercice Erreur : impossible de trouver la fonction "splom" hist(AGE, col="blue") DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT)
  • 113.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 113 Graphique: splom (DATA) ExerciceErreur : impossible de trouver la fonction "splom" package lattice hist(AGE, col="blue") DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT)
  • 114.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 114 Exercice
  • 115.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 115 Exercice
  • 116.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 116 Estimation: reg1<-lm(AGE~1+BIP+LATHO+LOMAIN+PERPOIGN +PERCHEV+PIEDS+STAT+POIDS) AGE= +1xBIP+2xLATHO+3xLOMAIN+4xPERPOIGN +5xPERCHEV+6xPIEDS+7xSTAT+8xPOIDS Exercice
  • 117.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 117 summary(reg1) Call: glm(formula = AGE ~ 1 + BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + PIEDS + STAT + POIDS, family = gaussian) Deviance Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for gaussian family taken to be 1.175526) Null deviance: 11523.9 on 999 degrees of freedomResidual deviance: 1164.9 on 991 degrees of freedomAIC: 3010.6Number of Fisher Scoring iterations: 2Exercice
  • 118.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 118 summary(reg1) Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedomMultiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 Exercice
  • 119.
    Call: lm(formula =AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 119 summary(reg1) Exercicerégression
  • 120.
    Call: lm(formula =AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 120 summary(reg1) Exercice Prédicteurs, Variables explicatives
  • 121.
    Call: lm(formula =AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 121 summary(reg1) Exercice estimationsdes paramètres, ajustées
  • 122.
    Call: lm(formula =AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 122 summary(reg1) Exercice AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV +0,001PIEDS+0,2STAT-0,02POIDS estimationsdes paramètres, ajustées
  • 123.
    Call: lm(formula =AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 123 summary(reg1) Exercice AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV +0,001PIEDS+0,2STAT-0,02POIDS signification
  • 124.
    Call: lm(formula =AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 124 summary(reg1) Exercice AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV +0,001PIEDS+0,2STAT-0,02POIDS signification
  • 125.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 125 Que faut-il regarder ensuite ? conditions d’application intervalles de confiance des paramètres adéquation: R² 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple
  • 126.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 126 qqnorm plot(age estimé, résidus) plot(AGE,prédicteurs) Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaireprotocole 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple
  • 127.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 127 qqnorm(reg1$res) qqline(reg1$res) 5 10 15 -4 -2 0 2 4 Fitted values Residuals Residuals vs Fitted 892 994 993 -3 -2 -1 0 1 2 3 -2 0 2 4 Theoretical Quantiles Standardized residuals Normal Q-Q 892 994 993 5 10 15 0.0 0.5 1.0 1.5 2.0 Fitted values Standardized residuals Scale-Location 892 994 993 0.00 0.02 0.04 0.06 -2 0 2 4 Leverage Standardized residuals Cook's distance Residuals vs Leverage 993 994 418 Exercice par(mfrow=c(2,2) plot(reg1)
  • 128.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 128 confint(reg1) 2.5 % 97.5 % (Intercept) -14.63496676 -11.151092838BIP -0.07064460 0.146350137LATHO 0.07003811 0.178218882LOMAIN -0.03754588 0.206770294PERPOIGN -0.23572192 -0.046974279PERCHEV -0.09335361 0.010661467PIEDS -0.06133569 0.044411154STAT 0.14244571 0.171636649POIDS -0.03516689 -0.006578439Exercice Intervalles de confiance des paramètres
  • 129.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 129 2.5 % 97.5 % (Intercept) -14.70058351 -11.292408725 BIP -0.07330209 0.139535454 LATHO 0.06968244 0.174040764 LOMAIN -0.01538828 0.218001320 PERPOIGN -0.22908876 -0.044831392 PERCHEV -0.09750881 0.004420695 PIEDS -0.05047023 0.052034764 STAT 0.14037312 0.168879663 POIDS -0.03450573 -0.006430739 confint(reg1) Exercice Intervalles de confiance des paramètres
  • 130.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 130 2.5 % 97.5 % (Intercept) -14.70058351 -11.292408725 BIP -0.07330209 0.139535454 LATHO 0.06968244 0.174040764 LOMAIN -0.01538828 0.218001320 PERPOIGN -0.22908876 -0.044831392 PERCHEV -0.09750881 0.004420695 PIEDS -0.05047023 0.052034764 STAT 0.14037312 0.168879663 POIDS -0.03450573 -0.006430739 confint(reg1) Exercice Intervalles de confiance des paramètres
  • 131.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 131 2.5 % 97.5 % (Intercept) -14.70058351 -11.292408725 BIP -0.07330209 0.139535454 LATHO 0.06968244 0.174040764 LOMAIN -0.01538828 0.218001320 PERPOIGN -0.22908876 -0.044831392 PERCHEV -0.09750881 0.004420695 PIEDS -0.05047023 0.052034764 STAT 0.14037312 0.168879663 POIDS -0.03450573 -0.006430739 confint(reg1) Exercice Intervalles de confiance des paramètres
  • 132.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 132 2.5 % 97.5 % (Intercept) -14.70058351 -11.292408725 BIP -0.07330209 0.139535454 LATHO 0.06968244 0.174040764 LOMAIN -0.01538828 0.218001320 PERPOIGN -0.22908876 -0.044831392 PERCHEV -0.09750881 0.004420695 PIEDS -0.05047023 0.052034764 STAT 0.14037312 0.168879663 POIDS -0.03450573 -0.006430739 confint(reg1) Exercice Intervalles de confiance des paramètres
  • 133.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 133 2.5 % 97.5 % (Intercept) -14.70058351 -11.292408725 BIP -0.07330209 0.139535454 LATHO 0.06968244 0.174040764 LOMAIN -0.01538828 0.218001320 PERPOIGN -0.22908876 -0.044831392 PERCHEV -0.09750881 0.004420695 PIEDS -0.05047023 0.052034764 STAT 0.14037312 0.168879663 POIDS -0.03450573 -0.006430739 confint(reg1) Exercice Intervalles de confiance des paramètres
  • 134.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 134 Exercice Adéquation: R² var(reg1$fitted.value)/var(AGE) 0.8989102
  • 135.
    POIDS -2.047e-02 7.153e-03-2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 135 Exercice Adéquation: R² var(reg1$fitted.value)/var(AGE) 0.8989102
  • 136.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 136 Prédiction nouvelles valeurs des prédicteurs ex: AGE? 14,2 23,5 15,9 148,2 15,5 23 36 38 BIP LA THO LO MAIN STAT PER POiGN PER CHEV POIDS PIEDS new.x<-data.frame(BIP=14.2, LATHO=23.5, LOMAIN=15.9, STAT=148.2, PERPOIGN=15.5, PERCHEV=23, POIDS=36, PIEDS=38) new.x Exercice
  • 137.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 137 Prédiction nouvelles valeurs des prédicteurs ex: AGE? 14,2 23,5 15,9 148,2 15,5 23 36 38 BIP LA THO LO MAIN STAT PER POiGN PER CHEV POIDS PIEDS new.x<-data.frame(BIP=14.2, LATHO=23.5, LOMAIN=15.9, STAT=148.2, PERPOIGN=15.5, PERCHEV=23, POIDS=36, PIEDS=38) new.xBIP LATHO LOMAIN STAT PERPOIGN PERCHEV POIDS PIEDS1 14.2 23.5 15.9 148.2 15.5 23 36 38 Exercice
  • 138.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 138 Prédiction nouvelles valeurs des prédicteurs ex: AGE? 14,2 23,5 15,9 148,2 15,5 23 36 38 BIP LA THO LO MAIN STAT PER POiGN PER CHEV POIDS PIEDS AX<-predict(reg1,newdata=new.x,se.fit=TRUE) $fit [1] 10.96339 $se.fit [1] 0.09568086 $residual.scale [1] 1.084217 age réel = 11 ans Exercice
  • 139.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 139 Prédiction nouvelles valeurs des prédicteurs ex: AGE? 14,2 23,5 15,9 148,2 15,5 23 36 38 BIP LA THO LO MAIN STAT PER POiGN PER CHEV POIDS PIEDS AX<-predict(reg1,newdata=new.x,se.fit=TRUE) $fit [1] 10.96339 $se.fit [1] 0.09568086 $residual.scale [1] 1.084217 age réel = 11 ans Exercice
  • 140.
    2011© J Gaudart,LERTIM, Faculté de Médecine Marseille 140 Intervalle de confiance Intervalle de prédiction age réel = 11 ans Exercice predict(reg1,newdata=new.x,se.fit=TRUE,interval="prediction" ) predict(reg1,newdata=new.x,se.fit=TRUE,interval="confidence" ) $fit fit lwr upr 1 10.96339 10.77563 11.15115 $fitfit lwr upr1 10.96339 8.827496 13.09928
  • 141.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 141 Sélection de variables Guillaume d’Ockham, 1285-1349 «Les multiples ne doivent pas êtres utilisés sans nécessité» = principe de parcimonie => ne pas ajouter de nouvelles variables tant que celles présentes suffisent => balance entre explication / prédiction trop de variables: explication + / prédiction – overfitting~hyperadéquation ... 7. Multiple
  • 142.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 142 Critère de sélection Akaike Information Criterion AIC AIC=2p-2ln(L) nombre de paramètres vraisemblance=>AIC le plus petit possible Sélection de variables ... 7. Multiple
  • 143.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 143 Critère de sélection Akaike Information Criterion AIC AIC=2p-2ln(L) nombre de paramètres vraisemblance =>AIC le plus petit possible Sélection de variables ... 7. Multiple
  • 144.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 144 Sélection de variables: pas à pas reglow<-lm(AGE~1+STAT) summary(reglow) Call: glm(formula = AGE ~ 1 + STAT) Deviance Residuals: Min 1Q Median 3Q Max -3.22224 -0.74277 -0.02807 0.73413 4.29016 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -11.909459 0.244761 -48.66 <2e-16 *** STAT 0.153978 0.001674 91.98 <2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for gaussian family taken to be 1.218439) Null deviance: 11524 on 999 degrees of freedom Residual deviance: 1216 on 998 degrees of freedom AIC: 3039.4 Number of Fisher Scoring iterations: 2 Exercice
  • 145.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 145 Sélection de variables: pas à pas reglow<-lm(AGE~1+STAT) summary(reglow) Call: lm(formula = AGE ~ 1 + STAT) Residuals: Min 1Q Median 3Q Max -3.22224 -0.74277 -0.02807 0.73413 4.29016 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -11.909459 0.244761 -48.66 <2e-16 *** STAT 0.153978 0.001674 91.98 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.104 on 998 degrees of freedom Multiple R-squared: 0.8945, Adjusted R-squared: 0.8944 F-statistic: 8460 on 1 and 998 DF, p-value: < 2.2e-16 Exercice
  • 146.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 146 Sélection de variables: pas à pas aicreg<-stepAIC(reg1,scope=list(upper=reg1,lower=reglow),direction=c("both")) Exercice
  • 147.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 147 Régression linéaire Multiple Sélection de variables: pas à pas aicreg<-stepAIC(reg1,scope=list(upper=reg,lower=reg1),direction=c("both")) Start: AIC=170.67 AGE ~ 1 + BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + PIEDS + STAT + POIDS Df Sum of Sq RSS AIC -PIEDS 1 0.0011 1165.0 168.68 -BIP 1 0.4384 1165.4 169.05 <none> 1165.0 170.68 -LOMAIN 1 3.4116 1168.4 171.60 -PERCHEV 1 3.7755 1168.7 171.91 -POIDS 1 9.6243 1174.6 176.90 -PERPOIGN 1 10.0043 1175.0 177.23 -LATHO 1 24.6905 1189.6 189.65 Step: AIC=168.68 AGE ~ BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS Df Sum of Sq RSS AIC -BIP 1 0.4433 1165.4 167.06 <none> 1165.0 168.68 -LOMAIN 1 3.6758 1168.6 169.83 -PERCHEV 1 4.0625 1169.0 170.16 + PIEDS 1 0.0011 1165.0 170.68 -POIDS 1 9.9216 1174.9 175.16 -PERPOIGN 1 10.4397 1175.4 175.60 -LATHO 1 24.7051 1189.7 187.66
  • 148.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 148 Régression linéaire Multiple Sélection de variables: pas à pas aicreg<-stepAIC(reg1,scope=list(upper=reg,lower=reg1),direction=c("both")) Step: AIC=167.06 AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS Df Sum of Sq RSS AIC <none> 1165.4 167.06 -PERCHEV 1 3.7648 1169.2 168.28 -LOMAIN 1 3.8633 1169.2 168.37 + BIP 1 0.4433 1165.0 168.68 + PIEDS 1 0.0060 1165.4 169.05 -POIDS 1 9.7153 1175.1 173.36 -PERPOIGN 1 10.6173 1176.0 174.12 -LATHO 1 26.2754 1191.7 187.35
  • 149.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 149 Sélection de variables: modèle final regfin<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) Call: lm(formula=AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.14469 -0.73537 -0.04168 0.68040 4.37259 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -12.611320 0.592893 -21.271 < 2e-16 *** LATHO 0.124299 0.026270 4.732 2.55e-06 *** LOMAIN 0.104090 0.057371 1.814 0.0699 . PERPOIGN -0.137719 0.045788 -3.008 0.0027 ** PERCHEV -0.044138 0.024643 -1.791 0.0736 . STAT 0.154353 0.006506 23.724 < 2e-16 *** POIDS -0.020256 0.007040 -2.877 0.0041 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.083 on 993 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8983 F-statistic: 1471 on 6 and 993 DF, p-value: < 2.2e-16 Exercice
  • 150.
    Call: lm(formula=AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.14469 -0.73537 -0.04168 0.68040 4.37259 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -12.611320 0.592893 -21.271 < 2e-16 *** LATHO 0.124299 0.026270 4.732 2.55e-06 *** LOMAIN 0.104090 0.057371 1.814 0.0699 . PERPOIGN -0.137719 0.045788 -3.008 0.0027 ** PERCHEV -0.044138 0.024643 -1.791 0.0736 . STAT 0.154353 0.006506 23.724 < 2e-16 *** POIDS -0.020256 0.007040 -2.877 0.0041 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.083 on 993 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8983 F-statistic: 1471 on 6 and 993 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 150 Sélection de variables: modèle final regfin<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) Exercice
  • 151.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 151 Interaction entre les variables ... 7. Multiple
  • 152.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 152 Interaction En moyenne: AGE= +1.LATHO+2.LOMAIN+3.PERPOIGN +4.PERCHEV+5.STAT+6.POIDS +7.LOMAIN.STAT+8.LATHO.POIDS+9.POIDS.STAT regint<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS+LOMAIN:STAT+LATHO:POIDS+POIDS:STAT) ... 7. Multiple
  • 153.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 153 Call: lm(formula = AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STAT) Residuals: Min 1Q Median 3Q Max -3.158979 -0.691690 -0.009895 0.639070 3.631405 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.887e+01 2.750e+00 -6.861 1.21e-11 *** LATHO 1.812e-01 5.837e-02 3.105 0.001957 ** LOMAIN 4.456e-01 2.862e-01 1.557 0.119725 PERPOIGN -2.179e-01 4.417e-02 -4.932 9.53e-07 *** PERCHEV -7.357e-02 2.348e-02 -3.134 0.001776 ** STAT 1.875e-01 1.715e-02 10.932 < 2e-16 *** POIDS 1.787e-01 5.293e-02 3.376 0.000763 *** LOMAIN:STAT -2.090e-03 1.892e-03 -1.105 0.269638 LATHO:POIDS -1.412e-03 1.165e-03 -1.212 0.225948 STAT:POIDS -8.564e-04 4.194e-04 -2.042 0.041409 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.024 on 990 degrees of freedom Multiple R-squared: 0.9099, Adjusted R-squared: 0.9091 F-statistic: 1111 on 9 and 990 DF, p-value: < 2.2e-16
  • 154.
    Call: lm(formula =AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STAT) Residuals: Min 1Q Median 3Q Max -3.158979 -0.691690 -0.009895 0.639070 3.631405 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.887e+01 2.750e+00 -6.861 1.21e-11 *** LATHO 1.812e-01 5.837e-02 3.105 0.001957 ** LOMAIN 4.456e-01 2.862e-01 1.557 0.119725 PERPOIGN -2.179e-01 4.417e-02 -4.932 9.53e-07 *** PERCHEV -7.357e-02 2.348e-02 -3.134 0.001776 ** STAT 1.875e-01 1.715e-02 10.932 < 2e-16 *** POIDS 1.787e-01 5.293e-02 3.376 0.000763 *** LOMAIN:STAT -2.090e-03 1.892e-03 -1.105 0.269638 LATHO:POIDS -1.412e-03 1.165e-03 -1.212 0.225948 STAT:POIDS -8.564e-04 4.194e-04 -2.042 0.041409 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.024 on 990 degrees of freedom Multiple R-squared: 0.9099, Adjusted R-squared: 0.9091 F-statistic: 1111 on 9 and 990 DF, p-value: < 2.2e-16 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 154
  • 155.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 155Start: AIC=57.65AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STATDf Sum of Sq RSS AIC-LOMAIN:STAT 1 1.2796 1039.7 56.884-LATHO:POIDS 1 1.5397 1039.9 57.135<none> 1038.4 57.653-STAT:POIDS 1 4.3738 1042.7 59.856-PERCHEV 1 10.3005 1048.7 65.524 -PERPOIGN 1 25.5159 1063.9 79.929 aicreg<-stepAIC(regint,scope=list(upper=regint,lower=reglow), direction=c("both")) Exercice (...)
  • 156.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 156Step: AIC=56.88AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LATHO:POIDS + STAT:POIDSDf Sum of Sq RSS AIC-LATHO:POIDS 1 0.711 1040.4 55.568<none> 1039.7 56.884+ LOMAIN:STAT 1 1.280 1038.4 57.653-LOMAIN 1 6.496 1046.2 61.114-PERCHEV 1 10.573 1050.2 65.003-PERPOIGN 1 26.222 1065.9 79.793-STAT:POIDS 1 50.998 1090.7 102.772Step: AIC=55.57AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + STAT:POIDSDf Sum of Sq RSS AIC<none> 1040.4 55.568+ LATHO:POIDS 1 0.711 1039.7 56.884+ LOMAIN:STAT 1 0.451 1039.9 57.135-LOMAIN 1 6.699 1047.1 59.986-PERCHEV 1 10.513 1050.9 63.622-LATHO 1 22.727 1063.1 75.178-PERPOIGN 1 25.628 1066.0 77.903-STAT:POIDS 1 125.029 1165.4 167.056 Exercice
  • 157.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 157 Call: lm(formula=AGE~LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS+STAT:POIDS) Residuals: Min 1Q Median 3Q Max -3.12506 -0.68523 -0.01197 0.65241 3.61796 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.583e+01 6.333e-01 -24.997 < 2e-16 *** LATHO 1.157e-01 2.485e-02 4.655 3.68e-06 *** LOMAIN 1.373e-01 5.432e-02 2.527 0.01165 * PERPOIGN -2.170e-01 4.389e-02 -4.943 9.01e-07 *** PERCHEV -7.427e-02 2.346e-02 -3.166 0.00159 ** STAT 1.768e-01 6.486e-03 27.265 < 2e-16 *** POIDS 2.246e-01 2.339e-02 9.602 < 2e-16 *** STAT:POIDS -1.382e-03 1.266e-04 -10.919 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.024 on 992 degrees of freedom Multiple R-squared: 0.9097, Adjusted R-squared: 0.9091 F-statistic: 1428 on 7 and 992 DF, p-value: < 2.2e-16 Summary(aicreg) Exercice
  • 158.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 158 Vérifier l’adéquation: Donner les intervalles de confiance des paramètres Vérifier les conditions d’applicationR²=0.9097212 Exercice confint(regfin) 2.5 % 97.5 % (Intercept) -17.071155758 -14.588806731 LATHO 0.066963177 0.164356035 LOMAIN 0.030823120 0.243748696 PERPOIGN -0.302970654 -0.130934549 PERCHEV -0.120248659 -0.028292907 STAT 0.164115926 0.189539112 POIDS 0.178761670 0.270460878 STAT:POIDS -0.001629865 -0.001133776
  • 159.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 159 Vérifier l’adéquation: Donner les intervalles de confiance des paramètres Vérifier les conditions d’application R²=0.9097212Exercice confint(regfin) 2.5 % 97.5 % (Intercept) -17.071155758 -14.588806731 LATHO 0.066963177 0.164356035 LOMAIN 0.030823120 0.243748696 PERPOIGN -0.302970654 -0.130934549 PERCHEV -0.120248659 -0.028292907 STAT 0.164115926 0.189539112 POIDS 0.178761670 0.270460878 STAT:POIDS -0.001629865 -0.001133776
  • 160.
    2011© J Gaudart,LERTIM, Faculté de Médecine Marseille 160 Exercice par(mfrow=c(2,2)) plot(aicreg) 051015 -2024 Fitted values Residuals Residuals vs Fitted892242228-3-2-10123 -3-2-101234 Theoretical Quantiles Standardized residuals Normal Q-Q892242228051015 0.00.51.01.5 Fitted values Standardized residuals Scale-Location8922422280.000.010.020.030.040.050.06 -2024 Leverage Standardized residuals Cook's distanceResiduals vs Leverage892418451
  • 161.
    2011 © JGaudart, LERTIM, Faculté de Médecine Marseille 161 Références J. Bouyer: Méthodesstatistiques, Médecine-Biologie, edINSERM J. Bouyer: Epidémiologiequantitative, edINSERM CIMES: Biostatistiques, edOmnisciences JJ. Faraway: Linear Models with R, edChapman&Hall Contactjean.gaudart@univmed.fr http://lertim.org Labo. d’Enseignementet de Recherchesurle Traitementde l’InformationMédicale, Facultéde Médecinede Marseille