2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
1 
Principe de laRégression Linéaire
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
2 
Plan 
1.Question pratique 
2.Définition de la régression 
3.E...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
3 
I. Question pratique 
Lien entre la taille et l'âge ? 
Quan...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
4 
Exercice 
Exemple: étude du lien entre la taille et l’âge de...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
5 
Exemple: étude du lien entre la taille et l’âge des filles (...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
6 
Exercice 
Histogram of AGEAGE Frequency 050100200 02040608010...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
7 
Exemple: étude du lien entre la taille et l’âge des filles (...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
8 
Exemple: étude du lien entre la taille et l’âge des filles (...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
9 
Exercice 
Histogram of TAILTAIL Frequency 4080120160 02040608...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
10 
représenter la taille en fonction de l’age 
plot(AGE, TAIL)...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
11 
Exercice 
050100150200250 406080100120140160180 AGE TAIL
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
12 
II. Définition 
Régression de Y en X: 
Y= taille (cm) 
X=...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 13 
Comment évolue la Taille? 
= Quelle valeur de la Taille ? 
=>P...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 14 
Comment évolue la Taille? 
= Quelle valeur de la Taille ? 
=>P...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 15 
Comment évolue la Taille? 
= Quelle valeur de la Taille ? 
=>P...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
16 
Chez les filles de 18 mois, 
quelle est la taille moyenne?...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
17 
18 mois: quelle Taille? 
Moyenne observée: 
M(T/A=18)=79,2...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 18 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
E(Tai...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 19 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 35 
L(Tai...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 20 
Fonction de régression 
 Taille fonction de l'âge: 
M(Taille/...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 21 
Fonction de régression 
 Taille fonction de l'âge: 
M(Taille/...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 22 
Fonction de régression 
 Taille fonction de l'âge: 
E(Taille/...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 23 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 3...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 24 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 3...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 25 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 3...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 26 
 Pourquoi Linéaire et pas un 
Polynôme? 
40 
50 
60 
70 
80 
...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
27 
Régression linéaire: 
modèle le plus simple: 
Interprétati...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
28 
III. Estimation 
Droite de régression: 
Résume le mieuxle ...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 29 
 Estimer  et  tel que  petits +++ 
 i: écart entre la dr...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 30 
 Estimer  et  tel que  petits +++ 
 i: écart entre la dr...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 31 
filles 
40 
50 
60 
70 
80 
90 
100 
110 
0 5 10 15 20 25 30 3...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 32 
Principe de l'estimation 
 Somme des Carrés des Ecarts 
 Est...
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
33 
Estimation de le pente  
1. Question 
2. Définition 
3. Esti...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 34 
 Estimation de le pente  
1. Question 
2. Définition 
3. Est...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 35 
 Estimation de le pente  
1. Question 
2. Définition 
3. Est...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 36 
Rappels 
 Estimation de Variance de X: 
 Estimation de la co...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 37 
Covariance de la taille et de l’âge: 
cov(TAIL,AGE) 
Varian...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
38 
Covariance de la taille et de l’âge: 
cov(TAIL,AGE) = 2742....
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
39 
Estimation de : 
La droite passe par mYet mX 
1. Question...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 40 
 Estimation de  : 
 La droite passe par mY et mX 
1. Questi...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
41 
Estimation de : 
a<-mean(TAIL)-b*mean(AGE) 
a =73.729Exerc...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
42 
Estimation de : 
a<-mean(TAIL)-b*mean(AGE) 
a =73.729 
l’...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
43 
Estimation de : 
a<-mean(TAIL)-b*mean(AGE) 
a =73.729 
l’...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 44 
Interprétation 
 Pente : 
 =0: pas de lien, évolutions ind...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 45 
Interprétation 
 Pente : 
 =0: pas de lien, évolutions ind...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 46 
Interprétation 
 Pente : 
 =0: pas de lien, évolutions ind...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 47 
 Ordonnée à l'origine  
filles 
40 
50 
60 
70 
80 
90 
100 ...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
48 
IV. Test de la pente 
Si =0 => pas de lien entre Y et X 
...
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 49 
Hypothèses: 
H0: =0,il n'y a pas de lien entre X et Y 
H1: ...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 50 
 Sous H0 
~> Student à n-2 ddl 
Avec 
2 
0 
b s 
b 
t 
 
 ...
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
51 
Modèle linéaire: utilisation du logiciel R 
=> fonction lmlin...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
52 
Modèle linéaire: utilisation du logiciel R 
=> fonction lml...
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
53 
Modèle linéaire: utilisation du logiciel R 
=> fonction lmlin...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 54 
Modèle linéaire: utilisation du logiciel R 
=> fonction lmli...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
55Call: glm(formula = TAIL ~ 1 + AGE, family = gaussian) Devianc...
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
56 
Call: lm(formula = TAIL ~ AGE) 
Residuals: 
Min 1Q Median 3Q M...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
57 
Call: lm(formula = TAIL ~ AGE) 
Residuals: 
Min 1Q Median 3Q...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
58Call: lm(formula = TAIL ~ AGE) Residuals: Min 1Q Median 3Q Max...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
59 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)constantes po...
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
60 
Linéarité 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
61 
Linéarité 
1. Question 
2. Définition 
3. Estimation 
4. Test...
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 62 
Linéarité 
1. Question 
2. Définition 
3. Estimation 
4. Test
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 63Perte de Puissance 
Linéarité 
1. Question 
2. Définition 
3. ...
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
64 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)constantes pour...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
65 
qqnorm 
Conditions d'applications 
L(Y/X)~>N 
V(Y/X)const...
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
66 
qqnorm 
plot(résidus,age estimé) 
Conditions d'applications 
...
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
67 
qqnorm 
plot(résidus,age estimé) 
Conditions d'applications 
...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
68qqnorm 
plot(taille estimée,résidus) 
plot(taille,age) 
Condi...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 69 
L(Y/X)~>N 
qqnorm(mod1$res) 
qqline(mod1$res) Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
70 
plot(mod1$fitted,mod1$res) Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
71 
hétéroscédasticité 
non-linéarité 
1. Question 
2. Définitio...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 72 
filles 
30 
50 
70 
90 
110 
130 
150 
170 
190 
0 50 100 150 ...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 73 
filles 
30 
50 
70 
90 
110 
130 
150 
170 
190 
0 50 100 150 ...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
74 
Exercice 
050100150200250 406080100120140160180 AGE TAIL
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 75 
80 100 120 140 160 180 
-40 -20 0 20 
Fitted values 
Residuals...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 76 
V. Précision 
Hasard=> fluctuation de b 
Intervalle de conf...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 77 
V. Précision 
 Hasard=> fluctuation de b 
 Intervalle de con...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
78 
Intervalles de confiance des paramètres 
confint(mod1) 
Exe...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
79 
Intervalles de confiance des paramètres 
confint(mod1) Exer...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 80 
 Intervalle de confiance de la droite 
1. Question 
2. Défini...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 81 
 Intervalle de confiance de la droite 
1. Question 
2. Défini...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 82 
42 
52 
62 
72 
82 
92 
0 5 10 15 20 25 30 35 
Taille=73.73+0....
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
83 
Intervalle de prédiction 
Pour un Age (X) fixé, prédiction...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 84 
42 
52 
62 
72 
82 
92 
102 
0 5 10 15 20 25 30 35 
IC 95% 
IP...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
85 
valeur de l’âge: 
Prédiction/ estimation d’une taille 
pre...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
86 
valeur de l’âge: 
Prédiction/ estimation d’une taille 
pre...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
87 
valeur de l’âge: 
Prédiction/ estimation d’une taille 
TX<...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 88 
 Intervalle de confiance de la taille estimée: 
 Intervalle ...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
89 
Exercice 
Intervalle de confiance de la taille estimée: 
I...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 90 
VI. Adéquation 
Le modèle est-il un bon résumé des observati...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
91 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Préci...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
92 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Préci...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
93 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Préci...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
94 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Préci...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
95 
1. Question 
2. Définition 
3. Estimation 
4. Test 
5. Préci...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 96 
 Pourcentage de variance expliquée: 
 Exemple: R2=88% 
 Rem...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
97 
Estimation du coefficient de corrélationentre X et Y 
Esti...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
98 
Estimation du coefficient de corrélationentre X et Y 
Esti...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
99 
Call: lm(formula = TAIL ~ AGE) 
Residuals: 
Min 1Q Median 3Q...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
100 
VII. Régression multiple 
Plusieurs causes dans l'évolutio...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 101 
 Estimation: 
 , 1, 2, 3 estimés en tenant 
compte des ...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 102 
 Estimation: 
 , 1, 2, 3 estimés en tenant 
compte des ...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
103 
Tests des 1, 2, 3à 0 
Interprétation identique 
Adéqu...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
104 
Prédire l’âge en fonction de 8 mesures 
Crâne (BIP) 
Tro...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
105 
En moyenne: 
AGE= +1xBIP+2xLATHO+3xLOMAIN+ 
4xPERPOIG...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
106 
En moyenne: 
AGE= +1xBIP+2xLATHO+3xLOMAIN+ 
4xPERPOIG...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
107 
En moyenne: 
AGE= +1xBIP+2xLATHO+3xLOMAIN+ 
4xPERPOIG...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
108 
En moyenne: 
AGE= +1xBIP+2xLATHO+3xLOMAIN+ 
4xPERPOIG...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
109 
Graphique: 
splom (DATA) 
hist(AGE, col="blue") 
DATA=data...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
110 
Exercice 
hist(AGE, col="blue")
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
111 
Graphique: 
splom (DATA) 
hist(AGE, col="blue") 
DATA=data...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
112 
Graphique: 
splom (DATA) 
Exercice 
Erreur : impossible de...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
113 
Graphique: 
splom (DATA) 
ExerciceErreur : impossible de t...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
114 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 115 
Exercice
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
116 
Estimation: 
reg1<-lm(AGE~1+BIP+LATHO+LOMAIN+PERPOIGN 
+PE...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 117 
summary(reg1) Call: glm(formula = AGE ~ 1 + BIP + LATHO + LO...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
118 
summary(reg1) Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+P...
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.1265...
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.1265...
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.1265...
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.1265...
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.1265...
Call: 
lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.1265...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 125 
Que faut-il regarder ensuite ? 
conditions d’application 
...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
126 
qqnorm 
plot(age estimé, résidus) 
plot(AGE,prédicteurs) 
...
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 127 
qqnorm(reg1$res) 
qqline(reg1$res) 
5 10 15 
-4 -2 0 2 4 
Fit...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 128 
confint(reg1) 2.5 % 97.5 % (Intercept) -14.63496676 -11.1510...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
129 
2.5 % 97.5 % 
(Intercept) -14.70058351 -11.292408725 
BIP -...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 130 
2.5 % 97.5 % 
(Intercept) -14.70058351 -11.292408725 
BIP -0...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
131 
2.5 % 97.5 % 
(Intercept) -14.70058351 -11.292408725 
BIP -...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
132 
2.5 % 97.5 % 
(Intercept) -14.70058351 -11.292408725 
BIP -...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
133 
2.5 % 97.5 % 
(Intercept) -14.70058351 -11.292408725 
BIP -...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
134 
Exercice 
Adéquation: R² 
var(reg1$fitted.value)/var(AGE) ...
POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
136 
Prédiction 
nouvelles valeurs des prédicteurs 
ex: AGE? ...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
137 
Prédiction 
nouvelles valeurs des prédicteurs 
ex: AGE? ...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
138 
Prédiction 
nouvelles valeurs des prédicteurs 
ex: AGE? ...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
139 
Prédiction 
nouvelles valeurs des prédicteurs 
ex: AGE? ...
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 
140 
Intervalle de confiance 
Intervalle de prédiction 
age réel...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
141 
Sélection de variables 
Guillaume d’Ockham, 1285-1349 
«Le...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
142 
Critère de sélection 
Akaike Information Criterion AIC 
AI...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
143 
Critère de sélection 
Akaike Information Criterion AIC 
AI...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
144 
Sélection de variables: pas à pas 
reglow<-lm(AGE~1+STAT) ...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
145 
Sélection de variables: pas à pas 
reglow<-lm(AGE~1+STAT) ...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
146 
Sélection de variables: pas à pas 
aicreg<-stepAIC(reg1,sc...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
147 
Régression linéaire Multiple 
Sélection de variables: pas ...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
148 
Régression linéaire Multiple 
Sélection de variables: pas ...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
149 
Sélection de variables: modèle final 
regfin<-lm(AGE~1+LAT...
Call: 
lm(formula=AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) 
Residuals: 
Min 1Q Median 3Q Max 
-3.14469 -0.73537 -0....
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
151 
Interaction entre les variables 
... 
7. Multiple
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 152 
Interaction 
En moyenne: 
AGE= +1.LATHO+2.LOMAIN+3.PERP...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
153 
Call: 
lm(formula = AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + P...
Call: 
lm(formula = AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + 
STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STAT...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
155Start: AIC=57.65AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
156Step: AIC=56.88AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + ST...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
157 
Call: 
lm(formula=AGE~LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+PO...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
158 
Vérifier l’adéquation: 
Donner les intervalles de confian...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 159 
Vérifier l’adéquation: 
Donner les intervalles de confianc...
2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 160 
Exercice 
par(mfrow=c(2,2)) 
plot(aicreg) 
051015 -2024 Fitted...
2011 
© J Gaudart, LERTIM, Faculté de Médecine Marseille 
161 
Références 
J. Bouyer: Méthodesstatistiques, Médecine-Bio...
Prochain SlideShare
Chargement dans…5
×

La Regression lineaire

684 vues

Publié le

La Regression lineaire

Publié dans : Économie & finance
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
684
Sur SlideShare
0
Issues des intégrations
0
Intégrations
3
Actions
Partages
0
Téléchargements
65
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

La Regression lineaire

  1. 1. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 1 Principe de laRégression Linéaire
  2. 2. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 2 Plan 1.Question pratique 2.Définition de la régression 3.Estimation de la droite de régression 4.Test de la pente 5.Précision de la droite de régression 6.Adéquation du modèle 7.Régression Multiple
  3. 3. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 3 I. Question pratique Lien entre la taille et l'âge ? Quand l'âge , la taille ? Connaissant l'âge, peut-on prédire la taille? But médical: détecter les retards de croissances 1. Question
  4. 4. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 4 Exercice Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles Importer le fichier de données FILLES.xls Moyenne globale de l’AGE m= ? mois Variance globale de l’AGE s²= ? mois2 Graphiques ATF<-read.csv2("D:BIOSTATFILLES.csv", header=TRUE) transformer le fichier filles.xls en FILLES.csv attach(ATF) mean(AGE) var(AGE) hist(AGE, col="blue") boxplot(AGE, col="blue") par(mfrow=c(1,2))
  5. 5. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 5 Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles Importer le fichier de données filles.xls Moyenne globale de l’AGE m= 112,12mois Variance globale de l’AGE s²= 6265,86mois2 Graphiques ATF<-read.csv2("D:BIOSTATfilles.csv", header=TRUE) transformer le fichier filles.xls en filles.csv attach(ATF) mean(AGE) Exercice var(AGE) hist(AGE, col="blue") boxplot(AGE, col="blue") par(mfrow=c(1,2))
  6. 6. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 6 Exercice Histogram of AGEAGE Frequency 050100200 020406080100050100150200250
  7. 7. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 7 Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles Moyenne globale de la Taille (TAIL) m= ? cm Variance globale de la Taille (TAIL) s²= ? cm2 Graphiques mean(TAIL) var(TAIL) hist(TAIL, col="red") boxplot(TAIL, col="red") Exercice par(mfrow=c(1,2))
  8. 8. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 8 Exemple: étude du lien entre la taille et l’âge des filles (en mois), Echantillon de 637 filles Moyenne globale de la Taille (TAIL) m= 122,83cm Variance globale de la Taille (TAIL) s²= 1317,43cm2 Graphiques mean(TAIL) var(TAIL) Exercice hist(TAIL, col="red") boxplot(TAIL, col="red") par(mfrow=c(1,2))
  9. 9. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 9 Exercice Histogram of TAILTAIL Frequency 4080120160 020406080100406080100120140160180
  10. 10. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 10 représenter la taille en fonction de l’age plot(AGE, TAIL) Exercice
  11. 11. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 11 Exercice 050100150200250 406080100120140160180 AGE TAIL
  12. 12. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 12 II. Définition Régression de Y en X: Y= taille (cm) X= âge (mois) Comment la Taille évolue enfonctionde l'Age ? Taille= f(Age) 1. Question 2. Définition
  13. 13. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 13 Comment évolue la Taille? = Quelle valeur de la Taille ? =>Pour chaque Age => Sachant l'âge filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 1. Question 2. Définition
  14. 14. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 14 Comment évolue la Taille? = Quelle valeur de la Taille ? =>Pour chaque Age => Sachant l'âge filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 18 mois 1. Question 2. Définition
  15. 15. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 15 Comment évolue la Taille? = Quelle valeur de la Taille ? =>Pour chaque Age => Sachant l'âge filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 ? 18 mois 1. Question 2. Définition
  16. 16. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 16 Chez les filles de 18 mois, quelle est la taille moyenne? Quells est la variance de la taille ? Quelle est la distribution ? Exercice mean(TAIL[AGE==18]) hist(TAIL[AGE==18],col="magenta") var(TAIL[AGE==18])
  17. 17. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 17 18 mois: quelle Taille? Moyenne observée: M(T/A=18)=79,23 cm Variance observée: V(T/A=18)=9,36 cm2 Exercice
  18. 18. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 18 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 E(Taille / Age) 1. Question Distribution conditionnelle 2. Définition
  19. 19. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 19 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 L(Taille / Age) 1. Question Distribution conditionnelle 2. Définition
  20. 20. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 20 Fonction de régression  Taille fonction de l'âge: M(Taille/Age)= f(Age)  Fonction f(): droite E(Taille / Age)    Age 1. Question 2. Définition
  21. 21. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 21 Fonction de régression  Taille fonction de l'âge: M(Taille/Age)= f(Age)  Fonction f(): droite  Pour chaque sujet E(Taille / Age)    Age 1. Question 2. Définition Taille    Age 
  22. 22. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 22 Fonction de régression  Taille fonction de l'âge: E(Taille/Age)= f(Age)  Fonction f(): droite  Pour chaque sujet E(Taille / Age)    Age 1. Question 2. Définition Taille    Age 
  23. 23. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 23 filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 1. Question 2. Définition Erreur individuelle
  24. 24. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 24 filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 1. Question 2. Définition Erreur individuelle
  25. 25. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 25 filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 erreur 1. Question 2. Définition Erreur individuelle
  26. 26. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 26  Pourquoi Linéaire et pas un Polynôme? 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 ... 3 3 2 1 2 Y   X  X  X 1. Question 2. Définition
  27. 27. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 27 Régression linéaire: modèle le plus simple: Interprétation Estimations des paramètres Prédiction 1. Question 2. Définition
  28. 28. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 28 III. Estimation Droite de régression: Résume le mieuxle nuage de point => La plus proche de tous les points => Erreurs petits +++ 1. Question 2. Définition 3. Estimation
  29. 29. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 29  Estimer  et  tel que  petits +++  i: écart entre la droite et le point i i i i y    x  E(Y / X)    X 1. Question 2. Définition 3. Estimation Principe de l'estimation
  30. 30. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 30  Estimer  et  tel que  petits +++  i: écart entre la droite et le point i i i i y    x  E(Y / X)    X y E(Y / X) i i    1. Question 2. Définition 3. Estimation Principe de l'estimation
  31. 31. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 31 filles 40 50 60 70 80 90 100 110 0 5 10 15 20 25 30 35 i Erreur individuelle 1. Question 2. Définition 3. Estimation
  32. 32. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 32 Principe de l'estimation  Somme des Carrés des Ecarts  Estimer  et  tel que: SCE minimum     n i SCE ( i ) 1 2 1. Question 2. Définition 3. Estimation
  33. 33. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 33 Estimation de le pente  1. Question 2. Définition 3. Estimation bcovXYvarX
  34. 34. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 34  Estimation de le pente  1. Question 2. Définition 3. Estimation b cov XY var X
  35. 35. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 35  Estimation de le pente  1. Question 2. Définition 3. Estimation b cov XY var X
  36. 36. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 36 Rappels  Estimation de Variance de X:  Estimation de la covariance de XY cov XY i 1 n xi yi 1 n i 1 n xi i 1 n yi n 1 S2 X i 1 n xi 2 1 n i 1 n x i 2 n 1 1. Question 2. Définition 3. Estimation
  37. 37. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 37 Covariance de la taille et de l’âge: cov(TAIL,AGE) Variance de l’âge var(AGE) Estimation de  b<-cov(TAIL,AGE)/var(AGE) b Exercice
  38. 38. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 38 Covariance de la taille et de l’âge: cov(TAIL,AGE) = 2742.587 Variance de l’âge var(AGE) Estimation de  b<-cov(TAIL,AGE)/var(AGE) b =0.437703Exercice
  39. 39. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 39 Estimation de : La droite passe par mYet mX 1. Question 2. Définition 3. Estimation mYabmX
  40. 40. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 40  Estimation de  :  La droite passe par mY et mX 1. Question 2. Définition 3. Estimation mY a bm X a mY bm X
  41. 41. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 41 Estimation de : a<-mean(TAIL)-b*mean(AGE) a =73.729Exercice
  42. 42. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 42 Estimation de : a<-mean(TAIL)-b*mean(AGE) a =73.729 l’équation s’écrit donc: Exercice
  43. 43. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 43 Estimation de : a<-mean(TAIL)-b*mean(AGE) a =73.729 l’équation s’écrit donc: Taille=73.73 +0.44 Age +  ou E(Taille/Age)=73.73 +0.44 AgeExercice
  44. 44. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 44 Interprétation  Pente :  =0: pas de lien, évolutions indépendantes filles 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 1. Question 2. Définition 3. Estimation
  45. 45. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 45 Interprétation  Pente :  =0: pas de lien, évolutions indépendantes  <0: évolutions en sens contraire filles 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 1. Question 2. Définition 3. Estimation
  46. 46. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 46 Interprétation  Pente :  =0: pas de lien, évolutions indépendantes  <0: évolutions en sens contraire  >0: évolutions dans le même sens filles 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 1. Question 2. Définition 3. Estimation
  47. 47. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 47  Ordonnée à l'origine  filles 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 E(Y / X  0)  1. Question 2. Définition 3. Estimation
  48. 48. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 48 IV. Test de la pente Si =0 => pas de lien entre Y et X Lien entre Y et X est-il significatif? => 0? bestimation de  Hasard=> fluctuation de b observé => Test statistique 1. Question 2. Définition 3. Estimation 4. Test
  49. 49. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 49 Hypothèses: H0: =0,il n'y a pas de lien entre X et Y H1: 0, il y a un lien entre X et Y 1. Question 2. Définition 3. Estimation 4. Test
  50. 50. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 50  Sous H0 ~> Student à n-2 ddl Avec 2 0 b s b t   2 2 2 2 2    n b s s s X Y b 1. Question 2. Définition 3. Estimation 4. Test
  51. 51. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 51 Modèle linéaire: utilisation du logiciel R => fonction lmlinear model mod1<-lm(TAIL~1+AGE) mod1 Call: glm(formula = TAIL ~ 1 + AGE, family = gaussian) Coefficients: (Intercept) AGE 73.7290 0.4377 Degrees of Freedom: 636 Total (i.e. Null); 635 Residual Null Deviance: 837900 Residual Deviance: 74410 AIC: 4846 Exercice
  52. 52. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 52 Modèle linéaire: utilisation du logiciel R => fonction lmlinear model mod1<-lm(TAIL~1+AGE) mod1 Call: lm(formula = TAIL ~ 1 + AGE) Coefficients: (Intercept) AGE 73.7290 0.4377 Exercice
  53. 53. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 53 Modèle linéaire: utilisation du logiciel R => fonction lmlinear model mod1<-lm(TAIL~1+AGE) mod1 Call: lm(formula = TAIL ~ 1 + AGE) Coefficients: (Intercept) AGE 73.7290 0.4377 Exercice
  54. 54. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 54 Modèle linéaire: utilisation du logiciel R => fonction lmlinear model mod1<-lm(TAIL~1+AGE) mod1 Call: lm(formula = TAIL ~ 1 + AGE) Coefficients: (Intercept) AGE 73.7290 0.4377 Exercice a b
  55. 55. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 55Call: glm(formula = TAIL ~ 1 + AGE, family = gaussian) Deviance Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for gaussian family taken to be 117.1764) Null deviance: 837886 on 636 degrees of freedomResidual deviance: 74407 on 635 degrees of freedomAIC: 4846.2Number of Fisher Scoring iterations: 2 summary(mod1)Exercice
  56. 56. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 56 Call: lm(formula = TAIL ~ AGE) Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.82 on 635 degrees of freedom Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111 F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 summary(mod1)Exercice
  57. 57. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 57 Call: lm(formula = TAIL ~ AGE) Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.82 on 635 degrees of freedom Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111 F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 summary(mod1) Exerciceab
  58. 58. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 58Call: lm(formula = TAIL ~ AGE) Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.82 on 635 degrees of freedomMultiple R-squared: 0.9112, Adjusted R-squared: 0.9111 F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 summary(mod1)Exercice test =0
  59. 59. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 59 Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X à X donné, Yiindépendants La régression est linéaire 1. Question 2. Définition 3. Estimation 4. Test 
  60. 60. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 60 Linéarité 1. Question 2. Définition 3. Estimation 4. Test
  61. 61. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 61 Linéarité 1. Question 2. Définition 3. Estimation 4. Test Perte de Puissance
  62. 62. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 62 Linéarité 1. Question 2. Définition 3. Estimation 4. Test
  63. 63. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 63Perte de Puissance Linéarité 1. Question 2. Définition 3. Estimation 4. Test
  64. 64. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 64 Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaire 1. Question 2. Définition 3. Estimation 4. Test
  65. 65. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 65 qqnorm Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaire 1. Question 2. Définition 3. Estimation 4. Test
  66. 66. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 66 qqnorm plot(résidus,age estimé) Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaire 1. Question 2. Définition 3. Estimation 4. Test
  67. 67. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 67 qqnorm plot(résidus,age estimé) Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaireprotocole 1. Question 2. Définition 3. Estimation 4. Test
  68. 68. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 68qqnorm plot(taille estimée,résidus) plot(taille,age) Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaireprotocole 1. Question 2. Définition 3. Estimation 4. Test
  69. 69. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 69 L(Y/X)~>N qqnorm(mod1$res) qqline(mod1$res) Exercice
  70. 70. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 70 plot(mod1$fitted,mod1$res) Exercice
  71. 71. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 71 hétéroscédasticité non-linéarité 1. Question 2. Définition 3. Estimation 4. Test
  72. 72. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 72 filles 30 50 70 90 110 130 150 170 190 0 50 100 150 200 250 TAILLE(cm) AGE(mois) Exercice plot(AGE,TAIL)
  73. 73. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 73 filles 30 50 70 90 110 130 150 170 190 0 50 100 150 200 250 TAILLE(cm) AGE(mois) Exercice plot(AGE,TAIL)
  74. 74. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 74 Exercice 050100150200250 406080100120140160180 AGE TAIL
  75. 75. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 75 80 100 120 140 160 180 -40 -20 0 20 Fitted values Residuals Residuals vs Fitted 392 295 390 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 Theoretical Quantiles Standardized residuals Normal Q-Q 392 392095 80 100 120 140 160 180 0.0 0.5 1.0 1.5 2.0 Fitted values Standardized residuals Scale-Location 392 295 390 0.000 0.002 0.004 0.006 -4 -3 -2 -1 0 1 2 3 Leverage Standardized residuals Cook's distance Residuals vs Leverage 392 339403 par(mfrow=c(2,2)) plot(mod1)
  76. 76. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 76 V. Précision Hasard=> fluctuation de b Intervalle de confiance de la pente b~>tn-2 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 222b,nstb
  77. 77. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 77 V. Précision  Hasard=> fluctuation de b  Intervalle de confiance de la pente  b~>tn-2 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 2 2 n 2, b b t   s   Conditions d'applications  L(Y/X)~>N  V(Y/X) constantes pour tout X  à X donné, Yi indépendants  La régression est linéaire 
  78. 78. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 78 Intervalles de confiance des paramètres confint(mod1) Exercice 2.5 % 97.5 % (Intercept) 72.2707108 75.1872989 AGE 0.42707510.4483309
  79. 79. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 79 Intervalles de confiance des paramètres confint(mod1) Exercice 2.5 % 97.5 % (Intercept) 72.2707108 75.1872989 AGE 0.42707510.4483309
  80. 80. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 80  Intervalle de confiance de la droite 1. Question 2. Définition 3. Estimation 4. Test 5. Précision E(Y / X)  X Estimé par m a bX Y X   / 2 2 Y X n 2, mY X m t  s  
  81. 81. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 81  Intervalle de confiance de la droite 1. Question 2. Définition 3. Estimation 4. Test 5. Précision E(Y / X)  X Estimé par m a bX Y X   / 2 2 Y X n 2, mY X m t  s    Conditions d'applications  L(Y/X)~>N  V(Y/X) constantes pour tout X  à X donné, Yi indépendants  La régression est linéaire 
  82. 82. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 82 42 52 62 72 82 92 0 5 10 15 20 25 30 35 Taille=73.73+0.44xAge+ IC 95% mX=15,5 mY=73,6
  83. 83. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 83 Intervalle de prédiction Pour un Age (X) fixé, prédictionde la Taille (Y) Yp= a + b X Taillep=73,73+0,44 Age Précision: 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 22,2pystynp
  84. 84. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 84 42 52 62 72 82 92 102 0 5 10 15 20 25 30 35 IC 95% IP 95% Taille=73.73+0.44xAge+
  85. 85. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 85 valeur de l’âge: Prédiction/ estimation d’une taille predict(mod1, newdata=new.x, se.fit=TRUE) Exercice new.x=data.frame(AGE=18.2) $fit [1] 81.6952 $se.fit [1] 0.6658326 $residual.scale [1] 10.82480
  86. 86. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 86 valeur de l’âge: Prédiction/ estimation d’une taille predict(mod1, newdata=new.x, se.fit=TRUE) Exercice new.x=data.frame(AGE=18.2) $fit[1] 81.6952$se.fit[1] 0.6658326$residual.scale[1] 10.82480
  87. 87. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 87 valeur de l’âge: Prédiction/ estimation d’une taille TX<-predict(mod1, newdata=new.x, se.fit=TRUE) Exercice new.x=data.frame(AGE=18.2) $fit[1] 81.6952$se.fit[1] 0.6658326$residual.scale[1] 10.82480
  88. 88. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 88  Intervalle de confiance de la taille estimée:  Intervalle de prédiction de la taille prédite: 2 2, 2 yp y t s p n   Predint<-predict(mod1,newdata=new.x,interval="prediction") Confint<-predict(mod1,newdata=new.x,interval="confidence")
  89. 89. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 89 Exercice Intervalle de confiance de la taille estimée: Intervalle de prédiction de la taille prédite: Confint$fitPredint$fit fit lwr upr 1 81.6952 80.3877 83.0027 fit lwr upr 1 81.6952 60.39828 102.9921
  90. 90. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 90 VI. Adéquation Le modèle est-il un bon résumé des observations? Pourcentage de variance expliquée: 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation Part de variance expliquée par la régression Variance totaleR2=
  91. 91. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 91 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation mY mX
  92. 92. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 92 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. AdéquationmY mX Variance totale S2Y
  93. 93. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 93 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. AdéquationmY Variance totale S2Y mY/X
  94. 94. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 94 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation mY Variance totale S2YmY/X Variance expliquée
  95. 95. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 95 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation mY Variance totale S2YmY/X Variance expliquée )my(ecart)mm(ecartRYYX/Y   2
  96. 96. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 96  Pourcentage de variance expliquée:  Exemple: R2=88%  Remarque: R: estimation du coefficient de corrélation entre X et Y         2 2 2 i Y Y / X Y y m m m R i 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation
  97. 97. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 97 Estimation du coefficient de corrélationentre X et Y Estimation de R² Exercice r<-cor(TAIL,AGE) var(mod1$fitted.value)/var(TAIL) r*r ou 0.9545663 0.9111967
  98. 98. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 98 Estimation du coefficient de corrélationentre X et Y Estimation de R² Exercice r<-cor(TAIL,AGE) var(mod1$fitted.value)/var(TAIL) r*r ou 0.9545663 0.9111967
  99. 99. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 99 Call: lm(formula = TAIL ~ AGE) Residuals: Min 1Q Median 3Q Max -40.030 -6.899 2.999 8.120 24.999 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 73.729005 0.744041 99.09 <2e-16 *** AGE 0.437703 0.005423 80.72 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.82 on 635 degrees of freedom Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111 F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16 summary(mod1)
  100. 100. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 100 VII. Régression multiple Plusieurs causes dans l'évolution de la taille: Age (X1) Facteur socio-économiques (X2) Taux d'hormones de croissance (X3) 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple 332211321),,/(XXXXXXYE
  101. 101. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 101  Estimation:  , 1, 2, 3 estimés en tenant compte des 3 VA => Ajustement  Interactions 1 2 3 1 1 2 2 3 3 4 2 3 E(Y / X , X , X )   X  X  X  X X 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple
  102. 102. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 102  Estimation:  , 1, 2, 3 estimés en tenant compte des 3 VA => Ajustement  Interactions 1 2 3 1 1 2 2 3 3 4 2 3 E(Y / X , X , X )   X  X  X  X X 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple
  103. 103. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 103 Tests des 1, 2, 3à 0 Interprétation identique Adéquation identique Approche pas à pas Choix des variables: notion de modèle Variables très corrélées 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple
  104. 104. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 104 Prédire l’âge en fonction de 8 mesures Crâne (BIP) Tronc (LATHO) Membres supérieurs et inférieurs (LOMAIN, PERPOIGN, PERCHEV, PIEDS) Globales (STAT, POIDS) Echantillon de 1000 enfants de 2 à 16 ans Exercice
  105. 105. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 105 En moyenne: AGE= +1xBIP+2xLATHO+3xLOMAIN+ 4xPERPOIGN+5xPERCHEV+6xPIEDS+ 7xSTAT+8xPOIDS Exercice
  106. 106. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 106 En moyenne: AGE= +1xBIP+2xLATHO+3xLOMAIN+ 4xPERPOIGN+5xPERCHEV+6xPIEDS+ 7xSTAT+8xPOIDS Exercice TP<-read.csv2("C:BIOSTATAGE.csv", header=TRUE)
  107. 107. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 107 En moyenne: AGE= +1xBIP+2xLATHO+3xLOMAIN+ 4xPERPOIGN+5xPERCHEV+6xPIEDS+ 7xSTAT+8xPOIDS Statistiques descriptives Exercice TP<-read.csv2("C:BIOSTATAGE.csv", header=TRUE) mean(AGE) var(AGE) hist(AGE) attach(TP)
  108. 108. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 108 En moyenne: AGE= +1xBIP+2xLATHO+3xLOMAIN+ 4xPERPOIGN+5xPERCHEV+6xPIEDS+ 7xSTAT+8xPOIDS Statistiques descriptives Exercice mean(AGE) var(AGE) attach(TP) =10.373 =11.53541 TP<-read.csv2("C:BIOSTATAGE.csv", header=TRUE)
  109. 109. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 109 Graphique: splom (DATA) hist(AGE, col="blue") DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT) Exercice
  110. 110. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 110 Exercice hist(AGE, col="blue")
  111. 111. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 111 Graphique: splom (DATA) hist(AGE, col="blue") DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT) Exercice
  112. 112. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 112 Graphique: splom (DATA) Exercice Erreur : impossible de trouver la fonction "splom" hist(AGE, col="blue") DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT)
  113. 113. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 113 Graphique: splom (DATA) ExerciceErreur : impossible de trouver la fonction "splom" package lattice hist(AGE, col="blue") DATA=data.frame(AGE,BIP, LOMAIN,LATHO, PIEDS, POIDS, PERPOIGN, PERCHEV, STAT)
  114. 114. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 114 Exercice
  115. 115. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 115 Exercice
  116. 116. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 116 Estimation: reg1<-lm(AGE~1+BIP+LATHO+LOMAIN+PERPOIGN +PERCHEV+PIEDS+STAT+POIDS) AGE= +1xBIP+2xLATHO+3xLOMAIN+4xPERPOIGN +5xPERCHEV+6xPIEDS+7xSTAT+8xPOIDS Exercice
  117. 117. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 117 summary(reg1) Call: glm(formula = AGE ~ 1 + BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + PIEDS + STAT + POIDS, family = gaussian) Deviance Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for gaussian family taken to be 1.175526) Null deviance: 11523.9 on 999 degrees of freedomResidual deviance: 1164.9 on 991 degrees of freedomAIC: 3010.6Number of Fisher Scoring iterations: 2Exercice
  118. 118. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 118 summary(reg1) Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedomMultiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 Exercice
  119. 119. Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 119 summary(reg1) Exercicerégression
  120. 120. Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 120 summary(reg1) Exercice Prédicteurs, Variables explicatives
  121. 121. Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 121 summary(reg1) Exercice estimationsdes paramètres, ajustées
  122. 122. Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 122 summary(reg1) Exercice AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV +0,001PIEDS+0,2STAT-0,02POIDS estimationsdes paramètres, ajustées
  123. 123. Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 123 summary(reg1) Exercice AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV +0,001PIEDS+0,2STAT-0,02POIDS signification
  124. 124. Call: lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.12658 -0.72416 -0.04954 0.67239 4.36643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 *** BIP 3.312e-02 5.423e-02 0.611 0.54156 LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 *** LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 . PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 ** PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 . PIEDS 7.823e-04 2.612e-02 0.030 0.97611 STAT 1.546e-01 7.263e-03 21.289 < 2e-16 *** POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 124 summary(reg1) Exercice AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV +0,001PIEDS+0,2STAT-0,02POIDS signification
  125. 125. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 125 Que faut-il regarder ensuite ? conditions d’application intervalles de confiance des paramètres adéquation: R² 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple
  126. 126. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 126 qqnorm plot(age estimé, résidus) plot(AGE,prédicteurs) Conditions d'applications L(Y/X)~>N V(Y/X)constantes pour tout X homoscédasticité à X donné, Yiindépendants La régression est linéaireprotocole 1. Question 2. Définition 3. Estimation 4. Test 5. Précision 6. Adéquation 7. Multiple
  127. 127. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 127 qqnorm(reg1$res) qqline(reg1$res) 5 10 15 -4 -2 0 2 4 Fitted values Residuals Residuals vs Fitted 892 994 993 -3 -2 -1 0 1 2 3 -2 0 2 4 Theoretical Quantiles Standardized residuals Normal Q-Q 892 994 993 5 10 15 0.0 0.5 1.0 1.5 2.0 Fitted values Standardized residuals Scale-Location 892 994 993 0.00 0.02 0.04 0.06 -2 0 2 4 Leverage Standardized residuals Cook's distance Residuals vs Leverage 993 994 418 Exercice par(mfrow=c(2,2) plot(reg1)
  128. 128. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 128 confint(reg1) 2.5 % 97.5 % (Intercept) -14.63496676 -11.151092838BIP -0.07064460 0.146350137LATHO 0.07003811 0.178218882LOMAIN -0.03754588 0.206770294PERPOIGN -0.23572192 -0.046974279PERCHEV -0.09335361 0.010661467PIEDS -0.06133569 0.044411154STAT 0.14244571 0.171636649POIDS -0.03516689 -0.006578439Exercice Intervalles de confiance des paramètres
  129. 129. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 129 2.5 % 97.5 % (Intercept) -14.70058351 -11.292408725 BIP -0.07330209 0.139535454 LATHO 0.06968244 0.174040764 LOMAIN -0.01538828 0.218001320 PERPOIGN -0.22908876 -0.044831392 PERCHEV -0.09750881 0.004420695 PIEDS -0.05047023 0.052034764 STAT 0.14037312 0.168879663 POIDS -0.03450573 -0.006430739 confint(reg1) Exercice Intervalles de confiance des paramètres
  130. 130. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 130 2.5 % 97.5 % (Intercept) -14.70058351 -11.292408725 BIP -0.07330209 0.139535454 LATHO 0.06968244 0.174040764 LOMAIN -0.01538828 0.218001320 PERPOIGN -0.22908876 -0.044831392 PERCHEV -0.09750881 0.004420695 PIEDS -0.05047023 0.052034764 STAT 0.14037312 0.168879663 POIDS -0.03450573 -0.006430739 confint(reg1) Exercice Intervalles de confiance des paramètres
  131. 131. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 131 2.5 % 97.5 % (Intercept) -14.70058351 -11.292408725 BIP -0.07330209 0.139535454 LATHO 0.06968244 0.174040764 LOMAIN -0.01538828 0.218001320 PERPOIGN -0.22908876 -0.044831392 PERCHEV -0.09750881 0.004420695 PIEDS -0.05047023 0.052034764 STAT 0.14037312 0.168879663 POIDS -0.03450573 -0.006430739 confint(reg1) Exercice Intervalles de confiance des paramètres
  132. 132. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 132 2.5 % 97.5 % (Intercept) -14.70058351 -11.292408725 BIP -0.07330209 0.139535454 LATHO 0.06968244 0.174040764 LOMAIN -0.01538828 0.218001320 PERPOIGN -0.22908876 -0.044831392 PERCHEV -0.09750881 0.004420695 PIEDS -0.05047023 0.052034764 STAT 0.14037312 0.168879663 POIDS -0.03450573 -0.006430739 confint(reg1) Exercice Intervalles de confiance des paramètres
  133. 133. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 133 2.5 % 97.5 % (Intercept) -14.70058351 -11.292408725 BIP -0.07330209 0.139535454 LATHO 0.06968244 0.174040764 LOMAIN -0.01538828 0.218001320 PERPOIGN -0.22908876 -0.044831392 PERCHEV -0.09750881 0.004420695 PIEDS -0.05047023 0.052034764 STAT 0.14037312 0.168879663 POIDS -0.03450573 -0.006430739 confint(reg1) Exercice Intervalles de confiance des paramètres
  134. 134. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 134 Exercice Adéquation: R² var(reg1$fitted.value)/var(AGE) 0.8989102
  135. 135. POIDS -2.047e-02 7.153e-03 -2.861 0.00431 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.084 on 991 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981 F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 135 Exercice Adéquation: R² var(reg1$fitted.value)/var(AGE) 0.8989102
  136. 136. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 136 Prédiction nouvelles valeurs des prédicteurs ex: AGE? 14,2 23,5 15,9 148,2 15,5 23 36 38 BIP LA THO LO MAIN STAT PER POiGN PER CHEV POIDS PIEDS new.x<-data.frame(BIP=14.2, LATHO=23.5, LOMAIN=15.9, STAT=148.2, PERPOIGN=15.5, PERCHEV=23, POIDS=36, PIEDS=38) new.x Exercice
  137. 137. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 137 Prédiction nouvelles valeurs des prédicteurs ex: AGE? 14,2 23,5 15,9 148,2 15,5 23 36 38 BIP LA THO LO MAIN STAT PER POiGN PER CHEV POIDS PIEDS new.x<-data.frame(BIP=14.2, LATHO=23.5, LOMAIN=15.9, STAT=148.2, PERPOIGN=15.5, PERCHEV=23, POIDS=36, PIEDS=38) new.xBIP LATHO LOMAIN STAT PERPOIGN PERCHEV POIDS PIEDS1 14.2 23.5 15.9 148.2 15.5 23 36 38 Exercice
  138. 138. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 138 Prédiction nouvelles valeurs des prédicteurs ex: AGE? 14,2 23,5 15,9 148,2 15,5 23 36 38 BIP LA THO LO MAIN STAT PER POiGN PER CHEV POIDS PIEDS AX<-predict(reg1,newdata=new.x,se.fit=TRUE) $fit [1] 10.96339 $se.fit [1] 0.09568086 $residual.scale [1] 1.084217 age réel = 11 ans Exercice
  139. 139. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 139 Prédiction nouvelles valeurs des prédicteurs ex: AGE? 14,2 23,5 15,9 148,2 15,5 23 36 38 BIP LA THO LO MAIN STAT PER POiGN PER CHEV POIDS PIEDS AX<-predict(reg1,newdata=new.x,se.fit=TRUE) $fit [1] 10.96339 $se.fit [1] 0.09568086 $residual.scale [1] 1.084217 age réel = 11 ans Exercice
  140. 140. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 140 Intervalle de confiance Intervalle de prédiction age réel = 11 ans Exercice predict(reg1,newdata=new.x,se.fit=TRUE,interval="prediction" ) predict(reg1,newdata=new.x,se.fit=TRUE,interval="confidence" ) $fit fit lwr upr 1 10.96339 10.77563 11.15115 $fitfit lwr upr1 10.96339 8.827496 13.09928
  141. 141. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 141 Sélection de variables Guillaume d’Ockham, 1285-1349 «Les multiples ne doivent pas êtres utilisés sans nécessité» = principe de parcimonie => ne pas ajouter de nouvelles variables tant que celles présentes suffisent => balance entre explication / prédiction trop de variables: explication + / prédiction – overfitting~hyperadéquation ... 7. Multiple
  142. 142. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 142 Critère de sélection Akaike Information Criterion AIC AIC=2p-2ln(L) nombre de paramètres vraisemblance=>AIC le plus petit possible Sélection de variables ... 7. Multiple
  143. 143. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 143 Critère de sélection Akaike Information Criterion AIC AIC=2p-2ln(L) nombre de paramètres vraisemblance =>AIC le plus petit possible Sélection de variables ... 7. Multiple
  144. 144. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 144 Sélection de variables: pas à pas reglow<-lm(AGE~1+STAT) summary(reglow) Call: glm(formula = AGE ~ 1 + STAT) Deviance Residuals: Min 1Q Median 3Q Max -3.22224 -0.74277 -0.02807 0.73413 4.29016 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -11.909459 0.244761 -48.66 <2e-16 *** STAT 0.153978 0.001674 91.98 <2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for gaussian family taken to be 1.218439) Null deviance: 11524 on 999 degrees of freedom Residual deviance: 1216 on 998 degrees of freedom AIC: 3039.4 Number of Fisher Scoring iterations: 2 Exercice
  145. 145. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 145 Sélection de variables: pas à pas reglow<-lm(AGE~1+STAT) summary(reglow) Call: lm(formula = AGE ~ 1 + STAT) Residuals: Min 1Q Median 3Q Max -3.22224 -0.74277 -0.02807 0.73413 4.29016 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -11.909459 0.244761 -48.66 <2e-16 *** STAT 0.153978 0.001674 91.98 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.104 on 998 degrees of freedom Multiple R-squared: 0.8945, Adjusted R-squared: 0.8944 F-statistic: 8460 on 1 and 998 DF, p-value: < 2.2e-16 Exercice
  146. 146. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 146 Sélection de variables: pas à pas aicreg<-stepAIC(reg1,scope=list(upper=reg1,lower=reglow),direction=c("both")) Exercice
  147. 147. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 147 Régression linéaire Multiple Sélection de variables: pas à pas aicreg<-stepAIC(reg1,scope=list(upper=reg,lower=reg1),direction=c("both")) Start: AIC=170.67 AGE ~ 1 + BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + PIEDS + STAT + POIDS Df Sum of Sq RSS AIC -PIEDS 1 0.0011 1165.0 168.68 -BIP 1 0.4384 1165.4 169.05 <none> 1165.0 170.68 -LOMAIN 1 3.4116 1168.4 171.60 -PERCHEV 1 3.7755 1168.7 171.91 -POIDS 1 9.6243 1174.6 176.90 -PERPOIGN 1 10.0043 1175.0 177.23 -LATHO 1 24.6905 1189.6 189.65 Step: AIC=168.68 AGE ~ BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS Df Sum of Sq RSS AIC -BIP 1 0.4433 1165.4 167.06 <none> 1165.0 168.68 -LOMAIN 1 3.6758 1168.6 169.83 -PERCHEV 1 4.0625 1169.0 170.16 + PIEDS 1 0.0011 1165.0 170.68 -POIDS 1 9.9216 1174.9 175.16 -PERPOIGN 1 10.4397 1175.4 175.60 -LATHO 1 24.7051 1189.7 187.66
  148. 148. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 148 Régression linéaire Multiple Sélection de variables: pas à pas aicreg<-stepAIC(reg1,scope=list(upper=reg,lower=reg1),direction=c("both")) Step: AIC=167.06 AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS Df Sum of Sq RSS AIC <none> 1165.4 167.06 -PERCHEV 1 3.7648 1169.2 168.28 -LOMAIN 1 3.8633 1169.2 168.37 + BIP 1 0.4433 1165.0 168.68 + PIEDS 1 0.0060 1165.4 169.05 -POIDS 1 9.7153 1175.1 173.36 -PERPOIGN 1 10.6173 1176.0 174.12 -LATHO 1 26.2754 1191.7 187.35
  149. 149. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 149 Sélection de variables: modèle final regfin<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) Call: lm(formula=AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.14469 -0.73537 -0.04168 0.68040 4.37259 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -12.611320 0.592893 -21.271 < 2e-16 *** LATHO 0.124299 0.026270 4.732 2.55e-06 *** LOMAIN 0.104090 0.057371 1.814 0.0699 . PERPOIGN -0.137719 0.045788 -3.008 0.0027 ** PERCHEV -0.044138 0.024643 -1.791 0.0736 . STAT 0.154353 0.006506 23.724 < 2e-16 *** POIDS -0.020256 0.007040 -2.877 0.0041 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.083 on 993 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8983 F-statistic: 1471 on 6 and 993 DF, p-value: < 2.2e-16 Exercice
  150. 150. Call: lm(formula=AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) Residuals: Min 1Q Median 3Q Max -3.14469 -0.73537 -0.04168 0.68040 4.37259 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -12.611320 0.592893 -21.271 < 2e-16 *** LATHO 0.124299 0.026270 4.732 2.55e-06 *** LOMAIN 0.104090 0.057371 1.814 0.0699 . PERPOIGN -0.137719 0.045788 -3.008 0.0027 ** PERCHEV -0.044138 0.024643 -1.791 0.0736 . STAT 0.154353 0.006506 23.724 < 2e-16 *** POIDS -0.020256 0.007040 -2.877 0.0041 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.083 on 993 degrees of freedom Multiple R-squared: 0.8989, Adjusted R-squared: 0.8983 F-statistic: 1471 on 6 and 993 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 150 Sélection de variables: modèle final regfin<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS) Exercice
  151. 151. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 151 Interaction entre les variables ... 7. Multiple
  152. 152. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 152 Interaction En moyenne: AGE= +1.LATHO+2.LOMAIN+3.PERPOIGN +4.PERCHEV+5.STAT+6.POIDS +7.LOMAIN.STAT+8.LATHO.POIDS+9.POIDS.STAT regint<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS+LOMAIN:STAT+LATHO:POIDS+POIDS:STAT) ... 7. Multiple
  153. 153. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 153 Call: lm(formula = AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STAT) Residuals: Min 1Q Median 3Q Max -3.158979 -0.691690 -0.009895 0.639070 3.631405 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.887e+01 2.750e+00 -6.861 1.21e-11 *** LATHO 1.812e-01 5.837e-02 3.105 0.001957 ** LOMAIN 4.456e-01 2.862e-01 1.557 0.119725 PERPOIGN -2.179e-01 4.417e-02 -4.932 9.53e-07 *** PERCHEV -7.357e-02 2.348e-02 -3.134 0.001776 ** STAT 1.875e-01 1.715e-02 10.932 < 2e-16 *** POIDS 1.787e-01 5.293e-02 3.376 0.000763 *** LOMAIN:STAT -2.090e-03 1.892e-03 -1.105 0.269638 LATHO:POIDS -1.412e-03 1.165e-03 -1.212 0.225948 STAT:POIDS -8.564e-04 4.194e-04 -2.042 0.041409 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.024 on 990 degrees of freedom Multiple R-squared: 0.9099, Adjusted R-squared: 0.9091 F-statistic: 1111 on 9 and 990 DF, p-value: < 2.2e-16
  154. 154. Call: lm(formula = AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STAT) Residuals: Min 1Q Median 3Q Max -3.158979 -0.691690 -0.009895 0.639070 3.631405 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.887e+01 2.750e+00 -6.861 1.21e-11 *** LATHO 1.812e-01 5.837e-02 3.105 0.001957 ** LOMAIN 4.456e-01 2.862e-01 1.557 0.119725 PERPOIGN -2.179e-01 4.417e-02 -4.932 9.53e-07 *** PERCHEV -7.357e-02 2.348e-02 -3.134 0.001776 ** STAT 1.875e-01 1.715e-02 10.932 < 2e-16 *** POIDS 1.787e-01 5.293e-02 3.376 0.000763 *** LOMAIN:STAT -2.090e-03 1.892e-03 -1.105 0.269638 LATHO:POIDS -1.412e-03 1.165e-03 -1.212 0.225948 STAT:POIDS -8.564e-04 4.194e-04 -2.042 0.041409 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.024 on 990 degrees of freedom Multiple R-squared: 0.9099, Adjusted R-squared: 0.9091 F-statistic: 1111 on 9 and 990 DF, p-value: < 2.2e-16 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 154
  155. 155. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 155Start: AIC=57.65AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STATDf Sum of Sq RSS AIC-LOMAIN:STAT 1 1.2796 1039.7 56.884-LATHO:POIDS 1 1.5397 1039.9 57.135<none> 1038.4 57.653-STAT:POIDS 1 4.3738 1042.7 59.856-PERCHEV 1 10.3005 1048.7 65.524 -PERPOIGN 1 25.5159 1063.9 79.929 aicreg<-stepAIC(regint,scope=list(upper=regint,lower=reglow), direction=c("both")) Exercice (...)
  156. 156. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 156Step: AIC=56.88AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LATHO:POIDS + STAT:POIDSDf Sum of Sq RSS AIC-LATHO:POIDS 1 0.711 1040.4 55.568<none> 1039.7 56.884+ LOMAIN:STAT 1 1.280 1038.4 57.653-LOMAIN 1 6.496 1046.2 61.114-PERCHEV 1 10.573 1050.2 65.003-PERPOIGN 1 26.222 1065.9 79.793-STAT:POIDS 1 50.998 1090.7 102.772Step: AIC=55.57AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + STAT:POIDSDf Sum of Sq RSS AIC<none> 1040.4 55.568+ LATHO:POIDS 1 0.711 1039.7 56.884+ LOMAIN:STAT 1 0.451 1039.9 57.135-LOMAIN 1 6.699 1047.1 59.986-PERCHEV 1 10.513 1050.9 63.622-LATHO 1 22.727 1063.1 75.178-PERPOIGN 1 25.628 1066.0 77.903-STAT:POIDS 1 125.029 1165.4 167.056 Exercice
  157. 157. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 157 Call: lm(formula=AGE~LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS+STAT:POIDS) Residuals: Min 1Q Median 3Q Max -3.12506 -0.68523 -0.01197 0.65241 3.61796 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.583e+01 6.333e-01 -24.997 < 2e-16 *** LATHO 1.157e-01 2.485e-02 4.655 3.68e-06 *** LOMAIN 1.373e-01 5.432e-02 2.527 0.01165 * PERPOIGN -2.170e-01 4.389e-02 -4.943 9.01e-07 *** PERCHEV -7.427e-02 2.346e-02 -3.166 0.00159 ** STAT 1.768e-01 6.486e-03 27.265 < 2e-16 *** POIDS 2.246e-01 2.339e-02 9.602 < 2e-16 *** STAT:POIDS -1.382e-03 1.266e-04 -10.919 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.024 on 992 degrees of freedom Multiple R-squared: 0.9097, Adjusted R-squared: 0.9091 F-statistic: 1428 on 7 and 992 DF, p-value: < 2.2e-16 Summary(aicreg) Exercice
  158. 158. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 158 Vérifier l’adéquation: Donner les intervalles de confiance des paramètres Vérifier les conditions d’applicationR²=0.9097212 Exercice confint(regfin) 2.5 % 97.5 % (Intercept) -17.071155758 -14.588806731 LATHO 0.066963177 0.164356035 LOMAIN 0.030823120 0.243748696 PERPOIGN -0.302970654 -0.130934549 PERCHEV -0.120248659 -0.028292907 STAT 0.164115926 0.189539112 POIDS 0.178761670 0.270460878 STAT:POIDS -0.001629865 -0.001133776
  159. 159. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 159 Vérifier l’adéquation: Donner les intervalles de confiance des paramètres Vérifier les conditions d’application R²=0.9097212Exercice confint(regfin) 2.5 % 97.5 % (Intercept) -17.071155758 -14.588806731 LATHO 0.066963177 0.164356035 LOMAIN 0.030823120 0.243748696 PERPOIGN -0.302970654 -0.130934549 PERCHEV -0.120248659 -0.028292907 STAT 0.164115926 0.189539112 POIDS 0.178761670 0.270460878 STAT:POIDS -0.001629865 -0.001133776
  160. 160. 2011© J Gaudart, LERTIM, Faculté de Médecine Marseille 160 Exercice par(mfrow=c(2,2)) plot(aicreg) 051015 -2024 Fitted values Residuals Residuals vs Fitted892242228-3-2-10123 -3-2-101234 Theoretical Quantiles Standardized residuals Normal Q-Q892242228051015 0.00.51.01.5 Fitted values Standardized residuals Scale-Location8922422280.000.010.020.030.040.050.06 -2024 Leverage Standardized residuals Cook's distanceResiduals vs Leverage892418451
  161. 161. 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 161 Références J. Bouyer: Méthodesstatistiques, Médecine-Biologie, edINSERM J. Bouyer: Epidémiologiequantitative, edINSERM CIMES: Biostatistiques, edOmnisciences JJ. Faraway: Linear Models with R, edChapman&Hall Contactjean.gaudart@univmed.fr http://lertim.org Labo. d’Enseignementet de Recherchesurle Traitementde l’InformationMédicale, Facultéde Médecinede Marseille

×