ENSTA,
Cours D7-1 / Chapitre 5
Modèle de régression linéaire
bivarié
Laurent Ferrara
Jean-Paul Renne
Octobre 2010
Soit 2 variables continues X et Y. On observe les unités
expérimentales : (xi , yi), pour i = 1, …, n.
1. Existe-t-il un l...
Exemple : données USA 1992 sur 50 états (state.x77)
Existe-t-il un lien entre :
les revenus d’un état et le nombre de ses ...
Causalité?
Existe-t-il un lien entre :
Le nombre de meurtres et l ’espérance de vie?
7273
Murder
LifeExp
2 4 6 8 10 12 14
...
Quel type de lien?
• Mise en évidence un lien linéaire entre les 2 variables.
– Y est considérée comme la variable à expli...
x
y
-1 0 1
-101
x
y2
-1 0 1
0123
x
y3
-1 0 1
-4-20246
x
yexp
-1 0 1
0123456
Comment mesurer un lien linéaire?
• Outil principal : Coefficient de corrélation linéaire
)()(
),(
),(
YVXV
YXCov
YXc =
Es...
Comment mesurer un lien linéaire?
• Signification :
baXYqtbaYXc +=∃⇔= :..,1),(
?1),( <YXc
• Test de Student
– H0 :
– H1 :
...
Comment mesurer un lien linéaire?
• Sous l’hypothèse nulle H0 :
suit une loi de Student à (n-2) dl
2)),(1(
),(
2
−− nYX
YX...
Attention au piège : dépendance non linéaire
le coeff de corrélation ne mesure que la dépendance linéaire.
> cor(x, y)
[1]...
Attention au piège : Corrélation fallacieuse
Existence d’un coefficient de corrélation non nul entre deux
variables qu’auc...
empindus
4500,0
4600,0
4700,0
Évolution de l’emploi industriel France (Trimestriel 1991-2003)
4000,0
4100,0
4200,0
4300,0
...
Imports
1,70
1,90
2,10
Évolution des importations de biens en volume France 1991-2003
0,70
0,90
1,10
1,30
1,50
m
ars-91
ju...
Corrélation = - 0,50, t de Student = 3,99
→ Conclusion statistique : on rejette l’hypothèse H0 de nullité
de la corrélatio...
On remarque également que les coefficients de corrélation
entre chacune des variables et le temps sont de :
– 0,75 pour l’...
Attention au piège :
Un coefficient de corrélation nul ne signifie pas que les
variables sont indépendantes (sauf dans le ...
Autres outils de mesure de dépendance:
– Concordance
– Corrélation de rang (Tau de Kendall, coefficient de Spearman)
– Cor...
Comment modéliser un lien linéaire?
• Quel est le « meilleur » ajustement linéaire?
• Exemple : relation poids / taille
74...
Notation
iy est la ième observation de la variable exogène
ix est la ième observation de la variable endogènei
iyˆ est la ...
210
200
190
180
170
160
150
140
weight
w = -266.5 + 6.1 h
1 64 121 126.3
ix iy iyˆi
74706662
130
120
height
1 64 121 126.3...
Erreur de prévision
(ou erreur résiduelle)
En utilisant iyˆ pour prédire ,iy
on fait une erreur de prévision:
yye ˆ−= iii ...
Critère des “Moindres Carrés”
Objectif : Choisir les valeurs b0 et b1 qui minimise la
Equation de la droite : ii xbby 10
ˆ...
La droite de régression
Par le calcul, minimiser (dériver, annuler et résoudre
pour b0 et b1):
( )( )
2
1
10∑=
+−=
n
i
ii ...
170
180
190
200
210ht
weight = -266.534 + 6.13758 height
S = 8.64137 R-Sq = 89.7 % R-Sq(adj) = 88.4 %
Regression Plot
Résu...
Remarques
En termes géométriques
• la droite de régression est celle qui minimise la distance
quadratique entre les points...
Formalisation
Hypothèses du modèle linéaire :
• H1 : E(Yi) fonction linéaire des xi (déterministes)
y = b + b x + εεεε , p...
• H4 : E(εεεε2
i) = σ2 , les erreurs sont de variance égale
pour toute valeur de X
(hypothèse d’homoscédasticité)
• H5 : E...
Estimation des paramètres
Quels paramètres ? → b0 , b1 , σ2 →
estimés par MCO
2
10
ˆ,ˆ,ˆ σbb
10
ˆ,ˆ bb
estimée par l’erreu...
La MSE est définie par :
( )
2
ˆ
ˆ 1
2
2
−
−
==
∑=
n
YY
MSE
n
i
ii
σ
On pondère par le nombre de degrés de liberté du modè...
Loi asymptotique des paramètres
Les estimateurs MCO sont sans biais et convergents
• On montre que :
00 )ˆ( bbE = 11)ˆ( bb...
Loi asymptotique des paramètres
• De même,












−
+=
∑=
n
i
i Xx
X
n
bV
1
2
2
2
0
)(
1
ˆ)ˆ( σ
 =i 1
∞...
Remarques
• Dans ce cadre, sous l ’hypothèse de normalité des erreurs,
estimateur MCO = estimateur EMV
• La variance estim...
100
90
80
t
S = 4.76923 R-Sq = 96.1 % R-Sq(adj) = 95.5 %
fahrenheit = 34.1233 + 1.61538 celsius
Regression Plot
Exemple : ...
… celle de celui-ci?
100
eit
S = 21.7918 R-Sq = 70.6 % R-Sq(adj) = 66.4 %
fahrenheit = 17.0709 + 2.30583 celsius
Regressio...
Remarques
• Quel est le but du jeu de toute tentative de modélisation
d’une variable Y ?
→→→→ Minimiser la variance résidu...
Validation du modèle
On valide le modèle à l’aide des tests statistiques.
2 types de tests d’hypothèses sont développés :
...
(1-αααα) IC pour la pente
Formule “avec des mots” :
Paramètre estimé ± (t-multiplier × standard error)
1
ˆb
Formule en not...
Test sur la pente
Null hypothesis H0: β1 = β (en général =0)
Alternative hypothesis H1: β1 ≠ β (en général ≠ 0)
( )
11
*
b...
Formule “avec des mots” :
Paramètre estimé ± (t-multiplier × standard error)
0
ˆb(1-αααα) IC pour la constante
Formule en ...
Null hypothesis H0: β0 = β (en général = 0)
Alternative hypothesis HA: β0 ≠ β (en général ≠ 0)
00
*
bb
t
ββ −
=
−
=
Test s...
Test sur le terme d’erreur
Les intervalles et les tests précédents sont basés
sur la Normalité du terme d’erreur. Il impor...
> w.fit <- lm(weight ~ 1 + height)
> summary(w.fit)
Call: lm(formula = weight ~ 1 + height)
Residuals:
Min 1Q Median 3Q Ma...
180200
Graphique : Poids observé vs. poids estimé
Fitted : 1 + height
weight
120 140 160 180
120140160
Mesure de la qualité du modèle
On mesure la qualité du modèle par l’analyse de la variance
On montre les 2 relations suiva...
∑∑∑ +−=−
i
i
i
i
i
i eyyyy 222
)ˆˆ()(
On en déduit l’équation de l’analyse de la variance:
Variance totale = Variance expl...
• R2 : mesure de la variance expliquée
• Le R2 est à valeur entre 0 et 1
∑=
−
−= n
i
i YY
R
1
2
2
2
)(
ˆ
1
σ
• Le R2 est à...
Prévision
Que veut-on prévoir?
• La réponse «moyenne» de la population = E(Yh) pour
une valeur xh
– Ex : Quel est le poids...
est le meilleur estimateur dans chaque cas.hh xbbY 10
ˆ +=
En fait les 2 prévisions sont égales :
Seuls les intervalles de...
22
18
etestscore
( ) xxYEY 10 ββµ +==
54321
14
10
6
High school gpa
Collegeentrance
( ) ii xY εββ ++= 10
Intervalle de confiance pour la
réponse moyenne de la population
E(Y )E(Yh)
Formule “avec des mots” :
Sample estimate ± (t-multiplier × standard error)
(1-αααα) IC pour la réponse moyenne
E(Yh)
Form...
Implications sur la précision
• Au plus les valeurs des xi sont étalées, au plus
l’intervalle de confiance est petit,
donc...
Remarques
• xh est une valeur correspondant au champ de
l’étude mais pas nécessairement une valeur de
l’échantillon
• L’IC...
> predict(w.fit, base2, type = "response", ci.fit = T, se.fit = T)
$fit:
1 2
102 224
$se.fit:
1 2
7.36 8.33
Exemple : Esti...
Intervalle de Prévision pour la
réponse Yh(new) à une nouvelle
valeur xvaleur xh(new)
Prévision de Yh(new)
si la moyenne E(Y) est connue,
i.e. : si les paramètres sont fixés
Hypothèse 252
=σ 5=σcàd
0.07
0.08
Prévision de Yh(new)
si la moyenne E(Y) est connue
47 52 57 62 67 72 77
0.00
0.01
0.02
0.03
0.04
0.05
0.06
Numbe...
Prévision de Yh(new) si la moyenne
E(Y) n’est pas connue
i.e. si les paramètres sont estimés
→ on rajoute une incertitude ...
La prévision est non biaisée
hh xbbY 10
ˆˆˆ +=
hhh YYe −= ˆ
Propriété:
hh
hhh
hhh
xbbbb
xbbxbb
YYe
ε
ε
+−+−=
+−++=
−=
)ˆ()...
Variance de la prévision
Elle dépend de 2 composantes :
1. Variance due à l’estimation de E(Yh) par
2. Variance de Y inhér...
Sample prediction ± (t-multiplier × standard error)
(1-αααα) IC pour la réponse Yh
( )
( )
( ) 







−
−
++×±
∑−...
250
ality
S = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 %
Mortality = 389.189 - 5.97764 Latitude
Regression Plot
504030
150
5...
Prochain SlideShare
Chargement dans…5
×

(Statdes regression biv_ensta_21oct2010)

299 vues

Publié le

Publié dans : Économie & finance
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
299
Sur SlideShare
0
Issues des intégrations
0
Intégrations
5
Actions
Partages
0
Téléchargements
12
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

(Statdes regression biv_ensta_21oct2010)

  1. 1. ENSTA, Cours D7-1 / Chapitre 5 Modèle de régression linéaire bivarié Laurent Ferrara Jean-Paul Renne Octobre 2010
  2. 2. Soit 2 variables continues X et Y. On observe les unités expérimentales : (xi , yi), pour i = 1, …, n. 1. Existe-t-il un lien entre X et Y? 2. Comment le mesurer ? 3. Comment modéliser ce lien?3. Comment modéliser ce lien? 4. Comment estimer les paramètres de ce modèle? 5. Comment valider ce modèle ? 6. Comment tirer partie de ce modèle pour prévoir les valeurs d’une variable d’après les valeurs de l’autre?
  3. 3. Exemple : données USA 1992 sur 50 états (state.x77) Existe-t-il un lien entre : les revenus d’un état et le nombre de ses « high-school graduates »? 6065 Inc Gra 3000 3500 4000 4500 5000 5500 6000 40455055
  4. 4. Causalité? Existe-t-il un lien entre : Le nombre de meurtres et l ’espérance de vie? 7273 Murder LifeExp 2 4 6 8 10 12 14 68697071
  5. 5. Quel type de lien? • Mise en évidence un lien linéaire entre les 2 variables. – Y est considérée comme la variable à expliquer , ou dépendante, ou endogène. – X est considérée comme la variable explicative, ou indépendante, ou– X est considérée comme la variable explicative, ou indépendante, ou exogène. • Relation statistique entre les 2 variables (non-déterministe) : la connaissance de X n’implique pas la connaissance parfaite de Y : il existe une erreur aléatoire autour de la valeur prédite
  6. 6. x y -1 0 1 -101 x y2 -1 0 1 0123 x y3 -1 0 1 -4-20246 x yexp -1 0 1 0123456
  7. 7. Comment mesurer un lien linéaire? • Outil principal : Coefficient de corrélation linéaire )()( ),( ),( YVXV YXCov YXc = Estimateur empirique : ∑∑ ∑ == = −− −− = n i i n i i n i ii YyXx YyXx YX 1 2 1 2 1 )()( ))(( ),(ρ
  8. 8. Comment mesurer un lien linéaire? • Signification : baXYqtbaYXc +=∃⇔= :..,1),( ?1),( <YXc • Test de Student – H0 : – H1 : 0),( =YXρ 0),( ≠YXρ
  9. 9. Comment mesurer un lien linéaire? • Sous l’hypothèse nulle H0 : suit une loi de Student à (n-2) dl 2)),(1( ),( 2 −− nYX YX ρ ρ Donc, si est tq : t* > on rejette H0 au seuil de risque α 2/ 2 α −nt 2)),(1( ),( * 2 −− = nYX YX t ρ ρ
  10. 10. Attention au piège : dépendance non linéaire le coeff de corrélation ne mesure que la dépendance linéaire. > cor(x, y) [1] 0.99 > cor(x, y2) [1] 0.246 > cor(x, y3) [1] 0.854 > cor(x, yexp) • Effectuer une analyse graphique au préalable pour identifier la forme de la dépendance. • Un coeff de corrélation élevé ne signifie pas forcément une dépendance linéaire. > cor(x, yexp) [1] 0.898
  11. 11. Attention au piège : Corrélation fallacieuse Existence d’un coefficient de corrélation non nul entre deux variables qu’aucune théorie économique, physique … ne relie. 2 cas :2 cas : – résultat purement aléatoire – existence d’un troisième variable qui explique conjointement les 2 phénomènes (en général : le temps) Exemple de Krugman : lien désindustrialisation–délocalisation aux USA (application à la France)
  12. 12. empindus 4500,0 4600,0 4700,0 Évolution de l’emploi industriel France (Trimestriel 1991-2003) 4000,0 4100,0 4200,0 4300,0 4400,0 m ars-91 juil-91 nov-91m ars-92 juil-92 nov-92m ars-93 juil-93 nov-93m ars-94 juil-94 nov-94m ars-95 juil-95 nov-95m ars-96 juil-96 nov-96m ars-97 juil-97 nov-97m ars-98 juil-98 nov-98m ars-99 juil-99 nov-99m ars-00 juil-00 nov-00m ars-01 juil-01 nov-01m ars-02 juil-02 nov-02m ars-03
  13. 13. Imports 1,70 1,90 2,10 Évolution des importations de biens en volume France 1991-2003 0,70 0,90 1,10 1,30 1,50 m ars-91 juil-91 nov-91m ars-92 juil-92 nov-92m ars-93 juil-93 nov-93m ars-94 juil-94 nov-94m ars-95 juil-95 nov-95m ars-96 juil-96 nov-96m ars-97 juil-97 nov-97m ars-98 juil-98 nov-98m ars-99 juil-99 nov-99m ars-00 juil-00 nov-00m ars-01 juil-01 nov-01m ars-02 juil-02 nov-02m ars-03
  14. 14. Corrélation = - 0,50, t de Student = 3,99 → Conclusion statistique : on rejette l’hypothèse H0 de nullité de la corrélation linéaire entre les 2 variables → Conclusion économique rapide : les pays à faibles coûts salariaux détruisent les emplois dans l ’industrie Françaisesalariaux détruisent les emplois dans l ’industrie Française Or, Krugman a montré qu’en fait les destructions d’emplois industriels étaient causées par la baisse des dépenses (en valeur) des ménages en produits manufacturés, liée à la forte hausse de la productivité dans l’industrie par comparaison avec celle dans les services
  15. 15. On remarque également que les coefficients de corrélation entre chacune des variables et le temps sont de : – 0,75 pour l’emploi industriel 0,94 pour les imports Exercice : Proposer des exemples de corrélation fallacieuse
  16. 16. Attention au piège : Un coefficient de corrélation nul ne signifie pas que les variables sont indépendantes (sauf dans le cas Gaussien) En particulier, il peut exister une relation sur les moments d’ordre supérieur du modèle Exemple : lien linéaire entre les variances de X et Y (cas des processus ARCH en séries chronologiques)
  17. 17. Autres outils de mesure de dépendance: – Concordance – Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale de la dépendance ne peut se faire que par la loi jointe. → Si celle-ci n’est pas calculable: concept de copules
  18. 18. Comment modéliser un lien linéaire? • Quel est le « meilleur » ajustement linéaire? • Exemple : relation poids / taille 74706662 210 200 190 180 170 160 150 140 130 120 110 height weight w = -266.5 + 6.1 h w = -331.2 + 7.1 h
  19. 19. Notation iy est la ième observation de la variable exogène ix est la ième observation de la variable endogènei iyˆ est la valeur ajustée (estimée) de la ième observation équation de la meilleure droite d’ajustement: ii xbby 10 ˆ +=
  20. 20. 210 200 190 180 170 160 150 140 weight w = -266.5 + 6.1 h 1 64 121 126.3 ix iy iyˆi 74706662 130 120 height 1 64 121 126.3 2 73 181 181.5 3 71 156 169.2 4 69 162 157.0 5 66 142 138.5 6 69 157 157.0 7 75 208 193.8 8 71 169 169.2 9 63 127 120.1 10 72 165 175.4
  21. 21. Erreur de prévision (ou erreur résiduelle) En utilisant iyˆ pour prédire ,iy on fait une erreur de prévision: yye ˆ−= iii yye ˆ−= La droite d’ajustement qui colle le mieux aux données est celle pour laquelle les n erreurs de prévisions sont les plus petites possibles au sens d’un certain critère.
  22. 22. Critère des “Moindres Carrés” Objectif : Choisir les valeurs b0 et b1 qui minimise la Equation de la droite : ii xbby 10 ˆ += Objectif : Choisir les valeurs b0 et b1 qui minimise la somme des carrés des erreurs. i.e. : minimiser: ( ) 2 1 ˆ∑= −= n i ii yyQ
  23. 23. La droite de régression Par le calcul, minimiser (dériver, annuler et résoudre pour b0 et b1): ( )( ) 2 1 10∑= +−= n i ii xbbyQ 1=i et obtenir les estimateurs des moindres carrés ordinaires (MCO) de b0 et b1: ( )( ) ( )∑ ∑ = = − −− = n i i n i ii xx yyxx b 1 2 1 1 ˆ xbyb 10 ˆˆ −=
  24. 24. 170 180 190 200 210ht weight = -266.534 + 6.13758 height S = 8.64137 R-Sq = 89.7 % R-Sq(adj) = 88.4 % Regression Plot Résultat: 65 70 75 120 130 140 150 160 170 height weigh
  25. 25. Remarques En termes géométriques • la droite de régression est celle qui minimise la distance quadratique entre les points et les projections orthogonales de ces points sur cette droite.de ces points sur cette droite. • la droite de régression est celle qui minimise la variance du nuage de points projetés orthogonalement sur cette droite.
  26. 26. Formalisation Hypothèses du modèle linéaire : • H1 : E(Yi) fonction linéaire des xi (déterministes) y = b + b x + εεεε , pour i=1,…,nyi = b0 + b1 xi + εεεεi , pour i=1,…,n • H2 : Les erreurs, εεεεi, sont indépendantes entre elles • H3 : E(εεεεi) = 0, les erreurs sont d’espérance nulle (en moyenne le modèle est bien spécifié)
  27. 27. • H4 : E(εεεε2 i) = σ2 , les erreurs sont de variance égale pour toute valeur de X (hypothèse d’homoscédasticité) • H5 : E(Xi εεεεi) = 0 , les erreurs sont indépendantes des valeurs de Xvaleurs de X • H6 : Hypothèse de Normalité : les erreurs, εεεεi, sont identiquement distribuées selon la loi Normale.
  28. 28. Estimation des paramètres Quels paramètres ? → b0 , b1 , σ2 → estimés par MCO 2 10 ˆ,ˆ,ˆ σbb 10 ˆ,ˆ bb estimée par l’erreur quadratique moyenne ou Mean Squared Error (MSE) 2 ˆσ
  29. 29. La MSE est définie par : ( ) 2 ˆ ˆ 1 2 2 − − == ∑= n YY MSE n i ii σ On pondère par le nombre de degrés de liberté du modèle défini par : degrés de liberté = nbre d’observations - nbre de paramètres
  30. 30. Loi asymptotique des paramètres Les estimateurs MCO sont sans biais et convergents • On montre que : 00 )ˆ( bbE = 11)ˆ( bbE = • On montre que : Donc ∑= − = n i i Xx bV 1 2 2 1 )( ˆ )ˆ( σ ∞→→ nsibV 0)ˆ( 1
  31. 31. Loi asymptotique des paramètres • De même,             − += ∑= n i i Xx X n bV 1 2 2 2 0 )( 1 ˆ)ˆ( σ  =i 1 ∞→→ nsibV 0)ˆ( 0
  32. 32. Remarques • Dans ce cadre, sous l ’hypothèse de normalité des erreurs, estimateur MCO = estimateur EMV • La variance estimée par le modèle est différente de la variance empirique (valable pour tout échantillon qui suit le modèle linéaire)modèle linéaire) • La variance résiduelle mesure avec quelle amplitude les valeurs de Y s’écartent de la droite de régression. – C ’est une mesure de la précision du modèle – C ’est une mesure du risque associé au modèle
  33. 33. 100 90 80 t S = 4.76923 R-Sq = 96.1 % R-Sq(adj) = 95.5 % fahrenheit = 34.1233 + 1.61538 celsius Regression Plot Exemple : la précision de ce thermomètre est-elle meilleure ou moins bonne que ….. 403020100 80 70 60 50 40 30 Celsius Fahrenheit
  34. 34. … celle de celui-ci? 100 eit S = 21.7918 R-Sq = 70.6 % R-Sq(adj) = 66.4 % fahrenheit = 17.0709 + 2.30583 celsius Regression Plot 403020100 50 0 Celsius Fahrenhe
  35. 35. Remarques • Quel est le but du jeu de toute tentative de modélisation d’une variable Y ? →→→→ Minimiser la variance résiduelle Y = partie déterministe + partie aléatoire Y = f(X) + ε Par indépendance, V(Y) = V(f(X)) + V(εεεε)
  36. 36. Validation du modèle On valide le modèle à l’aide des tests statistiques. 2 types de tests d’hypothèses sont développés : 1) Tests sur les paramètres du modèle 2) Tests sur les résidus du modèle
  37. 37. (1-αααα) IC pour la pente Formule “avec des mots” : Paramètre estimé ± (t-multiplier × standard error) 1 ˆb Formule en notations : ( ) ( )           − ×± ∑ −− 22, 2 11 ˆˆ Xx tb i n σ α
  38. 38. Test sur la pente Null hypothesis H0: β1 = β (en général =0) Alternative hypothesis H1: β1 ≠ β (en général ≠ 0) ( ) 11 * bb t ββ − =  − =Test statistic 1 ˆb ( ) ( )1 2 * bse xx MSE t i =           − = ∑ Test statistic P-value = Risque maximum d’accepter H1 à tort (à comparer avec le risque de première espèce α) La P-value est déterminée par référence à une t- distribution avec n-2 degrés de liberté
  39. 39. Formule “avec des mots” : Paramètre estimé ± (t-multiplier × standard error) 0 ˆb(1-αααα) IC pour la constante Formule en notations: ( ) ( )∑ − +×± −− 2 2 2, 2 10 1 ˆˆ Xx x n tb i n σα
  40. 40. Null hypothesis H0: β0 = β (en général = 0) Alternative hypothesis HA: β0 ≠ β (en général ≠ 0) 00 * bb t ββ − = − = Test statistic Test sur la constante 0 ˆb P-value = Risque maximum d’accepter H1 à tort (à comparer avec le risque de première espèce α) La P-value est déterminée par référence à une t- distribution avec n-2 degrés de liberté. ( ) ( )0 0 2 2 0 1 * bse b xx x n MSE b t i ββ − = − + − = ∑ Test statistic
  41. 41. Test sur le terme d’erreur Les intervalles et les tests précédents sont basés sur la Normalité du terme d’erreur. Il importe donc de tester les résidus. – Test d’adéquation (Jarque-Bera, KS, …)– Test d’adéquation (Jarque-Bera, KS, …) – Test graphiques (QQ-Plot) Les résultats restent valides en cas d’écart à la loi Normale si l’échantillon est grand (résultats asymptotiques).
  42. 42. > w.fit <- lm(weight ~ 1 + height) > summary(w.fit) Call: lm(formula = weight ~ 1 + height) Residuals: Min 1Q Median 3Q Max -13.2 -4.08 -0.0963 4.64 14.2 Exemple : Poids / Taille Coefficients: Value Std. Error t value Pr(>|t|) (Intercept) -266.534 51.032 -5.223 0.001 height 6.138 0.735 8.347 0.000 Residual standard error: 8.64 on 8 degrees of freedom Multiple R-Squared: 0.897 > resid(w.fit) 1 2 3 4 5 6 7 8 9 10 -5.27 -0.509 -13.2 5.04 3.45 0.0413 14.2 -0.234 6.87 -10.4
  43. 43. 180200 Graphique : Poids observé vs. poids estimé Fitted : 1 + height weight 120 140 160 180 120140160
  44. 44. Mesure de la qualité du modèle On mesure la qualité du modèle par l’analyse de la variance On montre les 2 relations suivantes : • la somme des résidus est nulle, i.e. : ∑= = n i ie 1 0 • la moyenne de la variable et la moyenne de la variable estimée sont égales, i.e. : ∑=i 1 ∑ ∑= = = n i n i ii yy 1 1 ˆ
  45. 45. ∑∑∑ +−=− i i i i i i eyyyy 222 )ˆˆ()( On en déduit l’équation de l’analyse de la variance: Variance totale = Variance expliquée + Variance résiduelle Objectif : Maximiser la variance expliquée
  46. 46. • R2 : mesure de la variance expliquée • Le R2 est à valeur entre 0 et 1 ∑= − −= n i i YY R 1 2 2 2 )( ˆ 1 σ • Le R2 est à valeur entre 0 et 1 • Critères d’information : Akaike (1971)
  47. 47. Prévision Que veut-on prévoir? • La réponse «moyenne» de la population = E(Yh) pour une valeur xh – Ex : Quel est le poids moyen pour une taille donnée?– Ex : Quel est le poids moyen pour une taille donnée? (Plus précis que le poids moyen de l’échantillon) • La réponse Yh(new) à une nouvelle valeur donnée xh – Ex : Quel est le poids estimé par le modèle d’un nouvel individu choisi au hasard de taille donnée?
  48. 48. est le meilleur estimateur dans chaque cas.hh xbbY 10 ˆ += En fait les 2 prévisions sont égales : Seuls les intervalles de confiance autour des réponses vont varier.
  49. 49. 22 18 etestscore ( ) xxYEY 10 ββµ +== 54321 14 10 6 High school gpa Collegeentrance ( ) ii xY εββ ++= 10
  50. 50. Intervalle de confiance pour la réponse moyenne de la population E(Y )E(Yh)
  51. 51. Formule “avec des mots” : Sample estimate ± (t-multiplier × standard error) (1-αααα) IC pour la réponse moyenne E(Yh) Formule en notation: ( ) ( ) ( )         − − +××± ∑ −− 2 2 2 2, 2 1 1 ˆˆ Xx Xx n ty i h nh σα
  52. 52. Implications sur la précision • Au plus les valeurs des xi sont étalées, au plus l’intervalle de confiance est petit, donc l’estimation de E(Yh) est plus précise.h • Suivant le même échantillon de xi, au plus la valeur de xh est loin de la moyenne empirique, au plus l’intervalle de confiance est grand, donc l’estimation de E(Yh) est moins précise.
  53. 53. Remarques • xh est une valeur correspondant au champ de l’étude mais pas nécessairement une valeur de l’échantillon • L’IC pour E(Yh) est correct même si le terme d’erreur est seulement approché par une loi Normale • Si le nombre d’observations est grand, l’IC pour E(Yh) est correct même si le terme d’erreur s’écarte fortement d’une loi Normale
  54. 54. > predict(w.fit, base2, type = "response", ci.fit = T, se.fit = T) $fit: 1 2 102 224 $se.fit: 1 2 7.36 8.33 Exemple : Estimation du poids moyen pour 2 tailles données (60, proche de la moyenne, et 80, plus élevée que la moyenne) $residual.scale: [1] 8.64 $df: [1] 8 $ci.fit: lower upper 1 84.7 119 2 205.3 244 attr(, "conf.level"): [1] 0.95
  55. 55. Intervalle de Prévision pour la réponse Yh(new) à une nouvelle valeur xvaleur xh(new)
  56. 56. Prévision de Yh(new) si la moyenne E(Y) est connue, i.e. : si les paramètres sont fixés Hypothèse 252 =σ 5=σcàd
  57. 57. 0.07 0.08 Prévision de Yh(new) si la moyenne E(Y) est connue 47 52 57 62 67 72 77 0.00 0.01 0.02 0.03 0.04 0.05 0.06 Number of hours Normalcurve 0.997
  58. 58. Prévision de Yh(new) si la moyenne E(Y) n’est pas connue i.e. si les paramètres sont estimés → on rajoute une incertitude sur la moyenne de Y
  59. 59. La prévision est non biaisée hh xbbY 10 ˆˆˆ += hhh YYe −= ˆ Propriété: hh hhh hhh xbbbb xbbxbb YYe ε ε +−+−= +−++= −= )ˆ()ˆ( )ˆˆ( 1100 1010 0)( =⇒ heE
  60. 60. Variance de la prévision Elle dépend de 2 composantes : 1. Variance due à l’estimation de E(Yh) par 2. Variance de Y inhérente à sa distribution hyˆ ( ) ( ) ( ) ( )             − − ++=             − − ++ ∑∑ == n i i h n i i h xx xx n xx xx n 1 2 2 2 1 2 2 22 1 1ˆ 1 ˆˆ σσσEstimation: 2. Variance de Y inhérente à sa distribution
  61. 61. Sample prediction ± (t-multiplier × standard error) (1-αααα) IC pour la réponse Yh ( ) ( ) ( )         − − ++×± ∑−− 2 2 2 2, 2 1 1 1ˆˆ xx xx n ty i h nh σα
  62. 62. 250 ality S = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 % Mortality = 389.189 - 5.97764 Latitude Regression Plot 504030 150 50 Latitude Morta 95% PI 95% CI Regression

×