Regsimple

271 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
271
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1
Actions
Partages
0
Téléchargements
2
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Regsimple

  1. 1. ECO 4272 : Introduction `a l’´econom´etrie Notes sur le mod`ele de r´egression simple Steve Ambler∗ D´epartement des sciences ´economiques ´Ecole des sciences de la gestion Universit´e du Qu´ebec `a Montr´eal c 2013 : Steve Ambler Automne 2013 ∗ Ces notes sont en cours de d´eveloppement. J’ai besoin de vos commentaires et de vos suggestions pour les am´eliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message `a ambler.steven@uqam.ca. 1
  2. 2. Table des mati`eres 1 Introduction 4 2 Objectifs du cours 4 3 Le mod`ele de r´egression simple 4 4 Estimateur moindres carr´es ordinaires (MCO) 5 4.1 Propri´et´es alg´ebriques cl´es de l’estimateur MCO . . . . . . . . . . . . . . . . . . 9 4.1.1 La somme des r´esidus est z´ero . . . . . . . . . . . . . . . . . . . . . . . . 10 4.1.2 La valeur moyenne de la variable d´ependante pr´edite est ´egale `a la moyenne ´echantillonnale de la variable d´ependante . . . . . . . . . . . . . . . . . . 10 4.1.3 Orthogonalit´e entre la variable explicative et les r´esidus . . . . . . . . . . . 11 4.2 La notion de l’ajustement statistique (R2 ) . . . . . . . . . . . . . . . . . . . . . . 12 4.3 L’´ecart type de la r´egression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 5 Hypoth`eses statistiques de base du mod`ele 17 5.1 Esp´erance conditionnelle nulle de l’erreur . . . . . . . . . . . . . . . . . . . . . . 18 5.2 Observations i.i.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5.3 Les observations aberrantes sont peu probables . . . . . . . . . . . . . . . . . . . 18 5.4 Notre approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 6 Propri´et´es statistiques de l’estimateur 20 6.1 Absence de biais de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 6.1.1 ˆβ1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 6.1.2 ˆβ0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 6.2 Convergence de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 6.3 Efficience de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 6.3.1 Th´eor`eme Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 6.4 Erreur quadratique moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 7 Propri´et´es ´echantillonnales de l’estimateur 34 7.1 Estimateur convergent de σ2 ˆβ1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 7.2 Estimateur convergent de σ2 ˆβ1 en cas d’homosc´edasticit´e . . . . . . . . . . . . . . . 38 7.3 D´etecter l’h´et´erosc´edasticit´e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 8 Tests d’hypoth`ese 41 8.1 Approche g´eneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 8.2 Hypoth`ese alternative bilat´erale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 8.3 Hypoth`ese alternative unilat´erale . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 9 Intervalles de confiance pour les coefficients 43 9.1 Intervalles de confiance pour les pr´edictions . . . . . . . . . . . . . . . . . . . . . 44 10 Un exemple d’estimation du mod`ele de r´egression simple avec R 45 2
  3. 3. 11 Le mod`ele de r´egression simple lorsque X est une variable dichotomique 51 12 Concepts `a retenir 55 13 R´ef´erences 56 3
  4. 4. 1 Introduction 2 Objectifs du cours – Pr´esenter le mod`ele de r´egression simple. – D´eriver l’estimateur moindres carr´es ordinaires (MCO). – ´Etudier les propri´et´es alg´ebriques de cet estimateur. – ´Etudier la mesure habituelle de l’ajustement statistique, le R2 . – Regarder les hypoth`eses statistiques derri`ere le mod`ele et analyser leurs cons´equences pour l’estimateur MCO (absence de biais, convergence, efficience). – Montrer l’absence de biais de l’estimateur MCO. – D´eriver les propri´et´es ´echantillonnales de l’estimateur MCO et montrer sa convergence. – Distinguer entre les cas d’erreurs h´et´erosc´edastiques et erreurs homosc´edastiques. – Montrer, sous les hypoth`eses d’homosc´edasticit´e et normalit´e, l’efficience de l’estimateur MCO (th´eor`eme Gauss-Markov). – Analyser les tests d’hypoth`ese concernant les param`etres estim´es du mod`ele. – Analyser le calcul d’intervalles de confiance pour les param`etres estim´es dans le cadre du mod`ele. 3 Le mod`ele de r´egression simple – Le mod`ele de base peut s’´ecrire Yi = β0 + β1Xi + ui. L’id´ee de base est qu’une variable ´economique Yi peut ˆetre pr´edite ou expliqu´e par une autre va- riable ´economique Xi. La relation entre les deux variables est lin´eaire. Sans le terme ui, l’´equation est l’´equation d’une droite. Si on mesure Yi sur l’axe vertical, β0 est l’ordonn´ee `a l’origine et β1 est 4
  5. 5. la pente de la droite. On peut penser au param`etre β0 comme ´etant associ´e `a une deuxi`eme variable explicative qui est une constante qu’on normalise pour ˆetre ´egale `a un. Autrement dit, on aurait pu ´ecrire le mod`ele comme Yi = β0 × 1 + β1 × Xi + ui. Le mod`ele de r´egression simple contient une constante par d´efaut. Il est possible aussi d’´etudier le mod`ele suivant : Yi = βXi + ui. Ce mod`ele, sans constante, a des propri´et´es statistiques assez diff´erentes. Pour ceux qui s’int´eressent `a poursuivre ce sujet, voir Windmeijer (1994), ou Eisenhauer (2003). On appelle commun´ement Yi la variable d´ependante du mod`ele de r´egression, et on appelle Xi la variable explicative du mod`ele de r´egression. 4 Estimateur moindres carr´es ordinaires (MCO) – Nous consid´erons le probl`eme de pr´edire la valeur de la variable d´ependante Yi, ´etant donn´ee la valeur de Xi. – L’erreur de pr´evision peut s’´ecrire Yi − β0 − β1Xi. – Le probl`eme `a r´esoudre est celui de choisir les valeurs de β0 et de β1 afin de minimiser la somme des erreurs de pr´evision au carr´e : – Notez que le crit`ere de minimiser la somme des erreurs au carr´e n’est pas le seul crit`ere possible. Par exemple, on pourrait d´ecider de minimiser la somme des erreurs en valeur absolue. – Il y a deux raisons fondamentales pour la popularit´e et l’importance de l’estimateur MCO dans l’histoire de la statistique et de l’´econom´etrie. 1. D’abord, l’alg`ebre est relativement simple. Le crit`ere est une expression quadratique (du deuxi`eme degr´e), et donc les conditions du premier ordre donnent un syst`eme 5
  6. 6. d’´equations lin´eaires. Il est tr`es facile de r´esoudre un syst`eme de deux ´equations lin´eaires. 2. Deuxi`ement, sous certaines conditions (`a voir plus tard), l’estimateur MCO des coef- ficients β0 et β1 est l’estimateur avec la plus petite variance parmi tous les estimateurs lin´eaires et non biais´es – autrement dit, il est l’estimateur le plus efficient parmi les estimateur lin´eaires non biais´es. – Le probl`eme de minimisation peut s’´ecrire comme suit. min β0,β1 n i=1 (Yi − β0 − β1Xi)2 . – Les conditions du premier ordre (CPOs) pour ce probl`eme sont comme suit. D’abord par rapport au choix de β0 : −2 n i=1 Yi − ˆβ0 − ˆβ1Xi = 0. Ensuite, par rapport au choix de β1 : −2 n i=1 Yi − ˆβ0 − ˆβ1Xi Xi = 0, o`u j’ai ´ecrit un chapeau sur β0 et β1 pour souligner le fait qu’il s’agit de nos estimateurs MCO, c’est `a dire les solutions au probl`eme de minimisation. 1 – Il s’agit de deux ´equations o`u les deux inconnus sont ˆβ0 et ˆβ1. – Il est facile d’isoler ˆβ0 en fonction de ˆβ1 et par la suite de trouver la solution pour ˆβ1. – Nous avons `a partir de la premi`ere CPO : n i=1 Yi − ˆβ0 − ˆβ1Xi = 0 ⇒ n i=1 ˆβ0 = n ˆβ0 = n i=1 Yi − ˆβ1Xi 1. En principe, il faudrait v´erifier les conditions du deuxi`eme ordre pour savoir que nous avons trouv´e un minimum et non un maximum. Nous n’allons pas faire cet exercice ici. 6
  7. 7. ⇒ ˆβ0 = 1 n n i=1 Yi − ˆβ1 1 n n i=1 Xi ⇒ ˆβ0 = ¯Y − ˆβ1 ¯X. Nous venons de trouver la solution pour ˆβ0 en fonction des moyennes ´echantillonnales ¯X et ¯Y et de la solution pour ˆβ1. – Maintenant, substituant cette solution dans la deuxi`eme CPO, nous avons : n i=1 Yi − ¯Y + ˆβ1 ¯X − ˆβ1Xi Xi = 0. – Multipliant des deux cˆot´es de l’´equation par 1 n et r´earrangeant, nous obtenons 1 n n i=1 YiXi − 1 n n i=1 ¯Y Xi − 1 n n i=1 ˆβ1 (Xi)2 + 1 n n i=1 ˆβ1 ¯XXi = 0 ⇒ 1 n n i=1 YiXi − ¯Y 1 n n i=1 Xi −ˆβ1 1 n n i=1 (Xi)2 − ¯X 1 n n i=1 Xi = 0 ⇒ 1 n n i=1 YiXi − ¯Y ¯X −ˆβ1 1 n n i=1 (Xi)2 − ¯X ¯X = 0 ⇒ ˆβ1 = 1 n n i=1 YiXi − ¯X ¯Y 1 n n i=1 (Xi)2 − ¯X2 ⇒ ˆβ1 = 1 n n i=1 Yi − ¯Y Xi − ¯X 1 n n i=1 Xi − ¯X 2 . Cette solution d´epend des identit´es 1 n n i=1 YiXi − ¯X ¯Y = 1 n n i=1 Yi − ¯Y Xi − ¯X 7
  8. 8. et 1 n n i=1 (Xi)2 − ¯X2 = 1 n n i=1 Xi − ¯X 2 . Ceci est facile `a montrer. Nous avons 1 n n i=1 Yi − ¯Y Xi − ¯X 1 n n i=1 YiXi − Yi ¯X − Xi ¯Y + ¯X ¯Y = 1 n n i=1 YiXi − 1 n n i=1 Yi ¯X − 1 n n i=1 Xi ¯Y + 1 n n i=1 ¯X ¯Y = 1 n n i=1 YiXi − ¯X 1 n n i=1 Yi − ¯Y 1 n n i=1 Xi + n n ¯X ¯Y = 1 n n i=1 YiXi − ¯X ¯Y − ¯Y ¯X + ¯X ¯Y = 1 n n i=1 YiXi − ¯X ¯Y . La preuve pour le d´enominateur est semblable. C’est une premi`ere fac¸on d’exprimer la solution. Multipliant num´erateur et d´enominateur par n nous avons aussi ˆβ1 = n i=1 Yi − ¯Y Xi − ¯X n i=1 Xi − ¯X 2 . C’est une deuxi`eme fac¸on d’exprimer la solution. Maintenant, divisant num´erateur et d´enominateur par (n − 1) nous avons aussi ˆβ1 = 1 (n−1) n i=1 Yi − ¯Y Xi − ¯X 1 (n−1) n i=1 Xi − ¯X 2 . – Donc, nous avons trois expressions ´equivalentes pour la solution pour ˆβ1. – Comme aide-m´emoire, la derni`ere expression est peut-ˆetre la plus utile. Elle dit que l’estima- 8
  9. 9. teur MCO de β1 est le ratio entre la covariance ´echantillonnale entre X et Y et la variance ´echantillonnale de X (voir le chapitre sur la th´eorie des probabilit´es pour les d´efinitions de covariance ´echantillonnale et variance ´echantillonnale). – Pour r´ep´eter ceci en notation alg´ebrique : ˆβ1 = Cov (X , Y ) Var (X) . – Je crois qu’il n’est pas trop difficile de se souvenir de cette fac¸on d’´ecrire la solution pour ˆβ1, et de se souvenir de la solution pour ˆβ0 en termes des moyennes ´echantillonnales ¯X et ¯Y et ˆβ1. 4.1 Propri´et´es alg´ebriques cl´es de l’estimateur MCO – L’estimateur MCO poss`ede quelques propri´et´es de base que nous allons d´emontrer dans cette section. – Nous allons par la suite nous servir de ces propri´et´es `a maintes reprises par la suite pour trouver d’autres propri´et´es de l’estimateur MCO. – J’appelle ces propri´et´es les propri´et´es alg´ebriques puisqu’elles ne d´ependent pas d’hy- poth`eses concernant les propri´et´es statistiques des variables al´eatoires Y , X ou u. – Autrement dit, pour n’importe quelles s´eries de donn´ees sur deux variables X et Y , ces propri´et´es doivent tenir. On n’a mˆeme pas besoin de supposer que X et Y sont des variables al´eatoires en bonne et due forme. – Plusieurs de ces propri´et´es d´ependent du fait que le mod`ele de r´egression inclut une constante. – Pour le cas de mod`eles qui n’incluent pas une constante, voir l’article de Windmeijer (1994), ou encore celui d’Eisenhauer (2003). 9
  10. 10. 4.1.1 La somme des r´esidus est z´ero – D´efinissons ˆui ≡ Yi − ˆβ0 − ˆβ1Xi, le r´esidu de la r´egression pour l’observation i. – Nous voulons montrer que : 1 n n i=1 ˆui = 0. – Voici la preuve. 1 n n i=1 ˆui = 1 n n i=1 Yi − ¯Y + ˆβ1 ¯X − ˆβ1Xi = 1 n n i=1 Yi − ¯Y − ˆβ1 1 n n i=1 Xi − ¯X = 0. 4.1.2 La valeur moyenne de la variable d´ependante pr´edite est ´egale `a la moyenne ´echantillonnale de la variable d´ependante – D´efinissons ˆYi ≡ ˆβ0 + ˆβ1Xi, la valeur pr´edite de Yi. – Nous voulons montrer que : 1 n n i=1 ˆYi = ¯Y . – Voici la preuve : ˆYi ≡ Yi − ˆui ⇒ 1 n n i=1 ˆYi = 1 n n i=1 Yi − 1 n n i=1 ˆui = 1 n n i=1 Yi ≡ ¯Y . 10
  11. 11. 4.1.3 Orthogonalit´e entre la variable explicative et les r´esidus – Nous voulons montrer que : n i=1 Xi ˆui = 0. – Ceci est la d´efinition de l’orthogonalit´e entre deux variables. – Puisque nous allons utiliser l’alg`ebre lin´eaire dans le chapitre sur le mod`ele de r´egression multiple, c’est peut-ˆetre opportun d’introduire ici le concept d’orthogonalit´e entre deux vec- teurs. Nous pouvons r´e´ecrire cette ´equation en notation vectorielle comme n i=1 Xi ˆui = X1 X2 . . . Xn          ˆu1 ˆu2 ... ˆun          ≡ X ˆU = 0. – Donc c’est la d´efinition habituelle d’orthogonalit´e entre deux vecteurs en alg`ebre lin´eaire. – Nous verrons plus loin qu’il y a aussi une interpr´etation g´eom´etrique. – Voici la preuve : n i=1 Xi ˆui = n i=1 Xi ˆui − ¯X n i=1 ˆui = n i=1 Xi − ¯X ˆui = n i=1 Xi − ¯X Yi − ¯Y + ˆβ1 ¯X − ˆβ1Xi = n i=1 Xi − ¯X Yi − ¯Y − ˆβ1 Xi − ¯X = n i=1 Xi − ¯X Yi − ¯Y − ˆβ1 n i=1 Xi − ¯X 2 = n i=1 Xi − ¯X Yi − ¯Y 11
  12. 12. − n i=1 Xi − ¯X Yi − ¯Y n i=1 Xi − ¯X 2 n i=1 Xi − ¯X 2 = n i=1 Xi − ¯X Yi − ¯Y − n i=1 Xi − ¯X Yi − ¯Y = 0. – L’orthogonalit´e est reli´ee `a l’interpr´etation g´eom´etrique de la m´ethode des MCO. Estimer un mod`ele par MCO revient `a projeter la variable d´ependante dans l’espace travers´e par la variable explicative (ou les variables explicatives dans le cas de la r´egression multiple). – Le principe est illustr´e par la Figure 1 ci-dessous. Nous constatons sur le graphique que si nous prenons la ligne de r´egression comme un vecteur, la ligne pointill´ee sur le graphique est un vecteur dont la longueur ´egale la valeur de ˆui `a ce point. Il forme un angle droit par rapport `a la ligne de r´egression, d’o`u le terme orthogonal . – Pour ceux qui veulent aller plus loin, tout ce qu’on pourrait vouloir savoir concernant l’in- terpr´etation g´eom´etrique de la r´egression simple se trouve dans l’article de Davidson et Mac- Kinnon (1999). Figure 1 4.2 La notion de l’ajustement statistique (R2 ) – D´efinissons : TSS ≡ n i=1 Yi − ¯Y 2 , 12
  13. 13. la somme totale des carr´es ( total sum of squares en anglais) ; SSR ≡ n i=1 Yi − ˆYi 2 , la somme des r´esidus au carr´e ( residual sum of squares en anglais) ; ESS ≡ n i=1 ˆYi − ¯Y 2 , la somme expliqu´ee des carr´es ( explained sum of squares en anglais). – Nous pouvons montrer que : TSS = ESS + SSR. – Voici la preuve : TSS = n i=1 Yi − ¯Y 2 = n i=1 Yi − ˆYi + ˆYi − ¯Y 2 = n i=1 Yi − ˆYi 2 + n i=1 ˆYi − ¯Y 2 +2 n i=1 Yi − ˆYi ˆYi − ¯Y = SSR + ESS + 2 n i=1 ˆui ˆYi − ¯Y = SSR + ESS + 2 n i=1 ˆui ˆYi − 2¯Y n i=1 ˆui = SSR + ESS + 2 n i=1 ˆui ˆYi = SSR + ESS + 2 n i=1 ˆui ˆβ0 + ˆβ1Xi 13
  14. 14. = SSR + ESS + 2ˆβ0 n i=1 ˆui + 2ˆβ1 n i=1 ˆuiXi = SSR + ESS. Notez que nous avons invoqu´e `a quelques reprises les propri´et´es alg´ebriques de l’estimateur MCO que nous avons d´ej`a d´emontr´ees. – Maintenant, d´efinissons R2 ≡ ESS TSS . – Puisque TSS, ESS et SSR sont la somme de termes au carr´e (et pour cette raison sont des termes positifs sinon strictement positifs), il faut que : 0 ≤ R2 ≤ 1. – Il faut aussi que R2 = 1 − SSR TSS . – L’ajustement statistique s’appelle aussi le coefficient de d´etermination de la r´egression. – L’ajustement statistique est d´efini ind´ependamment des propri´et´es statistiques du mod`ele de r´egression. Il a l’interpr´etation du pourcentage de la variation de la variable d´ependante Y autour de sa moyenne qui peut ˆetre expliqu´e par les variations de la variable explicative X. – Pour le mod`ele de r´egression simple, il y a une relation alg´ebrique exacte entre le R2 et le coefficient de corr´elation entre les variables X et Y . La relation est R2 = Corr (X, Y ) . – Je montre ce r´esultat dans l’encadr´e qui suit. – La lecture de l’encadr´e est facultative, mais je vous encourage `a retenir le r´esultat (´egalit´e entre la mesure R2 et le coefficient de corr´elation entre X et Y au carr´e). 14
  15. 15. Je d´emontre ici que l’ajustement statistique (dans le mod`ele de r´egression simple) doit ˆetre ´egal au carr´e du coefficient de corr´elation entre X et Y . Nous avons R2 ≡ n i=1 ˆYi − ¯Y 2 n i=1 Yi − ¯Y 2 Nous avons aussi (en multipliant le num´erateur et le d´enominateur dans la d´efinition de la corr´elation ´echantillonnale par (n − 1)) Corr (X , Y ) 2 ≡   n i=1 Xi − ¯X Yi − ¯Y n i=1 Xi − ¯X 2 n i=1 Yi − ¯Y 2   2 = n i=1 Xi − ¯X Yi − ¯Y 2 n i=1 Xi − ¯X 2 n i=1 Yi − ¯Y 2 Donc, il faut montrer que n i=1 ˆYi − ¯Y 2 n i=1 Yi − ¯Y 2 = n i=1 Xi − ¯X Yi − ¯Y 2 n i=1 Xi − ¯X 2 n i=1 Yi − ¯Y 2 ⇔ n i=1 ˆYi − ¯Y 2 n i=1 Xi − ¯X 2 = n i=1 Xi − ¯X Yi − ¯Y 2 . Travaillant avec le bras gauche de cette ´equation, nous avons n i=1 ˆYi − ¯Y 2 n i=1 Xi − ¯X 2 = n i=1 ˆβ0 + ˆβ1Xi − ¯Y 2 n i=1 Xi − ¯X 2 = n i=1 ¯Y − ˆβ1 ¯X + ˆβ1Xi − ¯Y 2 n i=1 Xi − ¯X 2 15
  16. 16. = n i=1 ˆβ1Xi − ˆβ1 ¯X 2 n i=1 Xi − ¯X 2 = ˆβ2 1 n i=1 Xi − ¯X 2 n i=1 Xi − ¯X 2 = n i=1 Xi − ¯X Yi − ¯Y n i=1 Xi − ¯X 2 2 n i=1 Xi − ¯X 2 2 = n i=1 Xi − ¯X Yi − ¯Y 2 , ce qui fut `a d´emontrer. Donc, mˆeme si nous sommes en train de discuter des propri´et´es alg´ebriques du mod`ele de r´egression simple, et mˆeme si la notion du R2 est d´efinie ind´ependamment des propri´et´es statistiques des variables X et Y , nous voyons que le R2 est reli´e au concept statistique de corr´elation. Il existe des tests d’hypoth`ese de la significativit´e de corr´elations entre variables al´eatoires (que nous n’allons pas explorer dans ce cours). – Tel qu’indiqu´e plus tˆot, l’ajustement statistique R2 est d´efini ind´ependamment des hy- poth`eses statistiques derri`ere le mod`ele. – Nous venons de voir (dans l’encadr´e pr´ec´edant) qu’il y a un lien stricte dans le mod`ele de r´egression simple entre le R2 et le coefficient de corr´elation entre la variable d´ependante Y et la variable explicative X. – Le R2 a aussi une autre interpr´etation statistique. On peut l’utiliser pour tester l’hy- poth`ese nulle de l’absence de relation entre la variable explicative (les variables expli- catives `a part la constante dans le mod`ele de r´egression multiple). Voir Giles (2013b, 2013c). Selon Giles, le R2 suit, sous l’hypoth`ese nulle (et sous l’hypoth`ese de l’ho- mosc´edasticit´e), une distribution Beta. – Nous allons voir dans le chapitre sur la r´egression multiple qu’on peut construire une 16
  17. 17. autre statistique pour tester la mˆeme hypoth`ese qui suit une distribution F de Fisher. 4.3 L’´ecart type de la r´egression – D´efinissons : s2 ˆu = 1 (n − 2) n i=1 (ˆui)2 = SSR (n − 2) . – Dans le cas o`u nous supposons une variance constante du terme d’erreur du mod`ele (voir la section suivante concernant les hypoth`eses statistiques du mod`ele), c’est un estimateur non biais´e de la variance du terme d’erreur. – Il s’agit du cas o`u les erreurs sont homosc´edastiques, o`u donc Var (ui) = σ2 u, une variance constante. – Notez que cette hypoth`ese (variance constante des erreurs) ne fera pas partie des hypoth`eses statistiques de base que nous adopterons. – Nous divison par (n − 2) afint d’obtenir un estimateur non biais´e. – Il y a une autre raison pour la division par (n − 2). On perd deux degr´es de libert´e car il faut estimer deux param`etres inconnus (β0 et β1) afin de calculer les r´esidus de la r´egression. – Maintenant, d´efinissons : sˆu ≡ s2 ˆu. – sˆu est l’´ecart type de la r´egression. – L’´ecart type de la r´egression est un des r´esultats d’estimation que fournissent automatique- ment la plupart des logiciels ´econom´etriques. 5 Hypoth`eses statistiques de base du mod`ele – `A partir de ce point, nous ´elaborons quelques propri´et´es statistiques de l’estimateur MCO. Elles d´ependront de certaines hypoth`eses statistiques de base, que voici. 17
  18. 18. – Ces hypoth`eses seront cruciales pour montrer les propri´et´es d’absence de biais et de conver- gence. – Nous en aurons besoin aussi (avec une hypoth`ese additionnelle) pour montrer l’efficience de l’estimateur MCO. 5.1 Esp´erance conditionnelle nulle de l’erreur – Nous supposons que : E (ui|X = Xi) = 0. – Intuitivement, l’hypoth`ese nous dit que le fait de connaˆıtre la valeur r´ealis´ee de la variable explicative ne donne pas d’information concernant la valeur de l’erreur. 5.2 Observations i.i.d. – Nous supposons que : (Xi , Yi) , i = 1, 2, . . . , n i.i.d. – Nous avons d´ej`a vu le concept d’observations i.i.d. dans le chapitre sur la statistique. On suppose que nos observations sont ind´ependantes et qu’elles sont identiquement distribu´ees. – Notez que nous ne faisons pas une hypoth`ese concernant le type de distribution qui g´en`ere les observations (normale, exponentielle, par´etienne stable, etc.). Tout ce qu’on suppose c’est que les observations sont toujours g´en´er´ees par la mˆeme distribution. 5.3 Les observations aberrantes sont peu probables – Nous supposons que : 0 < E X4 < ∞; 0 < E Y 4 < ∞; 18
  19. 19. – Cette hypoth`ese sert `a nous rappeler que l’estimateur MCO peut ˆetre sensible aux observa- tions aberrantes. – Il est toujours bon d’examiner les r´esidus afin de d´etecter la pr´esence de ces observations, qui pourraient indiquer des probl`emes comme des erreurs de transcription des valeurs dans les donn´ees, etc. – Il est important de noter qu’en pr´esence d’observations aberrantes importantes, la valeur de ˆβ1 peut ˆetre tr`es sensible `a cette ou `a ces valeurs, mˆeme si elles sont peu nombreuses. Intui- tement, mˆeme un nombre tr`es faible de ces observations aberrantes peut avoir une influence pr´epond´erantes sur les valeurs estim´ees des param`etres. Dans un tel cas, les estimateurs MCO ne seront pas convergents puisqu’ils d´ependent d’un petit nombre d’observations. 5.4 Notre approche Par rapport `a l’approche dans certains manuels de base en ´econom´etrie, nous adoptons une approche plus g´en´erale. 1. Souvent, la premi`ere fois qu’on pr´esente le mod`ele de r´egression simple, on suppose que les observations sur la variable explicative X sont constantes `a travers des ´echantillons diff´erents. Pour d´eriver les propri´et´es statistiques de notre estimateur MCO, on peut traiter les observations comme des constantes au lieu de les traiter comme des r´ealisations d’une variable al´eatoire. L’alg`ebre est plus facile, mais c’est beaucoup moins r´ealiste. 2. Souvent, lorsqu’on pr´esente le mod`ele de base, on suppose aussi que la variance condition- nelle du terme d’erreur est ´egale `a sa variance non conditionnelle et qu’elle est constante. Autrement dit, Var (ui|X = Xi) = Var (ui) = σ2 u. L’avantage de ces hypoth`eses simplificatrices est de simplifier l’alg`ebre. On arrive `a une expression plus simple pour la variance ´echantillonnale de nos estimateurs MCO. Malheu- reusement, ce sont des hypoth`eses qui tiennent rarement dans les donn´ees utilis´ees par les 19
  20. 20. ´econom`etres appliqu´es. Cette hypoth`ese n’est pas retenue ici, ce qui va mener `a une expres- sion plus compliqu´ee mais plus g´en´erale pour la variance ´echantillonnale de nos estimateurs. 3. Souvent, lorsqu’on pr´esente le mod`ele de base, on suppose que le terme d’erreur est distribu´e selon une loi normale. Ceci permet de faire de l’inf´erence exacte (voir le chapitre sur les tests d’hypoth`ese pour une d´efinition). Cette hypoth`ese n’est pas retenue ici. 4. Au lieu de supposer la normalit´e, nous allons faire l’hypoth`ese que les ´echantillons de donn´ees que nous avons `a notre disposition sont assez grandes pour que les statistiques utilis´ees pour faire des tests d’hypoth`ese soient approximatiement distribu´ees selon une loi normale. 6 Propri´et´es statistiques de l’estimateur 6.1 Absence de biais de l’estimateur 6.1.1 ˆβ1 – Nous avons : ˆβ1 = n i=1 Xi − ¯X Yi − ¯Y n i=1 Xi − ¯X 2 = n i=1 Xi − ¯X β0 + β1Xi + ui − β0 − β1 ¯X − ¯u n i=1 Xi − ¯X 2 = β1 n i=1 Xi − ¯X 2 + n i=1 Xi − ¯X (ui − ¯u) n i=1 Xi − ¯X 2 = β1 + n i=1 Xi − ¯X (ui − ¯u) n i=1 Xi − ¯X 2 = β1 + n i=1 Xi − ¯X ui n i=1 Xi − ¯X 2 . – Ceci montre que l’estimateur est ´egal `a sa vraie valeur plus un terme qui d´epend du produit des erreurs avec les ´ecarts des Xi par rapport `a leurs moyennes ´echantillonnales. 20
  21. 21. – Notez ce que l’on fait pour passer de la premi`ere ligne `a la deuxi`eme. On substitut Yi utili- sant sa valeur si le mod`ele de r´egression est lit´eralement vrai. Cela fait apparaˆıtre les vraies valeurs de β0 et de β1, et fait apparaˆıtre aussi l’erreur (la vraie et non le r´esidu). On fera souvent une substitution semblable lorsqu’on veut analyser les propri´et´es statistiques d’un estimateur. – Maintenant, il s’agit de calculer la valeur esp´er´ee de cette expression : E ˆβ1 = β1 + E n i=1 Xi − ¯X ui n i=1 Xi − ¯X 2 = β1 + E E n i=1 Xi − ¯X ui n i=1 Xi − ¯X 2 |X1, X2, . . . Xn = β1 + E n i=1 Xi − ¯X E (ui|X1, X2, . . . Xn) n i=1 Xi − ¯X 2 = β1 + E n i=1 Xi − ¯X E (ui|Xi) n i=1 Xi − ¯X 2 = β1. – Pour passer de la premi`ere ligne `a la deuxi`eme dans cette suite d’´egalit´es, nous avons utilis´e la loi des esp´erances it´er´ees, qui dit que pour n’importe quelle variable al´eatoire Y , E (E (Yi|Xi)) = E (Yi) . Nous l’avons tout simplement appliqu´e `a la variable al´eatoire qui est n i=1 Xi − ¯X ui n i=1 Xi − ¯X 2 . – Pour passer de la deuxi`eme `a la troisi`eme ligne, il faut noter que les esp´erances des X condi- tionnelles aux valeurs des X ne sont plus stochastiques. Nous pouvons les traiter comme des constantes et les ´ecrire du cˆot´e gauche de l’op´erateur d’esp´erance conditionnelle. Ce faisant, 21
  22. 22. l’op´erateur d’esp´erance conditionnelle s’applique uniquement au terme d’erreur ui. – La derni`ere ´egalit´e suit directement de nos hypoth`eses de base concernant le mod`ele, dont une stipule que E (ui|Xi) = 0. 6.1.2 ˆβ0 – Nous avons : E ˆβ0 = E ¯Y − ˆβ1 ¯X = E β0 + β1 ¯X + 1 n n i=1 ui − ˆβ1 ¯X = β0 + E β1 − ˆβ1 ¯X + 1 n n i=1 E (ui) = β0 + 1 n n i=1 E (E (ui|Xi)) = β0, o`u encore une fois nous avons utilis´e la loi des esp´erances it´er´ees : E (ui) = E (E (ui|Xi)) . – Ici, j’ai suivi la r´eponse `a la question 4.7 du manuel. Il n’est pas forc´ement ´evident que E β1 − ˆβ1 ¯X = 0, puisque ¯X doit ˆetre consid´er´e comme une variable al´eatoire. Il faut remonter `a l’absence de biais de ˆβ1, o`u on a montr´e que β1 − ˆβ1 = − n i=1 Xi − ¯X ui n i=1 Xi − ¯X 2 . 22
  23. 23. Donc, on a E β1 − ˆβ1 ¯X = −E n i=1 Xi − ¯X ui n i=1 Xi − ¯X 2 ¯X = −E ¯X n i=1 Xi − ¯X E (ui|Xi) n i=1 Xi − ¯X 2 = 0. Encore une fois, nous avons utilis´e la loi des esp´erances it´er´ees. 6.2 Convergence de l’estimateur – Nous allons remettre ce sujet `a un peu plus tard. En calculant les propri´etes ´echantillonnales de l’estimateur, nous allons montrer que sa variance d´ecroˆıt avec la taille de l’´echantillon n. – Si c’est le cas, nous avons `a toutes fins pratiques montr´e sa convergence. Nous avons montr´e l’absence de biais, et la variance converge `a z´ero lorsque n tend vers l’infini. 6.3 Efficience de l’estimateur – Pour montrer l’efficience de l’estimateur MCO, nous aurons besoin d’une hypoth`ese addi- tionnelle, que le terme d’erreur du mod`ele de r´egression est homosc´edastique, ce qui veut dire a une variance constante. – Si ce n’est pas le cas, et si nous connaissons de quoi d´epend la variance du terme d’erreur, il peut ˆetre possible de trouver un estimateur plus efficient que l’estimateur MCO. Il s’agit de l’estimateur moindres carr´es g´en´eralis´es (generalised least squares ou GLS en anglais), que nous n’aurons pas l’occasion d’´etudier en d´etail dans ce cours. Voir le chapitre 15 du manuel. – Une preuve d´etaill´ee du th´eor`eme Gauss-Markov se trouve dans l’ecadr´e qui suit. Nous n’aurons probablement pas le temps de voir cette preuve en d´etail dans le cours. Je vous invite fortement `a la lire et `a la comprendre. 23
  24. 24. 6.3.1 Th´eor`eme Gauss-Markov – Il s’agit d’une preuve que l’estimateur ˆβ1 est l’estimateur le plus efficient parmi les estimateurs qui sont lin´eaires en Yi. – Rappelons d’abord les hypoth`eses qui doivent tenir pour d´emontrer le th´eor`eme Gauss- Markov. 1. E (ui|X1, . . . , Xn) = 0 . 2. Var (ui|X1, . . . , Xn) = σ2 u, 0 < σ2 u < ∞. 3. E (uiuj|X1, . . . , Xn) = 0, i = j. – La derni`ere hypoth`ese dit que les erreurs ne sont pas corr´el´ees entre elles. – D’abord, montrons que ˆβ1 est un estimateur lin´eaire en Yi. Nous avons ˆβ1 = n i=1 Yi − ¯Y Xi − ¯X n i=1 Xi − ¯X 2 = n i=1 Yi Xi − ¯X − ¯Y n i=1 Xi − ¯X n i=1 Xi − ¯X 2 = n i=1 Yi Xi − ¯X n i=1 Xi − ¯X 2 = n i=1 Xi − ¯X n i=1 Xi − ¯X 2 Yi ≡ n i=1 ˆaiYi, o`u donc ˆai ≡ Xi − ¯X n i=1 Xi − ¯X 2 – Les poids ˆai ne d´ependent pas des Yi, et donc l’estimateur est lin´eaire en Yi. – Nous avons vu que sous l’hypoth`ese de l’homosc´edasticit´e, la variance conditionnelle de 24
  25. 25. ˆβ1 est donn´ee par Var ˆβ1|X1, . . . , Xn = σ2 u n i=1 Xi − ¯X 2 . – Nous avons aussi montr´e que l’estimateur ˆβ1 est conditionnellement non biais´e. – Maintenant, consid´erons n’importe quel estimateur lin´eaire ˜β1 = n i=1 aiYi et qui satisfait la propri´et´e E ˜β1|X1, . . . , Xn = β1. – Nous avons ˜β1 = n i=1 aiYi = n i=1 ai (β0 + β1Xi + ui) = β0 n i=1 ai + β1 n i=1 aiXi + n i=1 aiui. – Nous avons aussi E n i=1 aiui|X1, . . . , Xn = n i=1 aiE (ui|X1, . . . , Xn) = 0. – De cette fac¸on, nous avons E ˜β1|X1, . . . , Xn = β0 n i=1 ai + β1 n i=1 aiXi . 25
  26. 26. – Par hypoth`ese, notre estimateur est conditionnellement non biais´e et donc il faut que β0 n i=1 ai + β1 n i=1 aiXi = β1. – Pour que cette ´egalit´e tienne pour des valeurs quelconques de β0 et de β1 il faut que n i=1 ai = 0 et n i=1 aiXi = 1. – Nous avons donc ˜β1 = β0 n i=1 ai + β1 n i=1 aiXi + n i=1 aiui = β1 + n i=1 aiui. – Calculons la variance conditionnelle de ˜β1. Nous avons Var ˜β1|X1, . . . , Xn = Var n i=1 aiui|X1, . . . , Xn = n i=1 Var (aiui|X1, . . . , Xn) + 2 i<j Cov (aiui , ajuj|X1, . . . , Xn) = n i=1 Var (aiui|X1, . . . , Xn) = σ2 u n i=1 ai 2 . – Les covariances disparaissent `a cause de la troisi`eme hypoth`ese ci-dessus. – Maintenant, il suffit de montrer que la variance conditionnelle de ˜β1 doit ˆetre sup´erieure `a la variance conditionnelle de ˆβ1. 26
  27. 27. – D´efinissons di ≡ ai − ˆai – Nous avons n i=1 ai 2 = n i=1 (ˆai + di)2 = n i=1 ˆa2 i + 2 n i=1 ˆaidi + n i=1 di 2 . – Maintenant, il faut utiliser la d´efinition des ˆai qui est donn´ee ci-dessus. Nous avons n i=1 ˆaidi = n i=1 Xi − ¯X di n i=1 Xi − ¯X 2 = n i=1 Xidi − ¯X n i=1 di n i=1 Xi − ¯X 2 = n i=1 Xi (ai − ˆai) − ¯X n i=1 (ai − ˆai) n i=1 Xi − ¯X 2 = ( n i=1 Xiai − n i=1 Xiˆai) − ¯X ( n i=1 ai − n i=1 ˆai) n i=1 Xi − ¯X 2 = 0. – La derni`ere ´egalit´e tient puisque les deux estimateurs ˜β1 et ˆβ1 sont conditionnellement non biais´es et pour cette raison il faut que n i=1 Xiai − n i=1 Xiˆai = n i=1 ai = n i=1 ˆai = 0. – Finalement, nous avons donc Var ˜β1|X1, . . . , Xn = σ2 u n i=1 ai 2 27
  28. 28. = σ2 u n i=1 ˆa2 i + n i=1 di 2 = Var ˆβ1|X1, . . . , Xn + σ2 u n i=1 di 2 ⇒ Var ˜β1|X1, . . . , Xn − Var ˆβ1|X1, . . . , Xn = σ2 u n i=1 di 2 > 0 si ∃i tel que di = 0. Si di = 0, ∀i, l’estimateur ˜β1 est tout simplement l’estimateur MCO. – Il y a aussi une preuve du th´eor`eme Gauss-Markov dans le cadre du mod`ele de r´egression multiple dans le chapitre suivant. Vous allez constater (j’esp`ere) que la preuve, qui utilise une notation matricielle, est plus simple que la preuve ici. Notez que nous n’avons pas d´emontr´e l’efficience de l’estimateur ˆβ0. 6.4 Erreur quadratique moyenne – Cette section est une peu plus ardue que les autres. Sa lecture est facultative. – Nous avons vu que l’efficience d’un estimateur est un concept relatif. Un estimateur est plus efficient qu’un autre si les deux estimateurs sont non biais´es et que le premier a une variance moins ´elev´ee que le deuxi`eme. – Une autre fac¸on de comparer deux estimateurs est de comparer leurs erreurs quadratiques moyennes. Nous avons d´ej`a vu ce concept dans le chapitre sur la statistique. – Voici la d´efinition de l’erreur quadratique moyenne d’un estimateur quelconque ˜β : EQM ˜β ≡ E ˜β − β 2 . – Il s’agit de l’esp´erance de l’´ecart au carr´e entre la valeur de l’estimateur et sa vraie valeur. – C’est une mesure assez intuitive de la pr´ecision d’un estimateur. 28
  29. 29. – Nous pouvons montrer que l’erreur quadratique moyenne est la somme de la variance de l’estimateur et du biais de l’estimateur au carr´e. Autrement dit, EQM ˜β = Var ˜β + E ˜β − β 2 . – Voici la preuve. Nous savons que pour une variable al´eatoire quelconque X, Var (X) = E X2 − (E (X))2 . Cette formule s’applique aussi `a la variable al´eatoire ˜β − β . Donc nous avons Var ˜β − β = E ˜β − β 2 − E ˜β − β 2 ⇒ E ˜β − β 2 = Var ˜β − β + E ˜β − β 2 ⇒ E ˜β − β 2 = Var ˜β + E ˜β − β 2 , ce qui fut `a montrer, puisque Var ˜β − β = Var ˜β dˆu au fait que β n’est pas une variable al´eatoire. – Le crit`ere de l’erreur moyenne quadratique permet de comparer deux estimateurs qui ne sont pas forc´ement non biais´es. – Il permet aussi de montrer qu’il peut y avoir dans certaines circonstances un arbitrage entre le biais d’un estimateur (un plus grand biais est mauvais) et la variance de l’estimateur (une plus grande variance est mauvaise). Il y a des estimateurs qui sont biais´es mais qui ont n´eanmoins une erreur quadratique moyenne inf´erieure `a n’importe quel estimateur non biais´e justement parce qu’ils ont une variance tr`es faible. 29
  30. 30. – Nous n’allons pas mettre beaucoup d’accent sur la EQM dans le cours. Dans le contexte du mod`ele de r´egression lin´eaire et l’estimateur MCO, le concept d’efficience est plus au centre de l’analyse puisque, sous des hypoth`eses relativement faibles, l’estimateur MCO est non biais´e. – Les articles de Giles (2013d, 2013e) portent sur l’erreur quadratique moyenne dans le contexte du mod`ele de r´egression simple. – Il ´etudie le mod`ele de r´egression simple sans constante : Yi = βXi + ui, o`u les Xi sont non al´eatoires et o`u on a ui ∼ i.i.d. (0, σ2 ) (les erreurs sont ind´ependamment et identiquement distribu´ees avec moyenne nulle et variance ´egale `a σ2 ). (Le fait de travailler avec des Xi non stochastiques et d’imposer une hypoth`ese concernant l’esp´erance non conditionnelle des erreurs simplifie l’analyse.) – Il montre que si on minimise l’erreur quadratique moyenne, l’estimateur qu’on obtient d´epend de β lui-mˆeme, qui est non observable. Donc, c’est un estimateur qui est non op´erationnel , c’est `a dire que nous pouvons mˆeme pas calculer. – Dans son deuxi`eme article (2013e), Giles montre qu’il est possible de trouver un estima- teur op´erationnel (que nous pouvons calculer) si on minimise une combinaison lin´eaire de la variance et du biais de l’estimateur. Le probl`eme peut s’´ecrire min β Q =   α   Var β σ2   + (1 − α)   E ˜β − β β   2    . – La fonction objectif est une somme pond´er´ee de la variance relative (par rapport `a la variance de l’erreur) et du biais au carr´e relatif (par rapport `a la vraie valeur de β) de l’estimateur β. 30
  31. 31. – La solution `a ce probl`eme (que nous allons calculer un peu plus loin) est β = β (1 − α) n i=1 Xi 2 α + (1 − α) n i=1 Xi 2 o`u β est l’estimateur MCO. On peut facilement calculer cet estimateur pour une valeur donn´ee de α. – Pour α = 0 nous avons β = β. Autrement dit, si on met tout le poids sur la minimisation du biais au carr´e, on obtient l’estimateur MCO, qui n’est pas biais´e. – Pour α > 0, |β| < |β|. L’estimateur β est plus pr`es de z´ero. (C’est un exemple de ce qu’on appelle un shrinkage estimator en anglais.) – Cette solution est un peu difficile `a montrer. Commenc¸ons par d´efinir β comme un esti- mateur lin´eaire quelconque : β ≡ n i=1 aiYi pour des constantes quelconques ai. – Cette d´efinition nous donne imm´ediatement E β = E n i=1 ai (βXi + ui) = β n i=1 aiXi + E n i=1 aiui = β n i=1 aiXi ⇒ E β − β = β n i=1 aiXi − 1 puisque nous avons fait l’hypoth`ese que les Xi sont non stochastiques et que E (ui) = 0. 31
  32. 32. – La variance de l’estimateur est donn´ee par Var β = n i=1 ai 2 Var (Yi) = σ2 n i=1 ai 2 pusque nous faisons l’hypoth`ese que la variance des erreurs est constante. – Notre probl`eme de minimisation peut donc s’´ecrire min ai Q = α σ2 n i=1 ai 2 σ2 + (1 − α) β n i=1 (aiXi − 1) β 2 ou bien min ai Q = α n i=1 ai 2 + (1 − α) n i=1 (aiXi − 1) 2 . – Les variables de choix du probl`eme sont les ai et non β lui-mˆeme. – En choisissant notre fonction objectif comme une somme pond´er´ee de la variance rela- tive de l’estimateur et du biais au carr´e relatif, nous avons r´eussi `a ´eliminer les param`etres non observables (β et σ2 ) du probl`eme. – Pour un ai quelconque la condition du premier ordre s’´ecrit ∂Q ∂ai = 0 = 2αai + 2 (1 − α) Xi n j=1 ajXj − 1 ⇒ αai + (1 − α) Xi n j=1 ajXj − 1 = 0. – Multiplions cette expression par Yi et calculons la somme `a travers les n termes en ai. Nous obtenons αaiYi + (1 − α) XiYi n j=1 ajXj − 1 = 0 ⇒ α n i=1 aiYi + (1 − α) n i=1 XiYi n j=1 ajXj − 1 = 0 32
  33. 33. ⇒ αβ + (1 − α) n i=1 XiYi n j=1 ajXj − 1 = 0 (1) puisque nous avons d´efini au d´epart notre estimateur comme β ≡ n i=1 aiYi. – Nous pouvons aussi multiplier chaque CPO par Xi et calculer la somme `a travers les n termes, ce qui donne αaiXi + (1 − α) Xi 2 n j=1 ajXj − 1 = 0 ⇒ α n i=1 aiXi + (1 − α) n i=1 Xi 2 n j=1 ajXj − 1 = 0 ⇒ α n j=1 ajXj + (1 − α) n i=1 Xi 2 n j=1 ajXj − 1 = 0 (par un simple changement d’indice) ⇒ α n j=1 ajXj + (1 − α) n i=1 Xi 2 n j=1 ajXj − (1 − α) n i=1 Xi 2 = 0 ⇒ n j=1 ajXj α + (1 − α) n i=1 Xi 2 = (1 − α) n i=1 Xi 2 ⇒ n j=1 ajXj = (1 − α) n i=1 Xi 2 α + (1 − α) n i=1 Xi 2 . – Maintenant, substituons cette solution pour n j=1 ajXj dans l´equation (1) et simpli- fions : ⇒ αβ + (1 − α) n i=1 XiYi (1 − α) 2 i=1 Xi 2 α + (1 − α) 2 i=1 Xi 2 . − 1 = 0 ⇒ αβ = (1 − α) n i=1 XiYi α + (1 − α) n i=1 Xi 2 − (1 − α) n i=1 Xi 2 α + (1 − α) 2 i=1 Xi 2 33
  34. 34. ⇒ αβ = (1 − α) n i=1 XiYi α α + (1 − α) 2 i=1 Xi 2 ⇒ β = n i=1 XiYi (1 − α) α + (1 − α) 2 i=1 Xi 2 ⇒ β = n i=1 XiYi n i=1 Xi 2 (1 − α) n i=1 Xi 2 α + (1 − α) 2 i=1 Xi 2 = β (1 − α) n i=1 Xi 2 α + (1 − α) 2 i=1 Xi 2 . – Ceci est le cas puisque pour ce mod`ele l’estimateur MCO β est donn´e par (exercice) β = n i=1 XiYi n i=1 Xi 2 . 7 Propri´et´es ´echantillonnales de l’estimateur – Dans cette section, le but principal de l’exercice est de d´eriver la variance (et par extension l’´ecart type) de nos estimateurs MCO ˆβ0 et ˆβ1. – Les ´ecarts types de ˆβ0 et de ˆβ1 font partie de l’output standard de n’importe quel logiciel de r´egression. – Cet exercice est crucial afin de pouvoir effectuer des tests d’hypoth`ese concernant les coef- ficients et aussi afin de pouvoir calculer des intervalles de confiance pour les estim´es. – Nous avons : ˆβ1 = β1 + n i=1 Xi − ¯X ui n i=1 Xi − ¯X 2 = β1 + 1 n n i=1 Xi − ¯X ui 1 n n i=1 Xi − ¯X 2 . – D’abord, travaillons avec le num´erateur. 34
  35. 35. – Nous avons d´ej`a vu que ¯X p −→ µX, ce qui veut dire que la moyenne ´echantillonnale converge en probabilit´e `a la moyenne dans la population. Donc, pour des ´echantillons assez grands, nous avons 1 n n i=1 Xi − ¯X ui ≈ 1 n n i=1 (Xi − µX) ui ≡ ¯v ≡ 1 n n i=1 vi. – La variable al´eatoire vi que nous venons de d´efinir satisfait les propri´et´es suivantes : 1. E (vi) = 0 ; 2. vi est i.i.d. ; 3. σ2 v < ∞ . – La variable satisfait les hypoth`eses pour pouvoir invoquer le th´eor`eme de la limite centrale. Donc, nous avons ¯v σ¯v d −→ N (0 , 1) , o`u σ2 ¯v = σ2 v/n. – Maintenant, travaillons avec le d´enominateur. Nous avons d´ej`a vu `a la fin du chapitre sur la statistique que la variance ´echantillonnale est un estimateur convergent de la variance d’une variable al´eatoire. Donc nous avons : 1 n − 1 n i=1 Xi − ¯X 2 ≈ 1 n n i=1 Xi − ¯X 2 p −→ σ2 X. – Mettant ensemble num´erateur et d´enominateur, nous avons Var ˆβ1 − β1 = σ2 v n (σ2 X) 2 et, ˆβ1 − β1 d −→ N 0 , σ2 v n (σ2 X) 2 35
  36. 36. – Notez tr`es bien ce que nous venons de faire. Nous avons montr´e la convergence en distri- bution du num´erateur, et la convergence en probabilit´e du d´enominateur, et par la suite nous avons saut´e tout de suite `a la convergence en distribution du ratio des deux. – Ceci est un tour de passe-passe que nous pouvons employer lorsque nous parlons de pro- pri´et´es asymptotiques (propri´et´es en grand ´echantillon) de nos statistiques. Notez que nous ne pouvons pas le faire lorsqu’il s’agit d’esp´erances. Par exemple, E X Y = E(X) E(Y ) sauf dans le cas de variables al´eatoires ind´ependantes. – Par contre, sous certaines hypoth`eses, nous avons ¯X p −→ µX, ¯Y p −→ µY ⇒ ¯X ¯Y p −→ µX µY , et ¯X d −→ N µX , σ2 ¯X , ¯Y p −→ µY ⇒ ¯X ¯Y d −→ N µX µY , 1 µY 2 σ2 ¯X . – Nous avons utilis´e le Th´eor`eme de Slutsky, un des th´eor`emes les plus utiles en th´eorie des probabilit´es. Il permet de scinder des expressions compliqu´ees de variables al´eatoires (produits ou ratios) en morceaux. Si nous pouvons montrer la convergence des morceaux, la convergence de l’expression suit imm´ediatement. – Nous aurons fr´equemment l’occasion d’utiliser une version de ce th´eor`eme. Pour plus de d´etails, voir le chapitre des notes sur le mod`ele de r´egresson multiple. – Notez que la variance de ˆβ1 d´ecroˆıt avec n et tend vers z´ero lorsque n tend vers l’infini. Lors- qu’on parle de convergence en distribution, on utilise normalement une variable al´eatoire normalis´ee de telle fac¸on `a ce sa variance ne diminue pas avec la taille de l’´echantillon. Pour 36
  37. 37. cette raison, il serait conventionnel de dire que : √ n ˆβ1 − β1 d −→ N 0 , σ2 v (σ2 X) 2 – Maintenant, d´efinissons σ2 ˆβ1 ≡ σ2 v n (σ2 X) 2 . – Maintenant, si nous divisons ˆβ1 − β1 par la racine carr´ee de σ2 ˆβ1 , nous obtenons une sta- tistique qui converge en distribution vers une loi normale centr´ee r´eduite : ˆβ1 − β1 σ2 ˆβ1 ≡ ˆβ1 − β1 σˆβ1 d −→ N (0 , 1) . – Notez que nous venons de montrer `a toutes fins pratiques la convergence de l’estimateur MCO de ˆβ1. Nous avions d´ej`a montr´e que l’estimateur MCO est non biais´e. Maintenant, nous venons de montrer que la variance de notre estimateur tend vers z´ero lorsque la taille de l’´echantillon tend vers l’infini. Autrement dit, lim n→∞ σ2 ˆβ1 = 0. – Nous avons tous les pr´erequis pour conclure que l’estimateur MCO de β1 converge en pro- babilit´e `a sa vraie valeur. 7.1 Estimateur convergent de σ2 ˆβ1 – La variance de la variable al´eatoire ¯v d´efinie ci-dessus n’est g´en´eralement pas connue, la variance de X non plus. – Nous savons maintenant que nous pouvons remplacer un moment inconnu de la population par un estimateur convergent de ce moment. 37
  38. 38. – D´efinissons : ˆσ2 ˆβ1 ≡ 1 n 1 n−2 n i=1 Xi − ¯X 2 (ˆui)2 1 n n i=1 Xi − ¯X 2 2 – Ensuite, d´efinissons l’´ecart type estim´e de ˆβ1 comme SE ˆβ1 ≡ ˆσ2 ˆβ1 . – La plupart des logiciels de r´egression calculent cet ´ecart type. Il faut, par contre, v´erifier si l’option par d´efaut est de calculer cet ´ecart type robuste (robuste `a la pr´esence de l’h´et´ero- sc´edasticit´e) ou plutˆot de calculer l’´ecart type qui suppose l’homosc´edasticit´e. 7.2 Estimateur convergent de σ2 ˆβ1 en cas d’homosc´edasticit´e – Si nous sommes prˆets `a supposer que Var (ui|X = Xi) = Var (ui) = σ2 u, nous pouvons remplacer l’estimateur convergent de σ2 ˆβ1 par ˜σ2 ˆβ1 ≡ 1 n 1 n−1 n i=1 (ˆui)2 1 n n i=1 Xi − ¯X 2 . – J’ai utilis´e la notation l´eg`erement diff´erente ˜σ2 ˆβ1 pour distinguer entre le cas g´en´eral (lors- qu’on ne suppose pas l’homosc´edasticit´e) o`u on utilise un estimateur robuste de la variance et le cas particulier o`u on suppose l’homosc´edasticit´e. – Le manuel est parmi les seuls `a utiliser l’estimateur robuste comme l’estimateur par d´efaut. Beaucoup de manuels pr´esentent le cas homosc´edastique comme le cas de base et montre par la suite qu’est-ce qui arrive si l’hypoth`ese d’homosc´edasticit´e ne tient pas. Je partage l’opinion des auteurs que l’homosc´edasticit´e est une hypoth`ese forte qui risque de ne pas tenir dans le cas de beaucoup d’applications empiriques, et que, pour cette raison, il est bien 38
  39. 39. d’enseigner le cas g´en´eral et l’estimateur robuste comme l’option par d´efaut d’un ´econom`etre appliqu´e. – Lorsqu’on utilise un logiciel de r´egression comme R, STATA ou GRETL, il faut lire atten- tivement la documentation pour savoir quelle est l’option par d´efaut utilis´ee pour estimer la matrice variance-covariance des coefficients estim´es. Dans la plupart des cas l’option par d´efaut suppose l’homosc´edasticit´e et il faut sp´ecifier l’option robuste ou l’´equivalent si vous n’ˆetes pas prˆets `a supposer l’homosc´edasticit´e, ce qui sera g´en´eralement le cas. Les ´ecarts types robustes peuvent ˆetre plus grands ou plus petits que les ´ecarts types non ro- bustes. Pour une explication plus d´etaill´ee et une illustration dans un cas tr`es simple, voir Auld (2012). Auld d´emontre les points suivants. 1. En pr´esence d’h´et´erosc´edasticit´e, si la variance des erreurs n’est pas fortement corr´el´ee avec la variable explicative du mod`ele (X), il y aura peu de diff´erence entre l’´ecart type calcul´e avec la m´ethode robuste et l’´ecart type calcul´e sous l’hypoth`ese de l’ho- mosc´edasticit´e. 2. Si la variance des erreurs augmente pour des valeurs des Xi qui sont loin de leur moyenne ´echantillonnale ¯X, l’´ecart type calcul´e avec la m´ethode non robuste (supposant l’ho- mosc´edasticit´e) sera biais´e vers z´ero (trop petit). L’´ecart type calcul´e avec la m´ethode robuste sera en g´en´eral plus grand que l’´ecart type non robuste. 3. Si la variance des erreurs est plus grande pour des valeurs des Xi qui sont pr`es de leur moyenne ´echantillonnale ¯X, l’´ecart type calcul´e avec la m´ethode non robuste (supposant l’homosc´edasticit´e) sera biais´e et sera en moyenne trop grand. L’´ecart type calcul´e avec la m´ethode robuste sera en g´en´eral plus petit que l’´ecart type non robuste. 4. Avec les donn´ees r´eeles on rencontre plus souvent le cas o`u l’´ecart type non robuste est baisi´e vers z´ero (est trop petit). Donc, typiquement les ´ecarts types robustes sont plus ´elev´es que les ´ecarts types non robustes. 39
  40. 40. 7.3 D´etecter l’h´et´erosc´edasticit´e – Il peut ˆetre important de pouvoir d´etecter la pr´esence d’erreurs h´et´erosc´edastiques. Il y a des tests formels, 2 mais il y a aussi des m´ethodes moins formelles que les chercheurs appliqu´es peuvent utiliser. – Une fac¸on simple serait de cr´eer, une fois le mod`ele estim´e, un graphique avec les Xi sur l’axe horizontal et les r´esidus carr´es ˆu2 i sur l’axe vertical. – Une relation ´evidente entre les deux (par exemple, des valeurs de ˆu2 i qui semblent augmenter avec les valeurs de Xi ou semblent diminuer avec les valeurs de Xi) est un signe clair de la pr´esence d’h´et´erosc´edasticit´e. – Une autre fac¸on serait, une fois le mod`ele estim´e, d’estimer une r´egression o`u on prend les r´esidus carr´es comme variable d´ependante et Xi comme variable explicative, ou des fonctions non lin´eaires des Xi. Par exemple, ˆu2 i = γ0 + γ1Xi + i ou encore ˆu2 i = γ0 + γ1Xi 2 + i. – L’id´ee est d’estimer les valeurs de γ0 et de γ1 par MCO. Soit ˆγ1 la valeur estim´ee du coef- ficient γ1 Une valeur significative de ˆγ1 (voir la section suivante sur les tests d’hypoth`ese) serait un indice clair de la pr´esence d’h´et´erosc´edasticit´e. 3 Nous allons revenir sur cette ques- tion et sur quelques tests formels pour d´etecter l’homosc´edasticit´e dans le chapitre sur la r´egression multiple. 2. Nous verrons certains de ces tests formels dans le chapitre sur le mod`ele de r´egression multiple. 3. Notez qu’il ne s’agit pas d’un test formel avec des propri´et´es statistiques connues. Il faut interpr´eter le r´esultat du test `a titre indicatif seulement. Par contre, le test formel appel´e test Breusch-Pagan est essentiellement bas´e sur une r´egression de ce type. 40
  41. 41. 8 Tests d’hypoth`ese 8.1 Approche g´eneral – Le principe de base pour tester des hypoth`eses simples est presqu’identique `a ce que nous avons vu dans le chapitre sur l’inf´erence statistique. – L’hypoth`ese nulle sp´ecifie g´en´eralement que le coefficient d’int´erˆet (qui peut ˆetre ˆβ0 ou ˆβ1 prend une certaine valeur. L’hypoth`ese alternative peut ˆetre bilat´erale ou unilat´erale, d´ependant du contexte. – D’abord, il faut cr´eer une statistique normalis´ee qui a une moyenne nulle et une variance unitaire sous l’hypoth`ese nulle. Il s’agit d’une statistique t mˆeme si en g´en´eral elle n’ob´eit pas `a une loi t de Student. Par exemple : t ≡ ˆβ1 − β1,0 SE ˆβ1 o`u SE ˆβ1 est un estimateur convergent de l’´ecart type du coefficient β1 et β1,0 est la valeur que prend le coefficient β1 sous l’hypoth`ese nulle. – Si nous sommes prˆets `a faire l’hypoth`ese que le terme d’erreur du mod`ele ui ob´eit `a une loi normale avec variance constante, nous pouvons montrer que la statistique t suit une loi t de Student. Dans ce cas, bien sˆur, il est pr´ef´erable d’utiliser la forme homosc´edastique pour le calcul de l’´ecart type de l’estimateur ˆβ1. – Si non, sous les hypoth`eses du mod`ele de r´egression, la statistique t ob´eit en grand ´echantillon `a une loi normale centr´ee r´eduite. Voir la section pr´ec´edente sur les propri´et´es ´echantillonnales de l’estimateur. – Comme il est habituellement le cas, nous remplac¸ons l’´ecart type dans le d´enominateur par un estimateur convergent. – Maintenant, nous proc´edons exactement comme dans le chapitre sur la statistique. 41
  42. 42. 8.2 Hypoth`ese alternative bilat´erale – D’abord, si l’hypoth`ese alternative est bilat´erale : H1 : β1 = β1,0, nous rejetons l’hypoth`ese nulle si la statistique calcul´ee est suffisamment loin de z´ero. La p-value du test est donn´ee par : p-value = Pr |z| > |tact | = 2Φ −|tact | o`u tact est la valeur calcul´ee de la statistique et, comme auparavant, Φ(z) est la valeur de la distribution normale centr´ee r´eduite cumul´ee `a z. – On appelle appelle commun´ement un test de significativit´e un test de l’hypoth`ese nulle que la variable explicative n’est pas significative, et donc n’aide pas `a expliquer la variabilit´e de la variable d´ependante. Dans, ce cas, l’hypoth`ese nulle est H0 : ˆβ1 = 0 et l’hypoth`ese alternative est bilat´erale. On peut aussi parler d’un test de significativit´e de la constante dans le mod`ele de r´egression simple. Les tests de significativit´e sont tellement r´epandus que, si l’output fourni par un logiciel d’´econom´etrie donne les statistiques t associ´ees aux coefficients estim´es, il s’agit de statistiques appropri´ees pour tester l’hypoth`ese nulle que le coefficient est ´egal `a z´ero. 8.3 Hypoth`ese alternative unilat´erale – Ensuite, si l’hypoth`ese alternative est unilat´erale, il faut distinguer entre les deux cas pos- sibles. 1. D’abord, H1 : β1 > β1,0. Nous rejetons l’hypoth`ese nulle si la statistique calcul´ee est suffisamment positive. La 42
  43. 43. p-value du test est donn´ee par : p-value = Pr z > tact = 1 − Φ tact . 2. La deuxi`eme possibilit´e est : H1 : β1 < β1,0. Nous rejetons l’hypoth`ese nulle si la statistique calcul´ee est suffisamment n´egative. La p-value du test est donn´ee par : p-value = Pr z < tact = Φ tact . 9 Intervalles de confiance pour les coefficients – Le principe est identique que pour l’estimateur de la moyenne de la population que nous avons vu dans le chapitre sur l’inf´erence statistique. – Pour calculer les deux bornes de l’intervalle de confiance de X%, d’abord on cherche la valeur de z > 0 tel que Φ(−z) = 1 − X/100 2 . Donc, on cherche la valeur de z > 0 pour laquelle (100−X) 2 % de la distribution normale centr´ee r´eduite se trouve `a gauche de −z. Cela veut dire bien sˆur que (100−X) 2 % de la distri- bution normale centr´ee r´eduite se trouve `a droite de z. – Nous avons (pour ˆβ1 : le principe pour ˆβ0 est identique) : X 100 = Pr −z ≤ ˆβ1 − β1 ˆσˆβ1 ≤ z = Pr −zˆσˆβ1 ≤ ˆβ1 − β1 ≤ zˆσˆβ1 43
  44. 44. = Pr −zˆσˆβ1 ≤ β1 − ˆβ1 ≤ zˆσˆβ1 = Pr ˆβ1 − zˆσˆβ1 ≤ β1 ≤ ˆβ1 + zˆσˆβ1 , o`u ˆσˆβ1 ≡ SE ˆβ1 , notre estimateur convergent de l’´ecart type de β1. – Cela implique que l’intervalle de confiance de X% autour de ˆβ1 peut ˆetre ´ecrit de la fac¸on suivante : ˆβ1 ± zˆσˆβ1 , o`u Φ(−z) = 1 − X/100 2 . 9.1 Intervalles de confiance pour les pr´edictions Souvent, on estime un mod`ele de r´egression pour pr´edire l’impact du changement de la variable explicative sur la variable d´ependante. Par exemple, dans le cadre du mod`ele d´evelopp´e en d´etail dans le manuel, on pourrait vouloir pr´edire l’impact sur le rendement scolaire d’une r´eduction de la taille moyenne des classes de deux ´eleves. Soit ∆X le changement propos´e de la valeur de la variable explicative. On a tout de suite ∆ˆYi = ˆβ1∆Xi, o`u ∆ˆYi est le changement pr´edit de la variable d´ependante. D´evelopper un intervalle de confiance dans ce cas est facile. Le changement pos´e ∆X est connue. On peut le traiter comme une constante, et donc nous avons Var ∆ˆYi = Var ˆβ1∆Xi = (∆Xi)2 Var ˆβ1 44
  45. 45. Donc, proc´edant de la mˆeme mani`ere que pour l’intervalle de confiance pour ˆβ1 lui-mˆeme on a X 100 = Pr  −z ≤ ∆Xi ˆβ1 − β1 (∆Xi) σˆβ1 ≤ z   = Pr −z (∆Xi) σˆβ1 ≤ ∆Xi ˆβ1 − β1 ≤ z (∆Xi) σˆβ1 = Pr −z (∆Xi) σˆβ1 ≤ ∆Xi β1 − ˆβ1 ≤ z (∆Xi) σˆβ1 = Pr −z (∆Xi) σˆβ1 + ∆Xi ˆβ1 ≤ ∆Xiβ1 ≤ z (∆Xi) σˆβ1 + ∆Xi ˆβ1 . Donc, l’intervalle de confiance pour le changement pr´edit est donn´e par ∆Xi ˆβ1 ± z (∆Xi) σˆβ1 Si nous remplac¸ons l’´ecart type de ˆβ1 par un estimateur convergent (notre truc habituel), l’intervalle de confiance peut s’´ecrire ∆Xi ˆβ1 ± z (∆Xi) ˆσˆβ1 10 Un exemple d’estimation du mod`ele de r´egression simple avec R Voici un exemple de comment estimer un mod`ele de r´egression simple avec le logiciel R. L’exemple provient de Kleiber et Zeileis (2008, chapitre 3), qui contient une analyse beaucoup plus de d´etaill´ee. Vous pouvez facilement jouer avec le code une fois que le logiciel est install´e. Le but du mod`ele est de pr´edire la demande pour les abonnements `a des revues scientifiques (abonnements par des biblioth`eques universitaires) o`u la variable explicative est le prix par nombre de citations. Le mod`ele est ln (subsi) = β0 + β1 ln (citepricei) + ui, 45
  46. 46. o`u la variable d´ependante subsi est le nombre d’abonnements `a la revue i (mesur´e en logs), et la variable explicative citepricei est le prix annuel d’un abonnement divis´e par le nombre de citations annuel d’articles publi´es dans la revue (mesur´e aussi en logs). Notez que le choix de mesurer les deux variables en logs est celui des auteurs. Nous allons revenir sur cette question dans le chapitre sur les mod`eles de r´egression non lin´eaires. 4 Les donn´ees sont dans une banque de donn´ees qui s’appelle Journals . Il s’agit de donn´ees (avec n = 180) sur les abonnements par des biblioth`eques universitaires `a des revues scientifiques. La taille de l’´echantillon est le nombre de revues dans l’´echantillon. Afin d’effectuer l’estimation d’un mod`ele de r´egression simple de base et afin d’effec- tuer tous les calculs et tous les tests, il faut non seulement la version de base de R mais aussi les packages AER (qui contient les donn´ees utilis´ees pour estimer le mod`ele), lmtest, sandwich et zoo (ces trois packages permettent de calculer les ´ecarts types ro- bustes du mod`ele estim´e et d’effectuer des tests d’hypoth`ese utilisant les ´ecarts types ro- bustes). Si les packages ne sont pas d´ej`a install´es, il faut les installer avec la commande install.packages(·) : install.packages("AER") install.packages("lmtest") install.packages("zoo") install.packages("sandwich") Notez que sous Linux il est pr´ef´erable d’installer le package comme administrateur du syst`eme ou super-utilisateur. Pour le faire, invoquer le logiciel R avec la commande sudo R. Une fois les packages install´es, on peut proc´eder `a charger les donn´ees et estimer le mod`ele par MCO. Dans le code R qui suit, j’ajoute des commentaires pour expliquer ce que font les 4. Entretemps, `a moins d’avis contraire, je vous demande d’utiliser des variables non transform´ees dans les exer- cices empiriques. 46
  47. 47. commandes. Les lignes pr´ec´ed´ees par # sont des commentaires. R> # Charger les donn´ees. R> library("AER") R> data("Journals") R> # Permettre d’appeler les variables directement par leurs noms. R> attach(Journals) R> # Calculer des statistiques descriptives concernant les variables. R> # summary(Journals) R> # Cr´eer une base de donn´ees avec un sous-ensemble des variables. R> journals <- Journals[, c("subs", "price")] R> # Ajouter le prix par citation `a la base de donn´ees restreinte. R> journals$citeprice <- Journals$price / Journals$citations R> # Permettre d’appeler les variables dans journals directement. R> attach(journals) R> # Produire un nuage de points avec les abonnements et le prix par citation. R> plot(log(subs) ∼ log(citeprice), data = journals) R> # Estimer le mod`ele par MCO utilisant la commande lm(·). R> # Les r´esultats sont stock´es dans l’objet jour lm. R> jour lm <- lm(log(subs) ∼ log(citeprice)) R> # Ajouter la ligne de r´egression estim´ee au nuage de 47
  48. 48. points. R> abline(jour lm) R> # Calculer des statistiques de base avec l’output de l’estimation. R> summary(jour lm) R> # Ouvrir un fichier pour contenir ces statistiques. R> # Le nom du fichier est regumm.out . R> outfile <- file("regsumm.out", "w") R> capture.output(summary(jour lm), file=outfile) R> # Fermer le fichier qui contient l’output. R> close(outfile) R´esumons ce que nous avons fait avec ces commandes. – La commande data(·) charge la banque de donn´ees en m´emoire. – La commande journals<- cr´ee une plus petite banque de donn´ees en extrayant les variables subs (combien d’abonnements) et price (prix de l’abonnement). – La commande journals$citeprice<- ajoute une nouvelle variable `a la banque journals qui est le prix par citation. – La commande plot(·) cr´ee un graphique avec les observations, avec subs (en loga- rithmes) sur l’axe vertical et citeprice (en logarithmes) sur l’axe horizontal) – La commande lm(·) estime le mod`ele de r´egression simple par MCO, et la commande jour lm<- place les r´esultats dans la variable jour lm. – La commande abline(·) utilise les r´esultats pour placer la ligne de r´egression sur le graphique qui a d´ej`a ´et´e cr´e´e. – La commande summary(·) imprime les r´esultats de la r´egression `a l’´ecran. – La commande outfile<- cr´ee un fichier texte o`u on peut envoyer les r´esultats. – La commande capture.output(·) envoie les r´esultats dans le fichier qui a ´et´e cr´e´e. 48
  49. 49. – La commande close(·) ferme le fichier. Les r´esultats de l’estimation sont comme suit. Call: lm(formula = log(subs) ∼ log(citeprice), data = journals) Residuals: Min 1Q Median 3Q Max -2.72478 -0.53609 0.03721 0.46619 1.84808 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.76621 0.05591 85.25 <2e-16 *** log(citeprice) -0.53305 0.03561 -14.97 <2e-16 *** — Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.7497 on 178 degrees of freedom Multiple R-squared: 0.5573, Adjusted R-squared: 0.5548 F-statistic: 224 on 1 and 178 DF, p-value: < 2e-16 Vous ˆetes d´ej`a en mesure de comprendre tous les ´el´ements de l’output, sauf `a la toute fin lors- qu’on mentionne Adjusted R-squared et F-statistic. La mesure de l’ajustement statistique R2 que nous avons ´etudi´ee est ce qu’on appelle Multiple R-squared dans l’output. Nous reviendrons sur ces statistiques dans le chapitre sur le mod`ele de r´egression multiple. En ce qui concerne les r´esidus, le logiciel nous donne la valeur minimale parmi les r´esidus, 49
  50. 50. la valeur associ´ee au premier quartile (la valeur pour laquelle 25% des r´esidus on une valeur inf´erieure), la valeur m´ediane (qui n’est pas forc´ement ´egale `a la moyenne), la valeur associ´ee au troisi`eme quartile, et la valeur maximale. Ces valeurs (surtout les valeurs minimale et maxi- male) peuvent ˆetre utiles pour rep´erer des observations aberrantes. Une mise en garde : le code ci-dessus estime le mod`ele par MCO utilisant les options par d´efaut. La fonction lm utilise par d´efaut une hypoth`ese d’homosc´edasticit´e. Donc, les ´ecarts types des deux coefficients (ˆβ0 et ˆβ1 dans notre notation) ne sont pas des ´ecarts types robustes. Afin d’obtenir des ´ecarts types robustes `a la pr´esence de l’h´et´erosc´edasticit´e, il faut utiliser la commande suivante : R> coeftest(jour lm, vcov=vcovHC) Notez que pour utiliser cette commande, il faut que les packages sandwich, zoo et lmtest soit intall´es, tel qu’indiqu´e ci-dessus. Il faut aussi charger en m´emoire les packages lmtest (qui va automatiquement charger zoo aussi) et sandwich avant d’utiliser la com- mande coeftest(·), avec les commandes suivantes : R> library("lmtest") R> library("sandwich") Les r´esultats de cette commande sont comme suit : Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.7662 0.0555 85.8 <2e-16 log(citeprice) -0.5331 0.0345 -15.5 <2e-16 Ce mod`ele est un exemple d’un mod`ele o`u il n’y a pas une diff´erence ´enorme entre les ´ecarts types robustes et non robustes. Puisque l’ordinateur est capable de calculer les ´ecarts types en une fraction de seconde, il coˆute presque rien de les calculer des deux fac¸ons afin de v´erifier si 50
  51. 51. les r´esultats sont semblables ou non. Un graphique avec les donn´ees (variable d´ependante sur l’axe vertical et variable explica- tive sur l’axe horizontal) et la ligne de r´egression est la Figure 2 ci-dessous. Figure 2 q q q q q q q q qq q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q −4 −2 0 2 1234567 log(citeprice) log(subs) 11 Le mod`ele de r´egression simple lorsque X est une variable dichotomique Jusqu’ici, nous avons suppos´e que la variable explicative dans le mod`ele de r´egression simple, X, est une variable al´eatoire continue. Il es souvent le cas que la variable explicative est une variable qualitative qui ne peut prendre que deux valeurs : oui ou non, vrai ou faux, pr´esent ou 51
  52. 52. absent, etc. On peux repr´esenter ces deux valeurs possibles de la variable explicative variable dichotomi- que par soit 0 soit 1. Dans l’example du livre, l’impact de la taille des classes sur le rendement scolaire dans les conseils scolaires en Californie, on aurait pu avoir des donn´ees sur la taille des classes o`u Di = 1 pour des ratios ´el`eves/professeurs inf´erieurs `a 20 est Di = 0 pour des ratios ´el`eves/professeurs au moins ´egaux `a 20. Dans ces cas, β1 n’a pas l’interpr´etation d’un coefficient de pente. Il a l’interpr´etation de la moyenne conditionnelle de la variable d´ependante Y lorsque Di = 1. L’ordonn´ee β0 a l’in- terpr´etation de la moyenne conditionnelle de Y lorsque Di = 0. Donc, β1 a l’interpr´etation de la diff´erence entre les moyennes de deux populations ou plutˆot de sous-populations. Alg´ebriquement, nous avons Yi = β0 + β1Xi + ui ⇒ E (Yi|Xi = 0) = β0 + β1 × 0 + E (ui|Xi = 0) = β0 et ⇒ E (Yi|Xi = 1) = β0 + β1 × 1 + E (ui|Xi = 1) = β0 + β1. On ´ecrit dans le manuel qu’il y a ´equivalence entre d’une part estimer le mod`ele de r´egression simple par MCO avec une variable explicative X et d’autre part calculer les moyennes ´echantillon- nales des sous-´echantillons. Dans l’encadr´e qui suit, je montre cette ´equivalence. Je montre aussi l’´equivalence entre tester la significativit´e du coefficient estim´e ˆβ1 et tester la significativit´e de la diff´erence entre deux moyennes. Le mod`ele avec une variable explicative dichotomique peut s’´ecire Yi = β0 + β1Di + ui, o`u Di prend deux valeurs possibles, soit 0 soit 1. Soit n1 le nombre d’observations pour les- 52
  53. 53. quelles Di = 1 et soit n0 le nombre d’observations pour lesquelles Di = 0. Il est clair que ¯D ≡ 1 n n i=1 Di = n1 n . L’estimateur ˆβ0 est donn´e par la formule habituelle ˆβ0 = ¯Y − ˆβ1 ¯D. L’estimateur ˆβ1 est donn´e par la formule habituelle ˆβ1 = n i=1 Yi − ¯Y Di − ¯D n i=1 Di − ¯D 2 . Dans ce cas, avec Di une variable dichotomique, nous avons n i=1 Di − ¯D 2 = n0 i=1 ¯D2 + n1 i=1 1 − ¯D 2 = n0 n1 n 2 + n1 1 − n1 n 2 = n0 n1 n 2 + n1 n0 n 2 = n0n1 2 + n1n0 2 n2 = n0n1 (n0 + n1) n2 = n0n1 n . D´efinissons Y 1 i la valeur de Yi dans le cas o`u Di = 1. D´efinissons Y 0 i la valeur de Yi dans le 53
  54. 54. cas o`u Di = 0. Nous avons ˆβ1 = n i=1 Yi − ¯Y Di − ¯D n0n1/n = n1 i=1 Y 1 i − ¯Y (1 − n1/n) − n0 i=1 Y 0 i − ¯Y (n1/n) n0n1/n = n1 i=1 Y 1 i − ¯Y (n0/n) − n0 i=1 Y 0 i − ¯Y (n1/n) n0n1/n = 1 n1 n1 i=1 Y 1 i − ¯Y − 1 n0 n0 i=1 Y 0 i − ¯Y = 1 n1 n1 i=1 Y 1 i − 1 n1 ¯Y n1 i=1 1 − 1 n0 n0 i=1 Y 0 i + 1 n0 ¯Y n0 i=1 1 = 1 n1 n1 i=1 Y 1 i − n1 n1 ¯Y − 1 n0 n0 i=1 Y 0 i + n0 n0 ¯Y = 1 n1 n1 i=1 Y 1 i − 1 n0 n0 i=1 Y 0 i . Ceci est tout simplement la diff´erence entre la moyenne ´echantillonnale de Y pour le sous- ´echantillon o`u Di = 1 et sa moyenne ´echantillonnale pour le sous-´echantillon o`u Di = 0. Il faut maintenant montrer que ˆβ0 est tout simplement ´egal `a la moyenne ´echantillonnale de Y pour le sous-´echantillon o`u Di = 0. Nous avons ˆβ0 = ¯Y − n1 n n i=1 Yi − ¯Y Di − ¯D n0n1/n = ¯Y − n1 n n1 i=1 Y 1 i − ¯Y (1 − n1/n) − n0 i=1 Y 0 i − ¯Y (n1/n) n0n1/n = ¯Y − n1 n n0 n n1 i=1 Y 1 i − n1 n n0 i=1 Y 0 i − ¯Y n0n1 n + ¯Y n0n1 n n0n1/n = ¯Y − n1 n n0 n n1 i=1 Y 1 i − n1 n n0 i=1 Y 0 i n0n1/n 54
  55. 55. = 1 n n i=1 Yi − 1 n n1 i=1 Y 1 i + n1 n0n n0 i=1 Y 0 i = 1 n n1 i=1 Y 1 i + n0 i=1 Y 0 i − 1 n n1 i=1 Y 1 i + n1 n0n n0 i=1 Y 0 i = 1 n + n1 n0n n0 i=1 Y 0 i = 1 n0 n0 i=1 Y 0 i , ce qui fut `a d´emontrer. La statistique t pour tester la significativit´e du coefficient estim´e ˆβ1 est donn´ee par la formule habituelle : t = ˆβ1 SE ˆβ1 . Dans ce cas, nous avons t = ¯Y 1 − ¯Y 0 Var ¯Y 1 − ¯Y 0 , = ¯Y 1 − ¯Y 0 Var ¯Y 1 + Var ¯Y 0 , = ¯Y 1 − ¯Y 0 − 0 σ2 Y 1 n1 + σ2 Y 0 n0 , o`u ¯Y 1 ≡ 1 n1 n1 i=1 Y 1 i , ¯Y 0 ≡ 1 n0 n0 i=1 Y 0 i . Cette formule correspond exactement `a la formule d´eriv´ee dans le chapitre sur la statistique et les tests d’hypoth`eses pour tester la diff´erence entre les moyennes de deux populations diff´erentes. Ici, l’hypoth`ese d’h´et´erosc´edasticit´e permet `a la variance de l’erreur du mod`ele de r´egression de d´ependre des deux valeurs diff´erentes possibles de Di. 55
  56. 56. 12 Concepts `a retenir – Comment ´ecrire le mod`ele de r´egression simple. – Le probl`eme de minimisation auquel l’estimateur MCO est une solution. – Les propri´et´es alg´ebriques de l’estimateur MCO. Il est important de pouvoir suivre les d´emonstrations de ces propri´et´es et de les comprendre, mais il n’est pas n´ecessaire d’ˆetre capable de les reproduire. – Le concept du R2 , et les concepts de somme totale des carr´es, somme expliqu´ee des carr´es, et somme des r´esidus carr´es et la relation entre ces sommes. – Les hypoth`eses statistiques de base du mod`ele de r´egression simple qui sont requises pour montrer l’absence de biais et la convergence. – Les hypoth`eses additionnelles n´ecessaires pour montrer l’efficience de l’estimateur MCO (th´eor`eme Gauss-Markov). – Il faut avoir suivi et compris la d´erivation des propri´et´es ´echantillonnales des coefficients estim´es. – Comment tester des hypoth`eses concernant les coefficients estim´es du mod`ele, contre des hypoth`eses alternatives bilat´erales ou unilat´erales. – Comment calculer un intervalle de confiance pour les coefficients du mod`ele. – Comment calculer un intervalle de confiance pour un changement pr´edit. 13 R´ef´erences Voir ce lien : http://www.er.uqam.ca/nobel/r10735/4272/referenc.pdf Derni`ere modification : 12/10/2013 56

×