(Econometrie) done

2 587 vues

Publié le

Publié dans : Économie & finance
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
2 587
Sur SlideShare
0
Issues des intégrations
0
Intégrations
5
Actions
Partages
0
Téléchargements
250
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

(Econometrie) done

  1. 1. Ass. Cédrick Tombola M. 0 ECONOMETRIE 1 Rappels et recueil d’exercices [résolus] Sous la supervision du Professeur BOSONGA BOFEKI Licence 1 Economie Cédrick Tombola M. /A s s i s t a n t Copyright © cdktombola-Laréq - mars 2012 UUPPCC
  2. 2. Ass. Cédrick Tombola M. 1 A travers cette contrée chaotique, des hommes audacieux et tenaces ont lancé le premier chemin de fer de l’Afrique centrale. Henry Merton Stanley N'essayez pas de devenir un homme qui a du succès. Essayez de devenir un homme qui a de la valeur. Albert Einstein
  3. 3. Ass. Cédrick Tombola M. 2 PLAN SOMMAIRE AVANT – PROPOS INTRODUCTION THEORIE DE LA CORRELATION MODELE DE REGRESSION LINEAIRE SIMPLE MODELE DE REGRESSION LINEAIRE MULTIPLE MODELES DE REGRESSION NON LINEAIRES VIOLATION DES HYPOTHESES DE BASE ANNEXES
  4. 4. Ass. Cédrick Tombola M. 3 AVANT-PROPOS Je ne peux nier, quand j’ai commencé la rédaction de ce recueil, l’ambition de confectionner un vade-mecum d’introduction à l’Econométrie à l’intention des étudiants de première licence FASÉ. Mais le nombre de projets sur la file d’attente et les nombreux défis entre lesquels il me faut partager mon temps d’une part, et le besoin réel et urgent chez les étudiants de disposer d’un recueil qui accompagne le cours magistral assuré par le professeur d’autre part, m’ont obligé à ne produire qu’une ébauche. Le projet de proposer ce recueil est né de la déception et de l’insatisfaction que j’éprouvais, encore étudiant, lors des séances TP d’Econométrie 1. Alors qu’ailleurs ils prennent de la vitesse, nous, me semblait-il, on tombait, paradoxalement, dans la suffisance. Ce recueil a donc été rédigé de façon à permettre aux étudiants de porter un autre regard sur les notions qu’ils apprennent pendant le cours théorique et de voir plus loin que moi. Le choix des applications a également été fait dans cette optique. On remarquera que, par souci pédagogique et d’excellence, je me suis plus attardé sur les aspects et les démonstrations les moins populaires, bref, sur les non-dits. Les étudiants passionnés et qui veulent aller loin en Econométrie, trouveront aussi, en annexe, une initiation au logiciel économétrique EVIEWS. Enfin, en le mettant à la disposition du public, je formule le vœu que ce recueil suscite, parmi mes étudiants et mes collègues de la FASÉ, de nombreux esprits critiques qui pourront nous proposer mieux et ainsi éviter que nos efforts pour l’avancement de cette faculté ne s’essoufflent et n’atteignent, prématurément, un état stationnaire , ce qui serait dommage . Remerciement Je remercie le professeur Jean-Pierre Bosonga pour la confiance qu’il a eue en moi – à vrai dire, sans vraiment me connaître – et pour m’avoir orienté dans la rédaction de ce recueil. Mes sincères remerciements vont à mon aîné et mon ami l’assistant Jean-Paul Tsasa V. Kimbambu, pour nos nombreuses discussions, parfois laissées en queue de poisson, et pour l’idéal qu’il m’a transmis. Je remercie aussi mes étudiants de première licence FASÉ, de la promotion 2011-2012, pour avoir beaucoup exigé et attendu de moi ; ils m’ont contraint à plus de sérieux dans le travail, et je leur en suis reconnaissant. Bien entendu, ce support n’engage que son auteur. Toute remarque pertinente pouvant en améliorer le contenu sera la bienvenue. Dédicace Je dédie ce recueil à l’avenir du LAREQ et à l’émergence d’une nouvelle classe d’enseignants à l’UPC. Cédrick Tombola M. cedrictombola@lareq.com
  5. 5. Ass. Cédrick Tombola M. 4 .I. INTRODUCTION I.1. Quelques points de l’histoire α. Avant 1930 : Le Moyen-âge économétrique Les premiers développements de l’Econométrie1 peuvent remonter, selon Gérard Grellet, au 17ème siècle, l’époque de l’Arithmétique politique [Political Arithmeticians, en anglais] en Angleterre, avec des auteurs comme William Petty, Gregory King et Charles Devenant, pour leurs tentatives de modélisation à partir des données empiriques. Selon d’autres auteurs, on doit la genèse de l’Econométrie aux travaux de tentative d’unification de l’Economie et la Statistique d’Auguste Cournot et de Jules Dupuit en France, de William Stanley Jevons en Angleterre et de Henry Ludwell Moore aux Etats-Unis. Ces auteurs tentèrent d’élaborer des lois économiques { l’instar des lois de la physique newtonienne. Mais il convient simplement de retenir que nombre de méthodes et techniques auxquelles recourt l’Econométrie, ont été développées bien avant son institutionnalisation comme discipline des sciences économiques. A titre d’exemple : - En 1805, dans son ouvrage intitulé « Nouvelles méthodes pour la détermination des orbites des comètes », puis en 1806 dans la deuxième édition du même ouvrage, le mathématicien français Adrien-Marie Legendre propose, par une méthode algébrique, le premier développement rigoureux de la méthode des moindres carrés ordinaires. - En 1809, Carl Friedrich Gauss, dans son traité « Theoria motus corporum coelestium », propose, par une approche probabiliste, un autre développement rigoureux de la méthode des moindres carrés ordinaires dont il se réclame la paternité. Dans une lettre adressée à Pierre-Simon de Laplace2 , il explique qu’il avait fait usage de cette méthode déjà en 1795, et de manière un peu plus fréquente, dans ces calculs astronomiques sur les nouvelles planètes, depuis 1802. Plus tard, en 1829, Carl F. Gauss et Andrei A. Markov démontrent que l’estimateur des moindres carrés ordinaires est BLUE [en anglais : Best Linear Unbiaised Estimator]. C’est-à-dire qu’il est le meilleur estimateur linéaire non biaisé, à variance minimale. - En 1886, dans son étude sur la transmission des caractères héréditaires, Francis Galton, de qui le terme régression tire son origine, fournit une première régression linéaire. Plus tard, son disciple Karl Pearson, en 1896, dans son ouvrage « La Grammaire de la Science », développe la notion de corrélation linéaire et propose un estimateur pour cette grandeur. La corrélation a été introduite en Economie en 1902, avec l’ouvrage de Arthur Lyon Bowley « Elements of Statistic ». - En 1909, Georges Udny Yule invente les premières applications économiques de la méthode de la corrélation et introduit à la même occasion la notion de corrélation partielle. Et en 1926, il dénonce les 1 On attribue souvent à tort au norvégien R. Frisch, la création du mot économétrie qui revient plutôt à Pavel Compria. 2 Il inclut lui-même un exposé de la méthode des moindres carrés ordinaires dans son traité de 1820 : « Théorie analytique des probabilités ». En 1808, le mathématicien américain Robert Adrain a aussi publié une formulation de la méthode des moindres carrés.
  6. 6. Ass. Cédrick Tombola M. 5 « spurrious correlations », ce qu’il convient de traduire par corrélations fallacieuses. Puis montre que la corrélation de deux séries chronologiques peut être totalement artificielle. β. Depuis 1930 : La naissance de l’Econométrie moderne L’institutionnalisation de l’Econométrie en tant que discipline des sciences économiques s’est réalisée en 1930 – exactement le 29 décembre 1930 – { l’occasion de la création { Cleveland, aux Etats-Unis, par 16 économistes3 dont Ragnar Frisch4 et Irving Fisher sont les plus cités, de l’Econometric Society [la Société d’Econométrie] avec comme devise : ’’ pour l’avancement de la théorie économique dans ses relations avec la statistique et les mathématiques’’. Depuis la création de cette société, et de la Cowles commission – spécialisée dans les méthodes d’estimation des modèles { équations simultanées –, fondée le 9 septembre 1932, deux ans après l’Econometric Society, par Alfred Cowles, l’Econométrie a connu un grand essor. C’est ainsi qu’en 1933, R. Frisch crée la revue Econometrica pour la promotion des études qui ont pour but une unification des approches quantitatives théoriques et empiriques des problèmes économiques. On note aussi que dès le départ, pour les promoteurs de l’Econometric Society, il était clair que deux déviations devraient être évitées :  La construction d'édifices mathématiques purement logiques et déconnectés du réel économique.  La mise en œuvre de pures investigations statistiques qui, en dépit de leur caractère poussé et de leur apparence réaliste, risque de manquer de consistance ou de pertinence, sans le soutien d'une pensée économique profonde et rigoureuse. A ce sujet, R. Frisch écrivit ainsi dans le premier numéro de la revue Econometrica : "L'expérience a montré que chacun des trois points de vue suivants, celui de la statistique, celui de la théorie économique et celui des mathématiques est une condition nécessaire, mais par elle même non suffisante, d'une compréhension effective des relations quantitatives de la vie économique moderne : c'est leur unification qui est efficace. C'est cette unification qui constitue l'économétrie ’’. Il faut noter également que le krach financier des années 30, la domination du keynésianisme jusqu’{ la fin des années 60, le développement de l’inférence statistique à la fin du 19ème siècle et le consensus entre les économistes autour du cadre IS – LM avant 1970, sont aussi parmi les facteurs explicatifs de l’essor de l’Econométrie depuis 1930, surtout au sein de la Cowles commission. La révolution Keynésienne [1936], avec la logique de circuit, a développé un autre type de raisonnement macroéconomique en termes d’agrégats objectivement mesurables par la comptabilité nationale et de comportements mesurés par les propensions. Ainsi, entre 1944 et 1960, la plus grande partie de la recherche en Econométrie porta sur les conditions d’estimation des modèles macroéconométriques { équations simultanées. - En 1935, Jan Tinbergen estime un premier modèle économétrique à équations simultanées, du type keynésien, comportant 31 équations de comportement et 17 identités. Il devient ainsi, d’un point de vue empirique, le père des modèles économétriques. - En 1944, Trygve Haavelmo pose les conditions générales de solvabilité d’un système d’équations linéaires. 3 R. Frisch, I. Fisher, Hotelling, K. Menger , F. Mills, Ogburn, Ore, Roos, Rorty, J. A. Schumpeter, H. Schultz, Shewart, Snyder , Wedervang, Wiener, Wilson. 4 Premier lauréat du prix de la Banque de Suède – communément appelé prix Nobel en mémoire de son fondateur Alfred Nobel – d’économie en 1969 avec Jan Tinbergen.
  7. 7. Ass. Cédrick Tombola M. 6 - En 1950, Lawrence Klein ouvre la vogue de la modélisation macroéconométrique. Il estime pour l’économie américaine (1921-1941), un modèle macroéconométrique de type keynésien à 16 équations. Ce modèle est amélioré plus tard, en 1955, par L. Klein et Arthur Goldberger, et sera le premier modèle utilisé à des fins prévisionnelles. Klein introduit également la notion de multicolinéarité. Il est parfois considéré comme le père des modèles macroéconométriques. Plusieurs autres travaux seront produits au sein de la Cowles commission. En 1950, Durbin et Watson élaborent leur célèbre test d’autocorrélation des erreurs. En 1954, Henri Theil et Robert Léon Basmann introduisent la méthode des doubles moindres carrés. Toujours dans les années 50, il y eut un développement des modèles à retards distribués par Koyck, Almon, Cagan et Friedman. L’on peut également citer les travaux suivants développés entre 1950 et 1970 : la méthode des moindres carrés généralisés et l’introduction du calcul matriciel en Econométrie par Aitken; les tests et corrections de l’hétéroscedasticité [Glejser, White, …]. L’irruption de l’informatique au début des années 60 va donner un nouveau coup de pousse { l’expansion de l’Econométrie. En 1961, James Tobin développe les modèles microéconométriques. Il est, à ce titre, considéré comme le père des modèles microéconomiques. La même année, Yair Mundlak conçoit les méthodes basées sur les données de panel. γ. Les années 1970 : La révolution des anticipations rationnelles Les années 1970 ont été marquées par cinq faits majeurs qui ont conduit { l’éclatement du paradigme de la Cowles commission. C’est-à-dire à une remise en cause radicale des modèles macroéconomiques structurels développés au sein de cette institution. Ces faits sont :  Le premier choc pétrolier [en 1973] ou le quadruplement du prix des produits pétroliers, ce qui marque, historiquement, la fin des Trente Glorieuses5 ;  La stagflation et la remise en cause de la courbe de Phillips;  La chute du keynésianisme et le rejet des modèles économétriques traditionnels – devenus caducs – basés sur le paradigme IS – LM ;  Le deuxième choc pétrolier [en 1979] ou le doublement du prix des produits pétroliers ;  La naissance de la MFM [MicroFoundations of Macroeconomics] ou la Macroéconomie Microfondée, le retour aux modèles walrassiens et le développement des modèles d’équilibre général calculable [MEGC]. Les critiques les plus acerbes et sévères sont venues essentiellement, dès 1972, de Robert Emerson Lucas6 . C’est ce que la littérature qualifie de la fameuse critique de Lucas. Il discrédite les modèles macroéconométriques traditionnels, en fustigeant leur incapacité à expliquer et à prévoir les bouleversements provoqués par le 1èr et le 2ème chocs pétroliers. Il leur reproche de manquer de fondations microéconomiques suffisamment solides. De plus, Lucas interdit les prévisions myopes et adaptatives, il pose la problématique des anticipations rationnelles, ce qui veut dire que les agents économiques sont intelligents et capables de former leurs anticipations sur une base endogène et ainsi anticiper toute mesure de politique économique. De fait, toute mesure de politique économique, ajoute-t-il, devient inefficace du fait de la prise en compte des anticipations rationnelles, les agents pouvant l’anticiper et la contrer. 5 Trente Glorieuses : Titre d’un livre de Jean Fourastié, publié en 1977, qui désigne la période de forte croissance économique, de plein-emploi et d’augmentation des salaires réels et des revenus, qu’ont connu les pays développés, de l’après-guerre au premier choc pétrolier. 6 Lauréat du prix Nobel d’Economie 1995.
  8. 8. Ass. Cédrick Tombola M. 7 Cette critique a poussé les économètres à penser plus profondément sur les fondements de leur discipline et a donné lieu à des critiques plus sévères. L’Econométrie va connaitre un changement radical, surtout en termes de relations qu’elle entretient avec la théorie économique. - En 1970, George Box et Gwilym Jenkins développent le modèle ARMA [AutoRegressive with Moving Average] – qui est un mélange des modèles AR et MA développés en 1927 respectivement par Georges Yule et Eugen Slustsky –, comme une réponse aux défaillances constatées dans la capacité de prévision des modèles élaborés à la suite des travaux de Tinbergen. - Déjà en 1974, Clive William John Granger et Paul Newbold mettent en garde contre les « spurrious regressions » ou régression fallacieuse, pour le cas d’ajustement par les MCO d’un modèle avec séries non stationnaires. - En 1980, dans un article qui a connu un succès d’estime lors de sa parution, intitulé Macroeconomics and Reality, Christopher Sims7 , en généralisant le modèle ARMA en modèle VAR [Vector Auto Regressive] afin de tenir compte, au même moment, de plusieurs variables, reproche aux économètres d’avoir mis la charrue devant les bœufs en remettant en cause la distinction à priori entre variables endogènes et variables exogènes, et considère toute variable comme potentiellement endogène8 . C’est ce que la littérature appellera l’Econométrie sans théorie. La critique de Sims va permettre { l’Econométrie de devenir beaucoup plus autonome et de s’émanciper de la tutelle de la théorie économique. - En 1987, Clive Granger et Robert Engle développent la méthode de cointégration dans le traitement des séries non stationnaires. Une année après, en 1988, Johansen propose une version améliorée du test de cointégration Engle – Granger. - En 1982, Robert Engle développe le modèle ARCH afin de prendre en compte la non linéarité et la forte volatilité des variables financières, ce qui n’était pas possible avec les modèles ARMA et VAR. Plusieurs méthodes encore ont été développées depuis la fameuse critique de Lucas, et plus loin encore dans l’histoire, depuis la création de la société d’Econométrie. L’Econométrie a donc connu, ces deux dernières décennies, un essor vertigineux. δ. Applications et place de l’économétrie La démarche en sciences économiques est hypothético-déductive. C’est-à-dire que les théories économiques ne sont valables que dans le domaine défini par leurs hypothèses. S’il est vrai que l’usage des mathématiques est la garantie de la rigueur et de la cohérence interne des théories économiques modernes, la question reste cependant posée quant à la pertinence de leurs hypothèses. Ceci motive le recours { des outils plus puissants notamment l’Econométrie, qui est un outil de validation des théories. De fait donc, l’économiste ne doit-il pas être aussi économètre ? John Maynard Keynes, dans les années 1930, écrivait : « L’économiste doit être mathématicien, historien, philosophe, homme d’Etat, … ». S’il faut transférer la pensée de Keynes aujourd’hui, n’aurait-il pas lui-même ajouté l’économiste doit être économètre ? Il est clair qu’il n’est plus possible { ce jour, de faire un bras de fer avec l’irruption et la domination de l’Econométrie dans le champ de la science économique, au risque, purement et simplement, de se soustraire de la catégorie d’économistes modernes. 7 Lauréat, avec Thomas Sargent, du prix Nobel d’Economie 2011. 8 Cette démarche de Sims s’inspire de l’un des grands principes de la théorie de l’équilibre général, selon lequel toutes les variables économiques sont déterminées simultanément.
  9. 9. Ass. Cédrick Tombola M. 8 Pour renchérir, dans une étude publiée en 2006, les économistes Kim, Morse et Zingales ont montré que le nombre d’articles empiriques cités en économie est passé de 11 % à 60 % entre 1970 et 2000. Ce qui confirme l’importance de plus en plus croissante de l’Econométrie dans l’univers des économistes. Par ailleurs, l’Econométrie s'applique à tous les domaines auxquels s'applique la science économique. L'ouvrage de Levitt et Dubner, Freakonomics, témoigne de la diversité des applications possibles de l'économétrie. Voici quelques exemples significatifs:  En économie de guerre, Collier – Hoeffler [1999] ont mis en évidence, par le recours à un modèle économétrique, les déterminants politiques permettant de mettre fin aux guerres civiles et de relancer l’économie en période post-conflit.  En économie de la croissance, Mankiw, Romer et Weil, en 1992, ont utilisé un modèle de régression linéaire pour tester empiriquement la pertinence du modèle de Solow. Ils montrent que le modèle de Solow augmenté du capital humain est cohérent avec les données observées. Barro et Sala-i- Martin [1995], Easterly et Rebelo [1993], ont aussi eu recours aux méthodes économétriques afin de rendre compte de l’effet des dépenses publiques sur la croissance.  En économie de la criminalité, Levitt, en 1997, a utilisé un modèle linéaire à variables instrumentales pour estimer l'effet du nombre de policiers sur la criminalité.  En 2002, Acemoglu, Johnson et Robinson ont utilisé une régression linéaire pour estimer l'effet des institutions sur le développement actuel des pays. I.2. Quelques rappels statistiques La force de la statistique est qu’on n’est pas obligé d’étudier toute la population. Il est possible de tirer des conclusions sur une population, { partir d’un échantillon suffisamment représentatif. Et comme les données en elles-mêmes ne sont pas intelligibles, le statisticien recherche la synthèse. Sa première démarche pour synthétiser les données consiste { calculer les paramètres de description, c’est la statistique descriptive. Plus tard, la démarche du statisticien consistera à contraster des données empiriques aux lois théoriques, dont on connait parfaitement les comportements, en vue de faire de la prédiction, c’est la statistique inférentielle [ou mathématique]. Encadré 1. Conditions de Yule Le statisticien britannique Georges U. Yule a énoncé un certain nombre de propriétés souhaitées pour les indicateurs des séries statistiques ; ceux-ci doivent être d’une part, des résumés ‘‘maniables’’ et d’autre part, les plus exhaustifs possibles relativement { l’information contenue dans les données. Dans son schéma, une caractéristique statistique doit être une valeur-type : 1. définie de façon objective et donc indépendante de l’observateur, 2. dépendante de toutes les observations, 3. de signification concrète pour être comprise par les non-spécialistes, 4. simple à calculer, 5. peu sensible aux fluctuations d’échantillonnages, 6. se prêtant aisément aux opérateurs mathématiques classiques. En réalité, on ne dispose pas de caractéristiques répondant simultanément à ces six conditions. Le choix d’un indicateur sera l’objet d’un compromis guidé par la spécificité de l’étude en cours. Source : Adapté de B. Goldfard et C. Pardoux, 1995.
  10. 10. Ass. Cédrick Tombola M. 9 Indicateurs de position [ou de tendance centrale] Soit une variable X observée sur un échantillon de n individus. xt est la valeur prise par X pour l’observation t. 1. La moyenne arithmétique : La moyenne arithmétique9 est la mesure de répartition équitable. Elle conserve la somme totale et satisfait à toutes les conditions de Yule, sauf la 5ème , car elle est une mesure sensible aux valeurs extrêmes. Lorsque les valeurs sont aléatoires, la moyenne arithmétique est appelée « Espérance mathématique ». 2. La médiane [Me] : est la mesure qui divise la série en deux groupes de tailles égales. Après avoir classé les données en ordre croissant, elle correspond pour n impair [pair], au point milieu [à la moyenne arithmétique de deux points milieux]. Elle satisfait aux conditions 1, 3, 4 et 5 de Yule. Contrairement à la moyenne arithmétique, la médiane résiste aux valeurs extrêmes. 3. Le mode [Mo] : est la valeur dominante de la série, celle qui a la fréquence la plus élevée. Pour une distribution discrète, le mode satisfait aux conditions 1, 3 et 4 de Yule. 4. Les quartiles Le premier Quartile Q1 [ou quantile d’ordre 1, x25%] Valeur telle qu’au moins 25% des valeurs prises par X lui sont inférieures. Après avoir classé les données et séparé la population en deux, le Q1 est la médiane de la première sous- population. Le deuxième Quartile Q2 [ou quantile d’ordre 2, x50%] Le Q2 est la médiane. Le troisième Quartile Q3 [ou quantile d’ordre 3, x75%] Valeur telle qu’au moins 75% des valeurs prises par x lui sont inférieures. Le Q3 est la médiane de la deuxième sous- population. Note : Les quartiles non plus ne subissent pas l’influence des valeurs extrêmes. Comme la médiane, les quartiles satisfont aux conditions 1, 3, 4 et 5 de Yule. Indicateurs de dispersion 5. La variance : La variance empirique : La variance est la moyenne arithmétique des carrés des écarts d’une variable { sa moyenne arithmétique. Elle donne une idée de la dispersion [ou déviation] de chaque observation xt autour de sa moyenne. Mais comme on le voit, avec la variance on change d’échelle, elle s’exprime dans le carré de l’unité en laquelle s’expriment les observations. Pour revenir { l’échelle du départ, on prend sa racine carrée qui est l’écart-type. Elle satisfait aux conditions 1, 2 et 6 de Yule. Note : La variance empirique est l’estimateur non biaisé de la variance. La variance est un estimateur biaisé car utilisant un autre estimateur dans son calcul. 6. L’écart-type : L’écart-type empirique : L’écart-type est la racine carrée de la variance. Il est la mesure de dispersion la plus utilisée. Elle satisfait aux conditions 1, 2 et 6 de Yule, et est plus sensible aux fluctuations d’échantillonnage et aux valeurs extrêmes que la moyenne arithmétique, en raison des élévations au carré. 7. L’étendue : max xt – min xt L’étendue est la différence entre la plus grande et la plus petite des valeurs observées. Elle est très influencée par les valeurs extrêmes et ne satisfait pas aux conditions 2 et 5 de Yule. 8. L’Etendue [écart] interquartile : EIQ = Q3 – Q1 L’écart interquartile n’est pas sensible aux valeurs extrêmes. 9 Dans le langage courant, on dit simplement moyenne. Or, selon la manière dont le total des individus est calculé, il existe différentes moyennes [moyenne géométrique, moyenne harmonique, moyenne quadratique].
  11. 11. Ass. Cédrick Tombola M. 10 Indicateurs de forme [de la distribution] Parlons tout d’abord de la notion des moments. Le moment centré sur a d’ordre r aμr Les moments ont la vertu de permettre de mettre ensemble les principales mesures de description. A titre d’exemple, si a=0 et r=1, on retrouve la moyenne arithmétique, qui n’est rien d’autre que le moment non centré d’ordre 1. La variance serait donc le moment centré sur la moyenne arithmétique d’ordre 2, etc. Note : dans la suite, on dira moment centré pour parler de moment centré sur la moyenne arithmétique. On peut aisément vérifier que le moment centré sur la moyenne arithmétique d’ordre 1 (μ1) est nul. 9. L’asymétrie [Skewness en anglais]: est basée sur le moment centré d’ordre 3. Pour une distribution symétrique, telle que la loi normale, la moyenne arithmétique est égale à la médiane égale au mode. De plus, les moments centrés d’ordre impair sont nuls pour une distribution symétrique. Le coefficient d’asymétrie de Fisher : γ1 = γ1 est nul pour une distribution symétrique, telle que la loi normale. 10. L’aplatissement [Kurtosis en grec, qui signifie bosse] : est basé sur le moment centré d’ordre 4 et permet de mesurer l’importance des queues d’une distribution ou son aplatissement. Le coefficient d’aplatissement de Fisher : γ2 = – 3 γ2 est nul pour une distribution mesokurtique. C’est le cas d’une distribution gaussienne [normale]. Cas de la distribution de Student Cas de la distribution normale La loi normale La loi normale est une des principales distributions de probabilité. On dit qu’elle est parfaite, car sa densité de probabilité dessine une courbe en cloche ou courbe de Gauss, qui est à la fois symétrique et mesokurtique. Elle a été introduite, en 1733, par le mathématicien Abraham de Moivre, et mise en évidente plus tard, au 19ème siècle, par Carl F. Gauss. Elle est également connue sous le nom de la loi de Gauss. Une variable distribuée selon cette loi est dite normale ou gaussienne. Test d’hypothèse [un petit commentaire] Distribution symétrique γ1=0 =Me=Mo Asymétrie à gauche [distribution étalée à droite] γ1>0 Asymétrie à droite [distribution étalée à gauche] γ1<0 γ2=0 Distribution mesokurtique Distribution leptokurtique γ2>0γ2<0 Distribution platokurtique
  12. 12. Ass. Cédrick Tombola M. 11 Un test d'hypothèse est une démarche consistant à évaluer une hypothèse statistique en fonction d'un échantillon. Il s’agit donc de confronter une hypothèse dite nulle [HO] contre une hypothèse de recherche ou alternative [H1]. Une notion essentielle qui concerne les tests est la probabilité que l'on a de se tromper. Il existe deux façons de se tromper lors d’un test statistique :  La première façon de se tromper est de commettre l’erreur [ou risque] de première espèce, noté α, qui est la probabilité de rejeter à tort HO alors qu’elle est vraie. On dit, dans ce cas, que α est la probabilité d’avoir un faux positif.  La deuxième façon de se tromper est de commettre l’erreur [ou risque] de deuxième espèce, noté β, qui est la probabilité de ne pas rejeter HO alors qu’elle est fausse. On dit, dans ce cas, que β est la probabilité d’avoir un faux négatif. HO est vraie HO est fausse Ne pas rejeter HO Erreur de 2ème espèce β Rejeter HO Erreur de 1ère espèce α L’idéal serait que ces deux erreurs soient nulles, mais puisque l’on ne dispose que d’un nombre fini d’observations, il faut faire un choix. Le risque β étant difficile { évaluer, voire impossible, seul le risque α est utilisé comme critère de décision. Note : On accepte une hypothèse en refusant sa fausseté et non en acceptant sa vérité. I.3. Quelques tests statistiques de normalité Dans son article de 194410 , qui a marqué une étape décisive dans le développement de l’Econométrie, écrit dans l’objectif de briser la réticence de ses contemporains vis-à-vis de l’application des méthodes statistiques aux données économiques, Haavelmo a avancé deux thèses. D’abord, il a défendu l'idée que l'emploi des mesures statistiques telles que les moyennes, les écarts-type, les coefficients de corrélation, à des fins d'inférence n'a réellement de sens que dans un contexte probabiliste. De plus, estimait-il, peu importe la vraie nature des faits économiques, il suffisait, pour les analyser, de faire comme si les données économiques étaient générées par une loi de probabilité qu'il fallait identifier de façon adéquate. Avant donc toute étude formelle, le travail de l’économètre est de tester l’adéquation ou la conformité d’une distribution observée avec une distribution théorique associée à une loi de probabilité. Parmi ces tests d’adéquation, la conformité { la loi normale est le test le plus utilisé, car elle sous-tend la plupart de tests paramétriques utilisés en Econométrie. A titre de rappel, pour une distribution gaussienne, ± 2σ contiennent 95% des observations. Les nombreux tests11 de normalité d’une distribution que fournit la littérature peuvent se regrouper en deux familles : Les tests informels et les tests formels. Si n est le nombre d’observations Tests informels Tests formels  Histogramme des fréquences [ou tuyau d’orgue]  Box – plot [ou Boîte-à-pattes]  QQ – plot [ou droite de Henry] En termes d’efficacité  Test de Jarque – Bera Si n > 88  Test de Shapiro – Wilk Si n ≤ 50  Test K2 d’Agostino – Pearson Si n ≥ 20 Les tests informels donnent une présomption tandis que les tests formels apportent une approche plus rigoureuse et objective. Ci-après sont exposés uniquement les tests les plus fréquemment utilisés et les plus opérationnels. 10 Haavelmo, T. (1944), The Probability Approach in Econometrics, Supplement to Econometrica, 12, 1-118. 11 Il existe une batterie de test de normalité, ici nous ne reprenons que quelques uns.
  13. 13. Ass. Cédrick Tombola M. 12 α. Le Box – plot Synonyme : Boîte – à – pattes, Boîte à moustache, Diagramme en boites, Box and Whiskers Plot Le Box – plot, inventé par Tukey en 1977, est un outil graphique très pratique qui permet de caractériser une distribution en fournissant un résumé riche d’informations sur sa dispersion et son asymétrie. Du fait qu’il renseigne sur l’asymétrie d’une distribution, le Box – plot est également utilisée comme test de normalité. Les étapes à suivre dans sa construction peuvent être résumées comme suit : a. Porter sur une échelle les valeurs calculées suivantes : Q1, Q2, Q3, Min xi et Max xi b. Construire la boîte : - La longueur de la boîte est donnée par l’EIQ - La largeur de la boîte est fixée à priori. c. Calculer la longueur des moustaches ou des pattes [inférieure et supérieure] : Pour savoir jusqu’où vont les moustaches, on calcule deux valeurs adjacentes : Frontière Basse [FB]= Q1 – 1.5EIQ Frontière Haute [FH]= Q3 + 1.5EIQ Selon Tukey, la valeur 1.5 serait plus pragmatique. Pour la longueur de la moustache inférieure : prendre, parmi les valeurs xi prises par X, la valeur minimale xb directement supérieure à FB, soit xb = min {xi| xi ≥ FB}. Pour la longueur de la moustache supérieure : prendre, parmi les valeurs xi prises par X, la valeur maximale xh directement inférieure à FH, soit xh = max {xi| xi ≤ FH}. A retenir : - Pour une distribution symétrique, Q2 divise la boîte exactement en deux parties égales. - Pour une distribution symétrique, Q2= . Illustration Considérons l’exemple suivant : X 6 7 8 9 10 11 12 13 14 15 16 17 18 Q1 = 8.5 Q2 = 12 Q3 = 15.5 EIQ = 7 Min xi = 6 et Max xi= 18 FB = 8.5 – (1.5)7 = – 2 FH = 15.5 + (1.5)7 = 26 = 12 Etendue = 10 Xb = 6 Xh =18 La croix à l’intérieur de la boîte représente la moyenne. Q1 Q2 Q3 Etendue FB FH Xb Max xi Xh Min xi * EIQ
  14. 14. Ass. Cédrick Tombola M. 13 Il ressort, puisque Q2 sépare la boîte en deux parties égales et que les queues ont une longueur identique, que la distribution est symétrique, ce qui est une présomption de normalité. De plus la médiane (Q2) est égale à la moyenne. Note : la Boîte–à–pattes permet également de détecter les valeurs aberrantes ou singulières [déviants ou atypiques ou encore outliers]. Après avoir construit le Box – plot, est valeur aberrante celle située au-delà des pattes. β. Le test de Jarque-Bera [JB] Le test de Jarque-Bera, proposé en 1980 par Carlos Jarque et Anil Bera, est parmi les tests de normalité les plus populaires dans les milieux académiques. Mais la remarque { faire, d’ores et déj{, est qu’il est particulièrement approprié pour grand échantillon, soit n > 88. Le test JB est fondé sur les coefficients d’asymétrie et d’aplatissement. Sa richesse consiste { ce qu’il permet de conclure { la fois sur l’asymétrie et l’importance des queues [aplatissement] d’une distribution. Les hypothèses du test sont : H0 : Normalité H1 : Non normalité Sous l’hypothèse de normalité de la série, la statistique du test JB suit asymptotiquement une distribution du Khi deux χ2 { degrés de liberté avec le risque d’avoir un faux positif [ou seuil de signification] α = 5%. La statistique du test est calculée comme suit : JB = n = où n est la taille de l’échantillon, S le Skewness et K la Kurtosis. Valeur lue dans la table de la loi du Khi carré à deux degrés de liberté Seuil Valeur 1% 5% 9.210 5.991 Critère de décision : Si JB ≥ à la valeur du χ2 (2) de la table au seuil α, alors RH0 de normalité. γ. Le test de Shapiro-Wilk Le test de Shapiro – Wilk, proposé en 1965 par Samuel Shapiro et Martin Wilk, est considéré dans la littérature comme l’un des tests de conformité { la loi normale les plus fiables et les plus efficaces, particulièrement pour petits échantillons [n ≤ 50]12 . Ce test est basé sur la statistique W, calculée comme suit : W = 12 Lire par exemple Royston (1982), Palm (2002).
  15. 15. Ass. Cédrick Tombola M. 14 où n : est la taille de l’échantillon : est la partie entière du rapport x(i) : correspond à la série des données triées en ordre croissant ai : sont des valeurs lues dans la table des coefficients de Shapiro et Wilk, connaissant n et l’indice i. Les hypothèses du test sont : H0 : la variable X est gaussienne H1 : la variable X est non gaussienne La statistique W est confrontée à une valeur lue dans la table des valeurs limites de W proposée par Shapiro et Wilk, avec n le nombre d’observations et au seuil α [5% en général]. Critère de décision : Si W < WTable(n) au seuil α, alors RH0 [la variable est non gaussienne]13 . Note : Les deux tables utilisées pour mener ce test sont reprises en annexe. I.3. Trois piliers de l’économétrie L’économétrie se fonde sur trois piliers { savoir : α. La théorie économique ; β. Les données ; γ. Les méthodes. De par sa nature l’Econométrie est intimement liée à la théorie économique qui lui fourni les modèles et théories qu’elle teste. Aujourd’hui encore, malgré l’émancipation de l’Econométrie depuis le fameux article de 1980 de Sims, l’on ne peut trancher en défaveur du mariage théorie économique – Econométrie. Selon Ado et Davidson [1998], L'économétrie est précisément le moyen qui permet au discours économique d'échapper à la vacuité de son formalisme, en permettant une mise en correspondance des théories et des faits économiques. C'est elle qui permet de confirmer ou Pour tester les théories, l’Econométrie utilise les données observées, les informations fournies par un échantillon. L’économétrie a principalement recours à trois types et deux formats de données. Trois types de données :  Chroniques [times series en anglais], on parle également des séries chronologiques ou séries temporelles, notées Xt : sont de données indicées par le temps. Ex. Le PIB de la RDC de 2000 à 2010. Ce sont les méthodes statistiques qui permettent de mettre en œuvre et d’exploiter un modèle à partir d’informations provenant de l’échantillon. La méthode la plus populaire en Econométrie est celle des moindres carrés ordinaires. En recourant aux méthodes statistiques, et à partir d’informations livrées par le monde réel, l’économètre poursuit un triple objectif :  Quantifier et tester les théories  Faire des prévisions  Evaluer l’efficacité des mesures de politique économique 13 Lire TSASA Jean –Paul (2012) pour les illustrations. La théorie économique Les données Les méthodes Les trois piliers de l’économétrie
  16. 16. Ass. Cédrick Tombola M. 15 d'infirmer les modèles théoriques, du moins ceux qui admettent une représentation économétrique.  Données en Coupe longitudinale [cross section en anglais], on parle aussi de coupe instantanée, notées Xi : font référence aux données observées au même moment, pour des individus différents. Ex. Le PIB en 2009 de tous les pays de l’Afrique Centrale.  Données en Panel [pooling en anglais], on parle aussi des données croisées, notées Xit : font référence à la combinaison de deux premiers types. Ex. Le PIB de 2000 à 2010 de tous pays de l’Afrique Centrale. On parle aussi de cohorte, lorsque l’échantillon sondé reste le même d’une période { l’autre. Deux formats des données :  Quantitatives [ex : PIB, Taux d’inflation, etc.]  Qualitatives [ex : paix, sexe, religion, niveau d’étude, etc.] L’Econométrie n’a donc pas pour objet d’énoncer la théorie mais de la vérifier.
  17. 17. Ass. Cédrick Tombola M. 16 I.4. Modèle économique versus modèle économétrique α. Modèle économique Selon Barbancho14 , un modèle est l’expression mathématique d’une certaine théorie économique. L’exemple de la loi psychologique fondamentale de Keynes est assez pertinent { cet effet. D’après cette loi, en moyenne et la plupart du temps lorsque le revenu d’un individu augmente, il augmente aussi sa consommation, mais dans une proportion moindre { l’augmentation de son revenu. Mathématiquement, si on note la consommation par Ct et le revenu par Yt, cette loi peut être spécifiée comme suit : Ct= α0 + α1Yt [avec α1 : propension marginale { consommer, 0 < α1 < 1] En général, le modèle spécifié par l’économiste est défini comme étant une maquette de la réalité ou d’un phénomène sous forme d’équations dont les variables sont des grandeurs économiques. A ce sujet, Lester C. Thurow note ceci : « Les équations décrivent à quoi ressemblerait le monde réel s’il ressemblait à la théorie ». β. Modèle économétrique Toujours selon Barbancho, un modèle économétrique n’est autre chose qu’un modèle économique qui contient les spécifications nécessaires pour son application empirique. C’est donc le modèle économique auquel on ajoute un terme d’erreur ut. Ct=α0 + α1Yt + ut [modèle spécifié par l’économètre] La première partie de ce modèle [α0 + α1Yt] constitue sa partie systématique et la deuxième [ut] sa partie stochastique ou aléatoire. Il convient de noter également que le terme d’erreur ut [bruit, perturbation ou aléa] dénote de la différence entre l’économiste et l’économètre. Il synthétise l’influence sur Ct [variable expliquée] de toutes les autres variables oubliées et des erreurs éventuelles de spécification de la forme fonctionnelle dans le modèle spécifié par l’économiste. De plus, sa présence dans le modèle rend les paramètres α0 et α1 inconnus, on ne sait plus les calculer, il faut donc les estimer. 14 Cité par Kintambu Mafuku (2004).
  18. 18. Ass. Cédrick Tombola M. 17 .II. THEORIE DE LA CORRELATION L’analyse de la corrélation a pour objet de présenter les mesures statistiques destinées { rendre compte du sens et de la force de la liaison mathématique qui peut exister entre deux variables quantitatives X et Y. Il faut, d’ores et déj{, noter que dans ce cadre, la position des variables est symétrique. L’analyse ne permet pas de distinguer variable endogène de la variable exogène. L’outil graphique « diagramme de dispersion ou graphique nuage de points » est le plus adapté et indiqué pour débuter l’étude de la corrélation. Après l’avoir réalisé, la forme du nuage des points renseigne – à partir d’un simple coup d’œil – sur le type d’une éventuelle liaison entre X et Y. Plusieurs situations sont possibles : Figures A. Relations linéaires, de gauche à droite, positive et négative. Figures B.1. Relation non linéaire monotone L’analyse du plot donne certes une idée sur le sens et le type d’association entre X et Y, mais elle ne permet pas de quantifier son intensité. Depuis toujours, afin de mesurer la force du lien qui peut exister entre X et Y, les statisticiens ont eu recours au calcul de la covariance. Si on note par n la taille de l’échantillon et i le numéro de l’observation, la covariance empirique15 entre X et Y est calculée par la formule : Cov (X, Y) = 15 La covariance empirique étant un estimateur non biaisé de la covariance. 0 100 200 300 400 500 600 0 500 1000 1500 2000 0 2 4 6 8 10 0 5 10 15 0 100 200 300 400 500 600 0 500 1000 1500 2000 0 5 10 15 -4 -2 0 2 4 -80 -60 -40 -20 0 20 40 60 80 100 120 -100 -50 0 50 100 150 Figures B.2. Relation non linéaire non monotone Figures B. 3. Absence de liaison
  19. 19. Ass. Cédrick Tombola M. 18 L’idée est que si X et Y covarient, leur covariance devrait être grande. Elle serait modérément faible si les deux variables ne covarient pas. Malheureusement, comme mesure du degré de dépendance entre X et Y, la covariance présente la faiblesse d’être fortement influencée par les unités de mesure des variables en présence. C’est cette limite qui a conduit au développement des coefficients de corrélation. II.1. Coefficient de corrélation de Bravais – Pearson Le coefficient de corrélation linéaire de Bravais – Pearson, noté rXY, est un coefficient paramétrique qui donne la mesure du degré de liaison linéaire entre deux variables quantitatives X et Y normalement distribuées. Il est donné par le rapport entre leur covariance et le produit non nul de leurs écarts – types. Ainsi, il standardise la covariance et la corrige de l’influence des unités de mesure des variables. Formellement, le rXY est donné par la formule : rXY = = [2.1] Si l’on considère les écarts { la moyenne arithmétique16 , la relation [2.1] peut également s’écrire comme suit : rXY = [2.2] Propriétés de la covariance et propriétés du coefficient de corrélation linéaire Propriétés de la covariance Propriétés du rXY Commentaires Cov (X, Y) = Cov (Y, X) rXY = rYX Comme la covariance, le rXY est symétrique. Cov (X, X) = Var (X) rXX = 1 La corrélation entre une variable et elle- même est égale { l’unité. Cov (k, X) = 0 rkX = 0 La corrélation entre une constante et une variable est nulle. – 1 ≤ rXY ≤ 1 Le coefficient de corrélation linéaire est un nombre sans dimension dont l’intervalle de variation est : [–1, +1]17 . α. Hypothèses fortes au calcul du rXY Le calcul du coefficient de corrélation linéaire de Bravais – Pearson entre les variables X et Y n’est adapté qu’au strict respect des hypothèses suivantes :  Les variables X et Y doivent être quantitatives ;  Les variables X et Y doivent être sont gaussiennes ;  La relation entre X et Y doit être linéaire18 ; Note : Lorsque la liaison entre X et Y est non linéaire mais monotone, le rXY ne devient pas hors de propos. Seulement, dans ce cas d’espèce, il donne des informations sur l’existence de la liaison, mais estime mal son intensité. N’oublions pas que le coefficient de corrélation linéaire sert avant tout { caractériser une liaison linéaire. Lorsqu’elle ne l’est pas, ce coefficient peut induire en erreur sur l’existence et l’intensité de la relation entre variables considérées. 16 La somme des écarts à la moyenne arithmétique est toujours égale à 0, soit = 0. 17 On peut aisément démontrer que par construction, le rXY reste compris entre -1 et 1. 18 Cette information est livrée par le graphique nuage des points.
  20. 20. Ass. Cédrick Tombola M. 19 β. Test sur le coefficient de corrélation de Bravais - Pearson Puisque le travail se fait sur un échantillon, après calcul et avant toute interprétation, le rXY doit être soumis à un test de significativité qui permet de vérifier si la corrélation calculée existe bel et bien au sein de la population. Les hypothèses du test sont : H0 : ρXY = 0 [hypothèse d’absence de corrélation] H1 : ρXY ≠ 0n [hypothèse d’absence de décorrélation] ρXY est la corrélation théorique, inconnue au niveau de la population, rXY est la corrélation empirique estimée { partir d’informations fournies par l’échantillon. Sous H0, on démontre que la statistique du test suit une distribution de Student au seuil α [5% sauf indication contraire] et à (n – 2) degrés de liberté. Le test est de la forme : Rejet H0 si > tα/2 ; (n – 2) [valeur lue dans la table de Student] γ. Signification clinique du coefficient de corrélation de Bravais - Pearson La signification clinique ou l’interprétation du rXY n’est valable que si, après test, on rejette l’hypothèse de décorrélation. Le travail d’interprétation d’un coefficient de corrélation linéaire se fait toujours en deux temps : une interprétation par rapport au signe/sens de la liaison et une interprétation par rapport au degré de dépendance. A. Interprétation par rapport au signe  Si rXY > 0, X et Y sont positivement corrélées [la relation linéaire entre X et Y est positive].  Si rXY < 0, X et Y sont négativement corrélées [la relation linéaire entre X et Y est négative].  Si rXY = 0, X et Y sont non corrélées [pas de liaison linéaire, mais possibilité d’une liaison d’un autre type]. B. Interprétation par rapport à l’intensité  Si rXY = ± 1, le lien linéaire entre X et Y est parfait. Dans ce cas, l’une des variables est fonction affine de l’autre, les n points (xi, yi) sont alignés.  Si 0.80 < rXY < 1, le lien linéaire est très fort.  Si 0.65 < rXY < 0.80, le lien linéaire est fort [élevé].  Si 0.50 < rXY < 0.65, le lien linéaire est modéré.  Si 0.25 < rXY < 0.50, le lien linéaire est faible.  Si 0.025 < rXY < 0.25, le lien linéaire est très faible.  Si rXY proche de 0, alors il y a absence de lien entre X et Y. Note : Le coefficient de corrélation linéaire entre deux variables quantitatives gaussiennes indépendantes
  21. 21. Ass. Cédrick Tombola M. 20 est nul, mais la réciproque n’est pas toujours vraie. Donc rXY = 0 ne signifie pas toujours qu’il y a indépendance entre X et Y. Cela peut tout simplement vouloir dire qu’il y a absence d’une liaison linéaire entre les variables étudiées. Ceci dit, le calcul d’un coefficient de corrélation doit toujours commencer par un examen graphique. L’autre faiblesse majeure du coefficient de Bravais – Pearson est d’être très sensible aux points aberrants. II.2. Coefficient de corrélation de rang de Spearman Le coefficient de corrélation de Spearman, noté ρXY, est un coefficient non paramétrique qui quantifie, comme le rXY de Bravais – Pearson, le degré d’association linéaire entre deux variables quantitatives. Il est particulièrement approprié lorsqu’au moins une de deux variables X et Y n’est pas normalement distribuée. Son calcul nécessite que les données soient transformées en rang. Le rang de X est noté par Ri et celui de Y par Si. Le ρXY de Spearman n’est rien d’autre que le rapport entre la covariance (Ri, Si) et le produit non nul de leurs écarts-types. Il est donc un cas particulier du coefficient de corrélation de Bravais – Pearson. En tenant compte de certaines propriétés de rang, le ρXY de Spearman peut être calculé de manière plus simple par la formule : ρXY = 1 – [2.3] où Di = Ri - Si et n = nombre d’observations Avantages du ρXY de Spearman sur le rXY de Bravais – Pearson Le rXY de Bravais - Pearson Le ρXY de Spearman A propos de la normalité Pour calculer rXY, les variables doivent être gaussiennes. Le ρXY lève l’hypothèse de normalité. De plus, dans le cas des variables distribuées normalement, le ρXY reste adapté car il fournit les mêmes résultats que le rXY de Bravais – Pearson. Concernant une liaison non linéaire monotone Le rXY donne une idée sur le sens de la liaison mais estime mal sa force. Dans ce cas, le ρXY est approprié, il estime mieux que le rXY ce type de liaison. La présence des points atypiques Le rXY est fortement influencé par la présence des déviants [points aberrants]. Le ρXY résiste aux points aberrants. Dans ce cas, il est donc préféré au rXY. Note : Lorsque la liaison entre les deux variables étudiées est non linéaire et non monotone, les deux coefficients rXY et ρXY ne sont plus adaptés. On peut soit transformer les données avant de les calculer ou carrément, lorsqu’on dispose de plusieurs valeurs de Y pour chaque valeur de X ou l’inverse, calculer le rapport de corrélation. La démarche du test statistique sur le ρXY de Spearman est la même que celle sur le coefficient de corrélation de Bravais – Pearson. Remarques importantes sur le calcul du ρXY de Spearman Le calcul du coefficient de corrélation de Spearman exige que les données soient remplacées par leurs rangs. Et en présence d’ex aequo dans les données, on leur affecte un rang moyen, donné par la moyenne arithmétique de leurs rangs respectifs.
  22. 22. Ass. Cédrick Tombola M. 21 Mais lorsqu’on compte plusieurs ex aequo, après avoir remplacé les données par leurs rangs, il est conseillé de faire subir au coefficient de Spearman quelques corrections ou simplement de lui préférer le coefficient de Bravais-Pearson, mais calculé sur les rangs. Dans ce recueil, nous optons pour cette dernière option. En résumé, l’estimation d’un coefficient de corrélation suivra toujours [sauf indication contraire], dans l’ordre, les cinq étapes suivantes : (i) Test de linéarité [utiliser un diagramme de dispersion] (ii) Test de normalité [choisir le plus approprié connaissant n] (iii) Choix et estimation d’un coefficient de corrélation (iv) Test de significativité statistique sur le coefficient calculé (v) Interprétation ou signification clinique du coefficient estimé [valable seulement si H0 est rejetée] Critère synthétique de choix d’un coefficient de corrélation Informations fournies par les données Coefficient de corrélation approprié [en termes de robustesse]Type de liaison Normalité linéaire Variables normales - Coefficient rXY de Bravais – Pearson - Coefficient ρXY de Spearman linéaire L’une au moins de deux variables est non normale - Coefficient ρXY de Spearman Non linéaire monotone Variables normales ou non Présence des points atypiques II.3. Limites de la corrélation Les coefficients de corrélation présentés dans ce chapitre présentent essentiellement quatre faiblesses, à savoir :  La mesure ne concerne qu’une relation linéaire. Le coefficient de corrélation linéaire sert avant tout { caractériser une liaison linéaire. Lorsqu’elle ne l’est pas, ce coefficient peut induire en erreur, surtout sur l’intensité de la liaison entre variables considérées.  La mesure ne concerne que les variables quantitatives. En présence des variables qualitatives comme la paix, la religion, …, les deux coefficients présentés ci-haut ne sont plus adaptés.  La corrélation n’est ni impact ni causalité. L’objet de la corrélation n’est pas d’établir une causalité mais simplement de rendre compte du sens et du degré d’association éventuelle entre variables.  La corrélation peut être fortuite [artificielle ou fallacieuse ou encore artefactuelle]. Une corrélation élevée ne peut tenir qu’{ un facteur confondant ou artefact. En réalité, les deux variables peuvent simplement être liés à un même phénomène - source : une troisième variable dont il faut neutraliser l’effet. Les alternatives face à ces faiblesses sont notamment la corrélation pour variables qualitatives, le coefficient de corrélation partiel, le rapport de corrélation, la régression linéaire et non linéaire, la causalité, la cointégration, etc.
  23. 23. Ass. Cédrick Tombola M. 22 Exercices résolus sur la théorie de la corrélation Exercice 1 Un chercheur désire examiner la relation qu’il peut exister entre l’habilité en lecture (X) et le nombre d’heures de lecture par semaine (Y). X est mesuré en laboratoire { l’aide d’un test d’habilité en lecture alors que Y est estimé par les sujets eux-mêmes. 10 sujets ont été échantillons. Les résultats sont : X 20 5 5 40 30 35 5 5 15 40 Y 5 1 2 7 8 9 3 2 5 8 Estimer la corrélation entre X et Y [passer par les cinq étapes] Solution de l’exercice 1 Etape 1. Test de linéarité Etape 2. Test de normalité Puisqu’étant approprié pour petit échantillon, nous appliquons le test de Shapiro – Wilk. La statistique à calculer est : W = Test sur la variable X i X X(i) ai 1 20 5 -15 225 0,5739 35 20,0865 2 5 5 -15 225 0,3291 35 11,5185 3 5 5 -15 225 0,2141 30 6,423 4 40 5 -15 225 0,1224 25 3,06 5 30 15 -5 25 0,0399 5 0,1995 6 35 20 0 0 ∑ 41,2875 7 5 30 10 100 W= = 0.83154032 Wtable =0.842 [à 5%, pour n=10] Puisque W<Wtable, RH0. La variable X est non gaussienne. 8 5 35 15 225 9 15 40 20 400 10 40 40 20 400 ∑ 0 2050 =20 ; n=10 ; =5 0 2 4 6 8 10 0 10 20 30 40 50 Ce graphique fait état d’une association linéaire positive entre X et Y.
  24. 24. Ass. Cédrick Tombola M. 23 Test sur la variable Y i Y y(i) ai 1 5 1 -4 16 0,574 8 4,5912 2 1 2 -3 9 0,329 6 1,9746 3 2 2 -3 9 0,214 6 1,2846 4 7 3 -2 4 0,122 4 0,4896 5 8 5 0 0 0,04 0 0 6 9 5 0 0 ∑ 8,34 7 3 7 2 4 W= = 0.915205263 Wtable =0.842 [à 5%, pour n=10] Puisque W>Wtable, Non RH0. La variable Y est gaussienne. 8 2 8 3 9 9 5 8 3 9 10 8 9 4 16 ∑ 0 76 5 ; n=10 ; =5 Etape 3. Choix et estimation d’un coefficient de corrélation Eu égard aux résultats des tests de linéarité et de normalité [X est non gaussienne], le coefficient de corrélation approprié dans ce cas est le ρXY de Spearman. Les calculs sont confinés dans le tableau ci-après : X Y Rang de X [Ri] Rang de Y [Si] Di = Ri - Si Di 2 20 5 6 5,5 0,5 0,25 5 1 2,5 1 1,5 2,25 5 2 2,5 2,5 0 0 40 7 9,5 7 2,5 6,25 30 8 7 8,5 -1,5 2,25 35 9 8 10 -2 4 5 3 2,5 4 -1,5 2,25 5 2 2,5 2,5 0 0 15 5 5 5,5 -0,5 0,25 40 8 9,5 8,5 1 1 ∑ 18,5 ρXY = 1 – = 0. 887878788 Note : Deux nombres – au moins – identiques ont même rang qui est donné par la moyenne arithmétique de leurs rangs respectifs. Etape 4. Test de significativité statistique La statistique du test est : tcal= = 5. 45842979 et t0.025 ; 8 = 2.306 [Puisque tcal >ttable, alors RH0 d’absence de corrélation entre X et Y, le coefficient de corrélation calculé est statistiquement significatif]. Etape 5. Signification clinique [interprétation] Il existe bel et bien une corrélation linéaire positive très forte entre l’habilité en lecture (X) et le nombre d’heures de lecture par semaine (Y) au sein de la population étudiée.
  25. 25. Ass. Cédrick Tombola M. 24 Exercice 2 Montrer rigoureusement que par construction le coefficient de corrélation linéaire est toujours comprise entre - 1 et 1 [Utiliser la formule de Bravais – Pearson]. Solution de l’exercice 2 Si le lien linéaire entre X et Y est parfait, Y (X) s’écrirait comme une fonction affine de X (Y) : Y = α + βX D’une part, on aura : Cov (X, Y) = E(XY) = E{[X – E(X)] [Y – E(Y)]} = E{[X – E(X)][ α + βX – E(α + βX)]} = E{[X – E(X)][ α + βX – α – βE(X)]} = E{[X – E(X)] β[X – E(X)]} = β[X – E(X)] 2 = βVar(X) D’autre part, on a ceci : Var(Y) = E[Y – E(Y)] 2 = E[α + βX – α – βE(X)] 2 = β2 var(X) Et par conséquent, rXY = = = = 1 Y = α – βX D’une part, on aura : Cov (X, Y) = E(XY) = E{[X – E(X)] [Y – E(Y)]} = E{[X – E(X)][ α – βX – E(α – βX)]} = E{[X – E(X)][ α – βX – α + βE(X)]} = – E{[X – E(X)] β[X – E(X)]} = – β[X – E(X)] 2 = – βVar(X) D’autre part, on a ceci : Var(Y) = E[Y – E(Y)] 2 = E[α – βX – α + βE(X)] 2 = β2 var(X) Et par conséquent, rXY = = = = – 1 Le domaine de définition de rXY est donc [– 1, + 1] Exercice 3 Le tableau ci-après renseigne sur l’évolution de l’offre de jus de banane (X) et son prix en USD (Y). N° 1 2 3 4 5 6 7 8 9 10 11 X 10 8 9 11 14 6 4 12 7 5 8 Y 7 6 7 8 9 6 5 8 6 6 7 Travail à faire : - Calculer le coefficient de corrélation approprié. - Tester sa significativité statistique - Evaluer sa signification clinique Solution de l’exercice 3 1. Test de linéarité Le diagramme de dispersion témoigne de l’existence d’une association linéaire positive entre X et Y. 0 2 4 6 8 10 0 5 10 15
  26. 26. Ass. Cédrick Tombola M. 25 2. Test de normalité Test sur la variable X i X ai 1 10 4 -4,5454545 20,661157 0,5601 10 5,601 2 8 5 -3,5454545 12,5702479 0,3315 7 2,3205 3 9 6 -2,5454545 6,47933884 0,226 5 1,13 4 11 7 -1,5454545 2,38842975 0,1429 3 0,4287 5 14 8 -0,5454545 0,29752066 0,0695 1 0,0695 6 6 8 -0,5454545 0,29752066 ∑ 9,5497 7 4 9 0,4545455 0,20661157 W= = 0,983494579 Wtable=0,850 Puisque W >Wtable, alors Non RH0. La variable X est normalement distribuée. 8 12 10 1,4545455 2,11570248 9 7 11 2,4545455 6,02479339 10 5 12 3,4545455 11,9338843 11 8 14 5,4545455 29,7520661 ∑ 0 92,7272727 = 8,545454545 ; n =11 ; = 5,5 Note : n étant impair, on n’a retenu que la partie entière du ratio , soit 5. Test sur la variable Y i Y ai 1 7 5 -1,818181818 3,30578512 0,5601 4 2,2404 2 6 6 -0,818181818 0,66942149 0,3315 2 0,663 3 7 6 -0,818181818 0,66942149 0,226 2 0,452 4 8 6 -0,818181818 0,66942149 0,1429 1 0,1429 5 9 6 -0,818181818 0,66942149 0,0695 1 0,0695 6 6 7 0,181818182 0,03305785 ∑ 3,5678 7 5 7 0,181818182 0,03305785 W= = 0,933474435 Wtable=0,850 Puisque W >Wtable, alors Non RH0. La variable Y est normalement distribuée. 8 8 7 0,181818182 0,03305785 9 6 8 1,181818182 1,39669421 10 6 8 1,181818182 1,39669421 11 7 9 2,181818182 4,76033058 ∑ 0 13,6363636 = 6,818181818 ; n=11 ; = 5,5 3. Choix et estimation d’un coefficient de corrélation Les deux variables étant gaussiennes et linéairement associées, on peut indifféremment estimer le rXY de Bravais-Pearson ou le ρXY de Spearman. Dans ce cas, les deux coefficients devraient donner pratiquement la même chose. Après calcul, on a les résultats suivants :
  27. 27. Ass. Cédrick Tombola M. 26 Le rXY de Bravais-Pearson Le ρXY de Spearman Corrélation entre X et Y 0,95870624 0,95227273 4. Signification statistique du coefficient calculé La statistique calculée est : = 10.1129979 pour le rXY de Bravais-Pearson, et = 9.3589914, pour le ρXY de Spearman. Et la valeur de la table, au seuil de 5%, est de : t0.025 ; 9 =2.262 Conclusion : le coefficient de corrélation calculé est statistiquement non nul. 5. Signification clinique il existe bel et bien une corrélation linéaire positive très forte entre quantité offerte de jus de banane et son prix, ce qui est conforme à la moi de l’offre. Exercice 4 A partir d’un échantillon de 27 objets, on a trouvé que la valeur d’un coefficient de corrélation linéaire était 0.4. Peut-on en conclure, à un seuil de signification de 0.05 que le coefficient de corrélation diffère significativement de la valeur zéro ? Qu’adviendrait la réponse obtenue précédemment si l’on considère un seuil de signification de 0.01. Solution de l’exercice 4 L’exercice livre les informations suivantes : rXY =0.4 ; n=27 ; α = 0.05.  Après calcul, on a tcal=2.1821789. En considérant le seuil donné, α = 0.05, et 25 degrés de liberté, la table de la loi de Student donne la valeur : t0.025 ; 25 = 2.060. On peut donc conclure, à un seuil de signification de 0.05 que le coefficient de corrélation diffère significativement de la valeur zéro.  Au seuil de signification de 0.01, t0.005 ; 25 = 2.787, ce coefficient de corrélation devient non significatif. Exercice 5 Soit le jeu de données normalement distribuées ci-dessous. Bloc I Bloc II Bloc III Bloc IV X Y X Y X Y X Y 10 8,04 10 9,14 10 7,46 8 6,58 8 6,95 8 8,14 8 6,77 8 5,76 13 7,58 13 8,74 13 12,74 8 7,71 9 8,81 9 8,77 9 7,11 8 8,84 11 8,33 11 9,26 11 7,81 8 8,47 14 9,96 14 8,10 14 8,84 8 7,04 6 7,24 6 6,13 6 6,08 8 5,25 4 4,26 4 3,1 4 5,39 19 12,5 12 10,84 12 9,13 12 8,15 8 5,56 7 4,82 7 7,26 7 6,42 8 7,91 5 5,68 5 4,74 5 5,73 8 6,89
  28. 28. Ass. Cédrick Tombola M. 27 Travail demandé : (i) Estimer pour chaque cas le coefficient de corrélation de Bravais – Pearson (ii) Quel constat se dégage t-il de ces calculs ? (iii) A présent, réaliser un graphique nuage des points pour chaque cas. Quelle leçon peut-on tirer ? (iv) Calculer le coefficient de Spearman pour le bloc IV. Quel avantage présente-t-il ? Solution de l’exercice 5 (i) Après calcul, on a le coefficient de Bravais-Pearson ci-après, pour chaque cas : Bloc I Bloc II Bloc III Bloc IV rXY 0,81642052 0,81623651 0,81628674 0,81652144 (ii) Pour les 4 blocs, on obtient pratiquement la même valeur du coefficient de corrélation de Bravais- Pearson, soit rXY = 0.82. Ce qui semble traduire dans ces différents cas, l’existence d’un lien linéaire positif très fort. (iii) Graphique nuage ds points pour chaque bloc Bloc I Bloc II Bloc III Bloc IV La leçon à tirer est que l’estimation du coefficient de corrélation de Pearson doit toujours s’accompagner d’un examen graphique. Car, comme on le voit, le coefficient estimé rXY = 0.82, ne correspond, en toute rigueur, qu’au premier graphique. Le deuxième, par exemple, fait état d’une liaison fonctionnelle presque parfaite entre X et Y dont le rXY semble sous-estimer l’intensité. Quant au troisième et au quatrième graphiques, il y a un point atypique qui fausse complètement le rXY de Bravais-Pearson. Pour preuve, il suffit de retirer le point aberrant, soit le couple (13, 12.74) et (19, 12.5), respectivement dans le troisième et quatrième graphiques, le coefficient de corrélation de Pearson qui était de rXY=0.82, devient respectivement de 0.99999655 et de 0 [puisque rkX=0]. (iv) On remarquera qu’au bloc IV, la variable X présente plusieurs ex aequo, nous avons donc calculé le coefficient de Bravais-Pearson sur les rangs. Coefficient de Bravais-Pearson calculé sur les rangs Bloc IV 0.5 Lien entre X et Y A comparer au coefficient de Pearson, le coefficient de rang présente l’avantage de résister aux points atypiques. 0 5 10 15 0 10 20 0 5 10 0 10 20 0 5 10 15 0 5 10 15 0 5 10 15 0 10 20
  29. 29. Ass. Cédrick Tombola M. 28 Exercice 6 Voici un échantillon de deux variables gaussiennes : X Y -2 4 -1 1 0 0 1 1 2 4 Solution de l’exercice 6 - Les deux variables étant supposées gaussiennes par l’exercice, et puisque le test de linéarité ici ne fait pas un préalable, on passe directement à l’estimation du rXY comme présentée dans le tableau ci-dessous : X Y Xi – Yi – (Xi – )(Yi – (Xi – 2 (Yi – )2 -2 4 -2 2 -4 4 4 -1 1 -1 -1 1 1 1 0 0 0 -2 0 0 4 1 1 1 -1 -1 1 1 2 4 2 2 4 4 4 Somme 0 0 0 10 14 Moyenne 0 2 rXY = 0 - rXY = 0 signifie que les variables X et Y seraient non corrélées [indépendance] - Le diagramme de dispersion des couples (xi, yi) est : Il ressort de ce diagramme de dispersion qu’il existe bel et bien une liaison [de type non linéaire] entre les variables X et Y. La nuance à faire, au vu de ces résultats, est qu’un coefficient de corrélation de Bravais – Pearson nul ne devrait pas toujours s’interpréter comme une absence de relation entre variables en cause. La meilleure interprétation serait que les deux variables étudiées sont non linéairement corrélées, car un rXY =0 laisse toujours la possibilité d’existence, entre les variables considérées, d’une liaison d’un autre type. 0 1 2 3 4 5 -3 -2 -1 0 1 2 3 Travail à faire : - Estimez le coefficient de corrélation de Bravais - Pearson - A quoi renvoie ce résultat ? - Faites maintenant un diagramme de dispersion. Que voyez-vous ? Quelle nuance pouvez-vous donc formuler dans ce cas ?
  30. 30. Ass. Cédrick Tombola M. 29 Exercice 7 A Washington, un journaliste a découvert qu’il existe une très forte corrélation entre le fait d’avoir un nid de cigognes sur sa demeure et le fait d’avoir des enfants. D’où il conclut que les cigognes apportent les bébés. Quelle remarque pouvez-vous faire à une telle conclusion ? Solution de l’exercice 7 La remarque principale à formuler à ce type de corrélation que rien ne peut expliquer – ou qui en réalité tient à un autre phénomène-source – est que la corrélation peut être fortuite ou artificielle. Par ailleurs, à bien analyser les choses, tenant compte des réalités de Washington, la présence d’un nid de cigognes sur le toit signifierait plutôt que la famille qui y habite est aisée et donc disposée, financièrement, à avoir plus d’enfants. Exercice 8 En résolvant un TP de statistique 1 sur le calcul du coefficient de corrélation linéaire, un étudiant de G1 FASE fournit le tableau suivant : Xi Yi Xi – Yi – (Xi – )*(Yi – ) (Xi – )² (Yi – )² 80 32 -20 -18 360 400 324 100 50 0 0 0 0 0 115 62 15 12 180 225 144 110 56 10 6 60 100 36 70 8 -30 -42 1260 900 1764 125 80 25 30 750 625 900 105 62 6 12 72 36 144 90 50 -10 0 0 100 0 110 62 10 12 120 100 144 95 38 -5 -12 60 25 144 ∑ 1 0 2862 2511 3600 =100 =50 rXY = = 0.9519 Sans avoir { refaire tous les calculs, { regarder ce tableau, vous concluez qu’il y a erreur de calcul. Par quoi la voyez-vous ? Solution de l’exercice 8 Par la somme des écarts de la variable X à sa moyenne arithmétique. Cette somme est forcément égale à zéro, une valeur différente indique tout simplement une erreur de calcul. Exercice 9 Soient les données sur les variables X et Y reprises dans le tableau ci-après et le nuage de points correspondant : X 1 1,1 1,25 1,5 2 2,25 Y 3 6,8 8,3 9,3 9,81 9,85 0 2 4 6 8 10 12 0,9 1,4 1,9 2,4
  31. 31. Ass. Cédrick Tombola M. 30 Estimer les coefficients de corrélation de Bravais-Pearson et de Spearman, puis commenter. Solution de l’exercice 9 Les calculs sont synthétisés dans le tableau ci-après : X Y x y xy x² y² Ri Si Di Di² 1 3 -0,52 -4,84 2,50 0,2669 23,46 1 1 0 0 1,1 6,8 -0,42 -1,04 0,43 0,1736 1,09 2 2 0 0 1,25 8,3 -0,27 0,46 -0,12 0,0711 0,21 3 3 0 0 1,5 9,3 -0,02 1,46 -0,02 0,0003 2,12 4 4 0 0 2 9,81 0,483 1,97 0,95 0,2336 3,87 5 5 0 0 2,25 9,85 0,733 2,01 1,47 0,5378 4,03 6 6 0 0 ∑ 5,21 1,28 34,77 0 Moyenne 1,52 7,84 rXY = 0,78 ρXY = 1 Les calculs montrent simplement que le ρXY de Spearman est préféré au rXY de Bravais-Pearson lorsque la liaison entre X et Y est non linéaire mais monotone, car comme on le voit, le rXY a sous-estimé l’intensité d’une relation non linéaire certes, mais visiblement parfaite entre X et Y. Exercice 10 [Il y a au moins une réponse exacte, à cocher, à la question suivante]. Le coefficient de corrélation linéaire entre deux variables statistiques : (a) ne peut être calculé que si les deux variables sont quantitatives (b) est un nombre positif ou nul (c) n’est égal à zéro que lorsque les variables sont indépendantes (d) est un nombre sans dimension. Solution de l’exercice 10 : (a), (b) et (d)
  32. 32. Ass. Cédrick Tombola M. 31 .III. MODELE DE REGRESSION LINEAIRE SIMPLE III.1. Modélisation et hypothèses La corrélation, comme développée au chapitre précédent, sert avant tout { quantifier le degré d’association linéaire entre deux variables quantitatives dont la position, dans l’étude, est symétrique. Elle ne permet donc ni d’établir une causalité, ni de mesurer l’impact d’une variable sur l’autre. Dans le modèle de régression linéaire simple par contre, la position des variables dans l’analyse n’est pas symétrique. On connait, { priori, la variable aléatoire qui cause l’autre [Y=f(X)]19 , ce qui rend possible la mesure de l’impact ou de la contribution de X dans l’explication de Y. La plupart du temps, et comme le mot l’indique, le modèle de régression linéaire simple considère que la variable à expliquer Y est une fonction affine de la variable explicative X. Mathématiquement, cette dépendance linéaire s’écrit de la sorte : [3.1] Yt = β0 + β1Xt où β0 et β1 sont les paramètres du modèle qui permettent de caractériser la relation de dépendance linéaire qui existe à chaque date t entre Xt et Yt. Encadré 2. Fonction affine Une fonction affine est toute fonction de la forme : Y = a + bX [avec a et b *] a : est l’ordonnée { l’origine ou l’origine b : est la pente de la droite ou le coefficient angulaire [directeur] La fonction affine est appelée aussi fonction linéaire si a =0 Graphe d’une fonction affine [considérons le cas où a > 0 et b > 0] La pente d’une droite mesure la variation de Y quand on se déplace le long de la droite en accroissant X d’une unité.  Géométriquement, la pente b est donnée par : b = tg (α) = é é é = Et l’équation d’une droite passant par deux points, de coordonnées (X0, Y0) et (X1, Y1), est : Y – Y0 = b (X – X0)  Algébriquement, la pente s’obtient en dérivant Y par rapport à X : b = ou b = = [Si données discrètes] 19 Cette information est généralement fournie par la théorie économique, ou peut simplement découler de l’objectif de l’étude du modélisateur. Y X a 0 Y = a + bX D E F ∆X = X1 – X0 ∆Y = Y1 – Y0 α
  33. 33. Ass. Cédrick Tombola M. 32 Sous sa spécification économétrique, le modèle [3.1] s’écrit comme suit : [3.2] Yt = β0 + β1Xt + ut Dans ce cas de la régression linéaire simple β0 est le terme constant ou l’origine et β1 la pente. Comme pour la corrélation, avant toute analyse, il intéressant de toujours commencer par un examen graphique – à travers un diagramme de dispersion – du type de relation qui lie les deux variables considérées. Il faut noter, par ailleurs, que le raisonnement qui sera développé dans la suite de ce chapitre, ne peut s’appliquer que si Y peut s’écrire comme une fonction affine de X. Considérons le jeu de données ci-après où un chercheur veut expliquer l’habilité en lecture (Y) de dix sujets échantillonnés par le nombre d’heures de lecture par semaine (X). Y est mesurée en laboratoire { l’aide d’un test d’habilité en lecture alors que X est estimé par les sujets eux-mêmes. Y 20 5 5 40 30 35 5 5 15 40 X 5 1 2 7 8 9 3 2 5 8 D’un point de vue pratique, régresser Y sur X présente un objectif double :  Ajuster un modèle linéaire pour expliquer les valeurs prises par Y par celles de X. Autrement, il s’agit de faire un ajustement linéaire, c’est-à-dire de remplacer le nuage de points des couples (xi, yi) par une droite qui s’y adapte le mieux que possible.  Prédire les valeurs de Y pour les nouvelles valeurs de X. Pour le jeu de données ci-dessus, on a les graphiques suivants : Graphique nuage de points Sens de l’ajustement linéaire L’ajustement linéaire [ou régression linéaire] consiste donc { tracer une droite d’ajustement – appelée également droite de régression – qui, sans passer par tous les points du nuage, s’y approche le mieux. Pour ça, il faut donc un critère quantifiant la qualité de l’ajustement. Le critère auquel on se réfère dans ce chapitre, et très souvent en économétrie, est le critère ou la méthode des Moindres Carrés Ordinaires [MCO]20 . On utilise souvent le terme anglais OLS [Ordinary Least Squares] pour désigner la même méthode. 20 Certains auteurs ironisent en disant que la méthode nous sert { mettre un chapeau sur nos β. 0 10 20 30 40 50 0 2 4 6 8 10 0 10 20 30 40 50 0 2 4 6 8 10 et
  34. 34. Ass. Cédrick Tombola M. 33 Hypothèses L’application du critère des moindres carrés ordinaires repose sur les hypothèses suivantes : Hypothèses sur la partie systématique Hypothèses sur la partie stochastique H1. Les variables X et Y sont observées sans erreur. Y est aléatoire par l’intermédiaire de ut, c’est-à-dire que la seule erreur possible sur Y provient des insuffisances de X à expliquer ses valeurs dans le modèle. H2. Les variables X et Y doivent être gaussiennes et stationnaires en niveau. H3. Le modèle est linéaire en ses paramètres tels que l’exprime l’équation [3.2]. H4. Le nombre d’observations n doit être supérieur au nombre des paramètres à estimer. H5. Hypothèse de centralité : E(ut)=0 C’est-à-dire qu’en moyenne, l’influence de ut sur le modèle est nulle, ce qui revient à admettre que le modèle est correctement spécifié. H6. Hypothèse non autocorrélation des erreurs : E(uiuj) = 0 i ≠j Les erreurs ut de différentes périodes sont indépendantes les unes des autres. H7. Hypothèse d’homoscédasticité des erreurs : E(uiuj) = i =j Les erreurs ut ont une variance constante et finie. Plus explicitement, il s’agit d’assumer que les variables explicatives omises dans le modèle influent toutes pratiquement de façon constante sur la variable expliquée. H8. Hypothèse de normalité des erreurs: ut (0, ) Cette hypothèse est la clé de l’inférence statistique. Elle est donc nécessaire pour mener les tests. H8. Hypothèse d’indépendance entre la partie systématique et la partie aléatoire : Cov (Xt, ut)=0. Cette hypothèse signifie que l’erreur et les variables explicatives ont une influence séparée sur la variable endogène. Note : (i) Lorsque les hypothèses H4, H5 et H6 sont réalisées, on dit que les erreurs sont des bruits blancs. Et lorsqu’on y ajoute l’hypothèse H7, on parle des bruits blancs gaussiens. (ii) Lorsque toutes les hypothèses sous-tendant la méthode des MCO sont remplies, le théorème de Gauss – Markov avance que ses estimateurs sont BLUE [Best Linear Unbiased Estimator], c’est-à-dire qu’ils sont les meilleurs estimateurs linéaires, non biaisés et à variance minimale. III.2. Estimateurs des moindres carrés ordinaires Le critère des MCO permet d’obtenir l’équation de la meilleure droite d’ajustement : = + Xt, appelée également droite des moindres carrés. Le travail, qui permet d’obtenir la droite, consiste à choisir les paramètres et , en utilisant les informations apportées par l’échantillon, de manière à rendre minimale la somme des carrés des écarts [résidus] entre les valeurs observées de Y et ses valeurs prédites par le modèle. Note : Les résidus, notés et, sont l’estimation de l’erreur ut sur base de données de l’échantillon [et = ], elle est donnée par : et = Yt – . Mathématiquement, le critère des MCO se présente comme suit : Min S = = = La détermination de et se fait en appliquant les conditions du premier ordre : = 0 [3.3] = 0 [3.4]
  35. 35. Ass. Cédrick Tombola M. 34 En appliquant ces dérivées partielles, on obtient les équations normales, à partir desquelles sont tirés les estimateurs des MCO : ∑Y = n + ∑X [3.5] ∑XY = ∑X + ∑X2 [3.6] A partir de [3.5], en divisant toute la relation par n, on détermine l’estimateur de β0 : = – [3.7] Après substitution de dans la deuxième équation normale [3.6], on tire l’estimateur de β1 : = [3.8] Un développement mathématique simple permet d’exprimer par le produit de la covariance empirique entre X et Y et de la variance empirique de X. = = [3.9] En utilisant les variables centrées, est donnée par le rapport : = [3.10] et sont donc les estimateurs des moindres carrés ordinaires. est le paramètre d’intérêt qui capture entièrement la dépendance linéaire de Y envers X. 1ère conséquence : La droite des moindres carrés = + Xt passe forcément par l’origine et le point de coordonnées ( , ), appelé le centre de gravité ou le point moyen du nuage de points. Pour le vérifier, il suffit de réaliser une projection pour le point : ( ) = + = ( – ) + = Ce résultat montre que lorsqu’on travaille sur les écarts { la moyenne arithmétique [variables centrées], on reste sur la même droite d’ajustement – ce qui implique que la pente reste inchangée –, mais l’on soulève les axes jusqu’au centre de gravité. 0 5 10 15 20 25 30 35 40 45 0 1 2 3 4 5 6 7 8 9 10 ( , ) = = Y X x y
  36. 36. Ass. Cédrick Tombola M. 35 Ainsi, en travaillant avec les écarts { la moyenne arithmétique, l’origine peut disparaitre momentanément, car une petite manipulation suffit à le retrouver. La fonction affine = + Xt devient linéaire : = [3.11] 2ème conséquence : la droite des moindres carrés a pour équation : – = (Xt – ) [3.12] On démontre aussi que la moyenne arithmétique de est égale à : = = = – + = 3ème conséquence : la somme – et donc la moyenne arithmétique – des résidus est nulle dans une régression avec constante. En effet : = = n - n - n = n – n( – ) - n = 0 4ème conséquence : il existe un lien entre la pente d’une régression linéaire simple et le coefficient de corrélation de Bravais – Pearson rXY: = = = rXY L’écart – type étant non négatif, la pente et le coefficient de corrélation de Pearson rXY auront toujours le même signe. Synthèse des formules des formules pour l’estimation des β0 et β1 Données brutes Variables centrées rXY connu Connaissant l’origine et le centre de gravité Modèle estimé = + Xt  = + Xt  = Formules Equations normales = = = rXY - Tracer la droite des moindres carrés ; - est la pente de la droite, soit : = ∑Y = n + ∑X ∑XY = ∑X + ∑X2 Estimateurs21 = = – 21 L’estimateur est une formule, et l’estimation est la valeur qu’on trouve en appliquant l’estimateur.
  37. 37. Ass. Cédrick Tombola M. 36 III.3. Décomposition de la variance totale et coefficient de détermination R 2 L’analyse de la variance a pour objet de dériver un indicateur synthétique, appelé coefficient de détermination R2 , qui évalue la qualité de l’ajustement réalisé en appliquant le critère des moindres carrés. Il indique donc dans quelle mesure, la variable explicative X nous permet d’améliorer nos connaissances sur la variable endogène Y. Soit yt = + et [3.13] La somme des carrés, dans [3.13], donne : ∑ = ∑ [3.14] Après développement de la relation [3.14], on obtient l’équation d’analyse de la variance : SCT = SCE + SCR [3.15] ∑ = ∑ + ∑ [3.16] Interprétation de l’équation d’analyse de la variance :  SCT est la somme des carrés totaux. Elle indique la variabilité totale de Y.  SCE est la somme des carrés expliqués. Elle indique la variation de Y due à sa régression linéaire sur X.  SCR est la somme des carrés résiduels. Elle indique la variabilité de Y non expliquée par le modèle. Dérivation du coefficient de détermination R 2 A partir de l’équation [3.15], le R 2 correspond au rapport : R 2 = [3.17] Ainsi, le R 2 peut être interprété comme la proportion de variance de Y expliquée par le modèle. Toujours à partir de la relation [3.15], on peut déduire les informations suivantes : Au meilleur des cas Au pire des cas SCR = 0 SCE = 0 SCT = SCE SCT = SCR R 2 = 1 R 2 = 0 Le modèle est parfait, la droite de régression passe par tous les points du nuage. Le modèle est mauvais, la meilleure prédiction de Y est sa propre moyenne. Intervalle de variation du R 2 0 ≤ R 2 ≤ 1 Autres formules du R 2 R 2 = = 1 - = = = = = Avec la pente de la droite de régression de X sur Y, soit = + Yt.  Plus le R 2 est proche de 1, meilleur est l’ajustement, la connaissance des valeurs de X permet de
  38. 38. Ass. Cédrick Tombola M. 37 deviner avec précision celles de Y.  Plus le R 2 est proche de 0, mauvais est l’ajustement, X n’apporte pas d’informations utiles sur Y.  Il faut tout de même faire attention quant au crédit à accorder au R 2 , il doit toujours être accompagné d’autres tests [Student et Fisher essentiellement] avant de trancher sur la bonté d’un modèle, mais il reste un critère non négligeable pour la prévision. Relation entre le coefficient de corrélation de Pearson et le R 2 Pour une régression linéaire simple, et seulement dans ce cas, le R 2 n’est rien d’autre que le carré du coefficient de corrélation de Pearson. La démonstration est relativement simple. Partant de la relation = rXY , on peut tirer rXY et en l’élevant au carré, on a : = = = = = = = R 2 Par conséquent rXY = signe (β ) Note : Comme le coefficient de corrélation linéaire de Pearson, le R 2 , pour une régression linéaire simple, est symétrique. III.4. Test de significativité des paramètres Etant donné que les valeurs et ne sont que des estimations des paramètres β0 et β1 inconnus de la population, il faut donc s’assurer de leur fiabilité statistique. Pour appliquer les tests sur les paramètres, il est important de connaître leurs variances et la variance résiduelle. La démonstration22 du théorème de Gauss – Markov conduit à la construction de la matrice – symétrique – des covariances – variances suivante23 : = = Et la variance résiduelle est donnée par : = 22 Pour les détails, lire par exemple Bourbonnais (2005), Bofoya (2007), Bosonga (2010). 23 Appelée souvent matrice COVA, notée par la lettre Omega (Ω).
  39. 39. Ass. Cédrick Tombola M. 38 Test de significativité individuelle Le test de significativité individuelle porte sur chaque paramètre. Les hypothèses du test sont : H0 : βi = 0 [le paramètre est statistiquement nul, non significatif] H1 : βi ≠ 0n [le paramètre est statistiquement non nul, significatif] Il s’agit d’un test bilatéral [two-tail ou two-sided]24 . Il est basé sur la statistique t de Student calculée comme suit : = [3.18] Sous H0, la formule [3.18] devient : = [3.19] On démontre, sous H0, que cette statistique suit une distribution de Student au seuil α [5% sauf indication contraire] et à (n – 2) degrés de liberté. Critère de décision : Si > tα/2 ; (n – 2) [valeur lue dans la table de Student], alors RH0, le paramètre est statistiquement non nul, la variable lui associée est par conséquent non pertinente dans la prédiction de Y. Intervalle de confiance des paramètres βi Le RH0 revient simplement { refuser que le paramètre βi de la population est nul, cela ne signifie nullement que serait la vraie valeur du paramètre βi. Ainsi, on peut, en se basant sur les paramètres estimés et en assumant un risque donné, construire des intervalles de confiance pour les paramètres βi. Ces intervalles de confiance sont trouvés en appliquant la formule : I = ± tα/2 ; (n – 2) [3.20] Test de significativité conjointe ou globale Un autre test consiste à tester la significativité conjointe de tous les paramètres estimés du modèle. C’est le tes basé sur la statistique de Fisher, appelé aussi test d’analyse de la variance ANOVA. La statistique du test est donnée par le rapport suivant : F= [3.21] Une manipulation simple permet d’exprimer F en fonction du R 2 comme ci-après : F = [3.22] Le test F teste statistiquement la raison d’être du modèle. Par ailleurs, partant de la relation [3.22], d’aucuns considèrent qu’il teste la significativité du coefficient de détermination. 24 C’est-à-dire que H0 est rejetée que le coefficient soit positif ou négatif.
  40. 40. Ass. Cédrick Tombola M. 39 Dans le cas d’une régression linéaire simple, le test F est confondu au test de significativité individuelle de la pente. Les deux tests sont basés sur les mêmes hypothèses, et on démontre dans ce cas que : F = [3.23] Preuve : F = = = = = = Les hypothèses du test sont donc25 : H0 : β1 = 0 [le modèle n’est pas bon] H1 : β1 ≠ 0n [le modèle est bon] Comme on le voit, valider la significativité de la pente revient, en même temps, à admettre la bonté du modèle. Sous H0, on démontre que la statistique F suit une loi de Fisher à respectivement 1 et (n-2) degrés de liberté. Critère de décision : Si F > F [1 ; (n – 2)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire], on rejette H0, le modèle est bon. Significativité de la pente versus significativité du rXY de Bravais – Pearson Partant de la relation [3.22] et [3.23] ci-haut, on montre facilement que tester = 0, revient à tester rXY = 0. Cela implique qu’accepter la significativité de la pente, c’est accepter également la significativité du coefficient de corrélation linéaire. En effet, en considérant les relations [3.22] et [3.23], et en sachant que le R2 correspond au carré du rXY, on établit : = = = 25 Le test de significativité globale ne porte que sur les paramètres associés aux variables exogènes.
  41. 41. Ass. Cédrick Tombola M. 40 III.5. Prévision dans le modèle de régression linéaire simple L’un des objets de l’ajustement linéaire qu’on effectue est de nous aider { prédire les valeurs de Y pour les nouvelles de X, bref à prévoir. Connaissant la nouvelle valeur de X pour un horizon h, notée Xn+h, on distingue deux types de prévision de la valeur de Y { l’horizon considéré : la prévision ponctuelle et la prévision par intervalle.  La prévision ponctuelle est très simple. Connaissant Xn+h, il suffit de substituer cette valeur dans l’équation estimée pour obtenir la valeur correspondante de Y, soit : = + Xn+h [3.24]  Partant de la prévision ponctuelle, la prévision par intervalle est faite en appliquant la formule ci- après : Yn+h I = ± tα/2 ; (n – 2) [3.25] où est l’écart-type de l’erreur de prévision26 . Il est donné par la formule : = [3.26] Encadré 3. Régression sans terme constant Soit le modèle : Yt = βXt + ut Le travail d’estimation de ce modèle doit inclure les nuances suivantes :  La droite des MCO passe forcément par l'origine des axes ;  La droite des MCO ne passe plus forcément par le barycentre ou le centre de gravité du nuage des points ;  La décomposition de la variance telle que décrite dans ce chapitre n'est plus valable ;  Le test d'analyse de la variance (Fisher) n'a plus de sens ;  Le coefficient de détermination R2 ne peut plus être lu en termes de proportion de variance expliquée par la régression. Il peut même prendre des valeurs négatives ;  La pente de la régression peut être interprétée d'une autre manière. Elle représente directement le rapport entre les variables c’est-à-dire = . L'estimateur des MCO de la pente de la régression sans constante s'écrit : L'estimateur de la variance de l'erreur et le Student théorique doivent tenir compte des degrés de liberté, c’est-à-dire : = et = tα/2 ; (n – 1) Source : Adapté de R. Rakotomalala, 2011. 26 L’erreur de prévision capte l’écart entre ce qui sera réalisé et ce qu’on prévoit.
  42. 42. Ass. Cédrick Tombola M. 41 Exercices sur le modèle de régression linéaire simple Exercice 1 Le tableau ci-dessous représente l’évolution du revenu disponible brut et de la consommation des ménages en euros pour un pays donné sur la période 1992-2001. [Pour les calculs, prendre 4 chiffres après la virgule]. Année Revenu Consommation 1992 8000 7389.99 1993 9000 8169.65 1994 9500 8831.71 1995 9500 8652.84 1996 9800 8788.08 1997 11000 9616.21 1998 12000 10593.45 1999 13000 11186.11 2000 15000 12758.09 2001 16000 13869.62 On cherche à expliquer la consommation des ménages (C) par le revenu (R), soit : Ct = α + βRt + ut Travail à faire : (i) Tracer le nuage de points et commenter. (ii) Estimer la consommation autonome et la propension marginale à consommer et . (iii) En déduire les valeurs estimées de Ct. (iv) Calculer les résidus et vérifier la propriété selon laquelle la moyenne des résidus est nulle. (v) Calculer l’estimateur de la variance de l’erreur. (vi) Tester la significativité de la pente. (vii) Construire l’intervalle de confiance au niveau de confiance de 95% pour le paramètre β. (viii) Calculer le coefficient de détermination et effectuer le test de Fisher permettant de déterminer si la régression est significative dans son ensemble. (ix) Ecrire et vérifier l’équation d’analyse de la variance. Interpréter. (x) Après un travail minutieux, un étudiant de L1 FASE trouve le coefficient de corrélation linéaire entre Ct et Rt suivant rXY = 0.99789619. Sans le moindre calcul, tester la significativité de ce coefficient. Argumenter. (xi) En 2002 et 2003, on prévoit respectivement 16800 et 17000 euros pour la valeur du revenu. Déterminer les valeurs prévues de la consommation pour ces deux années, ainsi que l’intervalle de prévision au niveau de confiance de 95%. Solution de l’exercice 1 (i) Le graphique nuage de points est donné ci-dessous : 0 5000 10000 15000 0 5000 10000 15000 20000
  43. 43. Ass. Cédrick Tombola M. 42 Ce graphique témoigne de l’existence d’une association linéaire positive, presque parfaite, entre la consommation des ménages (Ct) par le revenu (Rt), ce qui autorise l’estimation de la relation les liant par la méthode des moindres ordinaires. (ii) Pour simplifier l’estimation de la consommation autonome ( ) et de la propension marginale à consommer , posons ce qui suit : Yt =Ct ; Xt = Rt ; α=β0 et β= β1. Ce qui nous permet d’écrire le modèle donné dans l’exercice comme suit : Yt = β0 + β1Xt + ut A partir des calculs effectués dans le tableau ci-dessous, on a : Estimation de la propension marginale à consommer = = = 0,78098 Estimation de la consommation autonome = – = 9985,575 – 0,78098(11280) = 1176,0896 Le modèle estimé est par conséquent : = 1176,0896 + 0,78098Xt. (iii) Voir tableau ci-dessous. Ces valeurs sont trouvées en remplaçant dans l’équation de la droite des moindres : = 1176,0896 + 0,78098Xt, pour chaque date, Xt par sa valeur. (iv) Voir tableau ci-dessous. Les résidus sont calculés d’après la formule et = (v) L’estimateur de la variance de l’erreur est donnée par = , connaissant n =10 et (voir tableau), on obtient : = = 20646,1728 (vi) La pente ici est la propension marginale à consommer, soit . Le test de significativité de ce coefficient requiert son écart-type . Connaissant la variance de l’erreur, la variance de est calculée comme suit : Var ( ) = = = 0,0003 = 0,0179 Par conséquent son ratio de Student est : = = = 43,5352 t0.025 ; 8 = 2.306. Puisque > ttable la pente est statistiquement significative. (vii) L’intervalle de confiance au niveau de confiance de 95% (au seuil de 5%) pour le paramètre β1 est construire comme suit : I = [ – (t0.025 ; 8) ; + (t0.025 ; 8) ] En faisant les remplacements nécessaires, on trouve : I = [0,7396 ; 0,8224]
  44. 44. Ass. Cédrick Tombola M. 43 (viii) Le coefficient de détermination R2 peut être calculé par la formule (les valeurs viennent du tableau ci-dessous) : R 2 = = = 0,9958 Connaissant le t de Student de la pente, la statistique de Fisher peut se calculer comme suit : F = = (43,5352)2 = 1895,3136 F [1 ; 8] = 5, 32. Puisque F >Ftable RH0, la régression est significative dans son ensemble. (ix) L’équation d’analyse de la variance est : SCT = SCE + SCR = + 39296098,1837 =39130928, 8011 +165169, 3826 (x) Nous savons que dans un modèle linéaire simple, accepter la significativité de la pente revient à accepter celle du coefficient de corrélation linéaire. La pente étant significative, le rXY l’est aussi naturellement. (xi) La prévision ponctuelle ne pose aucun problème. La prévision par intervalle requiert l’estimation de l’écart-type de l’erreur de prévision. Elle est donnée par : Yn+h I = ± (t0.025 ; 8) où = En effectuant les remplacements nécessaires, au niveau de confiance de 95% (au seuil de 5%), on a les résultats suivants : Prévision ponctuelle Prévision par intervalle 2002 = 1176,0896 + 0,78098(16800) = 14296,5998 Yn+h [13949,0697 ; 14644,1299] 2003 = 1176,0896 + 0,78098(17000) = 14452,7963 Yn+h [14105,2657 ; 14800,3269] Le tableau récapitulant tous les calculs est repris ci-dessous.
  45. 45. Ass. Cédrick Tombola M. 44 Année Yt Xt yt xt xtyt et 1992 7389,99 8000 -2595,585 -3280 8513518,8 10758400 7423,9516 -33,9615958 1153,389989 6737061,4922 -2561,6234 6561914,4650 1993 8169,65 9000 -1815,925 -2280 4140309 5198400 8204,93434 -35,28434098 1244,984718 3297583,6056 -1780,6407 3170681,1566 1994 8831,71 9500 -1153,865 -1780 2053879,7 3168400 8595,42571 236,2842864 55830,26401 1331404,4382 -1390,1493 1932515,0386 1995 8652,84 9500 -1332,735 -1780 2372268,3 3168400 8595,42571 57,41428643 3296,400286 1776182,5802 -1390,1493 1932515,0386 1996 8788,08 9800 -1197,495 -1480 1772292,6 2190400 8829,72054 -41,64053713 1733,934332 1433994,2750 -1155,8545 1335999,5393 1997 9616,21 11000 -369,365 -280 103422,2 78400 9766,89983 -150,6898313 22707,42527 136430,5032 -218,6752 47818,8294 1998 10593,5 12000 607,875 720 437670 518400 10547,8826 45,56742347 2076,390081 369512,0156 562,3076 316189,8106 1999 11186,1 13000 1200,535 1720 2064920,2 2958400 11328,8653 -142,7553217 20379,08188 1441284,2862 1343,2903 1804428,8884 2000 12758,1 15000 2772,515 3720 10313755,8 13838400 12890,8308 -132,7408121 17620,12319 7686839,4252 2905,2558 8440511,3336 2001 13869,6 16000 3884,045 4720 18332692,4 22278400 13671,8136 197,8064427 39127,38879 15085805,5620 3686,2386 13588354,7011 ∑ 0 0 50104729 64156000 0 165169,3825 39296098,1837 0 39130928,8011 n=10 ; =9985,575 =11280 Exercice 2 Soit le modèle linéaire Yt = β0 + β1Xt + ut. Où Yt représente la quantité offerte de pommes et Xt le prix. On donne les informations suivantes : = 5 et =3. Après estimation, on a la droite de régression suivante : = + Xt. Connaissant le couple (Y=2.5 ; X=2) par lequel passe cette droite de régression, trouver et . Solution de l’exercice 2 Connaissant le couple (Y=2.5 ; X=2) et le centre de gravité du nuage de points ( = 5 ; =3), on peut reproduire la droite des moindres carrés de cette estimation comme ci- après : Y 5 2.5 X 3 2
  46. 46. Ass. Cédrick Tombola M. 45 En mesurant la pente de cette droite, on trouve la pente = = 2,5. Connaissant la pente et les deux moyennes et , est calculé comme suit : = = 5 – (2,5)3 = – 2,5 Et le modèle estimé (équation de la droite des MCO) est : = – 2,5+ 2,5Xt Exercice 3 Soit un modèle linéaire simple : Yt = β0 + β0Xt + ut On donne les informations suivantes : ∑YX=184500 ∑Y2 =26350 ∑X2 =1400000 =60 =400 n=7 Travail demandé : - Estimer les coefficients du modèle - Evaluer la qualité de cet ajustement - Tester la significativité globale du modèle Solution de l’exercice 3 En fonction des données en présence, les formules suivantes seront utilisées pour répondre aux trois questions posées :  = et = –  R2 =  F = Après calcul, sachant que ∑YX =∑XY, on a les résultats suivants : =0,0589 ; = 36,44 ; R2 =0,8455 ; F = 27, 3618 Le R2 étant relativement élevé, environ 85%, l’ajustement effectué est de bonne qualité. Et puisque F > F [1 ; 5] = 6,61, on en conclut que le modèle est globalement bon. 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 0 1 2 3 4
  47. 47. Ass. Cédrick Tombola M. 46 Exercice 4 Soit le modèle : Yt= β0 + β1Xt + ut Yt : salaire moyen horaire par jour [en USD] Xt : nombre d’années d’études On donne par ailleurs les informations suivantes : rXY= 0.951916 ; σx=3.894440 et σy=2.945636 Après estimation, sur base d’un échantillon de 13 observations, un étudiant de L1 FBA présente les résultats incomplets ci-après : = 0.030769 + …………….. Xt Travail demandé : (i) Compléter les pointillés. (ii) Tester la significativité du rXY. (iii) Interpréter ces résultats. Semblent-ils logiques ? (iv) Calculer le R2 . (v) Tester la significativité de la pente et la significativité d’ensemble du modèle. Solution de l’exercice 4 (i) Connaissant rXY, σx et σy, la pente est estimée par la formule = rXY , ce qui donne, en remplaçant : =0, 7200. On a ainsi : = 0,030769 + 0, 7200 Xt (ii) Le t calculé pour rXY= 0,951916 donne tcal = 10,3054 et le t0.025 ; 11 = 2,201. Puisque tcal > ttable, on conclut que le rXY est statistiquement non nul. (iii) Il y a lien fort et positif entre le salaire moyen horaire par jour et le nombre d’années d’études. En effet, ces résultats semblent logiques car il est tout à fait normal que ceux qui beaucoup étudié gagnent un peu plus que ceux qui ont étudié un peu moins. (iv) On sait que, pour un modèle de régression linéaire simple avec terme constant, le R2 n’est rien d’autre que le carré du coefficient de corrélation de Bravais – Pearson. Ainsi : R2 = (0, 951916)2 = 0,9061 (v) Connaissant le R2 , on a : F = 106, 2009 F [1 ; 11] = 4, 84. On sait de plus que dans un modèle linéaire simple, le F n’est rien d’autre que le carré du t de Student associé à la pente. Le t de Student de la pente est donc obtenu en prenant la racine carré de F, soit : 10,3054 > t0.025 ; 11 =2,201 En conclusion, la pente est statistiquement significative et le modèle est valable dans l’ensemble.

×