Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 1 / 50
Chapitre 4 : RÉGRESSION
4.3 Régres...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 2 / 50
Chapitre 4 : RÉGRESSION
4.3 Régres...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 3 / 50
L’équation de la régression (1)
• ...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 4 / 50
L’équation de la régression (2)
• ...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 5 / 50
L’équation de la régression (3)
• ...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 6 / 50
L’équation estimée
• Les statistiq...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 7 / 50
Processus
d’estimation
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 8 / 50
Estimation par les moindres carrés...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 9 / 50
Chapitre 4 : RÉGRESSION
4.3 Régres...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 10 / 50
Hypothèses de l’estimateur MCO
• ...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 11 / 50
Test du t de Student (1)
• Si les...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 12 / 50
Test du t de Student (2)
• Dans l...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 13 / 50
Test du F de Fisher
• Si les hypo...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 14 / 50
Multicolinéarité (1)
• Il est pos...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 15 / 50
Multicolinéarité (2)
• En pratiqu...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 16 / 50
Chapitre 4 : RÉGRESSION
4.3 Régre...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 17 / 50
R-carré (1)
• La définition du R-...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 18 / 50
R-carré (2)
• Le R-carré exprime ...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 19 / 50
R-carré et test du F de Fisher
• ...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 20 / 50
R-carré ajusté (1)
• Puisque la m...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 21 / 50
R-carré ajusté (2)
• ( )1n K− −S ...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 22 / 50
ind. revenu âge expérience
1 5212...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 23 / 50
RAPPORT DÉTAILLÉ
Statistiques de ...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 24 / 50
Exemple Statville (3)
• Le syndic...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 25 / 50
Exemple Statville (4)
• Corrélati...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 26 / 50
Exemple Statville (5)
• Dans les ...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 27 / 50
Chapitre 4 : RÉGRESSION
4.3 Régre...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 28 / 50
Bases
• Par « spécification », on...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 29 / 50
Spécification polynomiale
• La sp...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 30 / 50
Exemple Statville (1)
• Le syndic...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 31 / 50
Statistiques de la régression
Coe...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 32 / 50
40000
44000
48000
52000
56000
25 ...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 33 / 50
Variables indépendantes binaires
...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 34 / 50
ind. revenu âge expérience femme
...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 35 / 50
Statistiques de la régression
Coe...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 36 / 50
40000
44000
48000
52000
56000
25 ...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 37 / 50
Exemple Statville (7)
• Plutôt qu...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 38 / 50
Variables binaires pour niveaux m...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 39 / 50
Spécifications logarithmiques (1)...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 40 / 50
Spécifications logarithmiques (2)...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 41 / 50
Spécifications logarithmiques (3)...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 42 / 50
Spécifications logarithmiques (4)...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 43 / 50
Statistiques de la régression
Coe...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 44 / 50
Exemple Statville (9)
• Spécifica...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 45 / 50
15000
25000
35000
45000
55000
0 1...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 46 / 50
Interactions (1)
• L’équation de ...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 47 / 50
Interactions (2)
• 1β (β2) représ...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 48 / 50
ind. commune revenu âge âge*commu...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 49 / 50
Statistiques de la régression
Coe...
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 50 / 50
42000
44000
46000
48000
50000
520...
Prochain SlideShare
Chargement dans…5
×

(Cours régression)

961 vues

Publié le

Publié dans : Économie & finance
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
961
Sur SlideShare
0
Issues des intégrations
0
Intégrations
7
Actions
Partages
0
Téléchargements
69
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

(Cours régression)

  1. 1. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 1 / 50 Chapitre 4 : RÉGRESSION 4.3 Régression linéaire multiple 4.3.1 Equation et Estimation 4.3.2 Inférence 4.3.3 Coefficients de détermination 4.3.4 Spécifications
  2. 2. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 2 / 50 Chapitre 4 : RÉGRESSION 4.3 Régression linéaire multiple 4.3.1 Equation et Estimation 4.3.2 Inférence 4.3.3 Coefficients de détermination 4.3.4 Spécifications
  3. 3. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 3 / 50 L’équation de la régression (1) • Un modèle de régression multiple contient 1 1K n< < − variables indépendantes, 1 2, ,..., Kx x x . (On utilisera k comme indice pour une variable particulière.) → Les paramètres sont estimables quand 1K n= − , mais l’ajustement est alors parfait et l’inférence est impossible. En pratique, on doit veiller à ce que n K>> . • L’équation de la régression linéaire multiple (ou le « modèle de régression ») s’écrit donc de la façon suivante : 0 1 1 2 2 ... K Ky x x xβ β β β ε= + + + + + , où E(ε) = 0, → ( ) 0 1 1 2 2 ... K KE y x x xβ β β β= + + + + , → ( )1 2 0 1 1 2 2, ,..., ...K K KE y x x x x x xβ β β β= + + + + , où 0 1 2, , ,..., Kβ β β β sont les paramètres du modèle, et le terme d’erreur ε est une variable aléatoire.
  4. 4. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 4 / 50 L’équation de la régression (2) • Tout comme dans le cas de la régression linéaire simple, β0 représente le point, où 1 2 ... 0Kx x x= = = = (« constante »). • La valeur d’un paramètre βk>0 donne le nombre d’unités supplémentaires de y associées à une augmentation par une unité de xk lorsque toutes les autres variables indépendantes sont constantes (variation « ceteris paribus »). • ( )1 2, ,... KE y x x x est la moyenne de y pour un vecteur de valeurs des variables indépendantes { }1 2, ,..., Kx x x donné.
  5. 5. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 5 / 50 L’équation de la régression (3) • Si K > 2, on ne peut plus représenter le modèle de régression de façon graphique. • Avec K = 2, une représentation graphique est possible, puisqu’il n’y a que trois dimensions : x1, x2 et y. L’équivalent à la droite de régression en régression linéaire simple est alors appelé « surface de réponse » :
  6. 6. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 6 / 50 L’équation estimée • Les statistiques d’échantillon 0 1 2, , ,..., Kb b b b servent d’estimations de 0 1 2, , ,..., Kβ β β β . • Ainsi, l’équation estimée de la régression est donnée par : 0 1 1 2 2ˆ ... K Ky b b x b x b x= + + + + , où ˆy est l’estimation ponctuelle de ( )1 2, ,... KE y x x x .
  7. 7. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 7 / 50 Processus d’estimation
  8. 8. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 8 / 50 Estimation par les moindres carrés • Tout comme pour la régression linéaire simple, la méthode la plus répandue pour calculer 0 1 2, , ,..., Kb b b b est l’estimateur des moindres carrés. • Formellement, la méthode est alors la suivante : { } ( ) 0 1 2 2 0 1 2 1, , ,... ˆ, , ,..., argmin K n K i i ib b b b b b b b y y = = −∑ ( ) 0 1 2 2 0 1 1 2 2 1, , ,... ...argmin K n i i i K Ki ib b b b y b b x b x b x = = − − − − −∑ L’estimateur des moindres carrés pour une régression multiple suit la même logique que celle de la régression linéaire simple, mais sa formulation est plus compliquée, nécessitant l’utilisation de l’algèbre matricielle. De plus, l’estimation est trop compliquée pour être faite « à la main » avec un effort raisonnable et est donc toujours effectuée avec l’aide d’un ordinateur.
  9. 9. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 9 / 50 Chapitre 4 : RÉGRESSION 4.3 Régression linéaire multiple 4.3.1 Equation et Estimation 4.3.2 Inférence 4.3.3 Coefficients de détermination 4.3.4 Spécifications
  10. 10. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 10 / 50 Hypothèses de l’estimateur MCO • Tout comme pour la régression linéaire simple, la légitimité des tests d’hypothèse repose sur les cinq hypothèses faites à propos du terme d’erreur du modèle de régression, ε. • En fait, on peut démontrer que, sous condition que ces hypothèses soient satisfaites, l’estimateur des MCO est le meilleur des estimateurs concevables, dans le sens suivant (théorème de Gauss-Markov): o Les coefficients estimés 0 1 2, , ,..., Kb b b b sont des estimations non- biaisées des paramètres 0 1 2, , ,..., Kβ β β β . o L’estimateur MCO implique les variances des coefficients estimés 0 1 2 2 2 2 2 , , ,..., kb b b bs s s s les plus petites de tous les estimateurs linéaires et non-biaisés concevables.
  11. 11. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 11 / 50 Test du t de Student (1) • Si les hypothèses sur ε sont satisfaites, on peut se servir de la loi du t de Student pour tester des hypothèses sur des paramètres individuels βk. • Statistique de test : 1 k n Kk k k b b t s β − −− = ∼ t o Le calcul de l’erreur type des coefficients estimés kbs est trop compliqué pour être effectué « à la main », mais sa logique est la même que dans le cas de la régression linéaire simple. o Notamment, kbs tend à diminuer avec n. • L’intervalle de confiance autour d’un paramètre estimé individuel est alors donné par : 1 * k n K k bb t sα − − ±
  12. 12. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 12 / 50 Test du t de Student (2) • Dans la plupart des applications, l’hypothèse la plus importante concerne la signification statistique de xk comme facteur « explicatif » des variations de y. → H0 : βk = 0 ; H1 : βk ≠ 0 → statistique de test : 1 k n Kk k b b t s − − = ∼ t • Ces statistiques de test sont fournies par tous les logiciels statistiques pour chacun de coefficients estimés 0 1 2, , ,..., Kb b b b . Puisque 0.05 1.96t∞ = , une façon de tester la significativité statistique à 5% d’un coefficient estimé d’une régression multiple basée sur un grand échantillon est de vérifier si 1.96kt > . Pour tester la significativité à 1%, on vérifie si 2.58kt > .
  13. 13. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 13 / 50 Test du F de Fisher • Si les hypothèses sur ε sont satisfaites, on peut se servir de la loi du F de Fisher pour déterminer s’il existe une relation significative entre y et l’ensemble des variables indépendantes ; on parle du test de signification globale. → H0 : 1 2 ... 0kβ β β= = = = H1 : au moins un des paramètres n’est pas égal à zéro • Statistique de test : ( ), 1 1 K n K SCReg KF SCRes n K − − = − − ∼ F
  14. 14. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 14 / 50 Multicolinéarité (1) • Il est possible qu’aucun des coefficients estimés bk soit individuellement statistiquement significatif (selon le test du t de Student), mais que le modèle soit quand même globalement statistiquement significatif (selon le test du F de Fisher). • L’explication de ce phénomène apparemment paradoxal est la multicolinéarité : le fait que les variables indépendantes xk, tout en étant indépendantes de y, peuvent parfaitement être corrélées entre elles. • Plus les variables indépendantes sont corrélées, plus il devient difficile de déterminer l’effet propre d’une variable indépendante particulière sur la variable dépendante. Autrement dit, quand la multicolinéarité est forte, les erreurs type des coefficients kbs sont grands, et le risque peut être fort que les coefficients estimés prennent le signe opposé à celui du vrai paramètre.
  15. 15. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 15 / 50 Multicolinéarité (2) • En pratique il peut être utile d’inspecter la matrice de corrélation entre les variables indépendante. Comme valeur pratique (très) approximative, on utilise parfois un seuil de 0.7ˆ k lx xρ = pour déterminer s’il y a un problème potentiel de multicolinéarité entre deux variables. • La multicolinéarité peut prendre la forme d’une relation linéaire entre plusieurs variables indépendantes, càd elle peut être présente même si les corrélations entre paires de variables individuelles sont toutes relativement faibles. Des tests plus avancés existent pour vérifier la présence de ce phénomène. • Le meilleur moyen pour pallier au problème de multicolinéarité est d’augmenter la taille de l’échantillon n. • S’il y a colinéarité parfaite entre deux ou plusieurs variables indépendantes, leurs paramètres ne peuvent pas être estimés.
  16. 16. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 16 / 50 Chapitre 4 : RÉGRESSION 4.3 Régression linéaire multiple 4.3.1 Equation et Estimation 4.3.2 Inférence 4.3.3 Coefficients de détermination 4.3.4 Spécifications
  17. 17. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 17 / 50 R-carré (1) • La définition du R-carré (aussi : « coefficient de détermination multiple ») est identique à celle pour la régression linéaire simple : ( ) ( ) 2 2 1 2 1 ˆ n i i n i i y y SCReg SCReg R SCReg SCRes SCTot y y = = − = = = + − ∑ ∑ ( ) ( ) ( ) 2 2 1 1 2 2 1 1 ˆ 1 1 1 n n i i i i i n n i i i i y y u SCTot y y y y = = = = − = − = − = − − − ∑ ∑ ∑ ∑ S C R e s
  18. 18. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 18 / 50 R-carré (2) • Le R-carré exprime le pourcentage de la somme des carrés totaux « expliqué » (dans le sens d’une explication géométrique et non causale !) par l’équation estimée de la régression. • Le R-carré ne peut pas être décomposé en « contributions explicatives » de chacune des K variables explicatives. →→→→ Exception : cas de zéro colinéarité entre les variables explicatives (qui sont donc « orthogonales ») →→→→ Exemple : vecteurs de variables binaires par pays et par année dans un modèle des différences de taux de chômage ⇒ décomposition du R-carré en une composante « conjoncturelle » (contribution au R-carré des différences temporelles) et une composante « structurelle » (contribution au R-carré des différences inter-pays)
  19. 19. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 19 / 50 R-carré et test du F de Fisher • Il existe une relation mathématique entre le R-carré et la statistique de test de signification globale (du F de Fisher) : ( ) ( ) 2 2 1 1 1 SCReg n K RKF SCRes K R n K − − = = − − − • Étant donné n et K, un R-carré élevé implique une statistique F élevée. • De plus, la statistique F varie en fonction de n et de K. Pour un R- carré donné, plus n K− est grand, plus la statistique F est élevée. Intuitivement, cela représente le fait que plus il y a d’observations par rapport au nombre de variables indépendantes, plus il semble invraisemblable qu’une certaine qualité d’ajustement du modèle (càd un certain R-carré) se soit produit aléatoirement.
  20. 20. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 20 / 50 R-carré ajusté (1) • Puisque la méthode des MCO minimise la somme des carrés des résidus (SCRes), le R-carré augmente si on ajoute des variables indépendantes (ce qui ne change pas SCTot) même si ces variables ne sont pas statistiquement significatives. • La valeur du R-carré dépend donc de K, ce qui complique la comparaison de la qualité d’ajustement de différents modèles de régression si le nombre de variables indépendantes n’est pas identique. • Pour cette raison, il est courant de calculer le « R-carré ajusté » : ( ) ( ) ( )2 21 1 1 1 1 1 1 n K n R R SCTot n n K − − − = − = − − − − − S C R e s , 2 1R ≤
  21. 21. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 21 / 50 R-carré ajusté (2) • ( )1n K− −S C R e s est la variance estimée des résidus, 2 us ; et ( )1SCTot n − est la variance estimée de y. On peut donc aussi écrire le R-carré ajusté de la façon suivante : ( )2 2 2 1 u yR s s= − . • Si l’ajout d’une variable indépendante diminue SCRes proportionnellement moins qu’il n’augmente K, alors 2 us augmente, et le R-carré ajusté diminue. Le R-carré ajusté peut donc diminuer ou augmenter quand on ajoute des variables indépendantes. Il est même possible que le R-carré ajusté prenne des valeurs négatives (si K est grand et le R-carré est petit). • On peut démontrer que l’ajout d’une variable indépendante augmente le R-carré ajusté si la statistique du t de Student de cette variable est supérieure à 1. Pour augmenter le R-carré ajusté, une variable indépendante supplémentaire n’a donc pas besoin d’être statistiquement significative, même au seuil de 10%.
  22. 22. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 22 / 50 ind. revenu âge expérience 1 52125.0 48.1 5.5 2 50955.9 38.7 2.5 3 53382.9 48.6 18.9 4 51286.9 37.5 13.5 5 55243.6 54.7 25.5 6 53384.7 40.7 7.3 7 53488.2 50.1 2.3 8 54134.1 45.9 18.8 9 52706.4 55.9 19.0 10 42144.3 25.1 5.5 11 52665.2 36.9 5.0 12 51656.7 34.5 15.5 Moyenne 51931.2 43.1 11.6 Ecart type 3314.9 9.1 7.8 Exemple Statville (1) • Le syndic cherche à savoir si l’effet de l’âge sur le revenu des habitants de sa commune reste statistiquement significatif si on contrôle aussi pour la durée d’expérience des travailleurs dans leur fonction actuelle. Il recense donc la variable « expérience » pour les 12 individus de son échantillon aléatoire simple.
  23. 23. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 23 / 50 RAPPORT DÉTAILLÉ Statistiques de la régression Coefficient de détermination multiple 0.766580532 Coefficient de détermination R^2 0.587645712 Coefficient de détermination R^2 0.496011426 Erreur-type 2353.302134 Observations 12 ANALYSE DE VARIANCE Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F Régression 2 71030184.72 35515092.36 6.4129458 0.018565956 Résidus 9 49842278.42 5538030.936 Total 11 120872463.1 Coefficients Erreur-type Statistique t Probabilité Limite inférieure pour seuil de confiance = 95% Limite supérieure pour seuil de confiance = 95% Constante 40034.4147 3500.343207 11.43728267 1.158E-06 32116.08826 47952.74114 âge 269.9022708 89.3203627 3.021732813 0.0144387 67.84557296 471.9589687 expérience 23.47323377 103.1785424 0.227501118 0.8251181 -209.9328446 256.8793121 Exemple Statville (2) Excel : Outils - Utilitaire d’analyse - Régression linéaire – cocher Intitulé présent 2 R2 R2 R SCRessu
  24. 24. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 24 / 50 Exemple Statville (3) • Le syndic conclut que, étant donné l’âge, les années d’expérience dans la fonction ne constituent pas un déterminant statistiquement significatif du salaire. Le modèle prédit donc que deux travailleurs qui ont le même âge mais des durées d’expérience différentes auront le même salaire en moyenne. • On note que par rapport à l’estimation de la régression linéaire simple (avec l’âge comme unique variable indépendante), le R- carré a augmenté (de 0.585 à 0.588). Par contre, puisque la valeur de la statistique t de la variable « expérience » est inférieure à 1, le R-carré ajusté a diminué (de 0.544 à 0.496). • Malgré l’augmentation du R-carré, la valeur de la statistique F a diminué (de 14.1 à 6.4) et celle de l’erreur type de la régression a augmenté (de 2239 à 2353). L’augmentation de K (de 1 à 2) a donc plus que compensé la diminution de SCRes (de 50.1 mn à 49.8 mn).
  25. 25. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 25 / 50 Exemple Statville (4) • Corrélation entre les variables « âge » et « expérience » : 12 0.77ˆρ = ⇒ La multicolinéarité pourrait jouer un rôle (càd les variations dans le valeurs de la variable « expérience » ne sont pas suffisamment indépendantes de l’âge, ainsi qu’avec seulement 12 observations on arrive pas à identifier statis- tiquement un effet spécifique dû à « expérience ». → Excel : =COEFFICIENT.CORRELATION(âge;expérience) • Prédiction du salaire pour une personne de 55 ans avec 15 ans d’expérience : ( ) ( )1 2 1 2ˆ ˆ55, 15 55, 15y x x E y x x= = = = = 40034 269.9 * 55 23.5 *15 55231= + + = → La construction d’un intervalle de confiance autour de cette prévision n’est pas possible avec Excel.
  26. 26. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 26 / 50 Exemple Statville (5) • Dans les tableaux publiés de résultats de la régression, il est utile de présenter les coefficients ainsi que leurs erreurs types et des symboles indiquant le niveau de signification statistique du test bilatéral de H0 : 0kβ = . • Une telle présentation des résultats facilite des tests d’hypothèse alternatifs, H0 : k zβ = . o Le syndic pourrait s’intéresser si la véritable hausse salariale moyenne par année d’âge est égale à 500 francs (α = 5%) : 1 1 1 500 500 269.9 500 2.58 89.3x b b t s= − − = = = − ; 1 9 0.05 2.26n K t tα − − = = o Intervalle de confiance de 95% approximatif pour n ≥ 60 : b ± 2 1bs Variables indépendantes : 269.9* (89.3) 23.4 (103.2) 40034.4* (3500.3) R-carré 0.59 R-carré ajusté 0.50 Erreur type de la régression 2353.3 Observations 12 expérience Constante Les déterminants salariaux à Statville variable dépendante: salaires; estimateur: MCO âge Remarques : erreurs types entre paren- thèses ; * : significatif à 5%
  27. 27. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 27 / 50 Chapitre 4 : RÉGRESSION 4.3 Régression linéaire multiple 4.3.1 Equation et Estimation 4.3.2 Inférence 4.3.3 Coefficients de détermination 4.3.4 Spécifications
  28. 28. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 28 / 50 Bases • Par « spécification », on entend la formulation du modèle empirique, càd de l’équation de la régression. • La spécification linéaire est suffisamment flexible pour permettre l’estimation d’une large gamme de modèles théoriques, dont certains sont non linéaires à la base (mais « intrinsèquement linéaires »). Nous présenterons quelques spécifications particulières très utiles : o spécification polynomiale o variables indépendantes binaires o spécification logarithmique o interactions • Il existe des modèles théoriques non linéaires qui ne peuvent être transformés en une spécification linéaire et nécessitent donc l’utilisation d’un estimateur non linéaire (pas traité dans ce cours). → Exemple : ( ) 1 0 1 3y xβ β β − = + +
  29. 29. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 29 / 50 Spécification polynomiale • La spécification de base de la régression linéaire multiple peut être considérée comme un cas particulier d’une classe de fonctions plus large, les fonctions polynomiales : 2 3 0 1 2 3 ... K Ky x x x xβ β β β β ε= + + + + + + → K : le « degré » du polynôme → K = 2 : polynôme du deuxième degré (ou « parabole ») • Si ε satisfait les hypothèses du modèle des MCO, cette spécification peut être estimée avec la méthode des moindres carrés : ( ) 2 3 0 1 2 3ˆ ... K Ky E y x b b x b x b x b x= = + + + + +
  30. 30. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 30 / 50 Exemple Statville (1) • Le syndic se rend compte que sa spécification initiale n’est pas satisfaisante. En particulier, l’hypothèse d’une relation linéaire entre l’âge et le revenu des habitants n’est pas plausible. • Il décide donc d’estimer un modèle polynomial du deuxième degré pour la variable indépendante « âge » : 2 0 1 1 2 1 3 2y x x xβ β β β ε= + + + + , où x1 = âge, et x2 = expérience
  31. 31. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 31 / 50 Statistiques de la régression Coefficient de détermination multiple 0.956286456 Coefficient de détermination R^2 0.914483786 Coefficient de détermination R^2 0.882415205 Erreur-type 1136.692321 Observations 12 ANALYSE DE VARIANCE Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F Régression 3 110535907.7 36845302.56 28.5165036 0.000127026 Résidus 8 10336555.45 1292069.432 Total 11 120872463.1 Coefficients Erreur-type Statistique t Probabilité Limite inférieure pour seuil de confiance = 95% Limite supérieure pour seuil de confiance = 95% Constante 3932.56245 6744.300766 0.583094169 0.57589379 -11619.82299 19484.94789 âge 2077.513837 329.7370239 6.300517339 0.00023266 1317.138897 2837.888777 âge^2 -22.07705908 3.992584707 -5.529515516 0.00055414 -31.28397592 -12.87014225 expérience 97.9923741 51.6272887 1.89807322 0.09424716 -21.06036705 217.0451152 Exemple Statville (2) • b1 et b2 sont statistiquement significatifs • « expérience » devient statistiquement significative (à 10%) ⇒ spécification parabolique semble justifiée
  32. 32. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 32 / 50 40000 44000 48000 52000 56000 25 30 35 40 45 50 55 âge revenu Exemple Statville (3) • Prédictions impliquées par les coefficients estimés pour une personne avec dix ans d’expérience : ( ) 2 2 1 1ˆ 10 3932.6 2077.5 * 22.1* 98 *10y x x x= = + − + • Prédiction de l’âge auquel le revenu est maximal, max 1x : max 1 2 1 1 ˆ 2 0 y b b x x ∂ = + = ∂ ∴ max 1 1 22x b b= − ∴ ( ) max 1 2077.5 47 2 * 22.1 x − = = −
  33. 33. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 33 / 50 Variables indépendantes binaires • Une variable indépendante binaire (aussi : variable « muette », « indicatrice », ou « dummy ») ne prend que deux valeurs : 0 ou 1. • Les variables binaires sont utilisées pour distinguer deux niveaux mutuellement exclusifs des valeurs d’une variable quantitative ou qualitative. Quelques exemples : o dimension temporelle : bonne/mauvaise conjoncture ; été/non- été ; avant/après campagne publicitaire… o dimension spatiale : nord/sud ; ville/campagne ; Suisse/étranger… o variables qualitatives : homme/femme ; employé/non-employé… o variables quantitatives groupées : ménages à plus/moins de 50000 de revenu ; firmes avec plus/moins de 10 employés… • Le niveau pour laquelle la variable binaire est définie comme égale à zéro, est appelée le « niveau de référence ».
  34. 34. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 34 / 50 ind. revenu âge expérience femme 1 52125.0 48.1 5.5 1 2 50955.9 38.7 2.5 0 3 53382.9 48.6 18.9 1 4 51286.9 37.5 13.5 0 5 55243.6 54.7 25.5 1 6 53384.7 40.7 7.3 0 7 53488.2 50.1 2.3 0 8 54134.1 45.9 18.8 1 9 52706.4 55.9 19 1 10 42144.3 25.1 5.5 0 11 52665.2 36.9 5 0 12 51656.7 34.5 15.5 0 Moyenne 51931.2 43.1 11.6 0.42 Ecart type 3314.9 9.1 7.8 0.51 Exemple Statville (4) • Le syndic cherche à savoir si, au-delà de l’âge et de l’expérience (càd « en contrôlant pour » x1, 2 1x et x2), le sexe des travailleurs influence leur salaire moyen. Il définit alors la variable muette x3 suivante : o individu i est une femme ⇔ x3 = 1 o individu i est un homme ⇔ x3 = 0 (niveau de référence)
  35. 35. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 35 / 50 Statistiques de la régression Coefficient de détermination multiple 0.973087042 Coefficient de détermination R^2 0.946898391 Coefficient de détermination R^2 0.916554614 Erreur-type 957.5655371 Observations 12 ANALYSE DE VARIANCE Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F Régression 4 114453940.8 28613485.21 31.2056868 0.000148858 Résidus 7 6418522.304 916931.7578 Total 11 120872463.1 Coefficients Erreur-type Statistique t Probabilité Limite inférieure pour seuil de confiance = 95% Limite supérieure pour seuil de confiance = 95% Constante 3468.379446 5685.929397 0.609993407 0.56113791 -9976.707094 16913.46599 âge 2038.603283 278.4121524 7.322249642 0.00015968 1380.263156 2696.943411 âge^2 -20.82811623 3.417246482 -6.094999684 0.00049351 -28.90862013 -12.74761233 expérience 148.3984189 49.86108402 2.976237317 0.02062455 30.49569049 266.3011474 femme -2054.157981 993.7297586 -2.067119318 0.07754583 -4403.955467 295.6395053 Exemple Statville (5) • En moyenne, une femme gagne 2054.2 francs de moins qu’un homme du même âge et avec le même nombre d’années d’expérience. • Cet effet est statistiquement significatif au seuil de 10% mais non au seuil de 5%.
  36. 36. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 36 / 50 40000 44000 48000 52000 56000 25 30 35 40 45 50 55 âge revenu femmes hommes 40000 44000 48000 52000 56000 25 30 35 40 45 50 55 âge revenu femmes hommes Exemple Statville (6) • Prédictions impliquées par les coefficients estimés o pour une femme avec dix ans d’expérience : ( ) 2 2 3 1 1ˆ 10, 1 3468 2038.6 * 20.8 * 148 *10 2054.2y x x x x= = = + − + − o pour un homme avec dix ans d’expérience : ( ) 2 2 3 1 1ˆ 10, 0 3468 2038.6 * 20.8 * 148 *10y x x x x= = = + − + b3 = 2054.2
  37. 37. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 37 / 50 Exemple Statville (7) • Plutôt qu’estimer les paramètres du modèle de régression (des corrélations conditionnelles), le syndic pourrait s’intéresser aux corrélations « pures » ˆklρ entre toutes les paires de variables indépendantes kl (les corrélations inconditionnelles). → examiner la matrice de corrélation • Excel : Outils - Utilitaire d’analyse – Analyse de corrélation – Intitulés en première ligne revenu âge âge^2 expérience femme revenu 1 âge 0.765032264 1 âge^2 0.69672771 0.993137906 1 expérience 0.411455189 0.482058499 0.50549735 1 femme 0.422675732 0.738416719 0.75563342 0.667095592 1 !
  38. 38. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 38 / 50 Variables binaires pour niveaux multiples • Des variables indépendantes binaires peuvent aussi servir pour représenter des variables qualitatives ou des variables quantitatives groupées avec C >>>> 2 niveaux. Dans ce cas on crée C − 1 variables binaires, une pour chaque niveau sauf un, appelé « catégorie de référence ». • Exemple Statville : Trois tranches d’âge o 0 − 30 : 1 20 ; 0x x= = o 31 − 55 : 1 21 ; 0x x= = o 56 − 65 : 1 20 ; 1x x= = ⇒ β0 est le salaire moyen des jeunes (0 − 30) ⇒ β1 est la différence entre le salaire moyen du groupe des 31 à 55 par rapport à celui des jeunes. ⇒ β2 est la différence entre le salaire moyen du groupe des 56 à 65 par rapport à celui des jeunes. ( ) 0 1 1 2 2E y x xβ β β= + +
  39. 39. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 39 / 50 Spécifications logarithmiques (1) • Un modèle non linéaire mais « intrinsèquement linéaire » est l’équation Cobb-Douglas, 1 k K k k y a xβ = = ∏ , souvent utilisée en microéconomie pour représenter l’origine des courbes d’offre (fonction de production) et de demande (fonction d’utilité). → version stochastique (K = 2) : 1 2 1 2y ax x eβ β ε = , où ε satisfait les cinq hypothèses du modèle des MCO • Ce modèle devient linéaire quand on le transforme en logarithmes naturels : 0 1 1 2 2ln ln lny x xβ β β ε= + + + , où β0 = lna. o Puisque pour estimer ce modèle on transforme la variable dépendante ainsi que les variables indépendantes, on parle de la « double transformation logarithmique » ou de la « spécification log-log ».
  40. 40. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 40 / 50 Spécifications logarithmiques (2) • Un grand atout de la spécification log-log est que les coefficients estimés peuvent être interprétés comme des élasticités. On parle donc aussi du « modèle à élasticité constante ».) o élasticité de y par rapport à xk : ln ln k k kk k k y xy yy xx y x x β ∂  ∂ ∂  = = =   ∂∂ ∂   o Tout comme les coefficients standardisés, les coefficients d’un modèle log-log peuvent être comparés à travers les variables indépendantes k, puisque par définition les élasticités sont toutes exprimées dans les mêmes unités (càd en termes de déviations en pourcentage de y et de xk). ( ) ( ) ln 1 ln y y y y y y ∂ ∂ = ⇒ = ∂ ∂
  41. 41. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 41 / 50 Spécifications logarithmiques (3) • Un autre modèle « intrinsèquement linéaire » est donné par 0 1 1 2 2 ... k kx x x y eβ β β β+ + + + = . → version stochastique (K = 2) : 0 1 1 2 2x x y eβ β β ε+ + + = , où ε satisfait les cinq hypothèses du modèle des MCO • Ce modèle devient linéaire quand on le transforme en logarithmes naturels : 0 1 1 2 2lny x xβ β β ε= + + + . o Puisque pour estimer ce modèle on ne transforme que la variable dépendante, on parle de la « spécification semi- logarithmique ».
  42. 42. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 42 / 50 Spécifications logarithmiques (4) • Les paramètres d’une telle spécification sont des semi-elasticités : il représentent la variation en pourcentage de la variable dépendante par rapport à une variation d’une unité de la variable indépendante en question. Puisque ces semi-elasticités dépendent des unités de mesure des variables indépendantes, elle ne sont pas directement comparables à travers les différentes variables indépendantes. • La spécification semi-logarithmique est utilisée en macroéconomie afin de modéliser des taux de croissance stables : o Soit 0 1x y eβ β ε+ + = , où y est un agrégat économique (PIB, niveau des prix,…), et x est la variable « temps » (en mois, trimestres, années,…). o Alors 1 lnd y dx β = est le taux de croissance moyen de y.
  43. 43. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 43 / 50 Statistiques de la régression Coefficient de détermination multiple 0.825687981 Coefficient de détermination R^2 0.681760643 Coefficient de détermination R^2 0.649936707 Erreur-type 0.04086423 Observations 12 ANALYSE DE VARIANCE Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F Régression 1 0.035773766 0.035773766 21.422889 0.000938341 Résidus 10 0.016698853 0.001669885 Total 11 0.052472619 Coefficients Erreur-type Statistique t Probabilité Limite inférieure pour seuil de confiance = 95% Limite supérieure pour seuil de confiance = 95% Constante 9.92017321 0.202446229 49.00152131 3.025E-13 9.469094904 10.37125152 ln(âge) 0.25009325 0.054033481 4.628486685 0.00093834 0.129699151 0.370487348 Exemple Statville (8) • Spécification log-log (régression simple) : ln(revenu) = β0 + β1*ln(âge) + ε → par pourcent d’âge supplémentaire, le revenu moyen augmente de 0.25 pourcent → R-carré (0.68) plus élevé que dans la régression avec y et x non transformées (0.59, voir ch. 4.2.4) ⇒ spécification log-log (non- linéaire) mieux ajustée aux données
  44. 44. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 44 / 50 Exemple Statville (9) • Spécification semi-logarithmique (régression simple) : ln(revenu) = β0 + β1*âge + ε → par année d’âge supplémentaire, le revenu moyen augmente de 0.57 pourcent → R-carré (0.57) moins élevé que dans la régression avec y et x non transformés (0.59, voir. ch. 4.2.4) ⇒ spécification semi-logarithmique moins bien ajustée aux données Statistiques de la régression Coefficient de détermination multiple 0.756007595 Coefficient de détermination R^2 0.571547483 Coefficient de détermination R^2 0.528702231 Erreur-type 0.047415214 Observations 12 ANALYSE DE VARIANCE Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F Régression 1 0.029990593 0.029990593 13.3398092 0.004444832 Résidus 10 0.022482026 0.002248203 Total 11 0.052472619 Coefficients Erreur-type Statistique t Probabilité Limite inférieure pour seuil de confiance = 95% Limite supérieure pour seuil de confiance = 95% Constante 10.60757468 0.069273957 153.1249996 3.4657E-18 10.45322269 10.76192668 âge 0.005758884 0.001576753 3.652370354 0.00444483 0.002245661 0.009272108
  45. 45. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 45 / 50 15000 25000 35000 45000 55000 0 10 20 30 40 50 60 âge revenu Exemple Statville (10) ˆ 39885 279.7y x= + ( )( )ˆ exp 9.92 0.25 * lny x= + ˆ exp(10.61 0.006 )y x= +
  46. 46. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 46 / 50 Interactions (1) • L’équation de régression linéaire multiple implique des effets isolés de chaque variable indépendante : k k y k x β ∂ = ∀ ∂ • En ajoutant des produits de variables indépendantes (« termes d’interaction »), on peut modéliser des interdépendances entre les effets des variables indépendantes : 0 1 1 2 2 3 1 2y x x x xβ β β β ε= + + + + ⇒ 1 3 2 1 y x x β β ∂ = + ∂ , 2 3 1 2 y x x β β ∂ = + ∂
  47. 47. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 47 / 50 Interactions (2) • 1β (β2) représente l’effet de x1 (x2) sur ˆy quand x2 (x1) est égal à zéro. Puisque une valeur de zéro n’est souvent pas très réaliste ou informative (p.ex. dans une estimation des déterminants salariaux), on estime souvent une spécification transformée : ( )( )0 1 1 2 2 3 1 1 2 2y x x x x x xβ β β β ε= + + + − − +ɶ ɶ . 1βɶ ( 2βɶ ) est alors l’effet de x1 (x2) sur ˆy quand x2 (x1) prend sa valeur moyenne. • Si x1 est une variable continue et x2 une variable binaire, alors β2 représente le déplacement de l’intercept, et β3 représente le changement de la pente de ˆy par rapport à x1, quand x2 passe de 0 à 1.
  48. 48. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 48 / 50 ind. commune revenu âge âge*commune 1 0 52125.0 48.11629 0 2 0 50955.9 38.7 0 3 0 53382.9 48.6 0 4 0 51286.9 37.5 0 5 0 55243.6 54.7 0 6 0 53384.7 40.7 0 7 0 53488.2 50.1 0 8 0 54134.1 45.9 0 9 0 52706.4 55.9 0 10 0 42144.3 25.1 0 11 0 52665.2 36.9 0 12 0 51656.7 34.5 0 moyenne 0 51931.2 43.1 0 écart type 0 3314.9 9.1 0 13 1 52115.3 42.4 42.4 14 1 44234.5 36.5 36.5 15 1 55381.3 42.7 42.7 16 1 56091.4 41.1 41.1 17 1 52160.0 33.9 33.9 18 1 46920.1 35.9 35.9 19 1 49522.2 34.7 34.7 20 1 53446.7 44.1 44.1 21 1 50557.1 28.5 28.5 22 1 51202.0 48.7 48.7 23 1 51905.6 49.8 49.8 24 1 46352.9 25.4 25.4 moyenne 1 49977.9 38.6 38.6 écart type 0 3576.0 7.5 7.5 Exemple Statland (1) • Les syndics de Statville et Statdorf cherchent à savoir si les salaires moyens croissent à un rythme différent avec l’âge dans leurs deux communes. • Ils collectionnent des données pour des échantillons aléatoires simples dans les deux communes (n = 12).
  49. 49. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 49 / 50 Statistiques de la régression Coefficient de détermination multiple 0.655120807 Coefficient de détermination R^2 0.429183271 Coefficient de détermination R^2 0.343560762 Erreur-type 2769.816554 Observations 24 ANALYSE DE VARIANCE Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F Régression 3 115366070.9 38455356.96 5.012505176 0.009414488 Résidus 20 153437674.8 7671883.742 Total 23 268803745.7 Coefficients Erreur-type Statistique t Probabilité Limite inférieure pour seuil de confiance = 95% Limite supérieure pour seuil de confiance = 95% Constante 39885.01609 4046.721199 9.856131452 4.03454E-09 31443.70361 48326.32857 commune 1476.081811 5953.907628 0.247918158 0.80672532 -10943.55183 13895.71546 âge 279.6979321 92.10788803 3.036633865 0.006515058 87.56424498 471.8316191 âge*commune -34.74704321 144.3440856 -0.240723706 0.812219723 -335.8435288 266.3494424 Exemple Statland (2) • revenu = β0 + β1*commune + β2*âge + β3*âge*commune + ε, où commune = 0 ⇔ Statville ; commune = 1 ⇔ Statdorf ⇒ 1 279.7 34.7 245 revenu commune âge  ∂ = = − = ∂  (différence non significative du point de vue statistique)
  50. 50. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 50 / 50 42000 44000 46000 48000 50000 52000 54000 56000 25 30 35 40 45 50 55 60 âge revenu revenu estimé: Statville revenu estimé: Statdorf revenu observé: Statville revenu observé: Statdorf Exemple Statland (3)

×