(Cours régression)

Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 1 / 50
Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple
4.3.1 Equation et Estimation
4.3.2 Inférence
4.3.3 Coefficients de détermination
4.3.4 Spécifications

Statistique
1e
Chapitre 4.3
4.3.2 Inférence

Statistique
1e
Chapitre 4.3
L’équation de la régression (1)
• Un modèle de régression multiple contient 1 1K n< < − variables
indépendantes, 1 2, ,..., Kx x x . (On utilisera k comme indice pour une
variable particulière.)
→ Les paramètres sont estimables quand 1K n= − , mais
l’ajustement est alors parfait et l’inférence est impossible. En
pratique, on doit veiller à ce que n K>> .
• L’équation de la régression linéaire multiple (ou le « modèle de
régression ») s’écrit donc de la façon suivante :
0 1 1 2 2 ... K Ky x x xβ β β β ε= + + + + + , où E(ε) = 0,
→ ( ) 0 1 1 2 2 ... K KE y x x xβ β β β= + + + + ,
→ ( )1 2 0 1 1 2 2, ,..., ...K K KE y x x x x x xβ β β β= + + + + ,
où 0 1 2, , ,..., Kβ β β β sont les paramètres du modèle, et le terme
d’erreur ε est une variable aléatoire.

Statistique
1e
Chapitre 4.3
• Tout comme dans le cas de la régression linéaire simple, β0
représente le point, où 1 2 ... 0Kx x x= = = = (« constante »).
• La valeur d’un paramètre βk>0 donne le nombre d’unités
supplémentaires de y associées à une augmentation par une unité
de xk lorsque toutes les autres variables indépendantes sont
constantes (variation « ceteris paribus »).
• ( )1 2, ,... KE y x x x est la moyenne de y pour un vecteur de valeurs
des variables indépendantes { }1 2, ,..., Kx x x donné.

Statistique
1e
Chapitre 4.3
• Si K > 2, on ne peut plus représenter le modèle de régression de
façon graphique.
• Avec K = 2, une représentation graphique est possible, puisqu’il
n’y a que trois dimensions : x1, x2 et y. L’équivalent à la droite de
régression en régression linéaire simple est alors appelé
« surface de réponse » :

Statistique
1e
Chapitre 4.3
L’équation estimée
• Les statistiques d’échantillon 0 1 2, , ,..., Kb b b b servent
d’estimations de 0 1 2, , ,..., Kβ β β β .
• Ainsi, l’équation estimée de la régression est donnée par :
0 1 1 2 2ˆ ... K Ky b b x b x b x= + + + + ,
où ˆy est l’estimation ponctuelle de ( )1 2, ,... KE y x x x .

Statistique
1e
Chapitre 4.3
Processus
d’estimation

Statistique
1e
Chapitre 4.3
Estimation par les moindres carrés
• Tout comme pour la régression linéaire simple, la méthode la plus
répandue pour calculer 0 1 2, , ,..., Kb b b b est l’estimateur des moindres
carrés.
• Formellement, la méthode est alors la suivante :
{ } ( )
0 1 2
2
0 1 2
1, , ,...
ˆ, , ,..., argmin
K
n
K i i
ib b b b
b b b b y y
=
= −∑
( )
0 1 2
2
0 1 1 2 2
1, , ,...
...argmin
K
n
i i i K Ki
ib b b b
y b b x b x b x
=
= − − − − −∑
L’estimateur des moindres carrés pour une régression multiple suit
la même logique que celle de la régression linéaire simple, mais sa
formulation est plus compliquée, nécessitant l’utilisation de l’algèbre
matricielle. De plus, l’estimation est trop compliquée pour être faite
« à la main » avec un effort raisonnable et est donc toujours
effectuée avec l’aide d’un ordinateur.

Statistique
1e
Chapitre 4.3
4.3.2 Inférence

Statistique
1e
Chapitre 4.3
Hypothèses de l’estimateur MCO
• Tout comme pour la régression linéaire simple, la légitimité des
tests d’hypothèse repose sur les cinq hypothèses faites à propos
du terme d’erreur du modèle de régression, ε.
• En fait, on peut démontrer que, sous condition que ces hypothèses
soient satisfaites, l’estimateur des MCO est le meilleur des
estimateurs concevables, dans le sens suivant (théorème de
Gauss-Markov):
o Les coefficients estimés 0 1 2, , ,..., Kb b b b sont des estimations non-
biaisées des paramètres 0 1 2, , ,..., Kβ β β β .
o L’estimateur MCO implique les variances des coefficients
estimés 0 1 2
2 2 2 2
, , ,..., kb b b bs s s s les plus petites de tous les estimateurs
linéaires et non-biaisés concevables.

Statistique
1e
Chapitre 4.3
Test du t de Student (1)
• Si les hypothèses sur ε sont satisfaites, on peut se servir de la loi
du t de Student pour tester des hypothèses sur des paramètres
individuels βk.
• Statistique de test : 1
k
n Kk k
k
b
b
t
s
β − −−
= ∼ t
o Le calcul de l’erreur type des coefficients estimés kbs est trop
compliqué pour être effectué « à la main », mais sa logique est
la même que dans le cas de la régression linéaire simple.
o Notamment, kbs tend à diminuer avec n.
• L’intervalle de confiance autour d’un paramètre estimé individuel
est alors donné par : 1
* k
n K
k bb t sα
− −
±

Statistique
1e
Chapitre 4.3
Test du t de Student (2)
• Dans la plupart des applications, l’hypothèse la plus importante
concerne la signification statistique de xk comme facteur
« explicatif » des variations de y.
→ H0 : βk = 0 ; H1 : βk ≠ 0
→ statistique de test : 1
k
n Kk
k
b
b
t
s
− −
= ∼ t
• Ces statistiques de test sont fournies par tous les logiciels
statistiques pour chacun de coefficients estimés 0 1 2, , ,..., Kb b b b .
Puisque 0.05 1.96t∞
= , une façon de tester la significativité statistique
à 5% d’un coefficient estimé d’une régression multiple basée sur
un grand échantillon est de vérifier si 1.96kt > . Pour tester la
significativité à 1%, on vérifie si 2.58kt > .

Statistique
1e
Chapitre 4.3
Test du F de Fisher
• Si les hypothèses sur ε sont satisfaites, on peut se servir de la loi
du F de Fisher pour déterminer s’il existe une relation significative
entre y et l’ensemble des variables indépendantes ; on parle du
test de signification globale.
→ H0 : 1 2 ... 0kβ β β= = = =
H1 : au moins un des paramètres n’est pas égal à zéro
• Statistique de test : ( ), 1
1
K n K
SCReg
KF
SCRes
n K
− −
=
− −
∼ F

Statistique
1e
Chapitre 4.3
Multicolinéarité (1)
• Il est possible qu’aucun des coefficients estimés bk soit
individuellement statistiquement significatif (selon le test du t de
Student), mais que le modèle soit quand même globalement
statistiquement significatif (selon le test du F de Fisher).
• L’explication de ce phénomène apparemment paradoxal est la
multicolinéarité : le fait que les variables indépendantes xk, tout en
étant indépendantes de y, peuvent parfaitement être corrélées
entre elles.
• Plus les variables indépendantes sont corrélées, plus il devient
difficile de déterminer l’effet propre d’une variable indépendante
particulière sur la variable dépendante. Autrement dit, quand la
multicolinéarité est forte, les erreurs type des coefficients kbs sont
grands, et le risque peut être fort que les coefficients estimés
prennent le signe opposé à celui du vrai paramètre.

Statistique
1e
Chapitre 4.3
Multicolinéarité (2)
• En pratique il peut être utile d’inspecter la matrice de corrélation
entre les variables indépendante. Comme valeur pratique (très)
approximative, on utilise parfois un seuil de 0.7ˆ k lx xρ = pour
déterminer s’il y a un problème potentiel de multicolinéarité entre
deux variables.
• La multicolinéarité peut prendre la forme d’une relation linéaire
entre plusieurs variables indépendantes, càd elle peut être
présente même si les corrélations entre paires de variables
individuelles sont toutes relativement faibles. Des tests plus
avancés existent pour vérifier la présence de ce phénomène.
• Le meilleur moyen pour pallier au problème de multicolinéarité est
d’augmenter la taille de l’échantillon n.
• S’il y a colinéarité parfaite entre deux ou plusieurs variables
indépendantes, leurs paramètres ne peuvent pas être estimés.

Statistique
1e
Chapitre 4.3
4.3.2 Inférence

Statistique
1e
Chapitre 4.3
R-carré (1)
• La définition du R-carré (aussi : « coefficient de détermination
multiple ») est identique à celle pour la régression linéaire simple :
( )
( )
2
2 1
2
1
ˆ
n
i
i
n
i
i
y y
SCReg SCReg
R
SCReg SCRes SCTot
y y
=
=
−
= = =
+
−
∑
∑
( )
( ) ( )
2 2
1 1
2 2
1 1
ˆ
1 1 1
n n
i i i
i i
n n
i i
i i
y y u
SCTot
y y y y
= =
= =
−
= − = − = −
− −
∑ ∑
∑ ∑
S C R e s

Statistique
1e
Chapitre 4.3
R-carré (2)
• Le R-carré exprime le pourcentage de la somme des carrés totaux
« expliqué » (dans le sens d’une explication géométrique et non
causale !) par l’équation estimée de la régression.
• Le R-carré ne peut pas être décomposé en « contributions
explicatives » de chacune des K variables explicatives.
→→→→ Exception : cas de zéro colinéarité entre les variables
explicatives (qui sont donc « orthogonales »)
→→→→ Exemple : vecteurs de variables binaires par pays et par
année dans un modèle des différences de taux de chômage
⇒ décomposition du R-carré en une composante
« conjoncturelle » (contribution au R-carré des différences
temporelles) et une composante « structurelle » (contribution
au R-carré des différences inter-pays)

Statistique
1e
Chapitre 4.3
R-carré et test du F de Fisher
• Il existe une relation mathématique entre le R-carré et la
statistique de test de signification globale (du F de Fisher) :
( )
( )
2
2
1
1
1
SCReg
n K RKF
SCRes K R
n K
− −
= =
−
− −
• Étant donné n et K, un R-carré élevé implique une statistique F
élevée.
• De plus, la statistique F varie en fonction de n et de K. Pour un R-
carré donné, plus n K− est grand, plus la statistique F est élevée.
Intuitivement, cela représente le fait que plus il y a d’observations
par rapport au nombre de variables indépendantes, plus il semble
invraisemblable qu’une certaine qualité d’ajustement du modèle
(càd un certain R-carré) se soit produit aléatoirement.

Statistique
1e
Chapitre 4.3
R-carré ajusté (1)
• Puisque la méthode des MCO minimise la somme des carrés des
résidus (SCRes), le R-carré augmente si on ajoute des variables
indépendantes (ce qui ne change pas SCTot) même si ces
variables ne sont pas statistiquement significatives.
• La valeur du R-carré dépend donc de K, ce qui complique la
comparaison de la qualité d’ajustement de différents modèles
de régression si le nombre de variables indépendantes n’est pas
identique.
• Pour cette raison, il est courant de calculer le « R-carré ajusté » :
( )
( )
( )2 21 1
1 1 1
1 1
n K n
R R
SCTot n n K
− − −
= − = − −
− − −
S C R e s
, 2
1R ≤

Statistique
1e
Chapitre 4.3
R-carré ajusté (2)
• ( )1n K− −S C R e s est la variance estimée des résidus, 2
us ; et
( )1SCTot n − est la variance estimée de y. On peut donc aussi
écrire le R-carré ajusté de la façon suivante : ( )2 2 2
1 u yR s s= − .
• Si l’ajout d’une variable indépendante diminue SCRes
proportionnellement moins qu’il n’augmente K, alors 2
us augmente,
et le R-carré ajusté diminue. Le R-carré ajusté peut donc diminuer
ou augmenter quand on ajoute des variables indépendantes. Il est
même possible que le R-carré ajusté prenne des valeurs négatives
(si K est grand et le R-carré est petit).
• On peut démontrer que l’ajout d’une variable indépendante
augmente le R-carré ajusté si la statistique du t de Student de
cette variable est supérieure à 1. Pour augmenter le R-carré
ajusté, une variable indépendante supplémentaire n’a donc pas
besoin d’être statistiquement significative, même au seuil de 10%.

Statistique
1e
Chapitre 4.3
ind. revenu âge expérience
1 52125.0 48.1 5.5
2 50955.9 38.7 2.5
3 53382.9 48.6 18.9
4 51286.9 37.5 13.5
5 55243.6 54.7 25.5
6 53384.7 40.7 7.3
7 53488.2 50.1 2.3
8 54134.1 45.9 18.8
9 52706.4 55.9 19.0
10 42144.3 25.1 5.5
11 52665.2 36.9 5.0
12 51656.7 34.5 15.5
Moyenne 51931.2 43.1 11.6
Ecart type 3314.9 9.1 7.8
Exemple Statville (1)
• Le syndic cherche à savoir si
l’effet de l’âge sur le revenu
des habitants de sa commune
reste statistiquement
significatif si on contrôle aussi
pour la durée d’expérience
des travailleurs dans leur
fonction actuelle. Il recense
donc la variable
« expérience » pour les 12
individus de son échantillon
aléatoire simple.

Statistique
1e
Chapitre 4.3
RAPPORT DÉTAILLÉ
Statistiques de la régression
Coefficient de détermination multiple 0.766580532
Coefficient de détermination R^2 0.587645712
Erreur-type 2353.302134
Observations 12
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 2 71030184.72 35515092.36 6.4129458 0.018565956
Résidus 9 49842278.42 5538030.936
Total 11 120872463.1
Coefficients Erreur-type Statistique t Probabilité
Limite inférieure
pour seuil de
confiance = 95%
Limite supérieure
pour seuil de
confiance = 95%
Constante 40034.4147 3500.343207 11.43728267 1.158E-06 32116.08826 47952.74114
âge 269.9022708 89.3203627 3.021732813 0.0144387 67.84557296 471.9589687
expérience 23.47323377 103.1785424 0.227501118 0.8251181 -209.9328446 256.8793121
Excel : Outils - Utilitaire d’analyse - Régression
linéaire – cocher Intitulé présent
2
R2
R2
R SCRessu

Statistique
1e
Chapitre 4.3
• Le syndic conclut que, étant donné l’âge, les années d’expérience
dans la fonction ne constituent pas un déterminant
statistiquement significatif du salaire. Le modèle prédit donc
que deux travailleurs qui ont le même âge mais des durées
d’expérience différentes auront le même salaire en moyenne.
• On note que par rapport à l’estimation de la régression linéaire
simple (avec l’âge comme unique variable indépendante), le R-
carré a augmenté (de 0.585 à 0.588). Par contre, puisque la valeur
de la statistique t de la variable « expérience » est inférieure à 1, le
R-carré ajusté a diminué (de 0.544 à 0.496).
• Malgré l’augmentation du R-carré, la valeur de la statistique F a
diminué (de 14.1 à 6.4) et celle de l’erreur type de la régression a
augmenté (de 2239 à 2353). L’augmentation de K (de 1 à 2) a
donc plus que compensé la diminution de SCRes (de 50.1 mn à
49.8 mn).

Statistique
1e
Chapitre 4.3
• Corrélation entre les variables « âge » et « expérience » :
12 0.77ˆρ = ⇒ La multicolinéarité pourrait jouer un rôle (càd les
variations dans le valeurs de la variable
« expérience » ne sont pas suffisamment
indépendantes de l’âge, ainsi qu’avec seulement 12
observations on arrive pas à identifier statis-
tiquement un effet spécifique dû à « expérience ».
→ Excel : =COEFFICIENT.CORRELATION(âge;expérience)
• Prédiction du salaire pour une personne de 55 ans avec 15 ans
d’expérience :
( ) ( )1 2 1 2ˆ ˆ55, 15 55, 15y x x E y x x= = = = =
40034 269.9 * 55 23.5 *15 55231= + + =
→ La construction d’un intervalle de confiance autour de cette
prévision n’est pas possible avec Excel.

Statistique
1e
Chapitre 4.3
• Dans les tableaux publiés de résultats de
la régression, il est utile de présenter les
coefficients ainsi que leurs erreurs types et
des symboles indiquant le niveau de
signification statistique du test bilatéral de
H0 : 0kβ = .
• Une telle présentation des résultats facilite
des tests d’hypothèse alternatifs, H0 : k zβ = .
o Le syndic pourrait s’intéresser si la véritable hausse salariale
moyenne par année d’âge est égale à 500 francs (α = 5%) :
1
1
1
500
500 269.9 500
2.58
89.3x
b
b
t
s=
− −
= = = − ; 1 9
0.05 2.26n K
t tα
− −
= =
o Intervalle de confiance de 95% approximatif pour n ≥ 60 : b ± 2 1bs
Variables indépendantes :
269.9*
(89.3)
23.4
(103.2)
40034.4*
(3500.3)
R-carré 0.59
R-carré ajusté 0.50
Erreur type de la régression 2353.3
Observations 12
expérience
Constante
Les déterminants salariaux à Statville
variable dépendante: salaires;
estimateur: MCO
âge
Remarques : erreurs types entre paren-
thèses ; * : significatif à 5%

Statistique
1e
Chapitre 4.3
4.3.2 Inférence

Statistique
1e
Chapitre 4.3
Bases
• Par « spécification », on entend la formulation du modèle
empirique, càd de l’équation de la régression.
• La spécification linéaire est suffisamment flexible pour permettre
l’estimation d’une large gamme de modèles théoriques, dont
certains sont non linéaires à la base (mais « intrinsèquement
linéaires »). Nous présenterons quelques spécifications
particulières très utiles :
o spécification polynomiale
o variables indépendantes binaires
o spécification logarithmique
o interactions
• Il existe des modèles théoriques non linéaires qui ne peuvent être
transformés en une spécification linéaire et nécessitent donc
l’utilisation d’un estimateur non linéaire (pas traité dans ce cours).
→ Exemple : ( ) 1
0 1 3y xβ β β
−
= + +

Statistique
1e
Chapitre 4.3
Spécification polynomiale
• La spécification de base de la régression linéaire multiple peut être
considérée comme un cas particulier d’une classe de fonctions
plus large, les fonctions polynomiales :
2 3
0 1 2 3 ... K
Ky x x x xβ β β β β ε= + + + + + +
→ K : le « degré » du polynôme
→ K = 2 : polynôme du deuxième degré (ou « parabole »)
• Si ε satisfait les hypothèses du modèle des MCO, cette
spécification peut être estimée avec la méthode des moindres
carrés :
( ) 2 3
0 1 2 3ˆ ... K
Ky E y x b b x b x b x b x= = + + + + +

Statistique
1e
Chapitre 4.3
• Le syndic se rend compte que sa spécification initiale n’est pas
satisfaisante. En particulier, l’hypothèse d’une relation linéaire
entre l’âge et le revenu des habitants n’est pas plausible.
• Il décide donc d’estimer un modèle polynomial du deuxième degré
pour la variable indépendante « âge » :
2
0 1 1 2 1 3 2y x x xβ β β β ε= + + + + ,
où x1 = âge, et x2 = expérience

Statistique
1e
Chapitre 4.3
Observations 12
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F
Valeur critique de
F
Régression 3 110535907.7 36845302.56 28.5165036 0.000127026
Résidus 8 10336555.45 1292069.432
Total 11 120872463.1
Limite inférieure
pour seuil de
confiance = 95%
Limite supérieure
pour seuil de
confiance = 95%
Constante 3932.56245 6744.300766 0.583094169 0.57589379 -11619.82299 19484.94789
âge 2077.513837 329.7370239 6.300517339 0.00023266 1317.138897 2837.888777
âge^2 -22.07705908 3.992584707 -5.529515516 0.00055414 -31.28397592 -12.87014225
expérience 97.9923741 51.6272887 1.89807322 0.09424716 -21.06036705 217.0451152
• b1 et b2 sont statistiquement significatifs
• « expérience » devient statistiquement significative (à 10%)
⇒ spécification parabolique semble justifiée

Statistique
1e
Chapitre 4.3
40000
44000
48000
52000
56000
25 30 35 40 45 50 55
âge
revenu
• Prédictions impliquées par les coefficients estimés pour une
personne avec dix ans d’expérience :
( ) 2
2 1 1ˆ 10 3932.6 2077.5 * 22.1* 98 *10y x x x= = + − +
• Prédiction de l’âge
auquel le revenu est
maximal, max
1x :
max
1 2 1
1
ˆ
2 0
y
b b x
x
∂
= + =
∂
∴ max
1 1 22x b b= −
∴
( )
max
1
2077.5
47
2 * 22.1
x
−
= =
−

Statistique
1e
Chapitre 4.3
Variables indépendantes binaires
• Une variable indépendante binaire (aussi : variable « muette »,
« indicatrice », ou « dummy ») ne prend que deux valeurs : 0 ou 1.
• Les variables binaires sont utilisées pour distinguer deux niveaux
mutuellement exclusifs des valeurs d’une variable quantitative ou
qualitative. Quelques exemples :
o dimension temporelle : bonne/mauvaise conjoncture ; été/non-
été ; avant/après campagne publicitaire…
o dimension spatiale : nord/sud ; ville/campagne ;
Suisse/étranger…
o variables qualitatives : homme/femme ; employé/non-employé…
o variables quantitatives groupées : ménages à plus/moins de
50000 de revenu ; firmes avec plus/moins de 10 employés…
• Le niveau pour laquelle la variable binaire est définie comme égale
à zéro, est appelée le « niveau de référence ».

Statistique
1e
Chapitre 4.3
ind. revenu âge expérience femme
1 52125.0 48.1 5.5 1
2 50955.9 38.7 2.5 0
3 53382.9 48.6 18.9 1
4 51286.9 37.5 13.5 0
5 55243.6 54.7 25.5 1
6 53384.7 40.7 7.3 0
7 53488.2 50.1 2.3 0
8 54134.1 45.9 18.8 1
9 52706.4 55.9 19 1
10 42144.3 25.1 5.5 0
11 52665.2 36.9 5 0
12 51656.7 34.5 15.5 0
Moyenne 51931.2 43.1 11.6 0.42
Ecart type 3314.9 9.1 7.8 0.51
• Le syndic cherche à savoir si, au-delà de l’âge et de l’expérience
(càd « en contrôlant pour » x1, 2
1x et x2), le sexe des travailleurs
influence leur salaire moyen. Il définit alors la variable muette x3
suivante :
o individu i est une femme ⇔ x3 = 1
o individu i est un homme ⇔ x3 = 0 (niveau de référence)

Statistique
1e
Chapitre 4.3
Observations 12
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F
Valeur critique de
F
Régression 4 114453940.8 28613485.21 31.2056868 0.000148858
Résidus 7 6418522.304 916931.7578
Total 11 120872463.1
Limite inférieure
pour seuil de
confiance = 95%
Limite supérieure
pour seuil de
confiance = 95%
Constante 3468.379446 5685.929397 0.609993407 0.56113791 -9976.707094 16913.46599
âge 2038.603283 278.4121524 7.322249642 0.00015968 1380.263156 2696.943411
âge^2 -20.82811623 3.417246482 -6.094999684 0.00049351 -28.90862013 -12.74761233
expérience 148.3984189 49.86108402 2.976237317 0.02062455 30.49569049 266.3011474
femme -2054.157981 993.7297586 -2.067119318 0.07754583 -4403.955467 295.6395053
• En moyenne, une femme gagne 2054.2 francs de moins qu’un
homme du même âge et avec le même nombre d’années
d’expérience.
• Cet effet est statistiquement significatif au seuil de 10% mais non
au seuil de 5%.

Statistique
1e
Chapitre 4.3
40000
44000
48000
52000
56000
25 30 35 40 45 50 55
âge
revenu
femmes
hommes
40000
44000
48000
52000
56000
25 30 35 40 45 50 55
âge
revenu
femmes
hommes
• Prédictions impliquées par les coefficients estimés
o pour une femme avec dix ans d’expérience :
( ) 2
2 3 1 1ˆ 10, 1 3468 2038.6 * 20.8 * 148 *10 2054.2y x x x x= = = + − + −
o pour un homme avec dix ans d’expérience :
( ) 2
2 3 1 1ˆ 10, 0 3468 2038.6 * 20.8 * 148 *10y x x x x= = = + − +
b3 = 2054.2

Statistique
1e
Chapitre 4.3
• Plutôt qu’estimer les paramètres du modèle de régression (des
corrélations conditionnelles), le syndic pourrait s’intéresser aux
corrélations « pures » ˆklρ entre toutes les paires de variables
indépendantes kl (les corrélations inconditionnelles).
→ examiner la matrice de corrélation
• Excel : Outils - Utilitaire d’analyse – Analyse de
corrélation – Intitulés en première ligne
revenu âge âge^2 expérience femme
revenu 1
âge 0.765032264 1
âge^2 0.69672771 0.993137906 1
expérience 0.411455189 0.482058499 0.50549735 1
femme 0.422675732 0.738416719 0.75563342 0.667095592 1
!

Statistique
1e
Chapitre 4.3
Variables binaires pour niveaux multiples
• Des variables indépendantes binaires peuvent aussi servir pour
représenter des variables qualitatives ou des variables
quantitatives groupées avec C >>>> 2 niveaux. Dans ce cas on crée
C − 1 variables binaires, une pour chaque niveau sauf un, appelé
« catégorie de référence ».
• Exemple Statville : Trois tranches d’âge
o 0 − 30 : 1 20 ; 0x x= =
o 31 − 55 : 1 21 ; 0x x= =
o 56 − 65 : 1 20 ; 1x x= =
⇒ β0 est le salaire moyen des jeunes (0 − 30)
⇒ β1 est la différence entre le salaire moyen du groupe des 31 à
55 par rapport à celui des jeunes.
⇒ β2 est la différence entre le salaire moyen du groupe des 56 à
65 par rapport à celui des jeunes.
( ) 0 1 1 2 2E y x xβ β β= + +

Statistique
1e
Chapitre 4.3
Spécifications logarithmiques (1)
• Un modèle non linéaire mais « intrinsèquement linéaire » est
l’équation Cobb-Douglas,
1
k
K
k
k
y a xβ
=
= ∏ , souvent utilisée en
microéconomie pour représenter l’origine des courbes d’offre
(fonction de production) et de demande (fonction d’utilité).
→ version stochastique (K = 2) : 1 2
1 2y ax x eβ β ε
= , où ε satisfait
les cinq hypothèses du modèle des MCO
• Ce modèle devient linéaire quand on le transforme en logarithmes
naturels : 0 1 1 2 2ln ln lny x xβ β β ε= + + + , où β0 = lna.
o Puisque pour estimer ce modèle on transforme la variable
dépendante ainsi que les variables indépendantes, on parle de
la « double transformation logarithmique » ou de la
« spécification log-log ».

Statistique
1e
Chapitre 4.3
• Un grand atout de la spécification log-log est que les coefficients
estimés peuvent être interprétés comme des élasticités. On parle
donc aussi du « modèle à élasticité constante ».)
o élasticité de y par rapport à xk :
ln
ln
k
k
kk k
k
y
xy yy
xx y x
x
β
∂
 ∂ ∂ 
= = =   ∂∂ ∂  
o Tout comme les coefficients standardisés, les coefficients d’un
modèle log-log peuvent être comparés à travers les variables
indépendantes k, puisque par définition les élasticités sont toutes
exprimées dans les mêmes unités (càd en termes de déviations
en pourcentage de y et de xk).
( )
( )
ln 1
ln
y y
y
y y y
∂ ∂
= ⇒ = ∂
∂

Statistique
1e
Chapitre 4.3
• Un autre modèle « intrinsèquement linéaire » est donné par
0 1 1 2 2 ... k kx x x
y eβ β β β+ + + +
= .
→ version stochastique (K = 2) : 0 1 1 2 2x x
y eβ β β ε+ + +
= , où ε satisfait
les cinq hypothèses du modèle des MCO
• Ce modèle devient linéaire quand on le transforme en logarithmes
naturels : 0 1 1 2 2lny x xβ β β ε= + + + .
o Puisque pour estimer ce modèle on ne transforme que la
variable dépendante, on parle de la « spécification semi-
logarithmique ».

Statistique
1e
Chapitre 4.3
• Les paramètres d’une telle spécification sont des semi-elasticités :
il représentent la variation en pourcentage de la variable
dépendante par rapport à une variation d’une unité de la variable
indépendante en question. Puisque ces semi-elasticités dépendent
des unités de mesure des variables indépendantes, elle ne sont
pas directement comparables à travers les différentes variables
indépendantes.
• La spécification semi-logarithmique est utilisée en macroéconomie
afin de modéliser des taux de croissance stables :
o Soit 0 1x
y eβ β ε+ +
= , où y est un agrégat économique (PIB, niveau
des prix,…), et x est la variable « temps » (en mois, trimestres,
années,…).
o Alors 1
lnd y
dx
β = est le taux de croissance moyen de y.

Statistique
1e
Chapitre 4.3
Observations 12
ANALYSE DE VARIANCE
Régression 1 0.035773766 0.035773766 21.422889 0.000938341
Résidus 10 0.016698853 0.001669885
Total 11 0.052472619
Limite inférieure pour seuil
de confiance = 95%
Limite supérieure pour
seuil de confiance = 95%
Constante 9.92017321 0.202446229 49.00152131 3.025E-13 9.469094904 10.37125152
ln(âge) 0.25009325 0.054033481 4.628486685 0.00093834 0.129699151 0.370487348
• Spécification log-log (régression simple) :
ln(revenu) = β0 + β1*ln(âge) + ε
→ par pourcent d’âge supplémentaire, le revenu moyen augmente
de 0.25 pourcent
→ R-carré (0.68) plus élevé que dans la régression avec y et x non
transformées (0.59, voir ch. 4.2.4) ⇒ spécification log-log (non-
linéaire) mieux ajustée aux données

Statistique
1e
Chapitre 4.3
• Spécification semi-logarithmique (régression simple) :
ln(revenu) = β0 + β1*âge + ε
→ par année d’âge supplémentaire, le revenu moyen augmente de 0.57
pourcent
→ R-carré (0.57) moins élevé que dans la régression avec y et x non
transformés (0.59, voir. ch. 4.2.4) ⇒ spécification semi-logarithmique
moins bien ajustée aux données
Observations 12
ANALYSE DE VARIANCE
Régression 1 0.029990593 0.029990593 13.3398092 0.004444832
Résidus 10 0.022482026 0.002248203
Total 11 0.052472619
de confiance = 95%
Constante 10.60757468 0.069273957 153.1249996 3.4657E-18 10.45322269 10.76192668
âge 0.005758884 0.001576753 3.652370354 0.00444483 0.002245661 0.009272108

Statistique
1e
Chapitre 4.3
15000
25000
35000
45000
55000
0 10 20 30 40 50 60
âge
revenu
ˆ 39885 279.7y x= +
( )( )ˆ exp 9.92 0.25 * lny x= +
ˆ exp(10.61 0.006 )y x= +

Statistique
1e
Chapitre 4.3
Interactions (1)
• L’équation de régression linéaire multiple implique des effets isolés
de chaque variable indépendante : k
k
y
k
x
β
∂
= ∀
∂
• En ajoutant des produits de variables indépendantes (« termes
d’interaction »), on peut modéliser des interdépendances entre
les effets des variables indépendantes :
0 1 1 2 2 3 1 2y x x x xβ β β β ε= + + + +
⇒ 1 3 2
1
y
x
x
β β
∂
= +
∂
, 2 3 1
2
y
x
x
β β
∂
= +
∂

Statistique
1e
Chapitre 4.3
Interactions (2)
• 1β (β2) représente l’effet de x1 (x2) sur ˆy quand x2 (x1) est égal à
zéro. Puisque une valeur de zéro n’est souvent pas très réaliste ou
informative (p.ex. dans une estimation des déterminants
salariaux), on estime souvent une spécification transformée :
( )( )0 1 1 2 2 3 1 1 2 2y x x x x x xβ β β β ε= + + + − − +ɶ ɶ .
1βɶ ( 2βɶ ) est alors l’effet de x1 (x2) sur ˆy quand x2 (x1) prend sa
valeur moyenne.
• Si x1 est une variable continue et x2 une variable binaire, alors β2
représente le déplacement de l’intercept, et β3 représente le
changement de la pente de ˆy par rapport à x1, quand x2 passe de
0 à 1.

Statistique
1e
Chapitre 4.3
ind. commune revenu âge âge*commune
1 0 52125.0 48.11629 0
2 0 50955.9 38.7 0
3 0 53382.9 48.6 0
4 0 51286.9 37.5 0
5 0 55243.6 54.7 0
6 0 53384.7 40.7 0
7 0 53488.2 50.1 0
8 0 54134.1 45.9 0
9 0 52706.4 55.9 0
10 0 42144.3 25.1 0
11 0 52665.2 36.9 0
12 0 51656.7 34.5 0
moyenne 0 51931.2 43.1 0
écart type 0 3314.9 9.1 0
13 1 52115.3 42.4 42.4
14 1 44234.5 36.5 36.5
15 1 55381.3 42.7 42.7
16 1 56091.4 41.1 41.1
17 1 52160.0 33.9 33.9
18 1 46920.1 35.9 35.9
19 1 49522.2 34.7 34.7
20 1 53446.7 44.1 44.1
21 1 50557.1 28.5 28.5
22 1 51202.0 48.7 48.7
23 1 51905.6 49.8 49.8
24 1 46352.9 25.4 25.4
moyenne 1 49977.9 38.6 38.6
écart type 0 3576.0 7.5 7.5
Exemple Statland (1)
• Les syndics de Statville et
Statdorf cherchent à savoir si les
salaires moyens croissent à un
rythme différent avec l’âge dans
leurs deux communes.
• Ils collectionnent des données
pour des échantillons aléatoires
simples dans les deux communes
(n = 12).

Statistique
1e
Chapitre 4.3
Observations 24
ANALYSE DE VARIANCE
Régression 3 115366070.9 38455356.96 5.012505176 0.009414488
Résidus 20 153437674.8 7671883.742
Total 23 268803745.7
de confiance = 95%
Constante 39885.01609 4046.721199 9.856131452 4.03454E-09 31443.70361 48326.32857
commune 1476.081811 5953.907628 0.247918158 0.80672532 -10943.55183 13895.71546
âge 279.6979321 92.10788803 3.036633865 0.006515058 87.56424498 471.8316191
âge*commune -34.74704321 144.3440856 -0.240723706 0.812219723 -335.8435288 266.3494424
• revenu = β0 + β1*commune + β2*âge + β3*âge*commune + ε,
où commune = 0 ⇔ Statville ; commune = 1 ⇔ Statdorf
⇒ 1 279.7 34.7 245
revenu
commune
âge
 ∂
= = − = ∂ 
(différence non significative du point de vue statistique)

Statistique
1e
Chapitre 4.3
42000
44000
46000
48000
50000
52000
54000
56000
25 30 35 40 45 50 55 60
âge
revenu
revenu estimé: Statville
revenu estimé: Statdorf
revenu observé: Statville
revenu observé: Statdorf

(Cours régression)

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à (Cours régression)

Similaire à (Cours régression) (20)

Plus de mohamedchaouche

Plus de mohamedchaouche (14)

(Cours régression)