SlideShare une entreprise Scribd logo
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 1 / 50
Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple
4.3.1 Equation et Estimation
4.3.2 Inférence
4.3.3 Coefficients de détermination
4.3.4 Spécifications
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 2 / 50
Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple
4.3.1 Equation et Estimation
4.3.2 Inférence
4.3.3 Coefficients de détermination
4.3.4 Spécifications
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 3 / 50
L’équation de la régression (1)
• Un modèle de régression multiple contient 1 1K n< < − variables
indépendantes, 1 2, ,..., Kx x x . (On utilisera k comme indice pour une
variable particulière.)
→ Les paramètres sont estimables quand 1K n= − , mais
l’ajustement est alors parfait et l’inférence est impossible. En
pratique, on doit veiller à ce que n K>> .
• L’équation de la régression linéaire multiple (ou le « modèle de
régression ») s’écrit donc de la façon suivante :
0 1 1 2 2 ... K Ky x x xβ β β β ε= + + + + + , où E(ε) = 0,
→ ( ) 0 1 1 2 2 ... K KE y x x xβ β β β= + + + + ,
→ ( )1 2 0 1 1 2 2, ,..., ...K K KE y x x x x x xβ β β β= + + + + ,
où 0 1 2, , ,..., Kβ β β β sont les paramètres du modèle, et le terme
d’erreur ε est une variable aléatoire.
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 4 / 50
L’équation de la régression (2)
• Tout comme dans le cas de la régression linéaire simple, β0
représente le point, où 1 2 ... 0Kx x x= = = = (« constante »).
• La valeur d’un paramètre βk>0 donne le nombre d’unités
supplémentaires de y associées à une augmentation par une unité
de xk lorsque toutes les autres variables indépendantes sont
constantes (variation « ceteris paribus »).
• ( )1 2, ,... KE y x x x est la moyenne de y pour un vecteur de valeurs
des variables indépendantes { }1 2, ,..., Kx x x donné.
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 5 / 50
L’équation de la régression (3)
• Si K > 2, on ne peut plus représenter le modèle de régression de
façon graphique.
• Avec K = 2, une représentation graphique est possible, puisqu’il
n’y a que trois dimensions : x1, x2 et y. L’équivalent à la droite de
régression en régression linéaire simple est alors appelé
« surface de réponse » :
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 6 / 50
L’équation estimée
• Les statistiques d’échantillon 0 1 2, , ,..., Kb b b b servent
d’estimations de 0 1 2, , ,..., Kβ β β β .
• Ainsi, l’équation estimée de la régression est donnée par :
0 1 1 2 2ˆ ... K Ky b b x b x b x= + + + + ,
où ˆy est l’estimation ponctuelle de ( )1 2, ,... KE y x x x .
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 7 / 50
Processus
d’estimation
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 8 / 50
Estimation par les moindres carrés
• Tout comme pour la régression linéaire simple, la méthode la plus
répandue pour calculer 0 1 2, , ,..., Kb b b b est l’estimateur des moindres
carrés.
• Formellement, la méthode est alors la suivante :
{ } ( )
0 1 2
2
0 1 2
1, , ,...
ˆ, , ,..., argmin
K
n
K i i
ib b b b
b b b b y y
=
= −∑
( )
0 1 2
2
0 1 1 2 2
1, , ,...
...argmin
K
n
i i i K Ki
ib b b b
y b b x b x b x
=
= − − − − −∑
L’estimateur des moindres carrés pour une régression multiple suit
la même logique que celle de la régression linéaire simple, mais sa
formulation est plus compliquée, nécessitant l’utilisation de l’algèbre
matricielle. De plus, l’estimation est trop compliquée pour être faite
« à la main » avec un effort raisonnable et est donc toujours
effectuée avec l’aide d’un ordinateur.
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 9 / 50
Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple
4.3.1 Equation et Estimation
4.3.2 Inférence
4.3.3 Coefficients de détermination
4.3.4 Spécifications
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 10 / 50
Hypothèses de l’estimateur MCO
• Tout comme pour la régression linéaire simple, la légitimité des
tests d’hypothèse repose sur les cinq hypothèses faites à propos
du terme d’erreur du modèle de régression, ε.
• En fait, on peut démontrer que, sous condition que ces hypothèses
soient satisfaites, l’estimateur des MCO est le meilleur des
estimateurs concevables, dans le sens suivant (théorème de
Gauss-Markov):
o Les coefficients estimés 0 1 2, , ,..., Kb b b b sont des estimations non-
biaisées des paramètres 0 1 2, , ,..., Kβ β β β .
o L’estimateur MCO implique les variances des coefficients
estimés 0 1 2
2 2 2 2
, , ,..., kb b b bs s s s les plus petites de tous les estimateurs
linéaires et non-biaisés concevables.
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 11 / 50
Test du t de Student (1)
• Si les hypothèses sur ε sont satisfaites, on peut se servir de la loi
du t de Student pour tester des hypothèses sur des paramètres
individuels βk.
• Statistique de test : 1
k
n Kk k
k
b
b
t
s
β − −−
= ∼ t
o Le calcul de l’erreur type des coefficients estimés kbs est trop
compliqué pour être effectué « à la main », mais sa logique est
la même que dans le cas de la régression linéaire simple.
o Notamment, kbs tend à diminuer avec n.
• L’intervalle de confiance autour d’un paramètre estimé individuel
est alors donné par : 1
* k
n K
k bb t sα
− −
±
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 12 / 50
Test du t de Student (2)
• Dans la plupart des applications, l’hypothèse la plus importante
concerne la signification statistique de xk comme facteur
« explicatif » des variations de y.
→ H0 : βk = 0 ; H1 : βk ≠ 0
→ statistique de test : 1
k
n Kk
k
b
b
t
s
− −
= ∼ t
• Ces statistiques de test sont fournies par tous les logiciels
statistiques pour chacun de coefficients estimés 0 1 2, , ,..., Kb b b b .
Puisque 0.05 1.96t∞
= , une façon de tester la significativité statistique
à 5% d’un coefficient estimé d’une régression multiple basée sur
un grand échantillon est de vérifier si 1.96kt > . Pour tester la
significativité à 1%, on vérifie si 2.58kt > .
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 13 / 50
Test du F de Fisher
• Si les hypothèses sur ε sont satisfaites, on peut se servir de la loi
du F de Fisher pour déterminer s’il existe une relation significative
entre y et l’ensemble des variables indépendantes ; on parle du
test de signification globale.
→ H0 : 1 2 ... 0kβ β β= = = =
H1 : au moins un des paramètres n’est pas égal à zéro
• Statistique de test : ( ), 1
1
K n K
SCReg
KF
SCRes
n K
− −
=
− −
∼ F
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 14 / 50
Multicolinéarité (1)
• Il est possible qu’aucun des coefficients estimés bk soit
individuellement statistiquement significatif (selon le test du t de
Student), mais que le modèle soit quand même globalement
statistiquement significatif (selon le test du F de Fisher).
• L’explication de ce phénomène apparemment paradoxal est la
multicolinéarité : le fait que les variables indépendantes xk, tout en
étant indépendantes de y, peuvent parfaitement être corrélées
entre elles.
• Plus les variables indépendantes sont corrélées, plus il devient
difficile de déterminer l’effet propre d’une variable indépendante
particulière sur la variable dépendante. Autrement dit, quand la
multicolinéarité est forte, les erreurs type des coefficients kbs sont
grands, et le risque peut être fort que les coefficients estimés
prennent le signe opposé à celui du vrai paramètre.
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 15 / 50
Multicolinéarité (2)
• En pratique il peut être utile d’inspecter la matrice de corrélation
entre les variables indépendante. Comme valeur pratique (très)
approximative, on utilise parfois un seuil de 0.7ˆ k lx xρ = pour
déterminer s’il y a un problème potentiel de multicolinéarité entre
deux variables.
• La multicolinéarité peut prendre la forme d’une relation linéaire
entre plusieurs variables indépendantes, càd elle peut être
présente même si les corrélations entre paires de variables
individuelles sont toutes relativement faibles. Des tests plus
avancés existent pour vérifier la présence de ce phénomène.
• Le meilleur moyen pour pallier au problème de multicolinéarité est
d’augmenter la taille de l’échantillon n.
• S’il y a colinéarité parfaite entre deux ou plusieurs variables
indépendantes, leurs paramètres ne peuvent pas être estimés.
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 16 / 50
Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple
4.3.1 Equation et Estimation
4.3.2 Inférence
4.3.3 Coefficients de détermination
4.3.4 Spécifications
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 17 / 50
R-carré (1)
• La définition du R-carré (aussi : « coefficient de détermination
multiple ») est identique à celle pour la régression linéaire simple :
( )
( )
2
2 1
2
1
ˆ
n
i
i
n
i
i
y y
SCReg SCReg
R
SCReg SCRes SCTot
y y
=
=
−
= = =
+
−
∑
∑
( )
( ) ( )
2 2
1 1
2 2
1 1
ˆ
1 1 1
n n
i i i
i i
n n
i i
i i
y y u
SCTot
y y y y
= =
= =
−
= − = − = −
− −
∑ ∑
∑ ∑
S C R e s
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 18 / 50
R-carré (2)
• Le R-carré exprime le pourcentage de la somme des carrés totaux
« expliqué » (dans le sens d’une explication géométrique et non
causale !) par l’équation estimée de la régression.
• Le R-carré ne peut pas être décomposé en « contributions
explicatives » de chacune des K variables explicatives.
→→→→ Exception : cas de zéro colinéarité entre les variables
explicatives (qui sont donc « orthogonales »)
→→→→ Exemple : vecteurs de variables binaires par pays et par
année dans un modèle des différences de taux de chômage
⇒ décomposition du R-carré en une composante
« conjoncturelle » (contribution au R-carré des différences
temporelles) et une composante « structurelle » (contribution
au R-carré des différences inter-pays)
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 19 / 50
R-carré et test du F de Fisher
• Il existe une relation mathématique entre le R-carré et la
statistique de test de signification globale (du F de Fisher) :
( )
( )
2
2
1
1
1
SCReg
n K RKF
SCRes K R
n K
− −
= =
−
− −
• Étant donné n et K, un R-carré élevé implique une statistique F
élevée.
• De plus, la statistique F varie en fonction de n et de K. Pour un R-
carré donné, plus n K− est grand, plus la statistique F est élevée.
Intuitivement, cela représente le fait que plus il y a d’observations
par rapport au nombre de variables indépendantes, plus il semble
invraisemblable qu’une certaine qualité d’ajustement du modèle
(càd un certain R-carré) se soit produit aléatoirement.
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 20 / 50
R-carré ajusté (1)
• Puisque la méthode des MCO minimise la somme des carrés des
résidus (SCRes), le R-carré augmente si on ajoute des variables
indépendantes (ce qui ne change pas SCTot) même si ces
variables ne sont pas statistiquement significatives.
• La valeur du R-carré dépend donc de K, ce qui complique la
comparaison de la qualité d’ajustement de différents modèles
de régression si le nombre de variables indépendantes n’est pas
identique.
• Pour cette raison, il est courant de calculer le « R-carré ajusté » :
( )
( )
( )2 21 1
1 1 1
1 1
n K n
R R
SCTot n n K
− − −
= − = − −
− − −
S C R e s
, 2
1R ≤
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 21 / 50
R-carré ajusté (2)
• ( )1n K− −S C R e s est la variance estimée des résidus, 2
us ; et
( )1SCTot n − est la variance estimée de y. On peut donc aussi
écrire le R-carré ajusté de la façon suivante : ( )2 2 2
1 u yR s s= − .
• Si l’ajout d’une variable indépendante diminue SCRes
proportionnellement moins qu’il n’augmente K, alors 2
us augmente,
et le R-carré ajusté diminue. Le R-carré ajusté peut donc diminuer
ou augmenter quand on ajoute des variables indépendantes. Il est
même possible que le R-carré ajusté prenne des valeurs négatives
(si K est grand et le R-carré est petit).
• On peut démontrer que l’ajout d’une variable indépendante
augmente le R-carré ajusté si la statistique du t de Student de
cette variable est supérieure à 1. Pour augmenter le R-carré
ajusté, une variable indépendante supplémentaire n’a donc pas
besoin d’être statistiquement significative, même au seuil de 10%.
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 22 / 50
ind. revenu âge expérience
1 52125.0 48.1 5.5
2 50955.9 38.7 2.5
3 53382.9 48.6 18.9
4 51286.9 37.5 13.5
5 55243.6 54.7 25.5
6 53384.7 40.7 7.3
7 53488.2 50.1 2.3
8 54134.1 45.9 18.8
9 52706.4 55.9 19.0
10 42144.3 25.1 5.5
11 52665.2 36.9 5.0
12 51656.7 34.5 15.5
Moyenne 51931.2 43.1 11.6
Ecart type 3314.9 9.1 7.8
Exemple Statville (1)
• Le syndic cherche à savoir si
l’effet de l’âge sur le revenu
des habitants de sa commune
reste statistiquement
significatif si on contrôle aussi
pour la durée d’expérience
des travailleurs dans leur
fonction actuelle. Il recense
donc la variable
« expérience » pour les 12
individus de son échantillon
aléatoire simple.
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 23 / 50
RAPPORT DÉTAILLÉ
Statistiques de la régression
Coefficient de détermination multiple 0.766580532
Coefficient de détermination R^2 0.587645712
Coefficient de détermination R^2 0.496011426
Erreur-type 2353.302134
Observations 12
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 2 71030184.72 35515092.36 6.4129458 0.018565956
Résidus 9 49842278.42 5538030.936
Total 11 120872463.1
Coefficients Erreur-type Statistique t Probabilité
Limite inférieure
pour seuil de
confiance = 95%
Limite supérieure
pour seuil de
confiance = 95%
Constante 40034.4147 3500.343207 11.43728267 1.158E-06 32116.08826 47952.74114
âge 269.9022708 89.3203627 3.021732813 0.0144387 67.84557296 471.9589687
expérience 23.47323377 103.1785424 0.227501118 0.8251181 -209.9328446 256.8793121
Exemple Statville (2)
Excel : Outils - Utilitaire d’analyse - Régression
linéaire – cocher Intitulé présent
2
R2
R2
R SCRessu
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 24 / 50
Exemple Statville (3)
• Le syndic conclut que, étant donné l’âge, les années d’expérience
dans la fonction ne constituent pas un déterminant
statistiquement significatif du salaire. Le modèle prédit donc
que deux travailleurs qui ont le même âge mais des durées
d’expérience différentes auront le même salaire en moyenne.
• On note que par rapport à l’estimation de la régression linéaire
simple (avec l’âge comme unique variable indépendante), le R-
carré a augmenté (de 0.585 à 0.588). Par contre, puisque la valeur
de la statistique t de la variable « expérience » est inférieure à 1, le
R-carré ajusté a diminué (de 0.544 à 0.496).
• Malgré l’augmentation du R-carré, la valeur de la statistique F a
diminué (de 14.1 à 6.4) et celle de l’erreur type de la régression a
augmenté (de 2239 à 2353). L’augmentation de K (de 1 à 2) a
donc plus que compensé la diminution de SCRes (de 50.1 mn à
49.8 mn).
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 25 / 50
Exemple Statville (4)
• Corrélation entre les variables « âge » et « expérience » :
12 0.77ˆρ = ⇒ La multicolinéarité pourrait jouer un rôle (càd les
variations dans le valeurs de la variable
« expérience » ne sont pas suffisamment
indépendantes de l’âge, ainsi qu’avec seulement 12
observations on arrive pas à identifier statis-
tiquement un effet spécifique dû à « expérience ».
→ Excel : =COEFFICIENT.CORRELATION(âge;expérience)
• Prédiction du salaire pour une personne de 55 ans avec 15 ans
d’expérience :
( ) ( )1 2 1 2ˆ ˆ55, 15 55, 15y x x E y x x= = = = =
40034 269.9 * 55 23.5 *15 55231= + + =
→ La construction d’un intervalle de confiance autour de cette
prévision n’est pas possible avec Excel.
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 26 / 50
Exemple Statville (5)
• Dans les tableaux publiés de résultats de
la régression, il est utile de présenter les
coefficients ainsi que leurs erreurs types et
des symboles indiquant le niveau de
signification statistique du test bilatéral de
H0 : 0kβ = .
• Une telle présentation des résultats facilite
des tests d’hypothèse alternatifs, H0 : k zβ = .
o Le syndic pourrait s’intéresser si la véritable hausse salariale
moyenne par année d’âge est égale à 500 francs (α = 5%) :
1
1
1
500
500 269.9 500
2.58
89.3x
b
b
t
s=
− −
= = = − ; 1 9
0.05 2.26n K
t tα
− −
= =
o Intervalle de confiance de 95% approximatif pour n ≥ 60 : b ± 2 1bs
Variables indépendantes :
269.9*
(89.3)
23.4
(103.2)
40034.4*
(3500.3)
R-carré 0.59
R-carré ajusté 0.50
Erreur type de la régression 2353.3
Observations 12
expérience
Constante
Les déterminants salariaux à Statville
variable dépendante: salaires;
estimateur: MCO
âge
Remarques : erreurs types entre paren-
thèses ; * : significatif à 5%
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 27 / 50
Chapitre 4 : RÉGRESSION
4.3 Régression linéaire multiple
4.3.1 Equation et Estimation
4.3.2 Inférence
4.3.3 Coefficients de détermination
4.3.4 Spécifications
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 28 / 50
Bases
• Par « spécification », on entend la formulation du modèle
empirique, càd de l’équation de la régression.
• La spécification linéaire est suffisamment flexible pour permettre
l’estimation d’une large gamme de modèles théoriques, dont
certains sont non linéaires à la base (mais « intrinsèquement
linéaires »). Nous présenterons quelques spécifications
particulières très utiles :
o spécification polynomiale
o variables indépendantes binaires
o spécification logarithmique
o interactions
• Il existe des modèles théoriques non linéaires qui ne peuvent être
transformés en une spécification linéaire et nécessitent donc
l’utilisation d’un estimateur non linéaire (pas traité dans ce cours).
→ Exemple : ( ) 1
0 1 3y xβ β β
−
= + +
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 29 / 50
Spécification polynomiale
• La spécification de base de la régression linéaire multiple peut être
considérée comme un cas particulier d’une classe de fonctions
plus large, les fonctions polynomiales :
2 3
0 1 2 3 ... K
Ky x x x xβ β β β β ε= + + + + + +
→ K : le « degré » du polynôme
→ K = 2 : polynôme du deuxième degré (ou « parabole »)
• Si ε satisfait les hypothèses du modèle des MCO, cette
spécification peut être estimée avec la méthode des moindres
carrés :
( ) 2 3
0 1 2 3ˆ ... K
Ky E y x b b x b x b x b x= = + + + + +
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 30 / 50
Exemple Statville (1)
• Le syndic se rend compte que sa spécification initiale n’est pas
satisfaisante. En particulier, l’hypothèse d’une relation linéaire
entre l’âge et le revenu des habitants n’est pas plausible.
• Il décide donc d’estimer un modèle polynomial du deuxième degré
pour la variable indépendante « âge » :
2
0 1 1 2 1 3 2y x x xβ β β β ε= + + + + ,
où x1 = âge, et x2 = expérience
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 31 / 50
Statistiques de la régression
Coefficient de détermination multiple 0.956286456
Coefficient de détermination R^2 0.914483786
Coefficient de détermination R^2 0.882415205
Erreur-type 1136.692321
Observations 12
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F
Valeur critique de
F
Régression 3 110535907.7 36845302.56 28.5165036 0.000127026
Résidus 8 10336555.45 1292069.432
Total 11 120872463.1
Coefficients Erreur-type Statistique t Probabilité
Limite inférieure
pour seuil de
confiance = 95%
Limite supérieure
pour seuil de
confiance = 95%
Constante 3932.56245 6744.300766 0.583094169 0.57589379 -11619.82299 19484.94789
âge 2077.513837 329.7370239 6.300517339 0.00023266 1317.138897 2837.888777
âge^2 -22.07705908 3.992584707 -5.529515516 0.00055414 -31.28397592 -12.87014225
expérience 97.9923741 51.6272887 1.89807322 0.09424716 -21.06036705 217.0451152
Exemple Statville (2)
• b1 et b2 sont statistiquement significatifs
• « expérience » devient statistiquement significative (à 10%)
⇒ spécification parabolique semble justifiée
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 32 / 50
40000
44000
48000
52000
56000
25 30 35 40 45 50 55
âge
revenu
Exemple Statville (3)
• Prédictions impliquées par les coefficients estimés pour une
personne avec dix ans d’expérience :
( ) 2
2 1 1ˆ 10 3932.6 2077.5 * 22.1* 98 *10y x x x= = + − +
• Prédiction de l’âge
auquel le revenu est
maximal, max
1x :
max
1 2 1
1
ˆ
2 0
y
b b x
x
∂
= + =
∂
∴ max
1 1 22x b b= −
∴
( )
max
1
2077.5
47
2 * 22.1
x
−
= =
−
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 33 / 50
Variables indépendantes binaires
• Une variable indépendante binaire (aussi : variable « muette »,
« indicatrice », ou « dummy ») ne prend que deux valeurs : 0 ou 1.
• Les variables binaires sont utilisées pour distinguer deux niveaux
mutuellement exclusifs des valeurs d’une variable quantitative ou
qualitative. Quelques exemples :
o dimension temporelle : bonne/mauvaise conjoncture ; été/non-
été ; avant/après campagne publicitaire…
o dimension spatiale : nord/sud ; ville/campagne ;
Suisse/étranger…
o variables qualitatives : homme/femme ; employé/non-employé…
o variables quantitatives groupées : ménages à plus/moins de
50000 de revenu ; firmes avec plus/moins de 10 employés…
• Le niveau pour laquelle la variable binaire est définie comme égale
à zéro, est appelée le « niveau de référence ».
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 34 / 50
ind. revenu âge expérience femme
1 52125.0 48.1 5.5 1
2 50955.9 38.7 2.5 0
3 53382.9 48.6 18.9 1
4 51286.9 37.5 13.5 0
5 55243.6 54.7 25.5 1
6 53384.7 40.7 7.3 0
7 53488.2 50.1 2.3 0
8 54134.1 45.9 18.8 1
9 52706.4 55.9 19 1
10 42144.3 25.1 5.5 0
11 52665.2 36.9 5 0
12 51656.7 34.5 15.5 0
Moyenne 51931.2 43.1 11.6 0.42
Ecart type 3314.9 9.1 7.8 0.51
Exemple Statville (4)
• Le syndic cherche à savoir si, au-delà de l’âge et de l’expérience
(càd « en contrôlant pour » x1, 2
1x et x2), le sexe des travailleurs
influence leur salaire moyen. Il définit alors la variable muette x3
suivante :
o individu i est une femme ⇔ x3 = 1
o individu i est un homme ⇔ x3 = 0 (niveau de référence)
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 35 / 50
Statistiques de la régression
Coefficient de détermination multiple 0.973087042
Coefficient de détermination R^2 0.946898391
Coefficient de détermination R^2 0.916554614
Erreur-type 957.5655371
Observations 12
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F
Valeur critique de
F
Régression 4 114453940.8 28613485.21 31.2056868 0.000148858
Résidus 7 6418522.304 916931.7578
Total 11 120872463.1
Coefficients Erreur-type Statistique t Probabilité
Limite inférieure
pour seuil de
confiance = 95%
Limite supérieure
pour seuil de
confiance = 95%
Constante 3468.379446 5685.929397 0.609993407 0.56113791 -9976.707094 16913.46599
âge 2038.603283 278.4121524 7.322249642 0.00015968 1380.263156 2696.943411
âge^2 -20.82811623 3.417246482 -6.094999684 0.00049351 -28.90862013 -12.74761233
expérience 148.3984189 49.86108402 2.976237317 0.02062455 30.49569049 266.3011474
femme -2054.157981 993.7297586 -2.067119318 0.07754583 -4403.955467 295.6395053
Exemple Statville (5)
• En moyenne, une femme gagne 2054.2 francs de moins qu’un
homme du même âge et avec le même nombre d’années
d’expérience.
• Cet effet est statistiquement significatif au seuil de 10% mais non
au seuil de 5%.
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 36 / 50
40000
44000
48000
52000
56000
25 30 35 40 45 50 55
âge
revenu
femmes
hommes
40000
44000
48000
52000
56000
25 30 35 40 45 50 55
âge
revenu
femmes
hommes
Exemple Statville (6)
• Prédictions impliquées par les coefficients estimés
o pour une femme avec dix ans d’expérience :
( ) 2
2 3 1 1ˆ 10, 1 3468 2038.6 * 20.8 * 148 *10 2054.2y x x x x= = = + − + −
o pour un homme avec dix ans d’expérience :
( ) 2
2 3 1 1ˆ 10, 0 3468 2038.6 * 20.8 * 148 *10y x x x x= = = + − +
b3 = 2054.2
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 37 / 50
Exemple Statville (7)
• Plutôt qu’estimer les paramètres du modèle de régression (des
corrélations conditionnelles), le syndic pourrait s’intéresser aux
corrélations « pures » ˆklρ entre toutes les paires de variables
indépendantes kl (les corrélations inconditionnelles).
→ examiner la matrice de corrélation
• Excel : Outils - Utilitaire d’analyse – Analyse de
corrélation – Intitulés en première ligne
revenu âge âge^2 expérience femme
revenu 1
âge 0.765032264 1
âge^2 0.69672771 0.993137906 1
expérience 0.411455189 0.482058499 0.50549735 1
femme 0.422675732 0.738416719 0.75563342 0.667095592 1
!
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 38 / 50
Variables binaires pour niveaux multiples
• Des variables indépendantes binaires peuvent aussi servir pour
représenter des variables qualitatives ou des variables
quantitatives groupées avec C >>>> 2 niveaux. Dans ce cas on crée
C − 1 variables binaires, une pour chaque niveau sauf un, appelé
« catégorie de référence ».
• Exemple Statville : Trois tranches d’âge
o 0 − 30 : 1 20 ; 0x x= =
o 31 − 55 : 1 21 ; 0x x= =
o 56 − 65 : 1 20 ; 1x x= =
⇒ β0 est le salaire moyen des jeunes (0 − 30)
⇒ β1 est la différence entre le salaire moyen du groupe des 31 à
55 par rapport à celui des jeunes.
⇒ β2 est la différence entre le salaire moyen du groupe des 56 à
65 par rapport à celui des jeunes.
( ) 0 1 1 2 2E y x xβ β β= + +
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 39 / 50
Spécifications logarithmiques (1)
• Un modèle non linéaire mais « intrinsèquement linéaire » est
l’équation Cobb-Douglas,
1
k
K
k
k
y a xβ
=
= ∏ , souvent utilisée en
microéconomie pour représenter l’origine des courbes d’offre
(fonction de production) et de demande (fonction d’utilité).
→ version stochastique (K = 2) : 1 2
1 2y ax x eβ β ε
= , où ε satisfait
les cinq hypothèses du modèle des MCO
• Ce modèle devient linéaire quand on le transforme en logarithmes
naturels : 0 1 1 2 2ln ln lny x xβ β β ε= + + + , où β0 = lna.
o Puisque pour estimer ce modèle on transforme la variable
dépendante ainsi que les variables indépendantes, on parle de
la « double transformation logarithmique » ou de la
« spécification log-log ».
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 40 / 50
Spécifications logarithmiques (2)
• Un grand atout de la spécification log-log est que les coefficients
estimés peuvent être interprétés comme des élasticités. On parle
donc aussi du « modèle à élasticité constante ».)
o élasticité de y par rapport à xk :
ln
ln
k
k
kk k
k
y
xy yy
xx y x
x
β
∂
 ∂ ∂ 
= = =   ∂∂ ∂  
o Tout comme les coefficients standardisés, les coefficients d’un
modèle log-log peuvent être comparés à travers les variables
indépendantes k, puisque par définition les élasticités sont toutes
exprimées dans les mêmes unités (càd en termes de déviations
en pourcentage de y et de xk).
( )
( )
ln 1
ln
y y
y
y y y
∂ ∂
= ⇒ = ∂
∂
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 41 / 50
Spécifications logarithmiques (3)
• Un autre modèle « intrinsèquement linéaire » est donné par
0 1 1 2 2 ... k kx x x
y eβ β β β+ + + +
= .
→ version stochastique (K = 2) : 0 1 1 2 2x x
y eβ β β ε+ + +
= , où ε satisfait
les cinq hypothèses du modèle des MCO
• Ce modèle devient linéaire quand on le transforme en logarithmes
naturels : 0 1 1 2 2lny x xβ β β ε= + + + .
o Puisque pour estimer ce modèle on ne transforme que la
variable dépendante, on parle de la « spécification semi-
logarithmique ».
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 42 / 50
Spécifications logarithmiques (4)
• Les paramètres d’une telle spécification sont des semi-elasticités :
il représentent la variation en pourcentage de la variable
dépendante par rapport à une variation d’une unité de la variable
indépendante en question. Puisque ces semi-elasticités dépendent
des unités de mesure des variables indépendantes, elle ne sont
pas directement comparables à travers les différentes variables
indépendantes.
• La spécification semi-logarithmique est utilisée en macroéconomie
afin de modéliser des taux de croissance stables :
o Soit 0 1x
y eβ β ε+ +
= , où y est un agrégat économique (PIB, niveau
des prix,…), et x est la variable « temps » (en mois, trimestres,
années,…).
o Alors 1
lnd y
dx
β = est le taux de croissance moyen de y.
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 43 / 50
Statistiques de la régression
Coefficient de détermination multiple 0.825687981
Coefficient de détermination R^2 0.681760643
Coefficient de détermination R^2 0.649936707
Erreur-type 0.04086423
Observations 12
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 1 0.035773766 0.035773766 21.422889 0.000938341
Résidus 10 0.016698853 0.001669885
Total 11 0.052472619
Coefficients Erreur-type Statistique t Probabilité
Limite inférieure pour seuil
de confiance = 95%
Limite supérieure pour
seuil de confiance = 95%
Constante 9.92017321 0.202446229 49.00152131 3.025E-13 9.469094904 10.37125152
ln(âge) 0.25009325 0.054033481 4.628486685 0.00093834 0.129699151 0.370487348
Exemple Statville (8)
• Spécification log-log (régression simple) :
ln(revenu) = β0 + β1*ln(âge) + ε
→ par pourcent d’âge supplémentaire, le revenu moyen augmente
de 0.25 pourcent
→ R-carré (0.68) plus élevé que dans la régression avec y et x non
transformées (0.59, voir ch. 4.2.4) ⇒ spécification log-log (non-
linéaire) mieux ajustée aux données
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 44 / 50
Exemple Statville (9)
• Spécification semi-logarithmique (régression simple) :
ln(revenu) = β0 + β1*âge + ε
→ par année d’âge supplémentaire, le revenu moyen augmente de 0.57
pourcent
→ R-carré (0.57) moins élevé que dans la régression avec y et x non
transformés (0.59, voir. ch. 4.2.4) ⇒ spécification semi-logarithmique
moins bien ajustée aux données
Statistiques de la régression
Coefficient de détermination multiple 0.756007595
Coefficient de détermination R^2 0.571547483
Coefficient de détermination R^2 0.528702231
Erreur-type 0.047415214
Observations 12
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 1 0.029990593 0.029990593 13.3398092 0.004444832
Résidus 10 0.022482026 0.002248203
Total 11 0.052472619
Coefficients Erreur-type Statistique t Probabilité
Limite inférieure pour seuil
de confiance = 95%
Limite supérieure pour
seuil de confiance = 95%
Constante 10.60757468 0.069273957 153.1249996 3.4657E-18 10.45322269 10.76192668
âge 0.005758884 0.001576753 3.652370354 0.00444483 0.002245661 0.009272108
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 45 / 50
15000
25000
35000
45000
55000
0 10 20 30 40 50 60
âge
revenu
Exemple Statville (10)
ˆ 39885 279.7y x= +
( )( )ˆ exp 9.92 0.25 * lny x= +
ˆ exp(10.61 0.006 )y x= +
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 46 / 50
Interactions (1)
• L’équation de régression linéaire multiple implique des effets isolés
de chaque variable indépendante : k
k
y
k
x
β
∂
= ∀
∂
• En ajoutant des produits de variables indépendantes (« termes
d’interaction »), on peut modéliser des interdépendances entre
les effets des variables indépendantes :
0 1 1 2 2 3 1 2y x x x xβ β β β ε= + + + +
⇒ 1 3 2
1
y
x
x
β β
∂
= +
∂
, 2 3 1
2
y
x
x
β β
∂
= +
∂
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 47 / 50
Interactions (2)
• 1β (β2) représente l’effet de x1 (x2) sur ˆy quand x2 (x1) est égal à
zéro. Puisque une valeur de zéro n’est souvent pas très réaliste ou
informative (p.ex. dans une estimation des déterminants
salariaux), on estime souvent une spécification transformée :
( )( )0 1 1 2 2 3 1 1 2 2y x x x x x xβ β β β ε= + + + − − +ɶ ɶ .
1βɶ ( 2βɶ ) est alors l’effet de x1 (x2) sur ˆy quand x2 (x1) prend sa
valeur moyenne.
• Si x1 est une variable continue et x2 une variable binaire, alors β2
représente le déplacement de l’intercept, et β3 représente le
changement de la pente de ˆy par rapport à x1, quand x2 passe de
0 à 1.
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 48 / 50
ind. commune revenu âge âge*commune
1 0 52125.0 48.11629 0
2 0 50955.9 38.7 0
3 0 53382.9 48.6 0
4 0 51286.9 37.5 0
5 0 55243.6 54.7 0
6 0 53384.7 40.7 0
7 0 53488.2 50.1 0
8 0 54134.1 45.9 0
9 0 52706.4 55.9 0
10 0 42144.3 25.1 0
11 0 52665.2 36.9 0
12 0 51656.7 34.5 0
moyenne 0 51931.2 43.1 0
écart type 0 3314.9 9.1 0
13 1 52115.3 42.4 42.4
14 1 44234.5 36.5 36.5
15 1 55381.3 42.7 42.7
16 1 56091.4 41.1 41.1
17 1 52160.0 33.9 33.9
18 1 46920.1 35.9 35.9
19 1 49522.2 34.7 34.7
20 1 53446.7 44.1 44.1
21 1 50557.1 28.5 28.5
22 1 51202.0 48.7 48.7
23 1 51905.6 49.8 49.8
24 1 46352.9 25.4 25.4
moyenne 1 49977.9 38.6 38.6
écart type 0 3576.0 7.5 7.5
Exemple Statland (1)
• Les syndics de Statville et
Statdorf cherchent à savoir si les
salaires moyens croissent à un
rythme différent avec l’âge dans
leurs deux communes.
• Ils collectionnent des données
pour des échantillons aléatoires
simples dans les deux communes
(n = 12).
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 49 / 50
Statistiques de la régression
Coefficient de détermination multiple 0.655120807
Coefficient de détermination R^2 0.429183271
Coefficient de détermination R^2 0.343560762
Erreur-type 2769.816554
Observations 24
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 3 115366070.9 38455356.96 5.012505176 0.009414488
Résidus 20 153437674.8 7671883.742
Total 23 268803745.7
Coefficients Erreur-type Statistique t Probabilité
Limite inférieure pour seuil
de confiance = 95%
Limite supérieure pour
seuil de confiance = 95%
Constante 39885.01609 4046.721199 9.856131452 4.03454E-09 31443.70361 48326.32857
commune 1476.081811 5953.907628 0.247918158 0.80672532 -10943.55183 13895.71546
âge 279.6979321 92.10788803 3.036633865 0.006515058 87.56424498 471.8316191
âge*commune -34.74704321 144.3440856 -0.240723706 0.812219723 -335.8435288 266.3494424
Exemple Statland (2)
• revenu = β0 + β1*commune + β2*âge + β3*âge*commune + ε,
où commune = 0 ⇔ Statville ; commune = 1 ⇔ Statdorf
⇒ 1 279.7 34.7 245
revenu
commune
âge
 ∂
= = − = ∂ 
(différence non significative du point de vue statistique)
Statistique
1e
année bachelor, 2009-10
Chapitre 4.3
Régression linéaire multiple 50 / 50
42000
44000
46000
48000
50000
52000
54000
56000
25 30 35 40 45 50 55 60
âge
revenu
revenu estimé: Statville
revenu estimé: Statdorf
revenu observé: Statville
revenu observé: Statdorf
Exemple Statland (3)

Contenu connexe

Tendances

Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisions
Mariem Chaaben
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)
Pierre Robentz Cassion
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr Falloul
Professeur Falloul
 
La Regression lineaire
La Regression lineaireLa Regression lineaire
La Regression lineaire
FIKRIMAIL
 
Introduction aux statistiques descriptives et tests d'hypothèses
Introduction aux statistiques descriptives et tests d'hypothèsesIntroduction aux statistiques descriptives et tests d'hypothèses
Introduction aux statistiques descriptives et tests d'hypothèses
Clément Dussarps
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
hanamettali
 
GP Chapitre 2 : Les méthodes de prévision
GP Chapitre 2 : Les méthodes de prévision GP Chapitre 2 : Les méthodes de prévision
GP Chapitre 2 : Les méthodes de prévision
ibtissam el hassani
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
Mohamed Heny SELMI
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1
Adad Med Chérif
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des Correspondances
Jaouad Dabounou
 
Cours de probabilités chap2.pptx
Cours de probabilités chap2.pptxCours de probabilités chap2.pptx
Cours de probabilités chap2.pptx
HanaeElabbas
 
Les réseaux de neurones
Les réseaux de neuronesLes réseaux de neurones
Les réseaux de neurones
Mariam Amchayd
 
Soutenance memoire simon (2017)
Soutenance memoire simon (2017)Soutenance memoire simon (2017)
Soutenance memoire simon (2017)
Carl Nally Régi SIMON
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdf
SidiAbdallah1
 
recherche operationnelle
recherche operationnelle recherche operationnelle
recherche operationnelle
mohamednacim
 
Cours econométrie des séries temporelles (1)
Cours econométrie des séries temporelles (1)Cours econométrie des séries temporelles (1)
Cours econométrie des séries temporelles (1)
ABDELHAMID EL BOUHADI SIDI MOHAMED BEN ABDELLAH UNIVERSITY ENCG-FEZ
 
L’Econométrie des Données de Panel
L’Econométrie des Données de PanelL’Econométrie des Données de Panel
L’Econométrie des Données de Panel
Cherif Allah
 
value at risk
value at riskvalue at risk
value at risk
amine145
 

Tendances (20)

Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisions
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr Falloul
 
La Regression lineaire
La Regression lineaireLa Regression lineaire
La Regression lineaire
 
Introduction aux statistiques descriptives et tests d'hypothèses
Introduction aux statistiques descriptives et tests d'hypothèsesIntroduction aux statistiques descriptives et tests d'hypothèses
Introduction aux statistiques descriptives et tests d'hypothèses
 
Td statistique
Td statistiqueTd statistique
Td statistique
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
 
GP Chapitre 2 : Les méthodes de prévision
GP Chapitre 2 : Les méthodes de prévision GP Chapitre 2 : Les méthodes de prévision
GP Chapitre 2 : Les méthodes de prévision
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des Correspondances
 
Cours de probabilités chap2.pptx
Cours de probabilités chap2.pptxCours de probabilités chap2.pptx
Cours de probabilités chap2.pptx
 
Les réseaux de neurones
Les réseaux de neuronesLes réseaux de neurones
Les réseaux de neurones
 
Soutenance memoire simon (2017)
Soutenance memoire simon (2017)Soutenance memoire simon (2017)
Soutenance memoire simon (2017)
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdf
 
recherche operationnelle
recherche operationnelle recherche operationnelle
recherche operationnelle
 
Cours econométrie des séries temporelles (1)
Cours econométrie des séries temporelles (1)Cours econométrie des séries temporelles (1)
Cours econométrie des séries temporelles (1)
 
L’Econométrie des Données de Panel
L’Econométrie des Données de PanelL’Econométrie des Données de Panel
L’Econométrie des Données de Panel
 
value at risk
value at riskvalue at risk
value at risk
 

En vedette

(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)
mohamedchaouche
 
Regress lineaire simple imp
Regress lineaire simple impRegress lineaire simple imp
Regress lineaire simple imp
Khawla At
 
Prepare b sc_project_-_presentatipn.ppt[1]
Prepare b sc_project_-_presentatipn.ppt[1]Prepare b sc_project_-_presentatipn.ppt[1]
Prepare b sc_project_-_presentatipn.ppt[1]
Bornface Lizang'a
 
Introduction to computer programming
Introduction to computer programmingIntroduction to computer programming
Introduction to computer programming
Sangheethaa Sukumaran
 
Programing Slicing and Its applications
Programing Slicing and Its applicationsPrograming Slicing and Its applications
Programing Slicing and Its applications
Ankur Jain
 
Online Examination System Report
Online Examination System ReportOnline Examination System Report
Online Examination System Report
Ankan Banerjee
 
online examination portal project presentation
online examination portal project presentationonline examination portal project presentation
online examination portal project presentation
Shobhit Jain
 
Finaldocumentation
FinaldocumentationFinaldocumentation
Finaldocumentation
asuadma
 
Project report on online examination system
Project report on online examination systemProject report on online examination system
Project report on online examination system
Mo Irshad Ansari
 
Online examination system Documentation
Online examination system DocumentationOnline examination system Documentation
Online examination system Documentation
LehlohonoloMakoti
 
Online examination system
Online examination systemOnline examination system
Online examination system
Mr. Vikram Singh Slathia
 
14.project online eamination system
14.project online eamination system14.project online eamination system
14.project online eamination system
jbpatel7290
 
Project report
Project reportProject report
Project report
meenalpandey
 
Online examination system
Online examination systemOnline examination system
Online examination system
Rahul Khanwani
 
Online examination documentation
Online examination documentationOnline examination documentation
Online examination documentation
Wakimul Alam
 
12th CBSE Practical File
12th CBSE Practical File12th CBSE Practical File
12th CBSE Practical File
Ashwin Francis
 
C++ project on police station software
C++ project on police station softwareC++ project on police station software
C++ project on police station software
dharmenderlodhi021
 

En vedette (20)

Cours regression 4
Cours regression 4Cours regression 4
Cours regression 4
 
Formation traitement d_images
Formation traitement d_imagesFormation traitement d_images
Formation traitement d_images
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)
 
Regress lineaire simple imp
Regress lineaire simple impRegress lineaire simple imp
Regress lineaire simple imp
 
Prepare b sc_project_-_presentatipn.ppt[1]
Prepare b sc_project_-_presentatipn.ppt[1]Prepare b sc_project_-_presentatipn.ppt[1]
Prepare b sc_project_-_presentatipn.ppt[1]
 
Utilisation solveur excel
Utilisation solveur excelUtilisation solveur excel
Utilisation solveur excel
 
Introduction to computer programming
Introduction to computer programmingIntroduction to computer programming
Introduction to computer programming
 
Programing Slicing and Its applications
Programing Slicing and Its applicationsPrograming Slicing and Its applications
Programing Slicing and Its applications
 
Online Examination System Report
Online Examination System ReportOnline Examination System Report
Online Examination System Report
 
online examination portal project presentation
online examination portal project presentationonline examination portal project presentation
online examination portal project presentation
 
Finaldocumentation
FinaldocumentationFinaldocumentation
Finaldocumentation
 
Project report on online examination system
Project report on online examination systemProject report on online examination system
Project report on online examination system
 
Online examination system Documentation
Online examination system DocumentationOnline examination system Documentation
Online examination system Documentation
 
Online examination system
Online examination systemOnline examination system
Online examination system
 
14.project online eamination system
14.project online eamination system14.project online eamination system
14.project online eamination system
 
Project report
Project reportProject report
Project report
 
Online examination system
Online examination systemOnline examination system
Online examination system
 
Online examination documentation
Online examination documentationOnline examination documentation
Online examination documentation
 
12th CBSE Practical File
12th CBSE Practical File12th CBSE Practical File
12th CBSE Practical File
 
C++ project on police station software
C++ project on police station softwareC++ project on police station software
C++ project on police station software
 

Similaire à (Cours régression)

fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
SidiAbdallah1
 
analyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptxanalyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptx
Malek338029
 
analyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptxanalyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptx
Malek338029
 
Corrélation linéaire chapitre 2 Chap11_Partie2.pdf
Corrélation linéaire chapitre 2 Chap11_Partie2.pdfCorrélation linéaire chapitre 2 Chap11_Partie2.pdf
Corrélation linéaire chapitre 2 Chap11_Partie2.pdf
KOUADIOPATRICE1
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
mohamedchaouche
 
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Ahmed Ammar Rebai PhD
 
ALGEBRE BINAIRE ET CIRCUITS LOGIQUES
ALGEBRE BINAIRE ET CIRCUITS LOGIQUESALGEBRE BINAIRE ET CIRCUITS LOGIQUES
ALGEBRE BINAIRE ET CIRCUITS LOGIQUES
sarah Benmerzouk
 
modele non lineaire machine learning and data science
modele non lineaire machine learning and data sciencemodele non lineaire machine learning and data science
modele non lineaire machine learning and data science
rabiinasri11
 
Metrologie termilnal
Metrologie termilnalMetrologie termilnal
Metrologie termilnal
m.a bensaaoud
 
PLNE.pptx
PLNE.pptxPLNE.pptx
PLNE.pptx
MbarkiIsraa
 
Analyse. Fonctions de plusieurs variables et géométrie analytique _ Cours et ...
Analyse. Fonctions de plusieurs variables et géométrie analytique _ Cours et ...Analyse. Fonctions de plusieurs variables et géométrie analytique _ Cours et ...
Analyse. Fonctions de plusieurs variables et géométrie analytique _ Cours et ...
zaki284902
 
Mercator Ocean newsletter 14
Mercator Ocean newsletter 14Mercator Ocean newsletter 14
Mercator Ocean newsletter 14
Mercator Ocean International
 
proportionnaliteproportionnaliteproportionnaliteproportionnalite.ppsx
proportionnaliteproportionnaliteproportionnaliteproportionnalite.ppsxproportionnaliteproportionnaliteproportionnaliteproportionnalite.ppsx
proportionnaliteproportionnaliteproportionnaliteproportionnalite.ppsx
Abdellah Benzannou
 
Sujet de bac mathématiques
Sujet de bac mathématiquesSujet de bac mathématiques
Sujet de bac mathématiques
Julie Davico-Pahin
 
Modélisation non paramétrique_Modèle_SCH (1).pptx
Modélisation non paramétrique_Modèle_SCH (1).pptxModélisation non paramétrique_Modèle_SCH (1).pptx
Modélisation non paramétrique_Modèle_SCH (1).pptx
ABDERRAHMANALAADSSI
 
Ex determ
Ex determEx determ
Ex determ
bades12
 
Diviser Pour Régner
Diviser Pour RégnerDiviser Pour Régner
Diviser Pour Régner
Mestari-Mohammed
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
afryma
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
afryma
 

Similaire à (Cours régression) (20)

fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
analyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptxanalyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptx
 
analyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptxanalyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptx
 
Corrélation linéaire chapitre 2 Chap11_Partie2.pdf
Corrélation linéaire chapitre 2 Chap11_Partie2.pdfCorrélation linéaire chapitre 2 Chap11_Partie2.pdf
Corrélation linéaire chapitre 2 Chap11_Partie2.pdf
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
 
ALGEBRE BINAIRE ET CIRCUITS LOGIQUES
ALGEBRE BINAIRE ET CIRCUITS LOGIQUESALGEBRE BINAIRE ET CIRCUITS LOGIQUES
ALGEBRE BINAIRE ET CIRCUITS LOGIQUES
 
modele non lineaire machine learning and data science
modele non lineaire machine learning and data sciencemodele non lineaire machine learning and data science
modele non lineaire machine learning and data science
 
Metrologie termilnal
Metrologie termilnalMetrologie termilnal
Metrologie termilnal
 
PLNE.pptx
PLNE.pptxPLNE.pptx
PLNE.pptx
 
Analyse. Fonctions de plusieurs variables et géométrie analytique _ Cours et ...
Analyse. Fonctions de plusieurs variables et géométrie analytique _ Cours et ...Analyse. Fonctions de plusieurs variables et géométrie analytique _ Cours et ...
Analyse. Fonctions de plusieurs variables et géométrie analytique _ Cours et ...
 
Startimes2
Startimes2Startimes2
Startimes2
 
Mercator Ocean newsletter 14
Mercator Ocean newsletter 14Mercator Ocean newsletter 14
Mercator Ocean newsletter 14
 
proportionnaliteproportionnaliteproportionnaliteproportionnalite.ppsx
proportionnaliteproportionnaliteproportionnaliteproportionnalite.ppsxproportionnaliteproportionnaliteproportionnaliteproportionnalite.ppsx
proportionnaliteproportionnaliteproportionnaliteproportionnalite.ppsx
 
Sujet de bac mathématiques
Sujet de bac mathématiquesSujet de bac mathématiques
Sujet de bac mathématiques
 
Modélisation non paramétrique_Modèle_SCH (1).pptx
Modélisation non paramétrique_Modèle_SCH (1).pptxModélisation non paramétrique_Modèle_SCH (1).pptx
Modélisation non paramétrique_Modèle_SCH (1).pptx
 
Ex determ
Ex determEx determ
Ex determ
 
Diviser Pour Régner
Diviser Pour RégnerDiviser Pour Régner
Diviser Pour Régner
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 

Plus de mohamedchaouche

219146492 algebre-lineaire
219146492 algebre-lineaire219146492 algebre-lineaire
219146492 algebre-lineaire
mohamedchaouche
 
Bourbonnaiseconomtrie partie1-130207100401-phpapp02
Bourbonnaiseconomtrie partie1-130207100401-phpapp02Bourbonnaiseconomtrie partie1-130207100401-phpapp02
Bourbonnaiseconomtrie partie1-130207100401-phpapp02
mohamedchaouche
 
Cours d econometrie_professeur_philippe_deschamps_edition_
Cours d econometrie_professeur_philippe_deschamps_edition_Cours d econometrie_professeur_philippe_deschamps_edition_
Cours d econometrie_professeur_philippe_deschamps_edition_
mohamedchaouche
 
Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009
mohamedchaouche
 
M1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-multM1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-mult
mohamedchaouche
 
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unM1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
mohamedchaouche
 
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)
mohamedchaouche
 

Plus de mohamedchaouche (15)

219146492 algebre-lineaire
219146492 algebre-lineaire219146492 algebre-lineaire
219146492 algebre-lineaire
 
Un
UnUn
Un
 
Correlation econometrie
Correlation econometrieCorrelation econometrie
Correlation econometrie
 
Bourbonnaiseconomtrie partie1-130207100401-phpapp02
Bourbonnaiseconomtrie partie1-130207100401-phpapp02Bourbonnaiseconomtrie partie1-130207100401-phpapp02
Bourbonnaiseconomtrie partie1-130207100401-phpapp02
 
Econometrie
EconometrieEconometrie
Econometrie
 
Cours d econometrie_professeur_philippe_deschamps_edition_
Cours d econometrie_professeur_philippe_deschamps_edition_Cours d econometrie_professeur_philippe_deschamps_edition_
Cours d econometrie_professeur_philippe_deschamps_edition_
 
Series temporelles
Series temporellesSeries temporelles
Series temporelles
 
Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009
 
Tadti crs3-n
Tadti crs3-nTadti crs3-n
Tadti crs3-n
 
M1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-multM1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-mult
 
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unM1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
 
Ch02 seance01-diapos
Ch02 seance01-diaposCh02 seance01-diapos
Ch02 seance01-diapos
 
(Econometrie) done
(Econometrie) done(Econometrie) done
(Econometrie) done
 
Regsimple
RegsimpleRegsimple
Regsimple
 
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)
 

(Cours régression)

  • 1. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 1 / 50 Chapitre 4 : RÉGRESSION 4.3 Régression linéaire multiple 4.3.1 Equation et Estimation 4.3.2 Inférence 4.3.3 Coefficients de détermination 4.3.4 Spécifications
  • 2. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 2 / 50 Chapitre 4 : RÉGRESSION 4.3 Régression linéaire multiple 4.3.1 Equation et Estimation 4.3.2 Inférence 4.3.3 Coefficients de détermination 4.3.4 Spécifications
  • 3. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 3 / 50 L’équation de la régression (1) • Un modèle de régression multiple contient 1 1K n< < − variables indépendantes, 1 2, ,..., Kx x x . (On utilisera k comme indice pour une variable particulière.) → Les paramètres sont estimables quand 1K n= − , mais l’ajustement est alors parfait et l’inférence est impossible. En pratique, on doit veiller à ce que n K>> . • L’équation de la régression linéaire multiple (ou le « modèle de régression ») s’écrit donc de la façon suivante : 0 1 1 2 2 ... K Ky x x xβ β β β ε= + + + + + , où E(ε) = 0, → ( ) 0 1 1 2 2 ... K KE y x x xβ β β β= + + + + , → ( )1 2 0 1 1 2 2, ,..., ...K K KE y x x x x x xβ β β β= + + + + , où 0 1 2, , ,..., Kβ β β β sont les paramètres du modèle, et le terme d’erreur ε est une variable aléatoire.
  • 4. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 4 / 50 L’équation de la régression (2) • Tout comme dans le cas de la régression linéaire simple, β0 représente le point, où 1 2 ... 0Kx x x= = = = (« constante »). • La valeur d’un paramètre βk>0 donne le nombre d’unités supplémentaires de y associées à une augmentation par une unité de xk lorsque toutes les autres variables indépendantes sont constantes (variation « ceteris paribus »). • ( )1 2, ,... KE y x x x est la moyenne de y pour un vecteur de valeurs des variables indépendantes { }1 2, ,..., Kx x x donné.
  • 5. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 5 / 50 L’équation de la régression (3) • Si K > 2, on ne peut plus représenter le modèle de régression de façon graphique. • Avec K = 2, une représentation graphique est possible, puisqu’il n’y a que trois dimensions : x1, x2 et y. L’équivalent à la droite de régression en régression linéaire simple est alors appelé « surface de réponse » :
  • 6. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 6 / 50 L’équation estimée • Les statistiques d’échantillon 0 1 2, , ,..., Kb b b b servent d’estimations de 0 1 2, , ,..., Kβ β β β . • Ainsi, l’équation estimée de la régression est donnée par : 0 1 1 2 2ˆ ... K Ky b b x b x b x= + + + + , où ˆy est l’estimation ponctuelle de ( )1 2, ,... KE y x x x .
  • 7. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 7 / 50 Processus d’estimation
  • 8. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 8 / 50 Estimation par les moindres carrés • Tout comme pour la régression linéaire simple, la méthode la plus répandue pour calculer 0 1 2, , ,..., Kb b b b est l’estimateur des moindres carrés. • Formellement, la méthode est alors la suivante : { } ( ) 0 1 2 2 0 1 2 1, , ,... ˆ, , ,..., argmin K n K i i ib b b b b b b b y y = = −∑ ( ) 0 1 2 2 0 1 1 2 2 1, , ,... ...argmin K n i i i K Ki ib b b b y b b x b x b x = = − − − − −∑ L’estimateur des moindres carrés pour une régression multiple suit la même logique que celle de la régression linéaire simple, mais sa formulation est plus compliquée, nécessitant l’utilisation de l’algèbre matricielle. De plus, l’estimation est trop compliquée pour être faite « à la main » avec un effort raisonnable et est donc toujours effectuée avec l’aide d’un ordinateur.
  • 9. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 9 / 50 Chapitre 4 : RÉGRESSION 4.3 Régression linéaire multiple 4.3.1 Equation et Estimation 4.3.2 Inférence 4.3.3 Coefficients de détermination 4.3.4 Spécifications
  • 10. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 10 / 50 Hypothèses de l’estimateur MCO • Tout comme pour la régression linéaire simple, la légitimité des tests d’hypothèse repose sur les cinq hypothèses faites à propos du terme d’erreur du modèle de régression, ε. • En fait, on peut démontrer que, sous condition que ces hypothèses soient satisfaites, l’estimateur des MCO est le meilleur des estimateurs concevables, dans le sens suivant (théorème de Gauss-Markov): o Les coefficients estimés 0 1 2, , ,..., Kb b b b sont des estimations non- biaisées des paramètres 0 1 2, , ,..., Kβ β β β . o L’estimateur MCO implique les variances des coefficients estimés 0 1 2 2 2 2 2 , , ,..., kb b b bs s s s les plus petites de tous les estimateurs linéaires et non-biaisés concevables.
  • 11. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 11 / 50 Test du t de Student (1) • Si les hypothèses sur ε sont satisfaites, on peut se servir de la loi du t de Student pour tester des hypothèses sur des paramètres individuels βk. • Statistique de test : 1 k n Kk k k b b t s β − −− = ∼ t o Le calcul de l’erreur type des coefficients estimés kbs est trop compliqué pour être effectué « à la main », mais sa logique est la même que dans le cas de la régression linéaire simple. o Notamment, kbs tend à diminuer avec n. • L’intervalle de confiance autour d’un paramètre estimé individuel est alors donné par : 1 * k n K k bb t sα − − ±
  • 12. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 12 / 50 Test du t de Student (2) • Dans la plupart des applications, l’hypothèse la plus importante concerne la signification statistique de xk comme facteur « explicatif » des variations de y. → H0 : βk = 0 ; H1 : βk ≠ 0 → statistique de test : 1 k n Kk k b b t s − − = ∼ t • Ces statistiques de test sont fournies par tous les logiciels statistiques pour chacun de coefficients estimés 0 1 2, , ,..., Kb b b b . Puisque 0.05 1.96t∞ = , une façon de tester la significativité statistique à 5% d’un coefficient estimé d’une régression multiple basée sur un grand échantillon est de vérifier si 1.96kt > . Pour tester la significativité à 1%, on vérifie si 2.58kt > .
  • 13. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 13 / 50 Test du F de Fisher • Si les hypothèses sur ε sont satisfaites, on peut se servir de la loi du F de Fisher pour déterminer s’il existe une relation significative entre y et l’ensemble des variables indépendantes ; on parle du test de signification globale. → H0 : 1 2 ... 0kβ β β= = = = H1 : au moins un des paramètres n’est pas égal à zéro • Statistique de test : ( ), 1 1 K n K SCReg KF SCRes n K − − = − − ∼ F
  • 14. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 14 / 50 Multicolinéarité (1) • Il est possible qu’aucun des coefficients estimés bk soit individuellement statistiquement significatif (selon le test du t de Student), mais que le modèle soit quand même globalement statistiquement significatif (selon le test du F de Fisher). • L’explication de ce phénomène apparemment paradoxal est la multicolinéarité : le fait que les variables indépendantes xk, tout en étant indépendantes de y, peuvent parfaitement être corrélées entre elles. • Plus les variables indépendantes sont corrélées, plus il devient difficile de déterminer l’effet propre d’une variable indépendante particulière sur la variable dépendante. Autrement dit, quand la multicolinéarité est forte, les erreurs type des coefficients kbs sont grands, et le risque peut être fort que les coefficients estimés prennent le signe opposé à celui du vrai paramètre.
  • 15. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 15 / 50 Multicolinéarité (2) • En pratique il peut être utile d’inspecter la matrice de corrélation entre les variables indépendante. Comme valeur pratique (très) approximative, on utilise parfois un seuil de 0.7ˆ k lx xρ = pour déterminer s’il y a un problème potentiel de multicolinéarité entre deux variables. • La multicolinéarité peut prendre la forme d’une relation linéaire entre plusieurs variables indépendantes, càd elle peut être présente même si les corrélations entre paires de variables individuelles sont toutes relativement faibles. Des tests plus avancés existent pour vérifier la présence de ce phénomène. • Le meilleur moyen pour pallier au problème de multicolinéarité est d’augmenter la taille de l’échantillon n. • S’il y a colinéarité parfaite entre deux ou plusieurs variables indépendantes, leurs paramètres ne peuvent pas être estimés.
  • 16. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 16 / 50 Chapitre 4 : RÉGRESSION 4.3 Régression linéaire multiple 4.3.1 Equation et Estimation 4.3.2 Inférence 4.3.3 Coefficients de détermination 4.3.4 Spécifications
  • 17. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 17 / 50 R-carré (1) • La définition du R-carré (aussi : « coefficient de détermination multiple ») est identique à celle pour la régression linéaire simple : ( ) ( ) 2 2 1 2 1 ˆ n i i n i i y y SCReg SCReg R SCReg SCRes SCTot y y = = − = = = + − ∑ ∑ ( ) ( ) ( ) 2 2 1 1 2 2 1 1 ˆ 1 1 1 n n i i i i i n n i i i i y y u SCTot y y y y = = = = − = − = − = − − − ∑ ∑ ∑ ∑ S C R e s
  • 18. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 18 / 50 R-carré (2) • Le R-carré exprime le pourcentage de la somme des carrés totaux « expliqué » (dans le sens d’une explication géométrique et non causale !) par l’équation estimée de la régression. • Le R-carré ne peut pas être décomposé en « contributions explicatives » de chacune des K variables explicatives. →→→→ Exception : cas de zéro colinéarité entre les variables explicatives (qui sont donc « orthogonales ») →→→→ Exemple : vecteurs de variables binaires par pays et par année dans un modèle des différences de taux de chômage ⇒ décomposition du R-carré en une composante « conjoncturelle » (contribution au R-carré des différences temporelles) et une composante « structurelle » (contribution au R-carré des différences inter-pays)
  • 19. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 19 / 50 R-carré et test du F de Fisher • Il existe une relation mathématique entre le R-carré et la statistique de test de signification globale (du F de Fisher) : ( ) ( ) 2 2 1 1 1 SCReg n K RKF SCRes K R n K − − = = − − − • Étant donné n et K, un R-carré élevé implique une statistique F élevée. • De plus, la statistique F varie en fonction de n et de K. Pour un R- carré donné, plus n K− est grand, plus la statistique F est élevée. Intuitivement, cela représente le fait que plus il y a d’observations par rapport au nombre de variables indépendantes, plus il semble invraisemblable qu’une certaine qualité d’ajustement du modèle (càd un certain R-carré) se soit produit aléatoirement.
  • 20. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 20 / 50 R-carré ajusté (1) • Puisque la méthode des MCO minimise la somme des carrés des résidus (SCRes), le R-carré augmente si on ajoute des variables indépendantes (ce qui ne change pas SCTot) même si ces variables ne sont pas statistiquement significatives. • La valeur du R-carré dépend donc de K, ce qui complique la comparaison de la qualité d’ajustement de différents modèles de régression si le nombre de variables indépendantes n’est pas identique. • Pour cette raison, il est courant de calculer le « R-carré ajusté » : ( ) ( ) ( )2 21 1 1 1 1 1 1 n K n R R SCTot n n K − − − = − = − − − − − S C R e s , 2 1R ≤
  • 21. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 21 / 50 R-carré ajusté (2) • ( )1n K− −S C R e s est la variance estimée des résidus, 2 us ; et ( )1SCTot n − est la variance estimée de y. On peut donc aussi écrire le R-carré ajusté de la façon suivante : ( )2 2 2 1 u yR s s= − . • Si l’ajout d’une variable indépendante diminue SCRes proportionnellement moins qu’il n’augmente K, alors 2 us augmente, et le R-carré ajusté diminue. Le R-carré ajusté peut donc diminuer ou augmenter quand on ajoute des variables indépendantes. Il est même possible que le R-carré ajusté prenne des valeurs négatives (si K est grand et le R-carré est petit). • On peut démontrer que l’ajout d’une variable indépendante augmente le R-carré ajusté si la statistique du t de Student de cette variable est supérieure à 1. Pour augmenter le R-carré ajusté, une variable indépendante supplémentaire n’a donc pas besoin d’être statistiquement significative, même au seuil de 10%.
  • 22. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 22 / 50 ind. revenu âge expérience 1 52125.0 48.1 5.5 2 50955.9 38.7 2.5 3 53382.9 48.6 18.9 4 51286.9 37.5 13.5 5 55243.6 54.7 25.5 6 53384.7 40.7 7.3 7 53488.2 50.1 2.3 8 54134.1 45.9 18.8 9 52706.4 55.9 19.0 10 42144.3 25.1 5.5 11 52665.2 36.9 5.0 12 51656.7 34.5 15.5 Moyenne 51931.2 43.1 11.6 Ecart type 3314.9 9.1 7.8 Exemple Statville (1) • Le syndic cherche à savoir si l’effet de l’âge sur le revenu des habitants de sa commune reste statistiquement significatif si on contrôle aussi pour la durée d’expérience des travailleurs dans leur fonction actuelle. Il recense donc la variable « expérience » pour les 12 individus de son échantillon aléatoire simple.
  • 23. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 23 / 50 RAPPORT DÉTAILLÉ Statistiques de la régression Coefficient de détermination multiple 0.766580532 Coefficient de détermination R^2 0.587645712 Coefficient de détermination R^2 0.496011426 Erreur-type 2353.302134 Observations 12 ANALYSE DE VARIANCE Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F Régression 2 71030184.72 35515092.36 6.4129458 0.018565956 Résidus 9 49842278.42 5538030.936 Total 11 120872463.1 Coefficients Erreur-type Statistique t Probabilité Limite inférieure pour seuil de confiance = 95% Limite supérieure pour seuil de confiance = 95% Constante 40034.4147 3500.343207 11.43728267 1.158E-06 32116.08826 47952.74114 âge 269.9022708 89.3203627 3.021732813 0.0144387 67.84557296 471.9589687 expérience 23.47323377 103.1785424 0.227501118 0.8251181 -209.9328446 256.8793121 Exemple Statville (2) Excel : Outils - Utilitaire d’analyse - Régression linéaire – cocher Intitulé présent 2 R2 R2 R SCRessu
  • 24. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 24 / 50 Exemple Statville (3) • Le syndic conclut que, étant donné l’âge, les années d’expérience dans la fonction ne constituent pas un déterminant statistiquement significatif du salaire. Le modèle prédit donc que deux travailleurs qui ont le même âge mais des durées d’expérience différentes auront le même salaire en moyenne. • On note que par rapport à l’estimation de la régression linéaire simple (avec l’âge comme unique variable indépendante), le R- carré a augmenté (de 0.585 à 0.588). Par contre, puisque la valeur de la statistique t de la variable « expérience » est inférieure à 1, le R-carré ajusté a diminué (de 0.544 à 0.496). • Malgré l’augmentation du R-carré, la valeur de la statistique F a diminué (de 14.1 à 6.4) et celle de l’erreur type de la régression a augmenté (de 2239 à 2353). L’augmentation de K (de 1 à 2) a donc plus que compensé la diminution de SCRes (de 50.1 mn à 49.8 mn).
  • 25. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 25 / 50 Exemple Statville (4) • Corrélation entre les variables « âge » et « expérience » : 12 0.77ˆρ = ⇒ La multicolinéarité pourrait jouer un rôle (càd les variations dans le valeurs de la variable « expérience » ne sont pas suffisamment indépendantes de l’âge, ainsi qu’avec seulement 12 observations on arrive pas à identifier statis- tiquement un effet spécifique dû à « expérience ». → Excel : =COEFFICIENT.CORRELATION(âge;expérience) • Prédiction du salaire pour une personne de 55 ans avec 15 ans d’expérience : ( ) ( )1 2 1 2ˆ ˆ55, 15 55, 15y x x E y x x= = = = = 40034 269.9 * 55 23.5 *15 55231= + + = → La construction d’un intervalle de confiance autour de cette prévision n’est pas possible avec Excel.
  • 26. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 26 / 50 Exemple Statville (5) • Dans les tableaux publiés de résultats de la régression, il est utile de présenter les coefficients ainsi que leurs erreurs types et des symboles indiquant le niveau de signification statistique du test bilatéral de H0 : 0kβ = . • Une telle présentation des résultats facilite des tests d’hypothèse alternatifs, H0 : k zβ = . o Le syndic pourrait s’intéresser si la véritable hausse salariale moyenne par année d’âge est égale à 500 francs (α = 5%) : 1 1 1 500 500 269.9 500 2.58 89.3x b b t s= − − = = = − ; 1 9 0.05 2.26n K t tα − − = = o Intervalle de confiance de 95% approximatif pour n ≥ 60 : b ± 2 1bs Variables indépendantes : 269.9* (89.3) 23.4 (103.2) 40034.4* (3500.3) R-carré 0.59 R-carré ajusté 0.50 Erreur type de la régression 2353.3 Observations 12 expérience Constante Les déterminants salariaux à Statville variable dépendante: salaires; estimateur: MCO âge Remarques : erreurs types entre paren- thèses ; * : significatif à 5%
  • 27. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 27 / 50 Chapitre 4 : RÉGRESSION 4.3 Régression linéaire multiple 4.3.1 Equation et Estimation 4.3.2 Inférence 4.3.3 Coefficients de détermination 4.3.4 Spécifications
  • 28. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 28 / 50 Bases • Par « spécification », on entend la formulation du modèle empirique, càd de l’équation de la régression. • La spécification linéaire est suffisamment flexible pour permettre l’estimation d’une large gamme de modèles théoriques, dont certains sont non linéaires à la base (mais « intrinsèquement linéaires »). Nous présenterons quelques spécifications particulières très utiles : o spécification polynomiale o variables indépendantes binaires o spécification logarithmique o interactions • Il existe des modèles théoriques non linéaires qui ne peuvent être transformés en une spécification linéaire et nécessitent donc l’utilisation d’un estimateur non linéaire (pas traité dans ce cours). → Exemple : ( ) 1 0 1 3y xβ β β − = + +
  • 29. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 29 / 50 Spécification polynomiale • La spécification de base de la régression linéaire multiple peut être considérée comme un cas particulier d’une classe de fonctions plus large, les fonctions polynomiales : 2 3 0 1 2 3 ... K Ky x x x xβ β β β β ε= + + + + + + → K : le « degré » du polynôme → K = 2 : polynôme du deuxième degré (ou « parabole ») • Si ε satisfait les hypothèses du modèle des MCO, cette spécification peut être estimée avec la méthode des moindres carrés : ( ) 2 3 0 1 2 3ˆ ... K Ky E y x b b x b x b x b x= = + + + + +
  • 30. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 30 / 50 Exemple Statville (1) • Le syndic se rend compte que sa spécification initiale n’est pas satisfaisante. En particulier, l’hypothèse d’une relation linéaire entre l’âge et le revenu des habitants n’est pas plausible. • Il décide donc d’estimer un modèle polynomial du deuxième degré pour la variable indépendante « âge » : 2 0 1 1 2 1 3 2y x x xβ β β β ε= + + + + , où x1 = âge, et x2 = expérience
  • 31. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 31 / 50 Statistiques de la régression Coefficient de détermination multiple 0.956286456 Coefficient de détermination R^2 0.914483786 Coefficient de détermination R^2 0.882415205 Erreur-type 1136.692321 Observations 12 ANALYSE DE VARIANCE Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F Régression 3 110535907.7 36845302.56 28.5165036 0.000127026 Résidus 8 10336555.45 1292069.432 Total 11 120872463.1 Coefficients Erreur-type Statistique t Probabilité Limite inférieure pour seuil de confiance = 95% Limite supérieure pour seuil de confiance = 95% Constante 3932.56245 6744.300766 0.583094169 0.57589379 -11619.82299 19484.94789 âge 2077.513837 329.7370239 6.300517339 0.00023266 1317.138897 2837.888777 âge^2 -22.07705908 3.992584707 -5.529515516 0.00055414 -31.28397592 -12.87014225 expérience 97.9923741 51.6272887 1.89807322 0.09424716 -21.06036705 217.0451152 Exemple Statville (2) • b1 et b2 sont statistiquement significatifs • « expérience » devient statistiquement significative (à 10%) ⇒ spécification parabolique semble justifiée
  • 32. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 32 / 50 40000 44000 48000 52000 56000 25 30 35 40 45 50 55 âge revenu Exemple Statville (3) • Prédictions impliquées par les coefficients estimés pour une personne avec dix ans d’expérience : ( ) 2 2 1 1ˆ 10 3932.6 2077.5 * 22.1* 98 *10y x x x= = + − + • Prédiction de l’âge auquel le revenu est maximal, max 1x : max 1 2 1 1 ˆ 2 0 y b b x x ∂ = + = ∂ ∴ max 1 1 22x b b= − ∴ ( ) max 1 2077.5 47 2 * 22.1 x − = = −
  • 33. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 33 / 50 Variables indépendantes binaires • Une variable indépendante binaire (aussi : variable « muette », « indicatrice », ou « dummy ») ne prend que deux valeurs : 0 ou 1. • Les variables binaires sont utilisées pour distinguer deux niveaux mutuellement exclusifs des valeurs d’une variable quantitative ou qualitative. Quelques exemples : o dimension temporelle : bonne/mauvaise conjoncture ; été/non- été ; avant/après campagne publicitaire… o dimension spatiale : nord/sud ; ville/campagne ; Suisse/étranger… o variables qualitatives : homme/femme ; employé/non-employé… o variables quantitatives groupées : ménages à plus/moins de 50000 de revenu ; firmes avec plus/moins de 10 employés… • Le niveau pour laquelle la variable binaire est définie comme égale à zéro, est appelée le « niveau de référence ».
  • 34. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 34 / 50 ind. revenu âge expérience femme 1 52125.0 48.1 5.5 1 2 50955.9 38.7 2.5 0 3 53382.9 48.6 18.9 1 4 51286.9 37.5 13.5 0 5 55243.6 54.7 25.5 1 6 53384.7 40.7 7.3 0 7 53488.2 50.1 2.3 0 8 54134.1 45.9 18.8 1 9 52706.4 55.9 19 1 10 42144.3 25.1 5.5 0 11 52665.2 36.9 5 0 12 51656.7 34.5 15.5 0 Moyenne 51931.2 43.1 11.6 0.42 Ecart type 3314.9 9.1 7.8 0.51 Exemple Statville (4) • Le syndic cherche à savoir si, au-delà de l’âge et de l’expérience (càd « en contrôlant pour » x1, 2 1x et x2), le sexe des travailleurs influence leur salaire moyen. Il définit alors la variable muette x3 suivante : o individu i est une femme ⇔ x3 = 1 o individu i est un homme ⇔ x3 = 0 (niveau de référence)
  • 35. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 35 / 50 Statistiques de la régression Coefficient de détermination multiple 0.973087042 Coefficient de détermination R^2 0.946898391 Coefficient de détermination R^2 0.916554614 Erreur-type 957.5655371 Observations 12 ANALYSE DE VARIANCE Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F Régression 4 114453940.8 28613485.21 31.2056868 0.000148858 Résidus 7 6418522.304 916931.7578 Total 11 120872463.1 Coefficients Erreur-type Statistique t Probabilité Limite inférieure pour seuil de confiance = 95% Limite supérieure pour seuil de confiance = 95% Constante 3468.379446 5685.929397 0.609993407 0.56113791 -9976.707094 16913.46599 âge 2038.603283 278.4121524 7.322249642 0.00015968 1380.263156 2696.943411 âge^2 -20.82811623 3.417246482 -6.094999684 0.00049351 -28.90862013 -12.74761233 expérience 148.3984189 49.86108402 2.976237317 0.02062455 30.49569049 266.3011474 femme -2054.157981 993.7297586 -2.067119318 0.07754583 -4403.955467 295.6395053 Exemple Statville (5) • En moyenne, une femme gagne 2054.2 francs de moins qu’un homme du même âge et avec le même nombre d’années d’expérience. • Cet effet est statistiquement significatif au seuil de 10% mais non au seuil de 5%.
  • 36. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 36 / 50 40000 44000 48000 52000 56000 25 30 35 40 45 50 55 âge revenu femmes hommes 40000 44000 48000 52000 56000 25 30 35 40 45 50 55 âge revenu femmes hommes Exemple Statville (6) • Prédictions impliquées par les coefficients estimés o pour une femme avec dix ans d’expérience : ( ) 2 2 3 1 1ˆ 10, 1 3468 2038.6 * 20.8 * 148 *10 2054.2y x x x x= = = + − + − o pour un homme avec dix ans d’expérience : ( ) 2 2 3 1 1ˆ 10, 0 3468 2038.6 * 20.8 * 148 *10y x x x x= = = + − + b3 = 2054.2
  • 37. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 37 / 50 Exemple Statville (7) • Plutôt qu’estimer les paramètres du modèle de régression (des corrélations conditionnelles), le syndic pourrait s’intéresser aux corrélations « pures » ˆklρ entre toutes les paires de variables indépendantes kl (les corrélations inconditionnelles). → examiner la matrice de corrélation • Excel : Outils - Utilitaire d’analyse – Analyse de corrélation – Intitulés en première ligne revenu âge âge^2 expérience femme revenu 1 âge 0.765032264 1 âge^2 0.69672771 0.993137906 1 expérience 0.411455189 0.482058499 0.50549735 1 femme 0.422675732 0.738416719 0.75563342 0.667095592 1 !
  • 38. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 38 / 50 Variables binaires pour niveaux multiples • Des variables indépendantes binaires peuvent aussi servir pour représenter des variables qualitatives ou des variables quantitatives groupées avec C >>>> 2 niveaux. Dans ce cas on crée C − 1 variables binaires, une pour chaque niveau sauf un, appelé « catégorie de référence ». • Exemple Statville : Trois tranches d’âge o 0 − 30 : 1 20 ; 0x x= = o 31 − 55 : 1 21 ; 0x x= = o 56 − 65 : 1 20 ; 1x x= = ⇒ β0 est le salaire moyen des jeunes (0 − 30) ⇒ β1 est la différence entre le salaire moyen du groupe des 31 à 55 par rapport à celui des jeunes. ⇒ β2 est la différence entre le salaire moyen du groupe des 56 à 65 par rapport à celui des jeunes. ( ) 0 1 1 2 2E y x xβ β β= + +
  • 39. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 39 / 50 Spécifications logarithmiques (1) • Un modèle non linéaire mais « intrinsèquement linéaire » est l’équation Cobb-Douglas, 1 k K k k y a xβ = = ∏ , souvent utilisée en microéconomie pour représenter l’origine des courbes d’offre (fonction de production) et de demande (fonction d’utilité). → version stochastique (K = 2) : 1 2 1 2y ax x eβ β ε = , où ε satisfait les cinq hypothèses du modèle des MCO • Ce modèle devient linéaire quand on le transforme en logarithmes naturels : 0 1 1 2 2ln ln lny x xβ β β ε= + + + , où β0 = lna. o Puisque pour estimer ce modèle on transforme la variable dépendante ainsi que les variables indépendantes, on parle de la « double transformation logarithmique » ou de la « spécification log-log ».
  • 40. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 40 / 50 Spécifications logarithmiques (2) • Un grand atout de la spécification log-log est que les coefficients estimés peuvent être interprétés comme des élasticités. On parle donc aussi du « modèle à élasticité constante ».) o élasticité de y par rapport à xk : ln ln k k kk k k y xy yy xx y x x β ∂  ∂ ∂  = = =   ∂∂ ∂   o Tout comme les coefficients standardisés, les coefficients d’un modèle log-log peuvent être comparés à travers les variables indépendantes k, puisque par définition les élasticités sont toutes exprimées dans les mêmes unités (càd en termes de déviations en pourcentage de y et de xk). ( ) ( ) ln 1 ln y y y y y y ∂ ∂ = ⇒ = ∂ ∂
  • 41. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 41 / 50 Spécifications logarithmiques (3) • Un autre modèle « intrinsèquement linéaire » est donné par 0 1 1 2 2 ... k kx x x y eβ β β β+ + + + = . → version stochastique (K = 2) : 0 1 1 2 2x x y eβ β β ε+ + + = , où ε satisfait les cinq hypothèses du modèle des MCO • Ce modèle devient linéaire quand on le transforme en logarithmes naturels : 0 1 1 2 2lny x xβ β β ε= + + + . o Puisque pour estimer ce modèle on ne transforme que la variable dépendante, on parle de la « spécification semi- logarithmique ».
  • 42. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 42 / 50 Spécifications logarithmiques (4) • Les paramètres d’une telle spécification sont des semi-elasticités : il représentent la variation en pourcentage de la variable dépendante par rapport à une variation d’une unité de la variable indépendante en question. Puisque ces semi-elasticités dépendent des unités de mesure des variables indépendantes, elle ne sont pas directement comparables à travers les différentes variables indépendantes. • La spécification semi-logarithmique est utilisée en macroéconomie afin de modéliser des taux de croissance stables : o Soit 0 1x y eβ β ε+ + = , où y est un agrégat économique (PIB, niveau des prix,…), et x est la variable « temps » (en mois, trimestres, années,…). o Alors 1 lnd y dx β = est le taux de croissance moyen de y.
  • 43. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 43 / 50 Statistiques de la régression Coefficient de détermination multiple 0.825687981 Coefficient de détermination R^2 0.681760643 Coefficient de détermination R^2 0.649936707 Erreur-type 0.04086423 Observations 12 ANALYSE DE VARIANCE Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F Régression 1 0.035773766 0.035773766 21.422889 0.000938341 Résidus 10 0.016698853 0.001669885 Total 11 0.052472619 Coefficients Erreur-type Statistique t Probabilité Limite inférieure pour seuil de confiance = 95% Limite supérieure pour seuil de confiance = 95% Constante 9.92017321 0.202446229 49.00152131 3.025E-13 9.469094904 10.37125152 ln(âge) 0.25009325 0.054033481 4.628486685 0.00093834 0.129699151 0.370487348 Exemple Statville (8) • Spécification log-log (régression simple) : ln(revenu) = β0 + β1*ln(âge) + ε → par pourcent d’âge supplémentaire, le revenu moyen augmente de 0.25 pourcent → R-carré (0.68) plus élevé que dans la régression avec y et x non transformées (0.59, voir ch. 4.2.4) ⇒ spécification log-log (non- linéaire) mieux ajustée aux données
  • 44. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 44 / 50 Exemple Statville (9) • Spécification semi-logarithmique (régression simple) : ln(revenu) = β0 + β1*âge + ε → par année d’âge supplémentaire, le revenu moyen augmente de 0.57 pourcent → R-carré (0.57) moins élevé que dans la régression avec y et x non transformés (0.59, voir. ch. 4.2.4) ⇒ spécification semi-logarithmique moins bien ajustée aux données Statistiques de la régression Coefficient de détermination multiple 0.756007595 Coefficient de détermination R^2 0.571547483 Coefficient de détermination R^2 0.528702231 Erreur-type 0.047415214 Observations 12 ANALYSE DE VARIANCE Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F Régression 1 0.029990593 0.029990593 13.3398092 0.004444832 Résidus 10 0.022482026 0.002248203 Total 11 0.052472619 Coefficients Erreur-type Statistique t Probabilité Limite inférieure pour seuil de confiance = 95% Limite supérieure pour seuil de confiance = 95% Constante 10.60757468 0.069273957 153.1249996 3.4657E-18 10.45322269 10.76192668 âge 0.005758884 0.001576753 3.652370354 0.00444483 0.002245661 0.009272108
  • 45. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 45 / 50 15000 25000 35000 45000 55000 0 10 20 30 40 50 60 âge revenu Exemple Statville (10) ˆ 39885 279.7y x= + ( )( )ˆ exp 9.92 0.25 * lny x= + ˆ exp(10.61 0.006 )y x= +
  • 46. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 46 / 50 Interactions (1) • L’équation de régression linéaire multiple implique des effets isolés de chaque variable indépendante : k k y k x β ∂ = ∀ ∂ • En ajoutant des produits de variables indépendantes (« termes d’interaction »), on peut modéliser des interdépendances entre les effets des variables indépendantes : 0 1 1 2 2 3 1 2y x x x xβ β β β ε= + + + + ⇒ 1 3 2 1 y x x β β ∂ = + ∂ , 2 3 1 2 y x x β β ∂ = + ∂
  • 47. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 47 / 50 Interactions (2) • 1β (β2) représente l’effet de x1 (x2) sur ˆy quand x2 (x1) est égal à zéro. Puisque une valeur de zéro n’est souvent pas très réaliste ou informative (p.ex. dans une estimation des déterminants salariaux), on estime souvent une spécification transformée : ( )( )0 1 1 2 2 3 1 1 2 2y x x x x x xβ β β β ε= + + + − − +ɶ ɶ . 1βɶ ( 2βɶ ) est alors l’effet de x1 (x2) sur ˆy quand x2 (x1) prend sa valeur moyenne. • Si x1 est une variable continue et x2 une variable binaire, alors β2 représente le déplacement de l’intercept, et β3 représente le changement de la pente de ˆy par rapport à x1, quand x2 passe de 0 à 1.
  • 48. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 48 / 50 ind. commune revenu âge âge*commune 1 0 52125.0 48.11629 0 2 0 50955.9 38.7 0 3 0 53382.9 48.6 0 4 0 51286.9 37.5 0 5 0 55243.6 54.7 0 6 0 53384.7 40.7 0 7 0 53488.2 50.1 0 8 0 54134.1 45.9 0 9 0 52706.4 55.9 0 10 0 42144.3 25.1 0 11 0 52665.2 36.9 0 12 0 51656.7 34.5 0 moyenne 0 51931.2 43.1 0 écart type 0 3314.9 9.1 0 13 1 52115.3 42.4 42.4 14 1 44234.5 36.5 36.5 15 1 55381.3 42.7 42.7 16 1 56091.4 41.1 41.1 17 1 52160.0 33.9 33.9 18 1 46920.1 35.9 35.9 19 1 49522.2 34.7 34.7 20 1 53446.7 44.1 44.1 21 1 50557.1 28.5 28.5 22 1 51202.0 48.7 48.7 23 1 51905.6 49.8 49.8 24 1 46352.9 25.4 25.4 moyenne 1 49977.9 38.6 38.6 écart type 0 3576.0 7.5 7.5 Exemple Statland (1) • Les syndics de Statville et Statdorf cherchent à savoir si les salaires moyens croissent à un rythme différent avec l’âge dans leurs deux communes. • Ils collectionnent des données pour des échantillons aléatoires simples dans les deux communes (n = 12).
  • 49. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 49 / 50 Statistiques de la régression Coefficient de détermination multiple 0.655120807 Coefficient de détermination R^2 0.429183271 Coefficient de détermination R^2 0.343560762 Erreur-type 2769.816554 Observations 24 ANALYSE DE VARIANCE Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F Régression 3 115366070.9 38455356.96 5.012505176 0.009414488 Résidus 20 153437674.8 7671883.742 Total 23 268803745.7 Coefficients Erreur-type Statistique t Probabilité Limite inférieure pour seuil de confiance = 95% Limite supérieure pour seuil de confiance = 95% Constante 39885.01609 4046.721199 9.856131452 4.03454E-09 31443.70361 48326.32857 commune 1476.081811 5953.907628 0.247918158 0.80672532 -10943.55183 13895.71546 âge 279.6979321 92.10788803 3.036633865 0.006515058 87.56424498 471.8316191 âge*commune -34.74704321 144.3440856 -0.240723706 0.812219723 -335.8435288 266.3494424 Exemple Statland (2) • revenu = β0 + β1*commune + β2*âge + β3*âge*commune + ε, où commune = 0 ⇔ Statville ; commune = 1 ⇔ Statdorf ⇒ 1 279.7 34.7 245 revenu commune âge  ∂ = = − = ∂  (différence non significative du point de vue statistique)
  • 50. Statistique 1e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 50 / 50 42000 44000 46000 48000 50000 52000 54000 56000 25 30 35 40 45 50 55 60 âge revenu revenu estimé: Statville revenu estimé: Statdorf revenu observé: Statville revenu observé: Statdorf Exemple Statland (3)