Economtrie des donnes de panel (cours et exe)

Econométrie des
données de panel
sous STATA
Dalila Chenaf-Nicet
Université de Bordeaux
2019

Introduction
Il existe trois type de séries statistiques qui peuvent être traitées en
économétrie :
• La coupe transversale : Le chiffres d’affaires de plusieurs entreprises
différentes : différents individus à une seule date.
i = 1, …, n t= 2018 y1, y2, y3, …, yn
• La série chronologique (temporelle) : Le chiffre d’affaires d’une seule
entreprise : un seul individu à plusieurs dates.
i = 1 t= 1,…, T y11, y12, y13, …, y1T
• La série en données de panel: Le chiffre d’affaires de plusieurs entreprises:
différents individus , à plusieurs dates.
i = 1, …, n t= 1,…, T
y11, y12, y13, …, y1T
y21, y22, y23, …, y2T
………………………………………...
yn1, yn2, yn3, …, ynT
La série est indexée par le temps (minutes, heures, années, trimestres, ..)

Introduction
Nous présenterons ici la logique générale de l’utilisation des
données de panel
Exemple 1 : 3 consommateurs différents dont on a suivi la
consommation sur 10 ans
• Le consommateur A est pauvre ; le consommateur B fait partie
de la classe moyenne et le consommateur C est riche.
• La question qui se pose est : peut-on imaginer un même
comportement de consommation pour ces 3 agents ?
• En d’autres termes peut-on estimer la même fonction de
consommation keynésienne et donc la même propension
marginale à consommer (c) et la même consommation
autonome (Co) pour les trois catégories d’agents?
• Eq.1 C=c*R+C0

Introduction
Exemple 1 : 3 consommateurs différents dont on a suivi la consommation
sur 10 ans.
On peut imaginer quatre situations :
i) Les trois agents sont complétements différents dans leur comportement.
Il faut donc estimer l’équation (1) pour chaque agent.
i=1,2,3 agents.
On fera trois régressions OLS différentes pour chaque agent : on retrouve
alors 3 séries temporelles :
C1t= c1*R1t+C01 avec t= 1,…, T
Les ci et les COi sont significativement différents d’un individu à l’autre.
Par exemple les riches ont une propension marginale à consommer bien
plus faible que les pauvres ou les classes moyennes. Alors que les riches
ont une consommation autonome bien plus élevée. Les classes moyennes
ont alors un comportement intermédiaire.
Les trois agents ont donc des comportements totalement hétérogènes.

Introduction
consommation sur 10 ans.
2) Les trois agents ont des comportements totalement identiques. On
peut donc estimer l’équation (1) une seule fois en considérant qu’elle
est identique pour les trois agents quelque soit le niveau de revenu.
On fera une seule régression OLS
Ct= c*Rt+C0 l’estimation est valable  i, l’agent
La propension marginale à consommer et la consommation autonome
sont identiques pour les 3 individus.
Ex : Ct= 0.8*Rt+100
Cela revient à dire que Riche où Pauvre les ménages consommeraient
80% de leur revenu (c) alors qu’en l’absence de revenu la
consommation autonome est pour tous de C0=100 (le seuil minimum
vital identique pour tous).
Les comportements des agents sont « homogènes »
Ici l’estimation peut se faire sur données empilées sans distinguer les
individus les uns des autres

Introduction
• Exemple 1 : 3 consommateurs différents dont on a suivi la
3) Les trois agents ont des comportements identiques au regard de C0,
mais des comportements différents au regard de la propension marginale
à consommer (la pente de la courbe de la droite de régression est plus ou
moins penchée selon la tendance qu’ont les agents à consommer leur
revenu)
On ne peut pas faire autrement qu’estimer trois régression OLS pour
déterminer les trois équations différents.
C1t= c1*R1t+C0
C2t= c2*R2t+C0
C3t= c3*R3t+C0
Les ci sont significativement différents d’un individu à l’autre.
Par exemple les riches ont une propension marginale à consommer bien
plus faible que les pauvres ou les classes moyennes. Mais les
consommation autonomes sont identiques.
Les comportements des agents sont un « peu hétérogènes »

Introduction
4) Les trois agents ont des comportements identiques au regard de la
propension marginale à consommer (la pente de la courbe de la
droite de régression est la même pour tous les agents), mais la
constante C0 est différentes pour les trois agents.
« C’est ce cas qui est au cœur de l’analyse des données de panel »
On fera une seule régression OLS mais en estimant une constante
différente selon l’agent . Ceci permettra de tenir compte du fait qu’au-
delà d’un comportement globalement homogène (la même
propension à consommer) les agents ont toutefois des
comportements hétérogènes pour une partie de leur comportement
de consommation.
Il existe une certaine spécificité des individus que la constante permet
de prendre en compte.
Cette spécificité est dans la réalité non mesurable, inobservable

Introduction
4) On fera dans ce cas l’estimation de la régression suivante dont
la constante C0 prendra une forme « particulière » (C0i=C0+ai)
Cit= c*Rit+C0i
La constante C0i (=C0+ai) sera différente d’un agent i à l’autre. La
consommation autonome pourra être plus ou moins élevée selon l’agent
(ainsi que la consommation au final)
Par exemple si a1 est positif pour l’agent 1, mais que a2 est négatif pour
l’agent 2, alors que même si les deux ont tendance à consommer 80% de
leur revenu, la consommation de l’agent 1 (quelque soit R) à tendance
être un peu plus élevée que celle de l’agent 2

Introduction
Exemple 1 : 3 consommateurs différents dont on a suivi la consommation
sur 10 ans.
4) On tient compte dans ce cas d’un comportement spécifique de chaque
individu (spécificité de l’individu qui peut être plus pingre que l’autre ou
plus panier percé que l’autre !! Degré de pingrerie ne peut pas se mesurer ni
être facilement observable)
On tente de prendre en compte ce que l’on nomme les « spécificités
individuelles » ou encore « Effets individuels ».
C’est comme si on estime la même équation pour tous les individus mais en
introduisant trois variables muettes (Di) qui prennent les valeurs 1 quand
l’agent i est concerné et sinon 0.
Yit= a*xit+ b + α1*D1 + α2*D2 +α3*D3.
C’est comme si on obtenait trois équations avec une seule estimation. On
obtient alors pour chaque idividu:
Y1t= a*x1t+ α1D1 + b
La constante (b+αiDi) est différente pour chaque individu.

Introduction
Y
X
Nuage de
points de
l’agent A
Nuage de
points de
l’agent B
Droite de
régression
données
empilées
Nuage de
points de
l’agentC

Introduction
L’objet des données de panel sera de faire une succession de tests pour
préciser si on est dans le cas 1,2,3, 4
HSIAO 1989 à partir d’une arborescence propose une méthodologie
pour préciser dans quel cas les coefficients de la droite à estimer Y=
ax+b sont considérées :
- comme homogènes (les mêmes a et b) avec donc des
comportement identiques des individus
- ou comme hétérogènes (les ai et bi différents ; les ai différents
et b identiques ou les ai identiques et les bi différents) avec
comportements différents spécifiques des individus.
Les tests sont des tests de Fisher reposant sur la « somme des carrés
des résidus » où on compare la valeur des paramètres des modèles
contraints à la valeur des paramètres des modèles non contraints.

Introduction
Pour plus de précisions sur les tests HSIAO on peut se référer au
chapitre 13 du Bourbonnais mais également aux exercices
corrigés de ce chapitre que j’ai réalisé sous STATA dans le cadre
de cet ouvrage.
https://regisbourbonnais.dauphine.fr/fr/publications/econometri
e-manuel-et-exercices-corriges.html.
Cliquer à droite sur données et exercices

Introduction
Dans le cadre des données de panel on recherche donc la
spécificité des individus au-delà de comportements homogènes:
On cherche des effets individuels.
Cependant, il faut préciser la nature de cette spécificité et donc
la nature de l’effet individuel (de la constante ai)
- ai est de nature déterministe : on parle d’effets fixes (FE –
Fixed Effects)
- ai est de nature aléatoire : on parle d’effets aléatoires (RE
– Random Effects)

Chapitre 1 – Les modèles FE
individuels et temporels
Les données de panel permettent de contrôler les variables que
l’on ne peut ni observer ni mesurer, comme les facteurs culturels
ou les différences dans les pratiques des individus.
En réalité on ne peut pas mesurer le degré de radinerie des
agents dans leur comportement de consommation comme dans
l’exemple de l’introduction!
Dans le même exemple on peut aussi imaginer que plus les
revenus sont élevés et plus les agents sont diplômés. Il existe
alors des consommations socio-culturelles spécifiques aux
individus que l’on ne sait pas mesurer : il y a un lien entre la
variable explicative (R) et l’effet individuel (l’effet fixe individuel)

Les données de panel permettent aussi de contrôler les variables
qui changent au fil du temps mais pas entre les individus .
Les agents ont partout le même comportement de
consommation, mais dans certaines périodes il est globalement
affectée par un évènement qui a eu lieu dans une période
particulière (au moment d’une crise ou d’un évènement heureux)
La consommation des ménages des 28 (27!) pays de l’union
européenne répond au même schéma mais elle a diminué
pendant la crise de 2007
C'est-à-dire que l’on tient compte de l'hétérogénéité
temporelle.
On peut donc estimer des effets temporels (effet fixe temporel)

L’essentiel des exemples seront fait sur les effets individuels et
non temporels mais la logique économétrique est la même et la
technique sous STATA symétrique.
Les exemples seront fait en supposant des pays (individus) à
plusieurs date (temps).
Mais cela pourrait être :
- des ménages à plusieurs dates
- des entreprises à plusieurs dates
- des pays à plusieurs dates,……..

On peut par exemple se demander si le niveau du PIBit est
expliqué par le capital humain de plusieurs pays (taux de
scolarisation SCOit) avec une équation du type :
• PIBit = β1SC0it+ b +αi+ εit
- PIBit est la variable dépendante pour i = individu (pays) et t =
périodes
- SC0it représente la variable explicative
- β1 est le paramètre à estimer (la pente de la droite)
- b la constante commune à tous les pays
- αi(i=1….n) est l’effet fixe pour chaque pays (la constante
spécifique à chaque pays)
– εit est le terme d’erreur

Les données initiales prennent par exemple la forme (3 périodes
et 3 pays)

Il faut donc dans un premier temps créer une variable
« numérique » qui prends pour la variable Pays, la valeur 1 pour
l’Allemagne, 2 pour la France et 3 pour l’Italie (STATA respecte
l’ordre alphabétique). La variable crée sera nommée « country »
Code stata
egen country=group(Pays)

Ensuite on doit déclarer que les données ont une double dimension de
panel (individu / temps) en utilisant le code « tsset » (on peut utiliser
xtset c’est pareil).
tsset country periode
Individu : le nom de la variable des individus (ici country)
temps : le mon de la variable du temps (ici periode)
On obtient le message qui indique si il a des données manquantes ou
pas (strongly balanced). Ici le panel est parfaitement balancé (pour
chaque pays nous avons des données dans toutes les années)
tsset country periode
panel variable: country (strongly balanced)
time variable: periode, 2015 to 2017
delta: 1 unit

Avant de démarrer l’analyse il faut préciser que si pour les
estimations on utilise les écarts à la moyenne (ce que l’on fait
toujours en faisant du MCO) ici cela se fait différemment.
On fait des analyses qui sont sur des écarts :
- Intra (between) : comment la moyenne de la variable x
sur la période pour chaque individu “i” s’éloigne de la moyenne
de l’échantillon complet de la variable x sur la période (comment
la moyenne de chacun s’éloigne de la moyenne globale) (𝑥𝑖 - 𝑥 )
- Inter (within) : comment pour un individu i la variable xi
à chaque période s’éloigne de la moyenne de la période de la
même variable xi pour le même individu (𝑥𝑖𝑡 - 𝑥𝑖 )
- Global (overall) : comment la variable xi à chaque période
pour tous les individus pris ensemble s’éloigne de la moyenne de
xi pour tous les individus sur les 3 périodes (𝑥𝑖𝑡 - 𝑥 )

Il faut impérativement maitriser les trois notions :
- l’écart intra (between) - (𝑥𝑖 - 𝑥 ).
- l’écart inter (within) - (𝑥𝑖𝑡 - 𝑥𝑖 )
- l’écart global (overall) - (𝑥𝑖𝑡 - 𝑥 )

Exemple : 3 étudiants qui ont obtenu des notes d’économétrie sur
les 3 années de Licence, L1,L2,L3.
Etudiant Année individu variable xit
moyenne de
chaque l'individu
sur les 3
périodes
moyenne de
tous les individus
sur les 3
périodes
(Globa/Overal)
L'écart global
(Globa/Overal)L'écart
beetwen
L'écart
within
L'écart
within
modifié
Etudiant 1 2016 1 9 8,67 11,11 -2,11 -2,44 0,33 11,44
Etudiant 1 2017 1 10 8,67 11,11 -1,11 -2,44 1,33 12,44
Etudiant 1 2018 1 7 8,67 11,11 -4,11 -2,44 -1,67 9,44
Etudiant 2 2016 2 12 12,67 11,11 0,89 1,56 -0,67 10,44
Etudiant 2 2017 2 12 12,67 11,11 0,89 1,56 -0,67 10,44
Etudiant 2 2018 2 14 12,67 11,11 2,89 1,56 1,33 12,44
Etudiant 3 2016 3 10 12,00 11,11 -1,11 0,89 -2,00 9,11
Etudiant 3 2017 3 13 12,00 11,11 1,89 0,89 1,00 12,11
Erudiant 3 2018 3 13 12,00 11,11 1,89 0,89 1,00 12,11

Exemple 3 étudiants qui ont obtenu des notes d’économétrie sur
On a donc (dans le cas de notre exemple T=3, N=3):
• La moyenne individuelle
𝑥𝑖 =
1
𝑇
* 𝑡=1
𝑡=3
𝑥𝑖𝑡
• La moyenne globale
𝑥 =
1
𝑇
*
1
𝑁 𝑡=1
𝑡=3
𝑛=1
𝑛=3
𝑥𝑖𝑡

On va alors pour la variable x définir 3 variance
La variance globale
𝜎2
𝐺
=
1
𝑇
*
1
𝑁 𝑡=1 𝑖=1(𝑥𝑖𝑡 - 𝑥)2
La variance Between
𝜎2
𝐵
=
1
𝑁𝑇−1 𝑖 ( 𝑥𝑖 - 𝑥) 2
La variance within
𝜎2
𝑤
=
1
𝑁𝑇−1 𝑡=1 𝑛=1(𝑥𝑖𝑡 - 𝑥𝑖)2
On a alors σ2
G
= σ2
B
+ σ2
w

Pour générer la décomposition de cette variance sous stata
σ2
G
= σ2
B
+ σ2
w
Il faut coder
xtsum
Cela décompose la variance de toutes les variable de votre fichier
de données.

Dans le cas de nos trois notes d ’économétrie de nos 3 étudiants
cela donne :

xtsum

On peut naturellement obtenir plus de détails sur les variables en
codant :
summarize notes
Mais on peut aussi utiliser
xttab nom de la variable
Dans ce dernier cas imaginons que soit créée une variable muette
qui prend la valeur 0 aux périodes où l’étudiant vivait chez ses
parents et 1 quand il avait son propre studio.
On nomme cette nouvelle variable « residence »

Avec le code xttab residence on obtient :
Dans 33% des observations « individu années », les individus
vivent chez leurs parents et 66% dans leur propre studio.
Between indique que 66% on au moins vécu 1 fois chez leur
parent et 100% au moins une fois en studio
Within indique 66% de ce qui ne vivaient pas chez leurs parents
ne vivent toujours pas chez leurs parents.

Pour tracer les graphes sur les variables pour chaque individu
(série temporelle) on peut utiliser
xtline notes

Pour tracer les graphes sur les variables pour chaque individu
(série temporelle) sur le même graphe
xtline notes, overlay

Pour la suite nous utiliserons le fichier de données utilisées dans
le chapitre 13 du R. Bourbonnais (format Excel et dta)
Vous pouvez télécharger ce fichier directement à ma page perso
« research gate »
Onglet  data  nom du fichier : exemple panel (soit format dta
(stata 15) soit au format Excel)

Dans ce fichier il y a 9 pays différents et 25 périodes de temps.
La variable des pays se nomme « Pays » et celle du temps
«Année »
tsset Pays Années
Il y a une variable dépendante Y et deux variables explicatives X1,
X2.

xtset Pays Année
xtline Y

xtset Pays Année
xtline Y, overlay

Pour voir l’hétérogénéité entre les pays pour la variable Y par
exemple on peut faire
bysort Pays: egen Y_barre=mean(Y)
twoway scatter Y Pays, msymbol(Triangle) || connected Y_barre Pays, msymbol(circle_hollow)
|| , xlabel(1 " pays A" 2 " pays B" 3 " Pays C" 4 " Pays D" 5 " Pays E" 6 " Pays F" 7 " Pays G" 8 "
pays H " 9 " Pays I ")
On fait le graphe de Y pour chaque pays avec sa moyenne
individuelle sur la période
𝑦𝑖 =
1
𝑇
* 𝑡=1
𝑡=25
𝑌𝑖𝑡

Pour voir l’hétérogénéité entre les périodes pour la variable Y par
exemple on peut faire
bysort Année: egen Y_barre2=mean(Y)
twoway scatter Y Année, msymbol(Triangle) || connected Y_barre2 Année, msymbol(diamond)
|| , xlabel(1 25)
On fait le graphe de Y pour chaque période avec la moyenne par période pour tous les
pays
𝑦𝑡 =
1
𝑁
* 𝑖=1
𝑖=9
𝑌𝑖𝑡

A – l’hétérogénité entre les individus (les pays) : Les effets fixes individuels
Pour tester ces modèles on peut utiliser deux types de modèles équivalents
Soit on construit le modèle en introduisant des variables muettes pour tenir compte
des spécificités :
• Eq. 1 - Yit = β0+ β1X1it+ β1X2it+ β1X3it+ + b +α1D1+ + α2D2 +…+ α9D9 +εit
– Yit est la variable dépendante où i = individu (Pays) avec t = Année
– β0 : la constante commune à tous les pays
– X1it , X2it , X1it representent les variables explicatives et leur coefficient βi à estimer.
– εit est le terme d’erreur
- αi(i=1….9) : les coefficients des 9 variables muettes D (=0 ou 1 selon chque pays).
Mais il faut créer soit même les variables muettes du modèle (où les coder sous
stata)

A – l’hétérogénité entre les individus (les pays) : Les effets fixes
individuels
• Eq. 1 - Yit = β0+ β1X1it+ β1X2it+ β1X3it+ + b +α1D1+ + α2D2 +…+
α9D9 +εit
• Ce modèle ce nomme modèle LSDV (least squares dummy
variable).

• Soit on estime directement un modèle à effets fixes
• Eq. 2 Yit= β0 +β1X1it+ β2X2it+ β3X3it+αi+ εit
• Où
- Yit est la variable endogène
- X1it , X2it , X1it representent les variables explicatives et leur coefficient
βi à estimer.
- β0 est la constante commune à tous les pays
- Les effets fixes αi pour chaque individus
εit est le terme d’erreur
C’est l’estimateur within. On estime les d’abord les βk puis les (𝜶𝒊 )
avec la formule (𝜶𝒊 = 𝒚𝒊 - * βk ∗ 𝑿𝒊𝒌)

• Soit on estime directement un modèle à effets fixes
• Eq. 2 Yit= β0 + β1X1it+ β2X2it+ β3X3it+ αi+ εit
Pour calculer (𝜶𝒊 ) on passe par les écarts à la moyenne

On pourra comparer ces deux modèles qui sont strictement
identiques dans leurs résultats
Eq. 1 Yit = β0+ β1X1it+ β1X2it+ β1X3it+ + b +α1D1+ + α2D2 ++ α9D9 +εit
Eq. 2 Yit= β0 + β1X1it+ β2X2it+ β3X3it+ αi+ εit
Au modèle MCO standard
• Eq. 3 Yit= β0 + β1X1it+ β2X2it+ β3X3it+ εit
Ce modèle qui se nomme modèle avec données empilées

Etape 1 : comparons MCO et LSDV
La régression MCO
regresss Y X1 X2

La régression MCO (le graphe avec une seule variable)
twoway scatter Y X1, mlabel(Pays) || lfit Y X1, clstyle(p2)
Avec la droite
Estimée.

La régression LSDV avec variables muettes nommées Ipays-i
xi: regress Y X1 X2 i.Pays

La régression LSDV
On peut après la régression récupérer les valeur de Y observées
et les Y estimées (Yhat) (stata les nomme ychapeau)
xi: regress y x1 i.Pays
predict yhat
separate y, by(Pays)
separate yhat, by(Pays)
On peut ensuite faire un graphique qui va nous donner les 9
nuages de points, les 9 estimations et les comparer à l’estimation
globale MCO. (voir idée du slide 10)

twoway connected Yhat1-Yhat9 X1 X2 || lfit Y X1, clwidth(thick)
clcolor(black).
On voit que la régression globale est totalement en contradiction
avec les 9 estimations individuelles

On peut réunir les résultats MCO et LSDV pour les comparer dans un
seul tableau
regress Y X1 X2
estimates store MCO
xi: regress Y X1 X2 i.Pays
estimates store MCO_LSDV
estimates table MCO MCO_LSDV, star stats(N)
Penser à stocker vos résultats (estimates store) puis à les réutiliser
dans des tableaux que Stata fait directement (estimates table)
star permet de mettre des étoiles quand c’est significatif.

Comparons maintenant LSDV et Modèle à effet fixe
Le modèle initial est :
(2) Yit= β0 + β1X1it+ β2X2it+ β3X3it+ αi+ εit
Que l’on va écrire sous une forme matricielle
(2) Yit= X’ β + αi+ εit
En utilisant les moyennes intra-individuelles
𝑌𝑖= 𝑋𝑖 ‘β + αi+ 𝜀i
On soustrait les moyennes au modèle qui devient
Yit-𝑌𝑖= (X’ - 𝑋𝑖 ‘)β + (αi - αi ) + (εit- 𝜀i.)
Yit-𝒀𝒊= (X’ - 𝑿𝒊 ‘)β + (εit- 𝜺i)
On fait disparaitre les inobservables (effets fixes qui ne varient pas
dans le temps). Comme on fait les ecarts à la moyenne on comprend
pourquoi on ne peut pas mettre de dummies dans les modèles FE

On va alors calculer un estimateur within avec l’estimateur MCO
appliqué à Zit et (Wit) :
Yit-𝑌𝑖= (X’ - 𝑋𝑖 ‘)β + (εit- 𝜀i)
Posons
Zit = Yit-𝑌𝑖
Wit = (X’ - 𝑋𝑖 ‘)
Et donc on estime l’équation suivante avec les MCO
Zit = (Wit)β + (uit)
On estime les effets fixes avec la formule
Avec ∶ 𝛼𝑖 = 𝑦𝑖 - * βk ∗ 𝑋𝑖𝑘

On peut utiliser la commande xtreg pour directement estimer un
modèle à effets fixes
xtreg Y X1 X2, fe
On peut utiliser la
Commande areg
Plutôt que xtreg.

Comparons les trois modèles
regress Y X1 X2
estimates store MCO
xi: regres Y X1 X2 i.Pays
estimates store LSDV
xtreg Y X1 X2, fe
estimate store FE
estimates table MCO LSDV FE, star stat(N)

Comparons les trois modèles
LSDV et FE c’est pareil !! Théorème FRISCH –WAUGH - LOVELL

Revenons a FE- comment interpréter le tableau

Revenons a FE- comment interpréter le tableau
C’est la corrélation intra classe.
Le test de Fisher indique qu’il y a bien de l’hétérogénéité
individuelle (on notera que dans le modèle LSDV les coefficients des
variables muettes étaient significatifs).

On peut utiliser la Commande areg plutôt que xtreg quand on
détecte de l’héteroscédasticité.

Chapitre 2 – Les modèles RE
individuels
Dans le modèle FE, on estime Y en fonction de X mais en contrôlant
les caractéristiques propres des individus. Cependant il est supposé
que les effets fixes sont corrélés aux les variables explicatives. Ce
sont des constantes corrélées avec les X (ce qui ne pose pas de
problème, ce qui pose problème c’est quand des variables sont
corrélées avec le terme d’erreur)
C’est comme dans la fonction de consommation :
Cit= c*Rit+C0i
Elle dépend du revenu (Rit) et de la spécificité de l’individu (C0i), mais la
spécificité de l’individu c’est son niveau de diplôme qui caractérise aussi
son mode de consommation. Or le revenu et le diplôme sont corrélés.

individuels
Avec les modèles à effets aléatoires (RE) , on se demande si ces
effets ne sont pas de nature aléatoire.
Par contre pour que les estimations restent BLUE il faut que ces
effets ne soient pas corrélées avec les variables X
L’aléa ne doit pas être corrélé avec les variables x car selon les
hypothèses des MCO
Cov(xit, εit ) = 0

Le modèle que l’on estime à présent est
Yit= β0 + β1X1it+ β2X2it+ β3X3it+ αit+ εit
La « spécificité » n’est plus fixe dans le temps elle peut varier.
L’avantage de ces modèles c’est qu’on peut y introduire des variables
invariantes dans le temps (ce que l’on ne peut pas faire avec le
modèle FE) comme les variables muettes.
Erreur indivduelle
between
Erreur indivduelle
within
individuels

xtreg Y X1 X2, re
individuels

La question qui se pose comment choisir entre FE ou RE : Le test
d’Hausman
On estime les deux modèles et on les compare
xtreg Y X1 X2, fe
estimates store FE
xtreg Y X1 X2, re
estimates store RE
hausman FE RE
individuels

individuels
Si c’est inférieur à 5% je
préfère les FE

Si on veut corriger l’hétéroscédasticité dans un modèle fe
xtreg Y X1 X2, fe robust
Chapitre 3 – Des tests
supplémentaires

Attention veut corriger l’hétéroscédasticité dans un modèle fe, on
ne peut pas utiliser l’option robust sous toutes les versions de STATA
mais on peut utiliser areg et non xtreg. Il faut préciser avec l’option
absorb (individus) la variable qui représente la dimension
individuelle ici c’est la variable Pays.. (fe / robust quand c’est
possible donne les mêmes résultats que areg)
areg Y X1 X2, absorb(Pays)
supplémentaires

Si on veut corriger l’hétéroscédasticité dans un modèle RE
xtreg Y X1 X2, re robust
supplémentaires

Tester l’existence d’effets temporel
xtreg Y X1 X2 i.Année, fe
testparm i.Année
supplémentaires
C’est >5% pas besoin
d’effets temps

Le test de normalité des résidus se fait après une estimation fe ou
re, puis récupération des résidus et tests (Skeness, Kurtosis, JB).
xtreg Y X1 X2,fe
predict residu, ue
sktest residu
supplémentaires

Tester l’hétéroscédasticité pour un modèle fe (il faut construite le
test Breusch-Pagan)
xtreg Y X1 X2,fe
On peut utiliser le F global de la régression
ho =tous les coefficients de la régression sont nuls
(homocedasticité)
predict residu, ue
gen residu2=residu^2
regress residu2 X1 X2
supplémentaires

Tester l’hétéroscédasticité (inter-individus) pour un modèle fe
xtreg Y X1 X2,fe
xttest3
supplémentaires

Tester l’hétéroscédasticité pour un modèle re
xtreg Y X1 X2, re
xttest0
supplémentaires
C’est <5%

Test de la corrélation contemporaine entre les individus
xtreg Y X1 X2, fe
Xttest2
Ici on rejette H0. Les erreurs sont corrélées de manière
contemporaine (seuil 5%). Il faut corriger la corrélation en faisant
xtgls Y X1 X2, panel(corr)
supplémentaires

Test de la corrélation contemporaine entre les individus
xtgls Y X1 X2, panel(corr)
supplémentaires

Test de l’autocorrélation intra-individus
xtserial Y X1 X2
Si les erreurs des individus sont auto-corrélées on peut corriger par
les différentes syntaxes
xtgls Y X1 X2, panel(corr) corr(ar1)
xtregar Y X1 X2, fe
xtregar Y X1 X2, re
supplémentaires
On accepte H0

Références
codes sont adaptés de
https://www.princeton.edu/~otorres/Panel101.pdf
R. Bourbonnais , Econométrie, 9ème édition, 2018

Economtrie des donnes de panel (cours et exe)

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Economtrie des donnes de panel (cours et exe)

Similaire à Economtrie des donnes de panel (cours et exe) (17)

Dernier

Dernier (20)

Economtrie des donnes de panel (cours et exe)