02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA

Econometria
Ricardo Bruno N. dos Santos
Professores Adjunto da Faculdade de Economia
e do PPGE (Economia) UFPA

O modelo de Regressão Linear Simples
A interpretação moderna da regressão
A análise de regressão se ocupa do estudo da
dependência de uma variável, a variável dependente, em
relação a uma ou mais variáveis, as variáveis explanatórias,
com vistas a estimar e/ou prever o valor médio (da
população) da primeira em termo dos valores conhecidos ou
fixados (em amostragens repetidas) das segundas.

A interpretação moderna da regressão

Conceito da Função de Regressão Populacional (FRP)
A regressão populacional (RP) indica apenas o valor
esperado da distribuição de Y, dado Xi, ou seja, ela aponta que
a resposta média de Y varia com X.
𝐸 𝑌 𝑋𝑖 = 𝑓(𝑋𝑖)
Pressupondo que é uma regressão linear teremos:
𝐸 𝑌 𝑋𝑖 = 𝛽1 + 𝛽2𝑋𝑖
Nesse caso 1 e 2 são parâmetros conhecidos como
intercepto e coeficiente angular

O significado do termo linear
Qual a diferença entre a linearidade das variáveis e a
dos parâmetros?

O Erro Estocástico
Podemos expressar o desvio de um valor individual de Y
(Yi) em torno de seu valor esperado, assim temos:
𝑢𝑖 = 𝑌𝑖 − 𝐸(𝑌|𝑋𝑖)
Ou então
𝑌𝑖 = 𝐸 𝑌 𝑋𝑖 + 𝑢𝑖
Onde o desvio ui é uma variável aleatória não
observável que assume valores positivos ou negativos.
O termo ui também é conhecido como distúrbio
estocástico ou termo de erro estocástico.

O Erro Estocástico
𝑌𝑖 = 𝐸 𝑌 𝑋𝑖 + 𝑢𝑖
𝑌𝑖 = 𝛽1 + 𝛽2𝑋𝑖 + 𝑢𝑖 que é a FRP
No entanto, se tomarmos o valor esperado de 𝑌𝑖 =
𝐸 𝑌 𝑋𝑖 + 𝑢𝑖 nos dois lados da equação, obtém-se:
Assim, a pressuposição de que a linha de regressão
passa pelas médias condicionais de Y implica que os valores
médios condicionais de ui são iguais a zero.
( | ) [ ( | )] ( | )
( | ) ( | )
( | ) ( | ) ( | ) 0
i i i i i
i i i
i i i i
E Y X E E Y X E u X
E Y X E u X
E u X E Y X E Y X
 
 
  

Função de regressão Amostral (FRA)
E quando tivermos não uma população, mas sim, apenas
amostras de uma população. Na maior parte das situações práticas
é impossível trabalhar com dados populacionais. O que teríamos
agora são amostras de Y correspondentes a alguns X fixados.

Acredita-se que as linhas das FRA representem a linha
da FRP, porém, devido às variações amostrais, elas são, na
melhor das hipóteses, aproximações da verdadeira regressão
populacional.
Como a FRA é uma aproximação da FRP podemos
representar a linha de regressão da FRA pela seguinte
notação.
Que assim como FRA pode ser representado por
1 2
ˆ ˆ
ˆ
i i
Y X
 
 
1 2
ˆ ˆ ˆ
i i i
Y X u
 
  

Assim, nosso principal objetivo passa a ser estimar a
FRP com base na FRA.

Fica a pergunta: A partir da FRA pode-se formular um
método ou regra que torne a aproximação entre FRA e FRP o
“mais próximo”, possível? Em outras palavras, tornar os
estimadores i’s chapéu mais próximos dos verdadeiros i’s.

O Problema da Estimação: O Método
dos Mínimos Quadrados Ordinários
(MQO)

O Método dos Mínimos Quadrados
Ordinários (MQO)
Aqui iremos estimar a FRP a partir da FRA da maneira
mais acurada possível.
Recorrendo a FRP de duas variáveis temos:
Porém como a FRP não pode ser observada
diretamente. Temos que estimá-la a partir da FRA:
1 2
i i i
Y X u
 
  
1 2
ˆ ˆ ˆ
ˆ ˆ
ˆ ,
i i i
i i i i
Y X u
Y u Y Y
 
  
  sendo o valor estimado de

Ordinários (MQO)
Como determinar a Própria FRA? Para vermos isso,
faremos o seguinte:
Expressamos Yi como:
Ou seja, os resíduos são simplesmente a diferença
entre os valores observados e estimados de Y.
Agora nosso objetivo é estimar a FRA de tal forma que
a mesma fique o mais próximo possível do Y observado.
1 2
ˆ
ˆ
ˆ ˆ
i i i
i i
u Y Y
Y X
 
 
  

Ordinários (MQO)
Para tornar o valor de Y observado o mais próximo do
estimado basta adotarmos o seguinte critério:
deve ser o menor possível.
Embora intuitivamente seja um bom critério ele não
funciona, pois a soma dos resíduos se anulam. Para resolver
esse problema utilizamos a soma do quadrado dos resíduos.
ˆ
ˆ ( )
i i i
u Y Y
 
 
2
2
2
1 2
ˆ
ˆ ( )
ˆ ˆ
( )
i i i
i i
u Y Y
Y X
 
 
  
 


Ordinários (MQO)
O princípio do MQO é escolher os estimadores de
e de tal forma que, para qualquer amostra ou conjunto de
dados, a seja a menor possível.
Aplicando um processo de otimização podemos verificar isso,
levando em conta que
Considerando
1
ˆ

2
ˆ

2
ˆi
u

1 2
2
ˆ ˆ
( , )
ˆ
min i
u
 

2
ˆi
u Q



Cálculo dos estimadores por MQO
Pelo método de MQO podemos encontrar os
estimadores 𝛽𝑖
′
𝑠 da regressão linear simples, esses
estimadores são dados por:
𝛽1 = 𝑌 − 𝛽2𝑋
E
𝛽2 =
𝑋𝑖𝑦𝑖
𝑋𝑖
2
− 𝑛𝑋2
𝑜𝑢 𝛽2 =
𝑥𝑖𝑦𝑖
𝑥𝑖
2

COM BASE NAS FÓRMULAS DOS BETAS CALCULE
A REGRESSÃO, OS RESÍDUOS PARA OS DADOS DA
TABELA ABAIXO:

MQO: Propriedades Estatísticas do MQO
i) Os estimadores de MQO são expressos unicamente em
termos de quantidades observáveis (isto é, amostra)
como X e Y. Portanto, podem ser calculados com
facilidade.
ii) São estimadores pontuais, isto é, dada a amostra, cada
estimador proporciona apenas um único valor (ponto) do
parâmetro populacional relevante.
iii) Uma vez obtidas as estimativas de MQO para os dados
amostrais, a linha de regressão amostral pode ser
facilmente obtida, tendo as seguintes propriedades:

a) Passa pelas médias amostrais de Y e X. Esse fato fica óbvio
pela estimativa de 1.
b) O valor médio do Y estimado, 𝑌 , é igual ao valor médio do
Y observado para:
𝑌𝑖 = 𝛽1 + 𝛽2𝑋𝑖
= 𝑌 − 𝛽2𝑌 + 𝛽2𝑋𝑖
= 𝑌 + 𝛽2(𝑋𝑖 − 𝑋)
Somando-se os dois lados da equação e dividindo por n
teremos: ˆ
Y Y


c) O valor médio dos resíduos 𝒖𝒊 é igual a zero.
iv) Os resíduos 𝒖𝒊 não estão correlacionados ao Yi
previsto.
𝒚𝒊𝒖𝒊 = 𝜷𝟐 𝒙𝒊𝒖𝒊
= 𝜷𝟐 𝒙𝒊(𝒚𝒊 − 𝜷𝟐𝒙𝒊)
= 𝜷𝟐 𝒙𝒊𝒚𝒊 − 𝜷𝟐
𝟐
𝒙𝒊
𝟐
= 𝜷𝟐
𝟐
𝒙𝒊
𝟐
− 𝜷𝟐
𝟐
𝒙𝒊
𝟐
= 𝟎
v) Os resíduos 𝑢𝑖 não estão correlacionados com os 𝑋𝑖,
isto é 1 2
ˆ ˆ ˆ
2 ( ) 0
i i i i i
Y X X u X
 
    
 

MQO: Pressupostos do MQO
1) Modelo de Regressão Linear. O modelo de regressão é
linear nos parâmetros.
2) Os valores de X são fixos em amostras repetidas. Ou seja,
X é não estocástico.

3) O valor médio do termo de erro ui é zero. Dado o
valor de X, o valor médio, ou esperado, do distúrbio aleatório
ui é zero. Ou seja, o valor médio condicional de ui é zero:
Homocedasticidade ou variância igual de ui. A variância
de ui é a mesma para todas as observações, isto é, as
variâncias condicionais de ui são idênticas. Simbolicamente,
temos:
( | ) 0
i i
E u X 
2
2
2
var( | ) [ ( | )]
( | ),
i i i i i
i i
u X E u E u X
E u X

 


em decorrência de 3

5) Não há autocorrelação entre os termos de erro.
Dados quaisquer dois valores de X, Xi e Xj (i≠j), a correlação
entre quaisquer ui e uj (i≠j) é zero. (MRLM)
6) Ausência de covariância entre ui e Xi ou E(ui|Xi)=0
cov( , | , ) {[ ( )]| }{[ ( )]| }
( | )( | ) 0
i j i j i i i j j j
i i j j
u u X X E u E u X u E u X
E u X u X
  
 
cov( , ) [ ( )][ ( )]
( ( ( )), ( ) 0
( ) ( ) ( ), ( )
(
i i i i i i
i i i i
i i i i i
i
u X E u E u X E X
E u X E X E u
E u X E X E u E X
E u X
  
  
 

já que
já que é não estocástico
) ( ) 0
0
i i
E u 

já que
por hipótese

7) O número de observações n deve ser maior que o
número de parâmetros a serem estimados. Ou então, o
número de observações n deve ser maior que o número de
variáveis. (MRLM)
8) Variabilidade dos valores de X. Os valores de X em
uma dada amostra não devem ser os mesmos. Técnicamente.
Var(X) deve ser um número positivo finito.
9) O modelo de regressão está especificado da forma
correta. Ou então, não há viés ou erro de especificação no
modelo empregado na análise empírica.
10) Não há multicolinearidade perfeita. Isto é, não há
relações lineares perfeitas entre as variáveis independentes.
(MRLM)

MQO: Precisão nas Estimativas
Como verificamos, cada FRA pode nos fornecer
diferentes valores dos estimadores Betas da regressão, por
este motivo, devemos sempre levar em consideração uma
medida de “confiabilidade” ou precisão dos estimadores 𝛽1 e
𝛽2. Na estatística, a precisão de uma estimativa é medida
pelo seu erro padrão (ep). Podemos estimar os erros a partir
das variâncias dos 𝛽, que são:
𝑣𝑎𝑟 𝛽2 =
𝜎2
𝑥𝑖
2 , 𝑒 𝑒𝑝 𝛽2 =
𝜎
𝑥𝑖
2
𝑣𝑎𝑟 𝛽1 =
𝑋𝑖
2
𝑛 𝑥𝑖
2 𝜎2 𝑒 𝑒𝑝 𝛽1 =
𝑋𝑖
2
𝑛 𝑥𝑖
2 𝜎

Uma estimativa viável da variância do erro 𝜎2 pode ser
obtida pela Soma do Quadrado dos Resíduos (SQR). Assim
tem-se:
𝜎2 =
𝑢𝑖
2
𝑛 − 2
Onde o valor de n-2 é o grau de liberdade e o 𝑢𝑖
2
é a
SQR.

Para um melhor entendimento podemos representar a
SQR a partir da seguinte expressão:
𝑢𝑖
2
= 𝑦𝑖
2
− 𝛽2
2
𝑥𝑖
2
Já verificamos que 𝛽2 =
𝑥𝑖𝑦𝑖
𝑥𝑖
2 , que substituindo na
expressão acima teremos:
𝑢𝑖
2
= 𝑦𝑖
2
−
𝑥𝑖𝑦𝑖
2
𝑥𝑖
2
Portanto, podemos afirmar que a SQR é composta pela
Soma de Quadrados Total (SQT= 𝑦𝑖
2
) menos a soma de
quadrados explicada (SQE=
𝑥𝑖𝑦𝑖
2
𝑥𝑖
2 ).

MQO: Propriedades dos estimadores (𝜷) –
o Teorema de Gauss-Markov
O Teorema de Gauss-Markov é um dos mais importantes
dentre da Econometria, é a partir deste teorema que provamos
três importantes propriedades dos estimadores que garantem a
confiabilidade nas suas estimativas, são elas:
1) É Linear: ou seja, trata-se de uma função linear de uma
variável aleatória.
2) É Não Viesado (ou não TENDENCIOSO): ou seja, seu valor
médio ou esperado 𝐸(𝛽2) é igual ao verdadeiro valor de 𝛽2.
3) Tem VARIÂNCIA MÍNIMA na classe de todos os estimadores
lineares não viesados: um estimador não viesado com a menor
variância é conhecido como ESTIMADOR EFICIENTE.

MQO: Propriedades dos estimadores (𝜷) –
o Teorema de Gauss-Markov
Todo o objetivo por trás da regressão é provar que os
estimadores de MQO são MELNT (Melhor Estimador Linear
Não Tendencioso). O Teorema de Gauss-Markov prova isso,
logo, essa é a principal finalidade de tal teorema.
Podemos demostrar isso através de um gráfico de
distribuição normal destinado apenas aos estimadores, logo:

MQO: O coeficiente de Determinação R2 – uma
medida da “qualidade do ajustamento”
Na verdade o principal objetivo desse coeficiente é
mostrar o quanto de X consegue explicar em Y, pode-se
verificar isso no seguinte diagrama de Venn

Ou seja considerando a equação em forma dos desvios
(para facilitar o cálculo), pode-se verificar que:
𝑦𝑖 = 𝑦𝑖 + 𝑢𝑖
Lembrando que: 𝑦𝑖 = 𝛽2𝑥𝑖 + 𝑢𝑖 e 𝑦𝑖 = 𝛽2𝑥𝑖, se
elevarmos os dois lados da primeira equação ao quadrado e
somando na amostra, teremos
𝑦𝑖
2
= 𝑦𝑖
2
+ 𝑢𝑖
2
+ 2 𝑦𝑖 𝑢𝑖
= 𝑦𝑖
2
+ 𝑢𝑖
2
= 𝛽2
2
𝑥𝑖
2
+ 𝑢𝑖
2

Na composição final temos o conceito de que a
SQT=SQE+SQR
Soma de Quadrados Total = Soma de Quadrados
Explicada + Soma de Quadrados dos Resíduos.
Isso no gráfico pode ser representado da seguinte
forma:

Dividindo ambos os lados de SQT por SQT teremos:
1 =
𝑆𝑄𝐸
𝑆𝑄𝑇
+
𝑆𝑄𝑅
𝑆𝑄𝑇
=
𝑌𝑖 − 𝑌
2
𝑌𝑖 − 𝑌 2
+
𝑢𝑖
2
𝑌𝑖 − 𝑌 2
Podemos então definir o 𝑟2
como sendo
𝑟2
=
𝑆𝑄𝐸
𝑆𝑄𝑇
=
𝑦𝑖
2
𝑦𝑖
2 𝑜𝑢 =
𝛽2
2
𝑥𝑖
2
𝑦𝑖
2 𝑜𝑢 =
𝑥𝑖𝑦𝑖
2
𝑥𝑖
2
𝑦𝑖
2 𝑜𝑢 = 1 −
𝑢𝑖
2
𝑦𝑖
2

Lembrando do nosso exemplo anterior vamos calcular o
𝑟2

MQO: Um exemplo numérico
Vamos construir a tabela 3.3 do capitulo 3 (seção 3.6)
usando o software Gretl. Os dados são referentes as despesas
familiares de consumo semanal (Y) e renda familiar semanal
(X)

02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (15)

Similaire à 02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA

Similaire à 02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA (20)

Plus de Ricardo Bruno - Universidade Federal do Pará

Plus de Ricardo Bruno - Universidade Federal do Pará (17)

02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA