O documento discute o modelo de regressão linear simples. Explica que a regressão analisa a dependência entre uma variável dependente e uma ou mais variáveis explicativas, estimando o valor médio da primeira em termos dos valores das segundas. Também apresenta o método dos mínimos quadrados ordinários para estimar os parâmetros da regressão linear simples a partir de uma amostra, de modo a aproximar a regressão amostral da regressão populacional.
2. O modelo de Regressão Linear Simples
A interpretação moderna da regressão
A análise de regressão se ocupa do estudo da
dependência de uma variável, a variável dependente, em
relação a uma ou mais variáveis, as variáveis explanatórias,
com vistas a estimar e/ou prever o valor médio (da
população) da primeira em termo dos valores conhecidos ou
fixados (em amostragens repetidas) das segundas.
3. O modelo de Regressão Linear Simples
A interpretação moderna da regressão
4. O modelo de Regressão Linear Simples
A interpretação moderna da regressão
5. O modelo de Regressão Linear Simples
A interpretação moderna da regressão
6. O modelo de Regressão Linear Simples
Conceito da Função de Regressão Populacional (FRP)
A regressão populacional (RP) indica apenas o valor
esperado da distribuição de Y, dado Xi, ou seja, ela aponta que
a resposta média de Y varia com X.
𝐸 𝑌 𝑋𝑖 = 𝑓(𝑋𝑖)
Pressupondo que é uma regressão linear teremos:
𝐸 𝑌 𝑋𝑖 = 𝛽1 + 𝛽2𝑋𝑖
Nesse caso 1 e 2 são parâmetros conhecidos como
intercepto e coeficiente angular
7. O modelo de Regressão Linear Simples
O significado do termo linear
Qual a diferença entre a linearidade das variáveis e a
dos parâmetros?
8. O modelo de Regressão Linear Simples
O Erro Estocástico
Podemos expressar o desvio de um valor individual de Y
(Yi) em torno de seu valor esperado, assim temos:
𝑢𝑖 = 𝑌𝑖 − 𝐸(𝑌|𝑋𝑖)
Ou então
𝑌𝑖 = 𝐸 𝑌 𝑋𝑖 + 𝑢𝑖
Onde o desvio ui é uma variável aleatória não
observável que assume valores positivos ou negativos.
O termo ui também é conhecido como distúrbio
estocástico ou termo de erro estocástico.
9. O modelo de Regressão Linear Simples
O Erro Estocástico
𝑌𝑖 = 𝐸 𝑌 𝑋𝑖 + 𝑢𝑖
𝑌𝑖 = 𝛽1 + 𝛽2𝑋𝑖 + 𝑢𝑖 que é a FRP
No entanto, se tomarmos o valor esperado de 𝑌𝑖 =
𝐸 𝑌 𝑋𝑖 + 𝑢𝑖 nos dois lados da equação, obtém-se:
Assim, a pressuposição de que a linha de regressão
passa pelas médias condicionais de Y implica que os valores
médios condicionais de ui são iguais a zero.
( | ) [ ( | )] ( | )
( | ) ( | )
( | ) ( | ) ( | ) 0
i i i i i
i i i
i i i i
E Y X E E Y X E u X
E Y X E u X
E u X E Y X E Y X
10. O modelo de Regressão Linear Simples
Função de regressão Amostral (FRA)
E quando tivermos não uma população, mas sim, apenas
amostras de uma população. Na maior parte das situações práticas
é impossível trabalhar com dados populacionais. O que teríamos
agora são amostras de Y correspondentes a alguns X fixados.
11. O modelo de Regressão Linear Simples
Função de regressão Amostral (FRA)
12. O modelo de Regressão Linear Simples
Função de regressão Amostral (FRA)
Acredita-se que as linhas das FRA representem a linha
da FRP, porém, devido às variações amostrais, elas são, na
melhor das hipóteses, aproximações da verdadeira regressão
populacional.
Como a FRA é uma aproximação da FRP podemos
representar a linha de regressão da FRA pela seguinte
notação.
Que assim como FRA pode ser representado por
1 2
ˆ ˆ
ˆ
i i
Y X
1 2
ˆ ˆ ˆ
i i i
Y X u
13. O modelo de Regressão Linear Simples
Função de regressão Amostral (FRA)
Assim, nosso principal objetivo passa a ser estimar a
FRP com base na FRA.
14. O modelo de Regressão Linear Simples
Função de regressão Amostral (FRA)
Fica a pergunta: A partir da FRA pode-se formular um
método ou regra que torne a aproximação entre FRA e FRP o
“mais próximo”, possível? Em outras palavras, tornar os
estimadores i’s chapéu mais próximos dos verdadeiros i’s.
15. O Problema da Estimação: O Método
dos Mínimos Quadrados Ordinários
(MQO)
16. O Método dos Mínimos Quadrados
Ordinários (MQO)
Aqui iremos estimar a FRP a partir da FRA da maneira
mais acurada possível.
Recorrendo a FRP de duas variáveis temos:
Porém como a FRP não pode ser observada
diretamente. Temos que estimá-la a partir da FRA:
1 2
i i i
Y X u
1 2
ˆ ˆ ˆ
ˆ ˆ
ˆ ,
i i i
i i i i
Y X u
Y u Y Y
sendo o valor estimado de
17. O Método dos Mínimos Quadrados
Ordinários (MQO)
Como determinar a Própria FRA? Para vermos isso,
faremos o seguinte:
Expressamos Yi como:
Ou seja, os resíduos são simplesmente a diferença
entre os valores observados e estimados de Y.
Agora nosso objetivo é estimar a FRA de tal forma que
a mesma fique o mais próximo possível do Y observado.
1 2
ˆ
ˆ
ˆ ˆ
i i i
i i
u Y Y
Y X
18. O Método dos Mínimos Quadrados
Ordinários (MQO)
Para tornar o valor de Y observado o mais próximo do
estimado basta adotarmos o seguinte critério:
deve ser o menor possível.
Embora intuitivamente seja um bom critério ele não
funciona, pois a soma dos resíduos se anulam. Para resolver
esse problema utilizamos a soma do quadrado dos resíduos.
ˆ
ˆ ( )
i i i
u Y Y
2
2
2
1 2
ˆ
ˆ ( )
ˆ ˆ
( )
i i i
i i
u Y Y
Y X
19. O Método dos Mínimos Quadrados
Ordinários (MQO)
O princípio do MQO é escolher os estimadores de
e de tal forma que, para qualquer amostra ou conjunto de
dados, a seja a menor possível.
Aplicando um processo de otimização podemos verificar isso,
levando em conta que
Considerando
1
ˆ
2
ˆ
2
ˆi
u
1 2
2
ˆ ˆ
( , )
ˆ
min i
u
2
ˆi
u Q
20. Cálculo dos estimadores por MQO
Pelo método de MQO podemos encontrar os
estimadores 𝛽𝑖
′
𝑠 da regressão linear simples, esses
estimadores são dados por:
𝛽1 = 𝑌 − 𝛽2𝑋
E
𝛽2 =
𝑋𝑖𝑦𝑖
𝑋𝑖
2
− 𝑛𝑋2
𝑜𝑢 𝛽2 =
𝑥𝑖𝑦𝑖
𝑥𝑖
2
21. Cálculo dos estimadores por MQO
COM BASE NAS FÓRMULAS DOS BETAS CALCULE
A REGRESSÃO, OS RESÍDUOS PARA OS DADOS DA
TABELA ABAIXO:
23. MQO: Propriedades Estatísticas do MQO
i) Os estimadores de MQO são expressos unicamente em
termos de quantidades observáveis (isto é, amostra)
como X e Y. Portanto, podem ser calculados com
facilidade.
ii) São estimadores pontuais, isto é, dada a amostra, cada
estimador proporciona apenas um único valor (ponto) do
parâmetro populacional relevante.
iii) Uma vez obtidas as estimativas de MQO para os dados
amostrais, a linha de regressão amostral pode ser
facilmente obtida, tendo as seguintes propriedades:
24. MQO: Propriedades Estatísticas do MQO
a) Passa pelas médias amostrais de Y e X. Esse fato fica óbvio
pela estimativa de 1.
b) O valor médio do Y estimado, 𝑌 , é igual ao valor médio do
Y observado para:
𝑌𝑖 = 𝛽1 + 𝛽2𝑋𝑖
= 𝑌 − 𝛽2𝑌 + 𝛽2𝑋𝑖
= 𝑌 + 𝛽2(𝑋𝑖 − 𝑋)
Somando-se os dois lados da equação e dividindo por n
teremos: ˆ
Y Y
25. MQO: Propriedades Estatísticas do MQO
c) O valor médio dos resíduos 𝒖𝒊 é igual a zero.
iv) Os resíduos 𝒖𝒊 não estão correlacionados ao Yi
previsto.
𝒚𝒊𝒖𝒊 = 𝜷𝟐 𝒙𝒊𝒖𝒊
= 𝜷𝟐 𝒙𝒊(𝒚𝒊 − 𝜷𝟐𝒙𝒊)
= 𝜷𝟐 𝒙𝒊𝒚𝒊 − 𝜷𝟐
𝟐
𝒙𝒊
𝟐
= 𝜷𝟐
𝟐
𝒙𝒊
𝟐
− 𝜷𝟐
𝟐
𝒙𝒊
𝟐
= 𝟎
v) Os resíduos 𝑢𝑖 não estão correlacionados com os 𝑋𝑖,
isto é 1 2
ˆ ˆ ˆ
2 ( ) 0
i i i i i
Y X X u X
26. MQO: Pressupostos do MQO
1) Modelo de Regressão Linear. O modelo de regressão é
linear nos parâmetros.
2) Os valores de X são fixos em amostras repetidas. Ou seja,
X é não estocástico.
27. MQO: Pressupostos do MQO
3) O valor médio do termo de erro ui é zero. Dado o
valor de X, o valor médio, ou esperado, do distúrbio aleatório
ui é zero. Ou seja, o valor médio condicional de ui é zero:
Homocedasticidade ou variância igual de ui. A variância
de ui é a mesma para todas as observações, isto é, as
variâncias condicionais de ui são idênticas. Simbolicamente,
temos:
( | ) 0
i i
E u X
2
2
2
var( | ) [ ( | )]
( | ),
i i i i i
i i
u X E u E u X
E u X
em decorrência de 3
29. MQO: Pressupostos do MQO
5) Não há autocorrelação entre os termos de erro.
Dados quaisquer dois valores de X, Xi e Xj (i≠j), a correlação
entre quaisquer ui e uj (i≠j) é zero. (MRLM)
6) Ausência de covariância entre ui e Xi ou E(ui|Xi)=0
cov( , | , ) {[ ( )]| }{[ ( )]| }
( | )( | ) 0
i j i j i i i j j j
i i j j
u u X X E u E u X u E u X
E u X u X
cov( , ) [ ( )][ ( )]
( ( ( )), ( ) 0
( ) ( ) ( ), ( )
(
i i i i i i
i i i i
i i i i i
i
u X E u E u X E X
E u X E X E u
E u X E X E u E X
E u X
já que
já que é não estocástico
) ( ) 0
0
i i
E u
já que
por hipótese
30. MQO: Pressupostos do MQO
7) O número de observações n deve ser maior que o
número de parâmetros a serem estimados. Ou então, o
número de observações n deve ser maior que o número de
variáveis. (MRLM)
8) Variabilidade dos valores de X. Os valores de X em
uma dada amostra não devem ser os mesmos. Técnicamente.
Var(X) deve ser um número positivo finito.
9) O modelo de regressão está especificado da forma
correta. Ou então, não há viés ou erro de especificação no
modelo empregado na análise empírica.
10) Não há multicolinearidade perfeita. Isto é, não há
relações lineares perfeitas entre as variáveis independentes.
(MRLM)
31. MQO: Precisão nas Estimativas
Como verificamos, cada FRA pode nos fornecer
diferentes valores dos estimadores Betas da regressão, por
este motivo, devemos sempre levar em consideração uma
medida de “confiabilidade” ou precisão dos estimadores 𝛽1 e
𝛽2. Na estatística, a precisão de uma estimativa é medida
pelo seu erro padrão (ep). Podemos estimar os erros a partir
das variâncias dos 𝛽, que são:
𝑣𝑎𝑟 𝛽2 =
𝜎2
𝑥𝑖
2 , 𝑒 𝑒𝑝 𝛽2 =
𝜎
𝑥𝑖
2
𝑣𝑎𝑟 𝛽1 =
𝑋𝑖
2
𝑛 𝑥𝑖
2 𝜎2 𝑒 𝑒𝑝 𝛽1 =
𝑋𝑖
2
𝑛 𝑥𝑖
2 𝜎
32. MQO: Precisão nas Estimativas
Uma estimativa viável da variância do erro 𝜎2 pode ser
obtida pela Soma do Quadrado dos Resíduos (SQR). Assim
tem-se:
𝜎2 =
𝑢𝑖
2
𝑛 − 2
Onde o valor de n-2 é o grau de liberdade e o 𝑢𝑖
2
é a
SQR.
33. MQO: Precisão nas Estimativas
Para um melhor entendimento podemos representar a
SQR a partir da seguinte expressão:
𝑢𝑖
2
= 𝑦𝑖
2
− 𝛽2
2
𝑥𝑖
2
Já verificamos que 𝛽2 =
𝑥𝑖𝑦𝑖
𝑥𝑖
2 , que substituindo na
expressão acima teremos:
𝑢𝑖
2
= 𝑦𝑖
2
−
𝑥𝑖𝑦𝑖
2
𝑥𝑖
2
Portanto, podemos afirmar que a SQR é composta pela
Soma de Quadrados Total (SQT= 𝑦𝑖
2
) menos a soma de
quadrados explicada (SQE=
𝑥𝑖𝑦𝑖
2
𝑥𝑖
2 ).
34. MQO: Propriedades dos estimadores (𝜷) –
o Teorema de Gauss-Markov
O Teorema de Gauss-Markov é um dos mais importantes
dentre da Econometria, é a partir deste teorema que provamos
três importantes propriedades dos estimadores que garantem a
confiabilidade nas suas estimativas, são elas:
1) É Linear: ou seja, trata-se de uma função linear de uma
variável aleatória.
2) É Não Viesado (ou não TENDENCIOSO): ou seja, seu valor
médio ou esperado 𝐸(𝛽2) é igual ao verdadeiro valor de 𝛽2.
3) Tem VARIÂNCIA MÍNIMA na classe de todos os estimadores
lineares não viesados: um estimador não viesado com a menor
variância é conhecido como ESTIMADOR EFICIENTE.
35. MQO: Propriedades dos estimadores (𝜷) –
o Teorema de Gauss-Markov
Todo o objetivo por trás da regressão é provar que os
estimadores de MQO são MELNT (Melhor Estimador Linear
Não Tendencioso). O Teorema de Gauss-Markov prova isso,
logo, essa é a principal finalidade de tal teorema.
Podemos demostrar isso através de um gráfico de
distribuição normal destinado apenas aos estimadores, logo:
36. MQO: O coeficiente de Determinação R2 – uma
medida da “qualidade do ajustamento”
Na verdade o principal objetivo desse coeficiente é
mostrar o quanto de X consegue explicar em Y, pode-se
verificar isso no seguinte diagrama de Venn
37. MQO: O coeficiente de Determinação R2 – uma
medida da “qualidade do ajustamento”
Ou seja considerando a equação em forma dos desvios
(para facilitar o cálculo), pode-se verificar que:
𝑦𝑖 = 𝑦𝑖 + 𝑢𝑖
Lembrando que: 𝑦𝑖 = 𝛽2𝑥𝑖 + 𝑢𝑖 e 𝑦𝑖 = 𝛽2𝑥𝑖, se
elevarmos os dois lados da primeira equação ao quadrado e
somando na amostra, teremos
𝑦𝑖
2
= 𝑦𝑖
2
+ 𝑢𝑖
2
+ 2 𝑦𝑖 𝑢𝑖
= 𝑦𝑖
2
+ 𝑢𝑖
2
= 𝛽2
2
𝑥𝑖
2
+ 𝑢𝑖
2
38. MQO: O coeficiente de Determinação R2 – uma
medida da “qualidade do ajustamento”
Na composição final temos o conceito de que a
SQT=SQE+SQR
Soma de Quadrados Total = Soma de Quadrados
Explicada + Soma de Quadrados dos Resíduos.
Isso no gráfico pode ser representado da seguinte
forma:
39. MQO: O coeficiente de Determinação R2 – uma
medida da “qualidade do ajustamento”
Dividindo ambos os lados de SQT por SQT teremos:
1 =
𝑆𝑄𝐸
𝑆𝑄𝑇
+
𝑆𝑄𝑅
𝑆𝑄𝑇
=
𝑌𝑖 − 𝑌
2
𝑌𝑖 − 𝑌 2
+
𝑢𝑖
2
𝑌𝑖 − 𝑌 2
Podemos então definir o 𝑟2
como sendo
𝑟2
=
𝑆𝑄𝐸
𝑆𝑄𝑇
=
𝑦𝑖
2
𝑦𝑖
2 𝑜𝑢 =
𝛽2
2
𝑥𝑖
2
𝑦𝑖
2 𝑜𝑢 =
𝑥𝑖𝑦𝑖
2
𝑥𝑖
2
𝑦𝑖
2 𝑜𝑢 = 1 −
𝑢𝑖
2
𝑦𝑖
2
40. MQO: O coeficiente de Determinação R2 – uma
medida da “qualidade do ajustamento”
Lembrando do nosso exemplo anterior vamos calcular o
𝑟2
41. MQO: Um exemplo numérico
Vamos construir a tabela 3.3 do capitulo 3 (seção 3.6)
usando o software Gretl. Os dados são referentes as despesas
familiares de consumo semanal (Y) e renda familiar semanal
(X)