2-el modelo de regresion lineal-2.ppt

El modelo de regresión
CP
GRV

Cada valor de X conforma una población
respecto a los valores de Y.
Población con individuos con X = x1
Sin perder generalidad,
podríamos pensar Y
son los gastos de
consumo personales y
X son los ingresos.

lineal consiste en
suponer que las medias
de las poblaciones para
cada valor de “X” forma
una línea recta:
X
X
Y
E X
Y 1
0
/ 0
)
/
( 

 



El modelo de
regresión lineal
es: i
i
i
X
Y
i X
y 



 



 1
0
/ 0
El modelo verdadero no se
conoce (no se conoce la
población).
Solo se tiene una muestra
(los puntos rojos en la
grafica) y se requiere
estimar los parámetros
1
0 
 y

Estimador de mínimos cuadrados
ordinarios (MCO)
• Los estimadores de
mínimos cuadrados
ordinarios, son aquellos
valores de los
parámetros que
minimizan en promedio
los residuos al cuadrado
Y
i
i y
y
e ˆ
ˆ 

Resido = Y observada- Y estimada

 








n
1
i
2
1
0
i
1
i
2
i
i )
x
y
(
min
)
ŷ
y
(
min

ordinarios (MCO)

Estimador de Máxima Verosimilitud
• Los valores que maximizan la función de
verosimilitud L( β0, β1 ) = p(muestra como
función de los parámetros)

• Equivalentemente se puede maximizar el
logaritmo de la función de verosimilitud

• Para obtener el máximo se toman las
derivadas parciales respecto de β0, β1 y σ2

• Los estimadores resultantes son:
 
















n
y
y
n
i
i
1
2
2
ˆ
̂

Supuestos de modelo de
regresión lineal
• Para hacer correctas inferencias con el
modelo, se requiera se cumplan los
Supuestos:
• INDEPENDENCIA DE LAS OBSERVACIONES (MUESTRA
ALEATORIA).
• HOMOGENEIDAD DE VARIANZAS.
• NORMALIDAD.
• LAS VARIABLES EXPLICATORIAS SON FIJAS

Propiedades de los estimadores de
mínimos cuadrados
• Son insesgados
• Son consistentes
• Son Meli bajo los supuestos básicos
• Coincide con los estimadores de máxima
verosimilitud
• Tienen distribución normal bajo los
supuestos básicos

Teorema Gauss-Markov
• Dados los supuestos del modelo clásico
de regresión lineal, los estimadores de
mínimos cuadrados son:
• Lineales
• Insesgados
• Varianza Mínima
• Es decir, son MELI

Distribución de los estimadores del
Modelo de regresión Lineal
• Bajo los supuestos del modelo de regresión
i
i
i x
y 

 

 1
0
)
,
0
( 2
i
i
NIID 
 















n
i
x
x
N
1
2
2
1
1
)
(
,
ˆ 

 
















n
i
x
x
x
n
N
1
2
2
2
0
0
)
(
,
ˆ 


 

INTERVALOS DE CONFIANZA
• Entonces:
• Son un intervalo de confianza del 1- (100)% para o y 1
• Con
1
0 ,
2
1
,
2
0
ˆ
ˆ 


 
 S
t
y
S
t k
n
k
n 
 





 n
i
x
x
x
n
S
1
2
2
2
ˆ
)
(
0






 n
i
i x
x
S
1
2
2
ˆ
)
(
ˆ
1


 


















k
n
ŷ
y
ˆ
n
1
i
2
i
2

PRUEBA DE HIPOTESIS
• PARA PROBAR:
• Ho: i = 0
• Ha: i  0.
• Entonces calcular:
• Rechazo Ho si
k
n
i
i
t
S
t
i






ˆ
ˆ
i
ˆ
i
c
S
ˆ
t



k
n
,
2
c t
t 



EJEMPLO:
• UNA CIERTA COMPAÑÍA
PRODUCE LOTES
MENSUALES DE TAMAÑO
FLUCTUANDO CON LA
DEMANDA RELACIONA
TAMAÑO DE LOTE Y HORAS-
HOMBRE
X Y
30 73
20 50
60 128
80 170
40 87
50 108
60 135
30 69
70 148
60 132

Análisis en R
• a <- lm(Y ~ X, data=Dataset)
• summary(a)

MCO en
GRETL
Análisis en Gretl

INTERVALOS DE CONFIANZA
046967
.
)
(
1
2
2
2
ˆ0






n
i
x
x
x
n
S



50293
.
2
)
(
ˆ
1
2
2
ˆ1





n
i
i x
x
S



PRUEBA DE HIPOTESIS
• PARA PROBAR:
• Ho: 0 = 0
• Ha: 0  0.
995302
.
3
502939
.
2
10
S
ˆ
t
0
ˆ
0
c 




k
n
,
2
c t
t 

 entonces rechazo Ho.

PRUEBA DE HIPOTESIS
• PARA PROBAR:
• Ho: 1 = 0
• Ha: 1  0.
k
n
,
2
c t
t 

 entonces rechazo Ho.
58352
.
42
046967
.
0
2
S
ˆ
t
0
ˆ
0
c 





INTERVALOS DE CONFIANZA en R
En script:
library(MASS, pos=22)
Confint(a, level=0.95)
a es el nombre del
modelo

EL COFICIENTE DE DETERMINACION COMO
MEDIDA DE AJUSTE DEL MODELO
   









MODELO
ERROR
i
TOTAL
i Y
Ŷ
Ŷ
Y
Y
Y 




     















MODELO
DEL
DOS
CUADRA
DE
SUMA
ERROR
DEL
DOS
CUADRA
DE
SUMA
2
i
TOTALTES
DOS
CUADRA
DE
SUMA
2
i Y
Ŷ
Ŷ
Y
Y
Y





 





EL COFICIENTE DE DETERMINACION COMO
MEDIDA DE AJUSTE DEL MODELO

Predicción
Y
X
Se desea predecir el valor Y para un valor dado de X

Se desea predecir observaciones futuras de Yo
para un valor Xo
0
1
0
0
ˆ
ˆ
ˆ X
Y 
 

El intervalo de predicción se calcula con:
  2
2
0
2
,
2
0
ˆ
1
1
ˆ 
 






 



 SXX
x
x
n
t
y
n
Predicción de nuevas observaciones




n
i
i X
X
SXX
1
2
)
(

Intervalo de confianza para la
respuesta media
Intervalo
  2
2
0
2
,
2
ˆ ˆ
1
0

  






 


 SXX
x
x
n
t
n
x
y
0
1
0
ˆ
ˆ
0
X
x
y 

 


Regression
95% confid.
INCOME vs. DEMAND
DEMAND = 90.124 + 1.0603 * INCOME
Correlation: r = .67328
INCOME
DEMAND
86
90
94
98
102
106
110
114
0 4 8 12 16 20
I.C. Para la
respuesta
media
I.C. Para la predicción
Los I.C. Para la predicción son mas
anchos que para la respuesta media

Intervalo de predicción en GRETL

Predicciones en R
Primero obtenga la regresión

Predicciones en R
• Pred=data.frame(X=c(10,20,30))
predict(LinearModel.1, Pred, interval =
"confidence", level = 0.95)
•Nos da predicciones sobre la media
•Pred=data.frame(X=c(10,20,30))
predict(LinearModel.1, Pred, interval =
“prediction", level = 0.95)
•Nos da predicciones sobre una observación

Diagnostico Gráfico en el
Modelo de Regresión:
Verificación de supuestos

Las tres grandes mentiras…
Diagramas de dispersión

Gráficas esenciales para el diagnostico
de la corrección del modelo
• Recta de regresión y los valores
observados
• Residuales vs Predichos (pueden ser
residuales estudentizados)
• Distancia D de Cook
• Leverage (Apalancamiento)
• Grafica Q-Q de residuales

Recta de regresión y los valores
observados
• Gráfica de Recta estimada, ayuda a ver si
tenemos una correcta relación funcional:

Grafica de:
Predichos vs Residuos
• Este grafico sirve para detectar problemas
de :
– Homogeneidad de varianzas
– Valores aberrantes (anómalos)
– Correcta relación funcional
– Autocorrelación

– La gráfica de residuos (pueden ser los
residuos estudentizados) vs valores
ajustados (valores predichos)
– IDEAL:

Gráfica de:
Predichos vs Residuos estudentizados
Valores arriba de 2
o debajo de -2
son dictaminadas
como observaciones
aberrantes.
Son puntos que
discrepan mucho del
modelo propuesto

Incorrecta relación funcional ó
autocorrelación

Varianzas heterogéneas
Puede ser:
residuo vs predicho ó
Residuo vs alguna variable explicativa

Gráfica de distancia D de Cook
• Si la distancia de
Cook es mayor que
1 o que 4/(n-k) la
observación es
excesivamente
influyente

Gráfica de Leverage
p
p
pp x
X
X
x
h 1
'
'
)
( 

1
0 
 pp
h

EL MODELO DE REGRESIÒN EN FORMA
MATRICIAL
1
EQ
x
x
x
y
x
x
x
y
x
x
x
y
pn
p
n
2
2
n
1
1
0
n
2
p
p
22
2
21
1
0
2
1
p
p
21
2
11
1
0
1













































































































p
n
T
n
T
T
pn
n
p
p
n
y
x
x
x
x
x
x
x
x
x
X
y
y
y
y



















1
0
2
1
2
1
1
2
12
1
11
2
1
1
1
1
EQ1
a
e
equivalent
Es

 
 X
y

ordinarios (MCO)
y
y
e ˆ
ˆ 








n
i
i
i
T
y
y
y
y
y
y
SCE
1
2
)
ˆ
(
)
ˆ
(
)
ˆ
(
)
ˆ
(
)
ˆ
( 
 X
y
X
y
SCE T






 ˆ
ˆ
ˆ
ˆ X
X
y
X
X
y
y
y
SCE T
T
T
T
T
T





ordinarios (MCO)


 ˆ
ˆ
ˆ
2 X
X
X
y
y
y
SCE T
T
T
T







 ˆ
ˆ
ˆ
2 X
X
y
X
y
y
SCE T
T
T
T
T













 ˆ
ˆ
ˆ
2 X
X
y
X
y
y
SCE T
T
T
T
T





 ˆ
2
2 X
X
y
X
SCE T
T




ordinarios (MCO)
• Igualando a 0


 ˆ
2
2 X
X
y
X
SCE T
T



0
ˆ
2
2 

 
X
X
y
X T
T
y
X
X
X T
T

̂

ordinarios (MCO)
• Son Conocidas como las ecuaciones
normales
• Despejando el vector de Parámetros:
y
X
X
X T
T

̂
  y
X
X
X T
T 1
ˆ 



PROPIEDADES DEL ESTIMADOR DE
MINIMOS CUADRADOS:
  2
1
)
ˆ
( 


 X
X
Var T
    





X
X
X
X
ˆ
E T
1
T
  y
X
X
X
ˆ T
1
T 



Errores en la forma funcional
• Existe un error en la forma funcional cuando se especifica una
relación (que puede ser lineal, cuadrática, cúbica, exponencial,
logarítmica, etc.) y la verdadera relación es diferente de la
especificada.
• Una especificación incorrecta en la forma funcional del modelo
puede considerarse, en algunos casos, como la omisión de
variables relevantes.
– omisión de variables relevantes.
• los estimadores son sesgados e inconsistentes
• En general, un error en la forma funcional nos puede llevar a obtener
término de perturbación no esférico (i.e., con heteroscedasticidad y/o
autocorrelación).
• La distribución del término de perturbación no es la misma del
modelo correctamente especificado.
• En consecuencia, es importante disponer de algún método para
detectar un posible error en la especificación de la forma funcional.

Mala Relación funcional
Formas para detectar mala relación
Funcional
•Usando gráficas de residuales
•Prueba de Reset

Prueba Reset
• Propuesto por Anscombe y Ramsey en los años sesenta.
• El modelo de regresión especificado en forma
lineal es :
Yi = β0 + β1X1 +….+ βkXk + ui, i = 1, …, n.
• Donde ui sigue los supuestos usuales:
• Normalidad
• Independencia
• Homogeneidad de varianzas
• Queremos probar:
– Ho:La relación funcional es correcta.
– Ha: La relacion funcional es incorrecta

Prueba Reset
• Estimar el modelo supuesto y obtener la variable
respuesta ajustada( ) la cual elevamos al
cuadrado.
• A continuación se especifica la regresión auxiliar
siguiente:
donde se añade el termino del valor ajustado al
cuadrado. Esta regresión podría incluir el termino
del valor ajustado al cubo
• Finalmente, probamos si el coeficiente asociado
al valor ajustado al cuadrado de los predichos es
significativamente diferente de cero, en cuyo
caso rechazamos Ho.
Y
ˆ
i
i
ki
k
i
i Y
X
X
Y 



 



 2
1
1
0
ˆ

2-el modelo de regresion lineal-2.ppt

Recommandé

Recommandé

Contenu connexe

Similaire à 2-el modelo de regresion lineal-2.ppt

Similaire à 2-el modelo de regresion lineal-2.ppt (20)

Dernier

Dernier (20)

2-el modelo de regresion lineal-2.ppt