2. El modelo de regresión
Cada valor de X conforma una población
respecto a los valores de Y.
Población con individuos con X = x1
Sin perder generalidad,
podríamos pensar Y
son los gastos de
consumo personales y
X son los ingresos.
3. El modelo de regresión
lineal consiste en
suponer que las medias
de las poblaciones para
cada valor de “X” forma
una línea recta:
X
X
Y
E X
Y 1
0
/ 0
)
/
(
4. El modelo de
regresión lineal
es: i
i
i
X
Y
i X
y
1
0
/ 0
El modelo verdadero no se
conoce (no se conoce la
población).
Solo se tiene una muestra
(los puntos rojos en la
grafica) y se requiere
estimar los parámetros
1
0
y
5. Estimador de mínimos cuadrados
ordinarios (MCO)
• Los estimadores de
mínimos cuadrados
ordinarios, son aquellos
valores de los
parámetros que
minimizan en promedio
los residuos al cuadrado
Y
i
i y
y
e ˆ
ˆ
Resido = Y observada- Y estimada
n
1
i
2
1
0
i
1
i
2
i
i )
x
y
(
min
)
ŷ
y
(
min
9. Estimador de Máxima Verosimilitud
• Los valores que maximizan la función de
verosimilitud L( β0, β1 ) = p(muestra como
función de los parámetros)
10. Estimador de Máxima Verosimilitud
• Equivalentemente se puede maximizar el
logaritmo de la función de verosimilitud
11. Estimador de Máxima Verosimilitud
• Para obtener el máximo se toman las
derivadas parciales respecto de β0, β1 y σ2
12. Estimador de Máxima Verosimilitud
• Los estimadores resultantes son:
n
y
y
n
i
i
1
2
2
ˆ
̂
13. Supuestos de modelo de
regresión lineal
• Para hacer correctas inferencias con el
modelo, se requiera se cumplan los
Supuestos:
• INDEPENDENCIA DE LAS OBSERVACIONES (MUESTRA
ALEATORIA).
• HOMOGENEIDAD DE VARIANZAS.
• NORMALIDAD.
• LAS VARIABLES EXPLICATORIAS SON FIJAS
14. Propiedades de los estimadores de
mínimos cuadrados
• Son insesgados
• Son consistentes
• Son Meli bajo los supuestos básicos
• Coincide con los estimadores de máxima
verosimilitud
• Tienen distribución normal bajo los
supuestos básicos
15. Teorema Gauss-Markov
• Dados los supuestos del modelo clásico
de regresión lineal, los estimadores de
mínimos cuadrados son:
• Lineales
• Insesgados
• Varianza Mínima
• Es decir, son MELI
16. Distribución de los estimadores del
Modelo de regresión Lineal
• Bajo los supuestos del modelo de regresión
i
i
i x
y
1
0
)
,
0
( 2
i
i
NIID
n
i
x
x
N
1
2
2
1
1
)
(
,
ˆ
n
i
x
x
x
n
N
1
2
2
2
0
0
)
(
,
ˆ
17. INTERVALOS DE CONFIANZA
• Entonces:
• Son un intervalo de confianza del 1- (100)% para o y 1
• Con
1
0 ,
2
1
,
2
0
ˆ
ˆ
S
t
y
S
t k
n
k
n
n
i
x
x
x
n
S
1
2
2
2
ˆ
)
(
0
n
i
i x
x
S
1
2
2
ˆ
)
(
ˆ
1
k
n
ŷ
y
ˆ
n
1
i
2
i
2
18. PRUEBA DE HIPOTESIS
• PARA PROBAR:
• Ho: i = 0
• Ha: i 0.
• Entonces calcular:
• Rechazo Ho si
k
n
i
i
t
S
t
i
ˆ
ˆ
i
ˆ
i
c
S
ˆ
t
k
n
,
2
c t
t
19. EJEMPLO:
• UNA CIERTA COMPAÑÍA
PRODUCE LOTES
MENSUALES DE TAMAÑO
FLUCTUANDO CON LA
DEMANDA RELACIONA
TAMAÑO DE LOTE Y HORAS-
HOMBRE
X Y
30 73
20 50
60 128
80 170
40 87
50 108
60 135
30 69
70 148
60 132
25. PRUEBA DE HIPOTESIS
• PARA PROBAR:
• Ho: 0 = 0
• Ha: 0 0.
995302
.
3
502939
.
2
10
S
ˆ
t
0
ˆ
0
c
k
n
,
2
c t
t
entonces rechazo Ho.
26. PRUEBA DE HIPOTESIS
• PARA PROBAR:
• Ho: 1 = 0
• Ha: 1 0.
k
n
,
2
c t
t
entonces rechazo Ho.
58352
.
42
046967
.
0
2
S
ˆ
t
0
ˆ
0
c
27. INTERVALOS DE CONFIANZA en R
En script:
library(MASS, pos=22)
Confint(a, level=0.95)
a es el nombre del
modelo
28. EL COFICIENTE DE DETERMINACION COMO
MEDIDA DE AJUSTE DEL MODELO
MODELO
ERROR
i
TOTAL
i Y
Ŷ
Ŷ
Y
Y
Y
MODELO
DEL
DOS
CUADRA
DE
SUMA
ERROR
DEL
DOS
CUADRA
DE
SUMA
2
i
TOTALTES
DOS
CUADRA
DE
SUMA
2
i Y
Ŷ
Ŷ
Y
Y
Y
31. Se desea predecir observaciones futuras de Yo
para un valor Xo
0
1
0
0
ˆ
ˆ
ˆ X
Y
El intervalo de predicción se calcula con:
2
2
0
2
,
2
0
ˆ
1
1
ˆ
SXX
x
x
n
t
y
n
Predicción de nuevas observaciones
n
i
i X
X
SXX
1
2
)
(
32.
33. Intervalo de confianza para la
respuesta media
Intervalo
2
2
0
2
,
2
ˆ ˆ
1
0
SXX
x
x
n
t
n
x
y
0
1
0
ˆ
ˆ
0
X
x
y
34. Regression
95% confid.
INCOME vs. DEMAND
DEMAND = 90.124 + 1.0603 * INCOME
Correlation: r = .67328
INCOME
DEMAND
86
90
94
98
102
106
110
114
0 4 8 12 16 20
I.C. Para la
respuesta
media
I.C. Para la predicción
Los I.C. Para la predicción son mas
anchos que para la respuesta media
39. Predicciones en R
• Pred=data.frame(X=c(10,20,30))
predict(LinearModel.1, Pred, interval =
"confidence", level = 0.95)
•Nos da predicciones sobre la media
•Pred=data.frame(X=c(10,20,30))
predict(LinearModel.1, Pred, interval =
“prediction", level = 0.95)
•Nos da predicciones sobre una observación
43. Gráficas esenciales para el diagnostico
de la corrección del modelo
• Recta de regresión y los valores
observados
• Residuales vs Predichos (pueden ser
residuales estudentizados)
• Distancia D de Cook
• Leverage (Apalancamiento)
• Grafica Q-Q de residuales
44. Recta de regresión y los valores
observados
• Gráfica de Recta estimada, ayuda a ver si
tenemos una correcta relación funcional:
45. Grafica de:
Predichos vs Residuos
• Este grafico sirve para detectar problemas
de :
– Homogeneidad de varianzas
– Valores aberrantes (anómalos)
– Correcta relación funcional
– Autocorrelación
46. – La gráfica de residuos (pueden ser los
residuos estudentizados) vs valores
ajustados (valores predichos)
– IDEAL:
47. Gráfica de:
Predichos vs Residuos estudentizados
Valores arriba de 2
o debajo de -2
son dictaminadas
como observaciones
aberrantes.
Son puntos que
discrepan mucho del
modelo propuesto
53. EL MODELO DE REGRESIÒN EN FORMA
MATRICIAL
1
EQ
x
x
x
y
x
x
x
y
x
x
x
y
pn
p
n
2
2
n
1
1
0
n
2
p
p
22
2
21
1
0
2
1
p
p
21
2
11
1
0
1
p
n
T
n
T
T
pn
n
p
p
n
y
x
x
x
x
x
x
x
x
x
X
y
y
y
y
1
0
2
1
2
1
1
2
12
1
11
2
1
1
1
1
EQ1
a
e
equivalent
Es
X
y
54. Estimador de mínimos cuadrados
ordinarios (MCO)
y
y
e ˆ
ˆ
n
i
i
i
T
y
y
y
y
y
y
SCE
1
2
)
ˆ
(
)
ˆ
(
)
ˆ
(
)
ˆ
(
)
ˆ
(
X
y
X
y
SCE T
ˆ
ˆ
ˆ
ˆ X
X
y
X
X
y
y
y
SCE T
T
T
T
T
T
55. Estimador de mínimos cuadrados
ordinarios (MCO)
ˆ
ˆ
ˆ
2 X
X
X
y
y
y
SCE T
T
T
T
ˆ
ˆ
ˆ
2 X
X
y
X
y
y
SCE T
T
T
T
T
ˆ
ˆ
ˆ
2 X
X
y
X
y
y
SCE T
T
T
T
T
ˆ
2
2 X
X
y
X
SCE T
T
56. Estimador de mínimos cuadrados
ordinarios (MCO)
• Igualando a 0
ˆ
2
2 X
X
y
X
SCE T
T
0
ˆ
2
2
X
X
y
X T
T
y
X
X
X T
T
̂
57. Estimador de mínimos cuadrados
ordinarios (MCO)
• Son Conocidas como las ecuaciones
normales
• Despejando el vector de Parámetros:
y
X
X
X T
T
̂
y
X
X
X T
T 1
ˆ
58. PROPIEDADES DEL ESTIMADOR DE
MINIMOS CUADRADOS:
2
1
)
ˆ
(
X
X
Var T
X
X
X
X
ˆ
E T
1
T
y
X
X
X
ˆ T
1
T
59. Errores en la forma funcional
• Existe un error en la forma funcional cuando se especifica una
relación (que puede ser lineal, cuadrática, cúbica, exponencial,
logarítmica, etc.) y la verdadera relación es diferente de la
especificada.
• Una especificación incorrecta en la forma funcional del modelo
puede considerarse, en algunos casos, como la omisión de
variables relevantes.
– omisión de variables relevantes.
• los estimadores son sesgados e inconsistentes
• En general, un error en la forma funcional nos puede llevar a obtener
término de perturbación no esférico (i.e., con heteroscedasticidad y/o
autocorrelación).
• La distribución del término de perturbación no es la misma del
modelo correctamente especificado.
• En consecuencia, es importante disponer de algún método para
detectar un posible error en la especificación de la forma funcional.
61. Prueba Reset
• Propuesto por Anscombe y Ramsey en los años sesenta.
• El modelo de regresión especificado en forma
lineal es :
Yi = β0 + β1X1 +….+ βkXk + ui, i = 1, …, n.
• Donde ui sigue los supuestos usuales:
• Normalidad
• Independencia
• Homogeneidad de varianzas
• Queremos probar:
– Ho:La relación funcional es correcta.
– Ha: La relacion funcional es incorrecta
62. Prueba Reset
• Estimar el modelo supuesto y obtener la variable
respuesta ajustada( ) la cual elevamos al
cuadrado.
• A continuación se especifica la regresión auxiliar
siguiente:
donde se añade el termino del valor ajustado al
cuadrado. Esta regresión podría incluir el termino
del valor ajustado al cubo
• Finalmente, probamos si el coeficiente asociado
al valor ajustado al cuadrado de los predichos es
significativamente diferente de cero, en cuyo
caso rechazamos Ho.
Y
ˆ
i
i
ki
k
i
i Y
X
X
Y
2
1
1
0
ˆ