Proyecto de Regresión Lineal Simple

Universidad Autńoma
o
de Yucatń
a
Facultad de Matem´ticas
a

Series de Tiempo
Proyecto Numero 1

Primer Examen Parcial

Integrantes:

Jerry Jimńez Tamayo
e
Guillermo Ortiz Tamez
Maria Jose Montes de Oca
Sandra Moreno Sosa

18 de Septiembre de 2012

1. Antecedentes.
Los cacahuates son especialmente sensibles a ciertos tipos de hongos, de los cuales el que es de mayor
o e ´
preocupaciń es el Aspergillus Flavus ´ste hongo produce la conocida anflatoxina. Esta toxina es de
principal cuidado ya que se ha descubierto que es un fuerte factor cancer´ ıgeno y mutagńico, y m´s
e a
recientemente se ha relacionado con casos de retraso mental y baja inteligencia, es por esto que los
niveles de anlfatoxina en los alimentos son estrictamente regulados.

En M´xico, la Secretar´ de Salud ha establecido a trav´s de la norma NOM-188-SSA1-2002 las
e ıa e
regulaciones pertinentes para el control de anflatoxinas en alimentos tanto para consumo humano
como animal. En ´sta regulaciń se establece que el limite m´ximo de anflatoxina permitida en
e e a
alimentos es de 20ppb (partes por billń).
o

Tomando esto en cuenta la empresa Cacahuates Mafer tiene como regla interna para la regulaciń o
de anflatixina en sus cacahuates que en un lote se tena al menos el 99 % de cacahuates no infectados.
Con la finalidad de vigilar ambas regulaciones Cacahuates Mafer ha decidido realizar un muestreo
de sus lotes para obtener el nivel promedio de anflatoxina en sus cacahuates, asi como el porcentaje
de cacahuates no infectados de cada lote.

2. Objetivo.
Se desea hacer una an´lisis de regresiń lineal simple sobre la muestra de manera que se pueda ver
a o
la relaciń que hay entre el porcentaje de los cacahuates no infectados y el promedio de anflatoxina
o
(partes por billń) de todo el lote.
o

3. Hip´tesis.
o
Nuestras hip´tesis son:
o

Hay una relaciń lineal entre el promedio de anflatoxina del lote y el porcentaje de cacahuate
o
no infectado.

Los datos recabados son confiables.

No hay errores en la captura de datos.

Nuestros datos son una muestra aleatoria.

4. Metodolog´
ıa.
Para llevar acabo este an´lisis utilizaremos la regresiń lineal simple, en espec´
a o ıfico utilizaremos el
m´todo de M´
e ınimos Cuadrados, es considerado el mejor m´todo de ajuste lineal.
e

Considerese una muestra aleatoria de tamaõ n represent´mosla (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ), la
n e
regresiń lineal simple dice que la variable regresora (x) esta linealmente relacionada con la variable
o
respuesta (y) por la ecuaciń de regresion lineal poblacional:
o

y = β0 + β1 x

donde los coeficientes de regresiń β0 y β1 son par´metros que deben estimarse a partir de los datos
o a
ˆ ˆ
muestrales. Si β0 y β1 representan estas estimaciones, respectivamente, se puede entonces estimar
y por medio de la l´
ˆ ınea de regresiń ajustada:
o

ˆ ˆ
yi = β0 + β1 x
ˆ
El m´todo de m´
e ınimos cuadrados sirve para estimar los par´metros e cualquier modelo lineal, el
a
procedimiento de este m´todo para ajustar una recta que pase por un conjunto de n puntos es
e
minimizar la suma de cuadrados de las desviaciones verticales de los puntos a la recta ajustada,
utilizando herramientas de c´lculo se lega a que los estimadores de β0 y β1 son:
a
n n

n
yi xi
i=1 i=1
yi xi −
n
ˆ ¯ ˆ ¯ ˆ i=1
β0 = Y + β1 X y β1 = 2
n

n
Xi
i=1
Xi2 −
n
i=1
Y este es el m´todo que utilizaremos para estimar nuestros par´metros en este an´lisis, hay tambiń
e a a e
una serie de supuestos que deben de cumplirse y pruebas que nos serviran para verificar que haremos
un buen ajuste de nuestro modelo, y se mostrarń a continuaciń en los resultados.
a o

5. Resultados.
En la actualidad existen Softwares para realizar procesos de regresiń lineal, en particular nosotros
o
utilizaremos el llamado Stat Graphics.

En nuestro caso utilizaremos a nuestras variables como:

X = Promedio de anflatoxina en el lote.
Y = Porcentaje de cacahuates no infectados.

Al ingresar nuestra muestra al programa obtuvimos que los estimadores de β0 β1 son igual a:

β0 = 100.002
β1 = −0.00290351
Por lo que nuestro modelo ajustado es:

ˆ
Yi = 100.002 − 0.00290351Xi
Nuestros intervalos de confianza para β0 y β1 con un 95 % de confianza son:

(99.9844946, 100.019505)
(−0.00242833, −0.00337869)

Respectivamente, y como se puede observar el valor real de β0 y β1 se encuentra dentro de un
intervalo muy pequeõ.
n

Se presenta la gr´fica de los datos muestrales que tenemos y la recta ajustada que se obtuvo:
a

En el mismo gr´fico se pueden obsrevar las bandas de confianza (color verde), las cuales indican los
a
l´
ımites de confianza del 95 % para las predicciones. y las bandas de predicciń (color gris) las cuales
o
nos indican los l´
ımites de predicciń.
o

Se realiza una prueba de hip´tesis con el 95 % de confianza para ver si el par´metro β1 es significa-
o a
tivo para nuestro modelo.

H0 : β1 = 0 vs Ha : β1 = 0
β1
Utilizando nuestro estad´
ıstico para β1 el cual es: to =
M SE
Sxx
Sustituyendo los valores tenemos entonces que t0 = −12.4346
El valor de t0.025,n−2 = 2.0369
Entonces como |to | > t0.025,n−2 , es decir 12.4346 > 2.0369 entonces se rechaza Ho : β1 = 0
por lo que β1 = 0 y esto nos dice que si es significativa para nuestro modelo.

El coeficiente de correlaciń es:
o

r = −0.910235
Como es muy cercano a −1 se tiene una correlaciń negativa bastante fuerte entre las variables.
o

El coeficiente de determinaciń es:
o

R2 = .828527

Observamos que el valor de nuestro coeficiente esta cercano a 1, esto quiere decir que X (promedio
de anflatoxina del lote) explica un 82.85 % a Y (porcentaje de cacahuate no infectado).

Acontinuaciń proporcionamos los resultados graficos de los supuestos de la regresiń lineal.
o o

Se presenta un gr´fico de los residuos estudentizados con respecto a los valores predichos de Y para
a
analizar el supuesto de linealidad:

Y como se puede observar los residuos estudentizados oscilan alrededor de 0, por lo tanto el supuesto
de linealidad se cumple.

Se presenta un gr´fico de los residuos estudentizados con respecto al promedio de anflatoxina (X)
a
para analizar el supuesto de homocedasticidad, el cual indica que hay una varianza constante en los
errores:

Y como se puede observar los residuos estudentizados oscilan alrededor de 0, por lo tanto el supuesto
de homocedasticidad se cumple.

Se presenta un gr´fico probabilidad normal para verificar el supuesto de normalidad, el cual quiere
a
decir que los errores tienen una distribuciń de probabilidad normal.
o

Y como se puede observar la mayoria de las frecuencias de los residuales cae sobre la linea recta o
muy cercanos a esta, por lo tando el supuesto de normalidad se cumple.

Para el supuesto de independencia se utilizara una manera anal´ ıtica para probarlo, esta es mediante
el uso del estad´
ıstico Durbin-Watson, el valor de este estadistico es:

DW = 1.88111
Si este estad´
ıstico resulta ser 2 se dice que los errores son totalmente independientes, si cae entre
1.5 y 2.5, por lo tanto concluimos con que el supuesto de independencia se cumple.

Por lo tanto los supuestos de la regresiń lineal si se cumplen con nuestro modelo.
o

6. Conclusiń.
o
Despu´s de aplicar diversas pruebas al modelo de regresiń lineal simple se llega a la conclusiń de
e o o
que la cantidad promedio de aflatoxinas en un lote de cacahuates puede ser utilizada de manera
eficaz para predecir el porcentaje de cacahuates no infectados dentro del mismo lote, ya que todas las
pruebas y supuestos analizados resultaron ser favorables para el modelo, de esta manera Cacahuates
Mafer puede utilizar dicha predicciń para evaluar la sanidad de sus lotes de cacahuates de acuerdo
o
al reglamento interno.

7. Bibliograf´
ıa.
The World’s Healthiest Foods de The George Mateljan Foundation:
http://www.whfoods.com/genpage.php?tname=foodspice&dbid=101

Norma Oficial Mexicana NOM-188-SSA1-2002. Control de aflatoxinas en cereals para consume hu-
mano y animal:
http://www.salud.gob.mx/unidades/cdi/nom/188ssa12.html

Wackerly, Mendenhall y Scheaffer, Estad´
ıstica Matem´tica con aplicaciones, s´ptima ediciń, CEN-
a e o
GAGE Learning.

Proyecto de Regresión Lineal Simple

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Proyecto de Regresión Lineal Simple

Similaire à Proyecto de Regresión Lineal Simple (20)

Dernier

Dernier (20)

Proyecto de Regresión Lineal Simple