Este documento presenta un análisis de regresión lineal simple para examinar la relación entre el porcentaje de cacahuates no infectados y el promedio de aflatoxinas en lotes de cacahuates. Los resultados muestran una fuerte correlación negativa entre las variables y que el modelo explica el 82.85% de la variación. Las pruebas realizadas indican que los supuestos del modelo se cumplen, por lo que la cantidad promedio de aflatoxinas puede utilizarse para predecir el porcentaje de cacahuates no infectados.
1. Universidad Aut´noma
o
de Yucat´n
a
Facultad de Matem´ticas
a
Series de Tiempo
Proyecto Numero 1
Primer Examen Parcial
Integrantes:
Jerry Jim´nez Tamayo
e
Guillermo Ortiz Tamez
Maria Jose Montes de Oca
Sandra Moreno Sosa
18 de Septiembre de 2012
2. 1. Antecedentes.
Los cacahuates son especialmente sensibles a ciertos tipos de hongos, de los cuales el que es de mayor
o e ´
preocupaci´n es el Aspergillus Flavus ´ste hongo produce la conocida anflatoxina. Esta toxina es de
principal cuidado ya que se ha descubierto que es un fuerte factor cancer´ ıgeno y mutag´nico, y m´s
e a
recientemente se ha relacionado con casos de retraso mental y baja inteligencia, es por esto que los
niveles de anlfatoxina en los alimentos son estrictamente regulados.
En M´xico, la Secretar´ de Salud ha establecido a trav´s de la norma NOM-188-SSA1-2002 las
e ıa e
regulaciones pertinentes para el control de anflatoxinas en alimentos tanto para consumo humano
como animal. En ´sta regulaci´n se establece que el limite m´ximo de anflatoxina permitida en
e e a
alimentos es de 20ppb (partes por bill´n).
o
Tomando esto en cuenta la empresa Cacahuates Mafer tiene como regla interna para la regulaci´n o
de anflatixina en sus cacahuates que en un lote se tena al menos el 99 % de cacahuates no infectados.
Con la finalidad de vigilar ambas regulaciones Cacahuates Mafer ha decidido realizar un muestreo
de sus lotes para obtener el nivel promedio de anflatoxina en sus cacahuates, asi como el porcentaje
de cacahuates no infectados de cada lote.
2. Objetivo.
Se desea hacer una an´lisis de regresi´n lineal simple sobre la muestra de manera que se pueda ver
a o
la relaci´n que hay entre el porcentaje de los cacahuates no infectados y el promedio de anflatoxina
o
(partes por bill´n) de todo el lote.
o
3. Hip´tesis.
o
Nuestras hip´tesis son:
o
Hay una relaci´n lineal entre el promedio de anflatoxina del lote y el porcentaje de cacahuate
o
no infectado.
Los datos recabados son confiables.
No hay errores en la captura de datos.
Nuestros datos son una muestra aleatoria.
4. Metodolog´
ıa.
Para llevar acabo este an´lisis utilizaremos la regresi´n lineal simple, en espec´
a o ıfico utilizaremos el
m´todo de M´
e ınimos Cuadrados, es considerado el mejor m´todo de ajuste lineal.
e
Considerese una muestra aleatoria de tama˜o n represent´mosla (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ), la
n e
regresi´n lineal simple dice que la variable regresora (x) esta linealmente relacionada con la variable
o
respuesta (y) por la ecuaci´n de regresion lineal poblacional:
o
y = β0 + β1 x
3. donde los coeficientes de regresi´n β0 y β1 son par´metros que deben estimarse a partir de los datos
o a
ˆ ˆ
muestrales. Si β0 y β1 representan estas estimaciones, respectivamente, se puede entonces estimar
y por medio de la l´
ˆ ınea de regresi´n ajustada:
o
ˆ ˆ
yi = β0 + β1 x
ˆ
El m´todo de m´
e ınimos cuadrados sirve para estimar los par´metros e cualquier modelo lineal, el
a
procedimiento de este m´todo para ajustar una recta que pase por un conjunto de n puntos es
e
minimizar la suma de cuadrados de las desviaciones verticales de los puntos a la recta ajustada,
utilizando herramientas de c´lculo se lega a que los estimadores de β0 y β1 son:
a
n n
n
yi xi
i=1 i=1
yi xi −
n
ˆ ¯ ˆ ¯ ˆ i=1
β0 = Y + β1 X y β1 = 2
n
n
Xi
i=1
Xi2 −
n
i=1
Y este es el m´todo que utilizaremos para estimar nuestros par´metros en este an´lisis, hay tambi´n
e a a e
una serie de supuestos que deben de cumplirse y pruebas que nos serviran para verificar que haremos
un buen ajuste de nuestro modelo, y se mostrar´n a continuaci´n en los resultados.
a o
5. Resultados.
En la actualidad existen Softwares para realizar procesos de regresi´n lineal, en particular nosotros
o
utilizaremos el llamado Stat Graphics.
En nuestro caso utilizaremos a nuestras variables como:
X = Promedio de anflatoxina en el lote.
Y = Porcentaje de cacahuates no infectados.
Al ingresar nuestra muestra al programa obtuvimos que los estimadores de β0 β1 son igual a:
β0 = 100.002
β1 = −0.00290351
Por lo que nuestro modelo ajustado es:
ˆ
Yi = 100.002 − 0.00290351Xi
Nuestros intervalos de confianza para β0 y β1 con un 95 % de confianza son:
(99.9844946, 100.019505)
(−0.00242833, −0.00337869)
4. Respectivamente, y como se puede observar el valor real de β0 y β1 se encuentra dentro de un
intervalo muy peque˜o.
n
Se presenta la gr´fica de los datos muestrales que tenemos y la recta ajustada que se obtuvo:
a
En el mismo gr´fico se pueden obsrevar las bandas de confianza (color verde), las cuales indican los
a
l´
ımites de confianza del 95 % para las predicciones. y las bandas de predicci´n (color gris) las cuales
o
nos indican los l´
ımites de predicci´n.
o
Se realiza una prueba de hip´tesis con el 95 % de confianza para ver si el par´metro β1 es significa-
o a
tivo para nuestro modelo.
H0 : β1 = 0 vs Ha : β1 = 0
β1
Utilizando nuestro estad´
ıstico para β1 el cual es: to =
M SE
Sxx
Sustituyendo los valores tenemos entonces que t0 = −12.4346
El valor de t0.025,n−2 = 2.0369
Entonces como |to | > t0.025,n−2 , es decir 12.4346 > 2.0369 entonces se rechaza Ho : β1 = 0
por lo que β1 = 0 y esto nos dice que si es significativa para nuestro modelo.
El coeficiente de correlaci´n es:
o
r = −0.910235
Como es muy cercano a −1 se tiene una correlaci´n negativa bastante fuerte entre las variables.
o
El coeficiente de determinaci´n es:
o
R2 = .828527
5. Observamos que el valor de nuestro coeficiente esta cercano a 1, esto quiere decir que X (promedio
de anflatoxina del lote) explica un 82.85 % a Y (porcentaje de cacahuate no infectado).
Acontinuaci´n proporcionamos los resultados graficos de los supuestos de la regresi´n lineal.
o o
Se presenta un gr´fico de los residuos estudentizados con respecto a los valores predichos de Y para
a
analizar el supuesto de linealidad:
Y como se puede observar los residuos estudentizados oscilan alrededor de 0, por lo tanto el supuesto
de linealidad se cumple.
Se presenta un gr´fico de los residuos estudentizados con respecto al promedio de anflatoxina (X)
a
para analizar el supuesto de homocedasticidad, el cual indica que hay una varianza constante en los
errores:
6. Y como se puede observar los residuos estudentizados oscilan alrededor de 0, por lo tanto el supuesto
de homocedasticidad se cumple.
Se presenta un gr´fico probabilidad normal para verificar el supuesto de normalidad, el cual quiere
a
decir que los errores tienen una distribuci´n de probabilidad normal.
o
Y como se puede observar la mayoria de las frecuencias de los residuales cae sobre la linea recta o
muy cercanos a esta, por lo tando el supuesto de normalidad se cumple.
Para el supuesto de independencia se utilizara una manera anal´ ıtica para probarlo, esta es mediante
el uso del estad´
ıstico Durbin-Watson, el valor de este estadistico es:
DW = 1.88111
Si este estad´
ıstico resulta ser 2 se dice que los errores son totalmente independientes, si cae entre
1.5 y 2.5, por lo tanto concluimos con que el supuesto de independencia se cumple.
Por lo tanto los supuestos de la regresi´n lineal si se cumplen con nuestro modelo.
o
6. Conclusi´n.
o
Despu´s de aplicar diversas pruebas al modelo de regresi´n lineal simple se llega a la conclusi´n de
e o o
que la cantidad promedio de aflatoxinas en un lote de cacahuates puede ser utilizada de manera
eficaz para predecir el porcentaje de cacahuates no infectados dentro del mismo lote, ya que todas las
pruebas y supuestos analizados resultaron ser favorables para el modelo, de esta manera Cacahuates
Mafer puede utilizar dicha predicci´n para evaluar la sanidad de sus lotes de cacahuates de acuerdo
o
al reglamento interno.
7. 7. Bibliograf´
ıa.
The World’s Healthiest Foods de The George Mateljan Foundation:
http://www.whfoods.com/genpage.php?tname=foodspice&dbid=101
Norma Oficial Mexicana NOM-188-SSA1-2002. Control de aflatoxinas en cereals para consume hu-
mano y animal:
http://www.salud.gob.mx/unidades/cdi/nom/188ssa12.html
Wackerly, Mendenhall y Scheaffer, Estad´
ıstica Matem´tica con aplicaciones, s´ptima edici´n, CEN-
a e o
GAGE Learning.