1. Universidad Tecnológica De Torreón
Procesos Industriales Área Manufactura
Estadística
Tema 1. Prueba De Hipótesis
Primera parte trabajo final de la unidad tres
Tema 2. Intervalos De Confianza
Alejandra Ríos Zamora
2°D
Lic. Edgar Gerardo Mata Ortiz
Segunda parte
2. Pruebas De Hipótesis
Tenemos que empezar por definir que es una hipótesis y que es prueba de
hipótesis.
Hipótesis es una aseveración de una población elaborado con el propósito de poner
a prueba, para verificar si la afirmación es razonable se usan datos.
En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis,
después se hacen las pruebas para verificar la aseveración o para determinar que
no es verdadera.
Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia
muestral y la teoría de probabilidad; se emplea para determinar si la hipótesis es
una afirmación razonable.
Prueba de una hipótesis: se realiza mediante un procedimiento sistemático de cinco
paso:
Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no rechazar la
hipótesis, pero debemos de tener cuidado con esta determinación ya que en la consideración de
estadística no proporciona evidencia de que algo sea verdadero. Esta prueba aporta una clase
de prueba más allá de una duda razonable. Analizaremos cada paso en detalle
Objetivo de la prueba de hipótesis.
El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico
(muestral), sino hacer
un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del
parámetro.
3.- Procedimiento sistemático para una prueba de hipótesis de una muestra
.Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa H1.
Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca de
las poblaciones que se estudian.
La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de población,
no a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay
3. diferencia. Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio"
Podemos rechazar o aceptar Ho.
La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales
proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula
siempre contiene un signo de igualdad con respecto al valor especificado del parámetro.
La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una
afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la
hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El
planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al
valor especificado del parámetro.
Paso 2: Seleccionar el nivel de significancia.
Nivel de significacia: Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le
denota mediante la letra griega α, tambiιn es denominada como nivel de riesgo, este termino es
mas adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es
verdadera. Este nivel esta bajo el control de la persona que realiza la prueba.
Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación
indicará la probabilidad de no aceptarla, es decir, estén fuera de área de aceptación. El nivel
de confianza (1-α), indica la probabilidad de aceptar la hipótesis planteada, cuando es
verdadera en la población.
La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de
rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la
estadística de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis
nula.
La región de rechazo puede considerarse como el conjunto de valores de la estadística de
prueba que no tienen posibilidad de presentarse si la hipótesis nula es verdadera. Por otro lado,
estos valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico
separa la región de no rechazo de la de rechazo.
Tipos de errores
Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de
la Ho o de la Ha, puede incurrirse en error:
4. Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía
ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada
cuando de hecho es falsa y debía ser rechazada.
En cualquiera de los dos casos se comete un error al tomar una decisión equivocada.
En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las
consecuencias posibles.
Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los
errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y
así se tiene a conseguir poner una limitación al error de mayor importancia. La única forma de
reducir ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no
ser posible.
La probabilidad de cometer un error de tipo II denotada con la letra griega beta β, depende de
la diferencia entre los valores supuesto y real del parámetro de la población. Como es más fácil
encontrar diferencias grandes, si la diferencia entre la estadística de muestra y el
correspondiente parámetro de población es grande, la probabilidad de cometer un error de tipo
II, probablemente sea pequeña.
El estudio y las conclusiones que obtengamos para una población cualquiera, se habrán
apoyado exclusivamente en el análisis de una parte de ésta. De la probabilidad con la que
estemos dispuestos a asumir estos errores, dependerá, por ejemplo, el tamaño de la muestra
requerida. Las contrastaciones se apoyan en que los datos de partida siguen una distribución
normal
Existe una relación inversa entre la magnitud de los errores α y β: conforme a aumenta, β
disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas estadísticas. Lo
ideal sería establecer α y β.En la práctica se establece el nivel α y para disminuir el Error β se
incrementa el número de observaciones en la muestra, pues así se acortan los limites de
confianza respecto a la hipótesis planteada .La meta de las pruebas estadísticas es rechazar la
hipótesis planteada. En otras palabras, es deseable aumentar cuando ésta es verdadera, o sea,
5. incrementar lo que se llama poder de la prueba (1- β)La aceptación de la hipótesis
planteada debe interpretarse como que la información aleatoria de la muestra disponible no
permite detectar la falsedad de esta hipótesis.
Paso 3: Cálculo del valor estadístico de prueba
Valor determinado a partir de la información muestral, que se utiliza para determinar si se
rechaza la hipótesis nula., existen muchos estadísticos de prueba para nuestro caso
utilizaremos los estadísticos z y t. La elección de uno de estos depende de la cantidad de
muestras que se toman, si las muestras son de la prueba son iguales a 30 o mas se utiliza el
estadístico z, en caso contrario se utiliza el estadístico t.
Tipos de prueba
a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad
Ejemplo
H0 : µ = 200
H1 : µ ≠ 200
b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤
H0 : µ ≥ 200 H0 : µ ≤ 200
H1 : µ < 200 H1 : µ > 200
En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar (σ)
poblacional, o cuando el valor de la muestra es grande (30 o más), el valor estadístico de
prueba es z y se determina a partir de:
El valor estadístico z, para muestra grande y desviación estándar poblacional desconocida se
determina por la ecuación:
6. En la prueba para una media poblacional con muestra pequeña y desviación estándar
poblacional desconocida se utiliza el valor estadístico t.
Paso 4: Formular la regla de decisión
SE establece las condiciones específicas en la que se rechaza la hipótesis nula y las condiciones
en que no se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los
valores que son tan grandes o tan pequeños, que la probabilidad de que se presenten bajo la
suposición de que la hipótesis nula es verdadera, es muy remota
Distribución muestral del valor estadístico z, con prueba de una cola a la derecha
Valor critico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la
región en la que no se rechaza la hipótesis nula.
Paso 5: Tomar una decisión.
En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara
con el valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que
en una prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la
hipótesis nula. Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula
cuando no debería haberse rechazado (error tipo I). También existe la posibilidad de que la
hipótesis nula se acepte cuando debería haberse rechazado (error de tipo II).
Ejemplo en la cual se indica el procedimiento para la prueba de hipótesis
Ejemplo
7. El jefe de la Biblioteca Especializada de la Facultad de Ingeniería Eléctrica y Electrónica de la
UNAC manifiesta que el número promedio de lectores por día es de 350. Para confirmar o no
este supuesto se controla la cantidad de lectores que utilizaron la biblioteca durante 30 días. Se
considera el nivel de significancia de 0.05
Datos:
Día Usuarios Día Usuarios Día Usuario
1 356 11 305 21 429
2 427 12 413 22 376
3 387 13 391 23 328
4 510 14 380 24 411
5 288 15 382 25 397
6 290 16 389 26 365
7 320 17 405 27 405
8 350 18 293 28 369
9 403 19 276 29 429
10 329 20 417 30 364
Solución: Se trata de un problema con una media poblacional: muestra grande y desviación
estándar poblacional desconocida.
Paso 01: Seleccionamos la hipótesis nula y la hipótesis alternativa
Ho: μ═350
Ha: μ≠ 350
Paso 02: Nivel de confianza o significancia 95%
α═0.05
Paso 03: Calculamos o determinamos el valor estadístico de prueba
De los datos determinamos: que el estadístico de prueba es t, debido a que el numero de
muestras es igual a 30, conocemos la media de la población, pero la desviación estándar de la
población es desconocida, en este caso determinamos la desviación estándar de la muestra y la
utilizamos en la formula reemplazando a la desviación estándar de la población.
8. Calculamos la desviación estándar muestral y la media de la muestra empleando Excel, lo cual
se muestra en el cuadro que sigue.
Columna1
Media 372.8
Error típico 9.56951578
Mediana 381
Moda 405
Desviación estándar 52.4143965
Varianza de la muestra 2747.26897
Curtosis 0.36687081
Coeficiente de asimetría 0.04706877
Rango 234
Mínimo 276
Máximo 510
Suma 11184
Cuenta 30
Nivel de confianza (95.0%) 19.571868
Paso 04: Formulación de la regla de decisión.
La regla de decisión la formulamos teniendo en cuenta que esta es una prueba de dos colas, la
mitad de 0.05, es decir 0.025, esta en cada cola. el área en la que no se rechaza Ho esta entre
las dos colas, es por consiguiente 0.95. El valor critico para 0.05 da un valor de Zc = 1.96.
9. Por consiguiente la regla de decisión: es rechazar la hipótesis nula y aceptar la hipótesis
alternativa, si el valor Z calculado no queda en la región comprendida entre -1.96 y +1.96. En
caso contrario no se rechaza la hipótesis nula si Z queda entre -1.96 y +1.96.
Paso 05: Toma de decisión.
En este ultimo paso comparamos el estadístico de prueba calculado mediante el Software
Minitab que es igual a Z = 2.38 y lo comparamos con el valor critico de Zc = 1.96. Como el
estadístico de prueba calculado cae a la derecha del valor critico de Z, se rechaza Ho. Por tanto
no se confirma el supuesto del Jefe de la Biblioteca.
ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Conceptos
En este tema vamos a estudiar como estimar, es decir pronosticar, un parámetro de la
población, generalmente la media, la varianza (en consecuencia la desviación típica) y la
proporción, a partir de una muestra de tamaño n. Pero a diferencia de la estimación puntual
donde tal estimación la efectuábamos dando un valor concreto, en esta ocasión el
planteamiento es otro. Lo que haremos es dar un intervalo donde afirmaremos o
pronosticaremos que en su interior se encontrará el parámetro a estimar, con una
probabilidad de acertar previamente fijada y que trataremos que sea la mayor posible, es
decir próxima a 1.
Para ello vamos a establecer la notación a utilizar:
Hemos dicho que vamos a proponer un intervalo donde se encontrará el parámetro a
estimar, con una probabilidad de acierto alta. Al valor de esta probabilidad la
representaremos por 1-α, y la llamaremos nivel de confianza. A mayor valor de 1- α, más
probabilidad de acierto en nuestra estimación, por tanto eso implica que α tendrá que ser
pequeño, próximo a 0.
Recordemos que 1- α representa siempre una probabilidad por lo que será un valor entre 0 y
1, si bien en la mayoría de los enunciados de los problemas suele ser enunciado en términos
de tanto por ciento. Así cuando, por ejemplo, se dice que el nivel de confianza es del 90%,
significa que 1- α vale 0,9 y por tanto α vale 0,1.
Para interpretar bien estos conceptos veamos un ejemplo:
Supongamos que deseamos estimar la media de la estatura de una población mediante un
intervalo de confianza al 95% de nivel de confianza, con una muestra de tamaño 50.
Supongamos que tras los cálculos necesarios, el intervalo en cuestión es
10. (a,b). Pues bien, esto quiere decir que si elegimos 100 muestras de tamaño 50 y cada vez
calculamos el intervalo de confianza resultante, acertaremos en nuestro pronóstico en 95 de
las 100 veces que realizaríamos la estimación con cada muestra.
Un dato importante como es de esperar, es el tamaño de la muestra, que representaremos
por n.
Es evidente que, a igual nivel de confianza, cuanto mayor tamaño tenga la muestra, el
intervalo de confianza se reducirá puesto que el valor obtenido en la muestra se acercará
más al valor real de la población y por tanto el margen de error cometido (radio del
intervalo) se hará más pequeño.
Si el tamaño de la muestra permanece constante y variamos 1- α. el tamaño del intervalo se
hará más grande cuanto más aumente 1- α, es decir que el margen de error se hará más
grande cuanto más precisión exijamos.
Por ejemplo, si para dar un intervalo de confianza de la media de la estatura de una
población de adultos de un país, es seguro que acertaría al cien por cien si el intervalo que
diese fuese (150 cm, 190 cm), pero sería una estimación absurda ya que no sabría apreciar
realmente la media. Por tanto se trata de dar un intervalo lo más reducido posible.
Cálculo de intervalos de confianza. Método del pivote
El cálculo de intervalos de confianza no es un proceso fácil cuando la variable en estudio
no sigue unas pautas de normalidad, por lo que nosotros vamos a suponer siempre que la
variable con la que vamos a trabajar sigue una distribución normal.
Dicho esto, el proceso para obtener el intervalo es dar una variable aleatoria donde
intervenga el parámetro a estimar y el correspondiente de la muestra. A esta variable se le
llama estadístico pivote y debe seguir una distribución de probabilidad conocida. Por
ejemplo para el cálculo de un intervalo de confianza de la media se utiliza el siguiente
estadístico pivote:
Pues bien, esa expresión donde interviene la media muestral, la media poblacional,
la cuasi desviación típica y el tamaño muestral, sigue una distribución de probabilidad
conocida que se encuentra tabulada, llamada t-Student con n-1 grados de libertad.
Se trata pues de dar un intervalo (a, b) de modo que
P(a g b) 1 , siendo g el estadístico pivote correspondiente.
11. Una vez establecida esa desigualdad, despejamos el parámetro poblacional que es
el que queremos centrar en el intervalo.
Cálculo del intervalo de confianza para la media, conocida la desviación
típica de la población en una variable aleatoria normal
Se utiliza es estadístico pivote:
Estamos pues ante la siguiente situación:
12. Veamos un ejemplo práctico:
Se desea estimar la media del tiempo empleado por un nadador en una prueba olímpica,
para lo cual se cronometran 10 pruebas, obteniéndose una media de 41,5 minutos.
Sabiendo por otras pruebas que la desviación típica de esta variable para este nadador es
de 0,3 minutos, obtener un intervalo de confianza con un 95% de confianza. ¿Cuantas
pruebas habría que cronometrar para que el margen de error en la estimación de la media
fuese inferior a tres segundos. (Suponemos siempre que la variable que mide el tiempo del
nadador sigue una distribución normal.)
Estamos en el caso de un intervalo de confianza para la media conociendo la desviación
típica de la población.
Del enunciado del problema se desprenden directamente los siguientes datos:
X 41,5 seg. 0,3 seg. n 10 1 0,95
Tenemos que buscar un valor zα/2, de modo que en la distribución N(0,1) deje una área de
probabilidad a la derecha igual a α/2, es decir 0,025. Como la función de distribución de
probabilidad de la tabla N (0,1) me da el área de probabilidad acumulada, es decir a la
izquierda, tengo que ver que valor de z me deja a la izquierda
0,975, que se corresponde para un valor de z=1,96.
Así pues el intervalo buscado es:
También se puede expresar así: Se estima que la media es 41,5 más menos un margen de
error del 18,59%. (Recordemos que el margen de error cometido en la estima es el radio
del intervalo, es decir 0,1859)
En cuanto a la segunda parte del problema, nos piden el tamaño de la muestra para que en
las mismas condiciones el margen de error sea inferior a 3 seg, es decir 0,05 minutos
(Debemos pasar todo a las mismas unidades). Que el error sea inferior al 5% es acotar el
radio del intervalo de confianza con ese valor:
En consecuencia, para obtener un error inferior a 0,05 minutos, deberemos tomar una
muestra de al menos 139 pruebas cronometradas.
Cálculo del intervalo de confianza para la media, desconociendo la desviación típica
de la población en una variable aleatoria normal
13. Se utiliza el estadístico pivote:
Estamos pues ante la siguiente situación:
Veamos un ejemplo práctico:
La puntuación media de una muestra de 20 jueces de gimnasia rítmica, elegidos al azar,
para una misma prueba, presentó una media de 9,8525 y una cuasi desviación típica
muestral de 0,0965. Calcular un intervalo de confianza con un 95% para la nota media.
(Suponemos que la variable que mide la puntuación sigue una distribución normal.)
Estamos en el caso de un intervalo de confianza para la media desconociendo la desviación
típica de la población.
Del enunciado del problema se desprenden directamente los siguientes datos:
9,8525. 0,0965. 20 1 0,95 1 XSn n
14. Tenemos que buscar un valor tα/2, de modo que en la distribución t-Student con 19 grados
de libertad deje una área de probabilidad a la derecha igual a α/2, es decir 0,025.
Dicho valor se corresponde con un valor de t =2,0930.
Cálculo del intervalo de confianza para la varianza de la población en una variable
aleatoria normal
Veamos un ejemplo práctico:
La puntuación media de una muestra de 20 jueces de gimnasia rítmica, elegidos al azar,
para una misma prueba, presentó una cuasi desviación típica muestral de 0,0965.
Calcular un intervalo de confianza con un 95% para la varianza. (Suponemos que la
variable que mide la puntuación sigue una distribución normal.)
15. Intervalo de confianza para la proporción
Queremos estimar la proporción p de que ocurra un determinado suceso en una
población y tomamos una muestra de tamaño n.
Consideramos la variable aleatoria X= p’/n, donde p’ es el número de
observaciónes de ese suceso en la muestra.
16. Veamos un ejemplo práctico:
En una encuesta hecha por alumnos y alumnas de un instituto a un total de 100 votantes
elegidos al azar en su Municipio, se obtiene que el 55% volvería a votar al actual alcalde.
Calcular un intervalo de confianza al 99% para la proporción de votantes favorables al
actual alcalde.
Cuales deberían ser los tamaños muestrales, manteniendo el mismo nivel de confianza,
para tener la certeza que el alcalde actual será reelegido por mayoría absoluta
Los datos desprendidos del enunciado del problema son :
p' 0,55 n 100 1 0,99
Tenemos que buscar un valor zα/2, de modo que en la distribución N(0,1) deje una área de
probabilidad a la derecha igual a α/2, es decir 0,005. Como la función de distribución de
probabilidad de la tabla N (0,1) me da el área de probabilidad acumulada, es decir a la
izquierda, tengo que ver que valor de z me deja a la izquierda
0,995, que se corresponde para un valor de z=2,57.
Así pues el intervalo buscado es:
En la segunda parte del problema, si queremos que tenga mayoría absoluta, el margen de
error no puede ser inferior a 0,05. La explicación es ésta: Puesto que la mayoría absoluta la
obtiene con más de 0,50 de proporción, y la proporción muestral me ha dado 0,55, y como
el intervalo de confianza está centrado en 0’55, el radio de dicho intervalo, es decir el
margen de confianza, no puede ser superior a 0’05, ya que si fuese
0,06 por ejemplo, cabría la posibilidad de que el valor de la proporción poblacional fuese
0,55-0,06 = 0,49 con lo cual el alcalde no tendría la mayoría absoluta.
Asi pues el planteamiento es hacer el margen de error menor que 0,05, es decir:
En consecuencia, el número mínimo del tamaño de la muestra para poder tener
17. certeza de que el alcalde va a tener mayoría absoluta con un 99% de confianza es 654