1. ELECTRÓNICA Y TELECOMUNICACIONES
ESTADÍSTICA Y PROBABILIDAD
CAPÍTULO 10
Comparación de dos medias y dos varianzas
PROFESIONAL EN FORMACIÓN:
Wilson Arturo Torres Ayala
DOCENTE:
Ing. Luis Patricio Puchaicela Huaca
PARALELO:
C
LOJA-ECUADOR
2007-2008
2. RESUMEN
En este capítulo se estudian técnicas de gran importancia para hacer inferencias acerca
de una sola proporción con muestras bastante grandes. Además se estudia la forma de
determinar el tamaño de la muestra cuando se tiene una estimación previa de p, y
también cunado no la hay.
Hablaremos acerca de los intervalos de confianza, y de la comparación de hipótesis.
MARCO TEÓRICO
ESTIMACIÓN DE PROPORCIONES
Si se quiere estimar una proporción de una población de interés, se identifica un rasgo
específico y luego se clasifica a cada elemento de la población según posea dicho rasgo
o carezca de él.
Estimador puntual de p
X
p=
ˆ
n
X = número en la muestra que tiene el rasgo
n = tamaño de la muestra
Si podemos darnos cuenta esta fórmula no es otra cosa que una media muestral.
ˆ
Un estimador puntual p tiene distribución aproximadamente normal y posee las
siguientes características, es insesgado respecto de p y tiene varianza pequeña para
muestras grandes.
Intervalos de confianza para p
Al referirnos a intervalos de confianza estamos hablando de establecer límites los cuales
deben ser estadísticas, es decir tienen que ser variables aleatorias de tal manera que
puedan extraerse de una muestra.
Para poder obtener los límites de confianza nos valemos del teorema de límite central,
siempre y cuando la muestra sea lo suficientemente grande para que haya una mínima
diferencia entre dos puntos, z y t.
Los límites de confianza se los expresa de acuerdo a la siguiente fórmula:
p ± z α / 2 p(1 − p ) / n
ˆ ˆ ˆ
Tamaño de una muestra para estimar p
Anteriormente se dijo que la muestra debe ser bastante grande para que los resultados
no varíen mucho. Pero como saber para determinar el tamaño de la muestra.
Existen dos formas para establecer el tamaño de la muestra. La primera cuando se
cuenta con la estimación de p basada en experimentos previos.
2
p(1 − p )
ˆ
n = zα / 2 2
d
3. El segundo procedimiento para determinar el tamaño de la muestra es cuando no se
tiene una estimación previa de p. Para esto hay que remplazando ¼ por p(1 − p ) en la
ˆ ˆ
fórmula anterior, concluyendo en lo siguiente:
2
n = zα / 2
4d2
PRUEBA DE HIPÓTESIS SOBRE UNA PROPORCIÓN
Las hipótesis sometidas a prueba pueden asumir cualquiera de las tres formas usuales
que describiremos a continuación. Si p0 es el valor nulo de p .Esas formas son las
siguientes:
I H 0 : p = p0
H 1 : p > p0
Prueba de cola derecha
Al evaluar una cola derecha se rechaza H 0 y se acepta H 1 si el valor es un número
positivo grande.
II H 0 : p = p0
H 1 : p < p0
Prueba de cola izquierda
En una prueba de cola izquierda los números negativos grandes llevan al rechazo.
III H 0 : p = p0
H 1 : p ≠ p0
Prueba de dos colas
Mientras que en una prueba de dos colas H 0 se rechaza cuando los valores de prueba
son excesivamente grandes ya sean positivos o negativos.
La estadística usada es X, y tiene distribución binomial con parámetros n y p0 cuando
la hipótesis nula es verdadera.
Estadística de prueba para verificar H 0 : p = p0
( p − p 0 ) / p 0 (1 − p0 ) / n
ˆ
ˆ
Esto es una opción lógica cuando se compara el estimador puntual insesgado de p con
el valor nulo p0 .
COMPARACIÓN DE DOS PROPORCIONES: ESTIMACIÓN
Usualmente se compara dos proporciones en ingeniería, cuando existen dos poblaciones
de interés y es factible clasificar a cada elemento de la población como poseedor de un
4. rasgo o carente de este. Estas muestras son independientes, de tal modo que los objetos
obtenidos de una no determinan cuales objetos se deben extraer de la otra.
Para estimar la diferencia puntual de dos proporciones se resta una estimación puntual
de la otra, de esta forma:
p1 − p 2 = p1 − p 2 = X 1 / n1 − X 2 / n2
ˆ ˆ
Intervalo de confianza de p1 − p 2
La distribución de probabilidad de un estimador puntual p1 − p 2 se expresa en es te
ˆ ˆ
teorema:
En el caso de muestras grandes, el estimador p1 − p 2 es aproximadamente normal, con
ˆ ˆ
media p1 − p 2 y varianza p1 (1 − p1) / n1 + p 2 (1 − p 2 ) / n2
Al igual que en el caso de una muestra, el problema se resuelve al sustituir las
ˆ ˆ
proporciones poblacionales con sus estimadores puntuales p1 y p 2 . Esto nos da como
resultado la siguiente fórmula:
( p1 − p 2 ) ± z α / 2 p1 (1 − p1 ) / n1 + p 2 (1 − p 2 ) / n2
ˆ ˆ ˆ ˆ ˆ ˆ
Entonces si queremos relacionar dos proporciones con gran exactitud las muestras que
se seleccionen deben ser de igual tamaño en cada población.
COMPARACIÓN DE DOS PROPORCIONES: PRUEBA DE HIPÓTESIS
Suele ocurrir que en algunos problemas antes del experimento, una proporción o
porcentaje difieren de otro en una cantidad específica. Dado que ( p1 − p 2 ) 0 representa
el valor nulo de la diferencia entre las proporciones tenemos:
H 0 : p1 − p 2 = ( p1 − p 2 ) 0 H 0 : p1 − p 2 = ( p1 − p 2 ) 0 H 0 : p1 − p 2 = ( p1 − p 2 ) 0
I II III
H 1 : p1 − p 2 > ( p1 − p 2 ) 0 H 1 : p1 − p 2 < ( p1 − p 2 ) 0 H 1 : p1 − p 2 < ( p1 − p 2 ) 0
Prueba de cola derecha Prueba de cola izquierda Prueba de dos colas
La siguiente fórmula es una opción lógica de estadística de prueba ya que en ella se
compara la diferencia estimada de las proporciones p1 − p 2 con su diferencia hipotética
ˆ ˆ
( p1 − p 2 ) 0 . Si el valor hipotético es correcto las diferencias deben tener valores muy
cercanos entre si. Entonces el numerador debe ser cercano a cero, para que la estadística
.de prueba tenga un valor bajo
( p1 − p 2 ) − ( p1 − p 2 ) 0
ˆ ˆ
p1 (1 − p1 ) / n1 + p 2 (1 − p 2 ) / n2
ˆ ˆ ˆ ˆ
5. Proporciones agrupadas
Si la diferencia hipotética ( p1 − p 2 ) 0 puede tener cualquier valor, el propuesto mas
comúnmente es cero.
H 0 : p1 = p 2 H 0 : p1 = p 2 H 0 : p1 = p 2
I II III
H 1 : p1 > p 2 H 1 : p1 < p 2 H 1 : p1 ≠ p 2
Prueba de cola derecha Prueba de cola izquierda Prueba de dos colas
ˆ
Para poder analizar estas hipótesis existe otro procedimiento que aprovecha que p1 y
ˆ
p 2 son estimadores de una misma proporción, que se denota con p, si H 0 es verdadera.
ˆ ˆ
Puesto que p1 y p 2 son estimadores insesgados de p, tiene sentido que se los combine.
Para poder agrupar se multiplica cada estimador por su tamaño muestral para obtener el
estimador agrupado de p:
n1 p1 + n2 p 2
ˆ ˆ
p=
ˆ
n1 + n2
ˆ
Sustituyendo p con p se tiene:
p1 − p 2
ˆ ˆ
p(1 − p )(1 / n1 + 1 / n2 )
ˆ ˆ
La fórmula anterior es una estadística para comparar dos proporciones. Esta
combinación es inapropiada para probar H 0 : p1 − p 2 = ( p1 − p 2 ) 0 , donde ( p1 = p 2 ) ≠ 0 ,
ˆ ˆ
en virtud de que p1 y p 2 se estiman proporciones distintas.
CONCLUSIONES
-El estimador puntual es una media muestral muy especial. Es decir p = X .
ˆ
-Para poder determinar el tamaño de la muestra cuando no se tienen una estimación
2
p(1 − p )
ˆ ˆ
previa se remplaza ¼ por p(1 − p ) en la fórmula n = z α / 2 2
ˆ ˆ quedando la nueva
d
2
expresión de la siguiente manera n = z α / 2 .
4d2
-Si queremos obtener el estimador agrupado de p cuando p1 = p 2 , se multiplica cada
estimador por su tamaño muestral.
6. RESUMEN
En este capítulo se aprenderá técnicas para comparar medias, varianzas y medianas de
dos poblaciones. Estas técnicas se aplican a problemas en los que se extraen muestras
independientes es decir que una muestra no afecta directamente los resultados de la otra
muestra, y también en otros problemas en los que se relacionan por pares de datos.
MARCO TEÓRICO
ESTIMACIÓN PUNTUAL: MUESTRAS INDEPENDIENTES
El estimador puntual de la diferencia entre dos medias poblacionales es la diferencia
entre las medias muestrales.
µ1 − µ2 = µ1 − µ 2 = X 1 − X 2
ˆ ˆ ˆ ˆ
La distribución de la variable aleatoria X 1 − X 2 es necesaria para determinar los
ˆ ˆ
intervalos de confianza para µ1 − µ2 o poner a prueba una hipótesis. El siguiente
teorema muestra que el estimador X 1 − X 2 es un estimador insesgado de µ1 − µ2 .
ˆ ˆ
ˆ ˆ
Sean X 1 y X 2 las medias muestrales basadas en muestras aleatorias independientes de
tamaños n1 y n2 obtenidas de distribuciones normales con medias µ1 y µ2 , y varianzas
σ1 y σ2 , respectivamente. Entonces, X 1 − X 2 es normal, con media µ1 − µ2 y varianza
2 2
ˆ ˆ
σ1 / n1 + σ2 / n2 .
2 2
COMPARACIÓN DE VARIANZAS: LA DISTRIBUCIÓN F
Hay dos formas de comparar las medias de dos poblaciones normales:
- Cuando σ1 y σ2 son desconocidas e iguales.
2
2
- Cuando σ1 y σ2 son desconocidas y distintas.
2
2
Una técnica para comparar las varianzas de dos poblaciones normales es realizando una
prueba de hipótesis, que consiste en lo siguiente.
I H 0 : σ1 = σ2
2
2 II H 0 : σ1 = σ2
2
2
H1 : σ1 > σ2
2
2 H1 : σ1 ≠ σ2
2
2
Prueba de cola derecha Prueba de dos colas
En el caso de hacer una prueba de hipótesis con el método de cola derecha se parte del
supuesto que la hipótesis nula es verdadera. Para ello se debe conocer la distribución
cuando se piensa que las varianzas poblacionales son iguales.
Para que las varianzas poblacionales sean iguales, la proporción entre S 1 / S 2 debe ser
2
2
2 2
cercana a uno. Y las varianzas poblacionales son diferentes si S 1 / S 2 es mucho mayor
que la unidad (1).
Si las varianzas poblacionales son iguales, entonces tienen lo que se llama distribución
F. esta proporción se define en base a la distribución ji cuadrada. A continuación se
define la distribución F.
7. Sean X 2 y X 2 variables aleatorias ji cuadrada independientes con γ1 y γ 2 grados de
γ1 γ2
libertad, respectivamente. La variable aleatoria:
X γ / γ1
2
1
X γ / γ2
2
2
Tiene lo que se llama distribución F, con γ1 y γ 2 grados de libertad.
A continuación las propiedades de las variables aleatorias F:
- Hay un número infinito de variables aleatorias F, cada una identificada por dos
parámetros, γ1 y γ 2 , llamados grados de libertad. Estos parámetros siempre son enteros
positivos: γ1 se relaciona con la variable aleatoria ji cuadrada del numerador, y γ 2 con
la variable aleatoria ji cuadrada de su denominador.
- Cada variable aleatoria F es continua.
- La gráfica de la densidad de cada variable aleatoria F es una curva asimétrica.
- Las variables aleatorias F no pueden tener valor negativo.
El siguiente teorema nos sirve para probar que H 0 : σ1 = σ2 tiene distribución F cuando
2
2
H0 es verdadera.
Sean S 1 y S 2 varianzas muestrales basadas en las muestras aleatorias independientes
2
2
de tamaños n1 y n2 extraídas de poblaciones normales con medias µ1 y µ2 , y varianza
σ1 y σ2 , respectivamente. Si σ1 = σ2 , entonces la estadística S 1 / S 2 tiene distribución
2 2 2 2 2 2
F con n1 − 1 y n2 − 1 grados de libertad.
Supuestos de la prueba F con varianzas iguales
- Se supone que la normalidad y la prueba debe omitirse cuando la base en el diagrama
de tallo y hoja o el histograma, de cualquiera de las dos poblaciones no tiene forma de
campana.
- La prueba de igualdad de las varianzas funciona correctamente cuando los tamaños
muestrales son iguales. La prueba no debe usarse en caso de que exista gran diferencia y
duda de la normalidad de las poblaciones muestreadas.
- La hipótesis nula de que σ1 = σ2 , no se rechaza con la frecuencia necesaria, cuando las
2
2
varianzas son diferentes.
COMPARACIÓN DE MEDIAS: VARIANZAS IGUALES (PRUEBA
AGRUPADA)
Cuando las varianzas poblacionales son desiguales, se usa la prueba T agrupada
independiente o no correlacionada para comparar µ1 contra µ2 .
Intervalo de confianza para µ1 − µ2 : agrupada
8. Sean S 1 y S 2 las varianzas muestrales basadas en muestras independientes de tamaños
2
2
n1 y n2 , respectivamente. La varianza agrupada que se denota con S 2 , está dada por:
p
( n1 − 1) S 1 + ( n2 − 1) S 2
2 2
Sp =
2
n1 + n2 − 2
La obtención de una variable aleatoria para poder calcular un intervalo de confianza de
100(1-α)% para µ1 − µ2 se logra al remplazar la varianza poblacional desconocida σ2
en la variable aleatoria Z:
( X 1 − X 2 ) − (µ1 − µ2 )
ˆ ˆ
σ (1 / n1 + 1 / n2 )
2
Luego se remplaza el estimador agrupado S 2 en σ2 para tener la variable aleatoria:
p
( X 1 − X 2 ) − (µ1 − µ2 )
ˆ ˆ
S p (1 / n1 + 1 / n2 )
2
Al sustituir la varianza poblacional con su estimador si tiene efecto en la distribución.
La primera variable aleatoria es de tipo Z, y la segunda tiene distribución T, con
n1 + n2 − 2 grados de libertad. La estructura algebraica de esa variable aleatoria es la
siguiente:
Estimador − Parámetro
D
Los límites del intervalo de confianza de µ1 − µ2 están dados en este teorema:
ˆ ˆ
Sea X 1 y X 2 medias muestrales basadas en muestras aleatorias independientes,
obtenidas de distribuciones normales con medias µ1 y µ2 , respectivamente, y varianza
común σ2 . Sea S 2 la varianza muestral agrupada. Los límites de un intervalo de
p
confianza 100(1-α)% para µ1 − µ2 son:
( X 1 − X 2 ) ± t α / 2 S 2 (1 / n1 + 1 / n2 )
p
Donde se encuentra el punto t α / 2 en relación con la distribución T n + n − 2 .
1 2
Prueba T agrupada
La variable aleatoria que se usa para determinar los límites de confianza de un
parámetro también sirve como estadística de prueba de hipótesis correspondiente al
parámetro. La siguiente fórmula es útil como estadística de prueba de hipótesis usuales,
donde ( µ1 − µ2 ) 0 muestra la diferencia hipotética de las medias poblacionales:
( X 1 − X 2 ) − (µ1 − µ 2 ) 0
ˆ ˆ
= T n +n −2
S p (1 / n1 + 1 / n 2 )
2 1 2
9. La diferencia hipotética puede ser cualquier valor, pero lo más común es que sea igual a
cero. Para poder determinar si las medias poblacionales difieren las hipótesis pueden
tener las siguientes formas:
I H 0 : µ1 = µ2 II H 0 : µ1 = µ2 III H 0 : µ1 = µ2
H 1 : µ1 > µ2 H 1 : µ1 < µ2 H 1 : µ1 ≠ µ2
Prueba de cola derecha Prueba de cola izquierda Prueba de dos colas
COMPARACIÓN DE MEDIAS VARIANZAS: DESIGUALES
La estimación es incorrecta cuando se nota una diferencia en la comparación de las
varianzas poblacionales. La estadística necesaria se identifica al modificar la variable
aleatoria Z:
( X 1 − X 2 ) − (µ1 − µ2 )
ˆ ˆ
S 1 / n1 + S 2 / n2
2 2
Este cambio produce una distribución Z a la T aproximada. Para determinar el número
de grados de libertad se utiliza la técnica de Smith-Satterthwaite:
[ S 1 / n1 + S 2 / n2] 2
2
γ= 2 2
21
[ S 1 / n1] [ 2 / ]2
+ S 2 n2
n1 − 1 n21 − 1
El valoro de gamma γ no tiene que ser necesariamente un entero. Si no obtenemos un
entero se redondea al entero inmediato inferior, que tiene como fin ser conservador. A
medida que aumenta el número de grados de libertad relacionados con variables
aleatorias T, las curvas en forma de campana se vuelven más compactas.
El método de Smith-Satterthwaite se lo usa para encontrar los límites de confianza de
µ1 − µ2 cuando las varianzas poblacionales son desiguales.
COMPARACIÓN DE MEDIAS: DATOS POR PARES
Una relación por pares ocurre cuando dos muestras aleatorias no son independientes, es
decir que una muestra tiene relación de manera natural con la otra.
Con datos relacionados por pares es posible definir una nueva variable aleatoria D=X-Y,
de donde es extrae una muestra aleatoria de tamaño n de la población de diferencias. De
acuerdo con las reglas de la esperanza se tiene:
µ X − µY = E[ X ] − E[Y ] = E[ X − Y ] = E [ D] = µ D
El problema se redujo de dos muestras originalmente a otro de una muestra, consistente
en determinar una inferencia acerca de la media de la población de diferencias. La
fórmula siguiente se la utiliza para determinar los límites de confianza para µ X − µY .
D ± tα / 2 S d / n
Donde D y S d son la media muestral y la desviación estándar muestral; y t α / 2 es el
punto apropiado relativo a la distribución T n −1 .
Prueba T por pares
La hipótesis nula µ X = µY es igual a la hipótesis µ D = 0 . La estadística para probar la
hipótesis es la siguiente:
10. D −0
Sd / n
Además tiene distribución T con n-1 grados de libertad si H 0 es verdadera.
MÉTODOS NO PARMÁETRICOS ALTERNOS
Una de las técnicas alternativas para demostrar la igualdad de la localización de dos
poblaciones es la suma de rangos de Wilcoxon.
Prueba de suma de rangos de Wilcoxon
Si existen dos poblaciones X y Y, la hipótesis nula que se pondrá a prueba es que las
poblaciones X y Y son idénticas. La hipótesis nula suele expresarse con base en
medianas poblacionales iguales. A continuación se presenta las tres formas de hipótesis:
H0 : M X = MY H0 : M X = MY H0 : M X = MY
H1 : M X > M Y H1 : M X < M Y H1 : M X ≠ M Y
Prueba de cola derecha Prueba de cola izquierda Prueba de dos colas
Al realizar la prueba las observaciones m+n se agrupan para formar una sola muestra.
Después las observaciones se ordenan de menor a mayor y se clasifican de 1 a N = m+n.
En caso de empates, cada uno recibe el rango promedio del grupo. La estadística de
prueba, que se denota con W m , es la suma de los rangos que guardan relación con las
observaciones que inicialmente eran componentes de la muestra más pequeña.
Prueba de rango con signo de Wilcoxon para observaciones por pares
Sean X y Y variables aleatorias continuas, con distribuciones simétricas, se pretende
probar la hipótesis de que las medianas de estas dos distribuciones son iguales. D esta
manera las hipótesis tienen la siguiente forma:
H0 : M X = MY H0 : M X = MY H0 : M X = MY
H1 : M X > M Y H1 : M X < M Y H1 : M X ≠ M Y
Prueba de cola derecha Prueba de cola izquierda Prueba de dos colas
Para realizar la prueba de hipótesis se obtiene una muestra aleatoria de observaciones
por pares de X y Y. En primer término se forman las diferencias X 1 − Y 1 , X 2 − Y 2 K ,
X n − Y n . Si la hipótesis nula es verdadera, la población de diferencias es en torno a
cero. Para probar H 0 : M X = M Y , se somete a prueba H 0 : M X −Y = 0
Las pruebas de cola derecha se realizan mediante |W_|, y las de cola izquierda, con W +
como estadística de prueba. En cada caso, se rechaza H 0 con valores demasiado
pequeños para haber ocurrido al azar.
CONCLUSIONES
-Para comparar varianzas de muestras independientes se aplica un tipo de distribución,
que se la denomina distribución F.
-Si estamos analizando datos estadísticos de una distribución F, y las varianzas
poblacionales son desiguales, se utiliza el procedimiento T de Smith-Satterthwaite para
comparar las medias.
-La estadística de Wilcoxon es útil con datos muy grandes, para ello se lo debe clasificar
en rangos.