1. Distribución Muestral y Estimación
Distribución Muestral y Estimación
Una distribución muestral es la distribución de probabilidad de un
estimador o estadígrafo que resulta de considerar todas las muestras
posibles que pueden ser tomadas de una población. Es decir, si se
toman todas las muestras posibles en una población y se obtienen los
diferentes valores para un estimador y su respectiva probabilidad, a
esta distribución que se forma es lo que se denomina Distribución
Muestral.
La importancia de conocer la distribución muestral de un estadígrafo es
que esta permite el proceso de inferencia del mismo. Dado que casi
nunca es posible tomar todas las muestras posibles de una población
dada, conociendo la distribución muestral del estimador se puede hacer
la inferencia del mismo a partir de una sola muestra. Con el estudio de
la distribución muestral se puede calcular la probabilidad que se tiene,
dada una sola muestra, de acercarse al parámetro de la población. De
igual forma mediante la distribución muestral se puede estimar el error
para un tamaño de muestra dado. La fórmula para la distribución
muestral dependerá de la distribución de la población, del estadístico y
del tamaño de la muestra
Los principales parámetros y su respectivo estimador o estadígrafo se
muestran a continuación:
Parámetro Significado Estadígrafo
µx Media Poblacional X
σ2 Varianza Poblacional S2
σ Desviación Estándar Poblacional S
P0 Proporción de éxitos px
En la Población
N Población n
Un aspecto importante en el estudio del comportamiento de una
variable aleatoria lo constituye del Teorema del Límite Central, el cual
establece que sin importar la forma que tenga una variable aleatoria, en
la medida que se incrementa el tamaño de la muestra, dicha variable
tiende a tener forma de una distribución normal con media µ y varianza
σ2. La importancia del teorema es que cualquier estimador que sea de
interés se pueden obtener las diferentes probabilidades a partir de una
distribución normal.
Distribución Muestral del promedio, ( X )
El promedio o media aritmética es la medida de tendencia central que
más se usa, pues es la única entre estas que posee una serie de
Elaborado por Héctor Medina Disla. Junio 2009 1
2. Distribución Muestral y Estimación
característica que la hacen ser la única medida de tendencia central
que soporta un proceso de inferencia estadística. Entre estas
características están:
1. (Xi – X ) = 0
2. (Xi – X )2 < (Xi – A)2 para todo A ≠ X
Para conocer las bondades del promedio muestral como estimador del
promedio poblacional, suponga que una empresa tiene una población
de seis empleados, Alberto, Bélgica, Carlos, Dinorah, Eduardo y Flavia y
pregunta sobre el número de hijos/as y obtiene los siguientes datos:
Alberto tiene tres, Bélgica tiene dos, Carlos cuatro, Dinorah dos,
Eduardo tiene cuatro y Flavia tres. El promedio de hijos/as de esta
población es
x Xi3 2 4243
, es decir que el promedio de esta
N 6
población es de 3.0 hijos/as.
Ahora suponga que tomamos todas las muestras posibles tamaño dos,
de esta población y que se calcula el promedio en cada una de ellas. De
esta población se pueden obtener 15 muestras diferentes y las muestras
y su respectivo promedio se muestra en la tabla siguiente:
Muestra Promedio Muestra Promedio Muestra Promedio
A, B 2.5 B, C 3.0 C, E 4.0
A, C 3.5 B, D 2.0 C, F 3.5
A, D 2.5 B, E 3.0 D, E 3.0
A, E 3.5 B, F 2.5 D, F 2.5
A, F 3.0 C, D 3.0 E, F 3.5
Con los datos obtenidos se consigue la siguiente distribución de
probabilidad para el promedio muestral, ( X )
Xi No. P( X i) X i* P( X i)
Con esta distribución de
2.0 1 0.07 0.13
probabilidad se puede obtener el
2.5 4 0.27 0.67
valor esperado para el promedio
3.0 5 0.33 1.00 muestral, recordando que el valor
3.5 4 0.27 0.93 esperado es E( X ) = Σ X i* P( X i),
4.0 1 0.07 0.27 luego
Suma 15 1.00 3.00 E( X ) = (2.0*0.07) + …. + (4.0* 0.07)
E( X ) = 3.0 hijos/as
Elaborado por Héctor Medina Disla. Junio 2009 2
3. Distribución Muestral y Estimación
Como se muestra, el valor esperado del promedio muestral es igual al
promedio de la población y es por esta característica, junto a las ya
mencionadas que el promedio es la única medida de tendencia central
que el resultado obtenido en la muestra se puede inferir a la población.
Al observar el resultado de cada promedio en la muestra se nota que la
mayoría de estos difieren del promedio real, estas diferencias se miden
por error estándar del estramador. De forma tal que el error estándar
de un estimador mide la diferencia esperada entre el estimador y el
parámetro.
Error estándar del promedio o media aritmética, ( x )
El error estándar del promedio mide la diferencia esperada entre el
promedio de la muestra y el promedio de la población. El error estándar
del promedio se puede obtener a partir de la desviación estándar de la
variable estudiada de la siguiente forma.
x x , si se conoce la desviación estándar de la variable en la
N
población. Si la desviación estándar que se tiene es calculada en una
S
muestra, el error estándar del promedio es S x x
n
Distribución muestral de la proporción
La proporción o porcentaje se define como el cociente que resulta de
dividir el número de casos favorables entre el número de casos posibles.
Si para una población determinada se desea estimar el porcentaje de
“éxito” en una variable aleatoria, el mismo puede ser estimado a partir
de la distribución en la muestra de la proporción. Si X es la variable
aleatoria de interés y para su estimación se toma una muestra tamaño
n, el valor esperado de la proporción de éxito en la muestra es igual a la
proporción de éxito de la población. La proporción de éxito está dada
por:
X
Px , en este caso X representa el número de éxitos en la muestra y n
n
es el tamaño de la muestra.
Error estándar de la proporción, (Px)
El error estándar de la proporción mide la diferencia esperada entre el
porcentaje de éxito calculado a partir de la muestra y el porcentaje de
éxito de la población. El error estándar de la proporción se puede
obtener a partir de:
p x (1 p x )
Sp
n
Elaborado por Héctor Medina Disla. Junio 2009 3
4. Distribución Muestral y Estimación
Estimación de parámetros
Como se ha mencionado en capítulos anteriores, la mayoría de las
decisiones que se toman se basan en información obtenida a partir de
una muestra, de forma que muy pocas veces se puede conocer el
parámetro poblacional por lo tanto para conocer dicho parámetro es
necesario recurrir a procedimiento de inferencia, es decir, utilizar la
información muestral para obtener información acerca de la población
completa, que es a lo que se denomina como estimación. La estimación
es, por lo tanto, un proceso mediante el cual se obtienen medidas
aproximadas de un parámetro a partir de una muestra.
Las medidas calculadas a partir de una muestra se denominan
estimadores, ya que son medidas mediante las cuales se intenta obtener
información acerca de las medidas poblacionales. Al intentar obtener
información de una medida poblacional con datos de una muestra lo
que más desea el investigador es que la información obtenida en la
muestra sea lo más parecida a la información poblacional. Por lo tanto,
al momento de elegir un estimador como medida de referencia en la
población se deben analizar sus características, de forma que se pueda
elegir el mejor estimador del parámetro poblacional.
Características de un buen estimador
Para que un estimador sea un buen estimador de un parámetro
poblacional, es necesario que cumpla con tres características
importantes: debe ser insesgado, eficiente y consistente.
Un estimador es insesgado cuando el valor esperado de la diferencia
entre el parámetro y el estimado es cero. Es decir que si se tiene un
parámetro α y su estimador es A, entonces E(α-A)= 0
La característica de eficiencia se refiere la variabilidad del estimador y
como tal un estimador A se considera más eficiente que un estimador B,
si la varianza relativa de A es menor que la varianza relativa de B, es
2 2
decir, A B
2 2
B A
La condición de consistencia se refiere a la condición del estimador para
mantener su valor de una muestra a otra, es este sentido se entiende
por estimador consistente aquel que en la medida que se incrementa el
tamaño de la muestra, el estimador tiene a ser igual al parámetro
Tipos de estimación
La estimación de parámetros puede ser puntual, si la misma se realiza
a partir de una sola medida o puede ser una estimación por intervalo,
que es aquella en la que se estima un rango en el cual se espera que se
encuentre el parámetro con una probabilidad determinada o nivel de
confianza.
Elaborado por Héctor Medina Disla. Junio 2009 4
5. Distribución Muestral y Estimación
Estimación puntual
Como se ha definido, la estimación puntual es aquella en la que el
parámetro es estimado a partir de un solo valor. Por ejemplo, suponga
que se tiene los datos sobre el salario de nueve empleados y se desea
estimar el promedio del salario en la empresa, así como el porcentaje de
empleados que devenga un salario inferior a $6.0. Los datos sobre los
salarios son:
16.2 14.0 8.5 10.0 12.1 5.0 7.5 5.0 3.0
Estimación del promedio: X
X i
n
16.2 14.0 8.5 10.0 12 .1 5.0 7.5 5.0 3 .0
X
9
X = 9.1$
X
Estimación de la proporción, Px
n
X: casos favorables, en este caso cantidad de empleados con salario por
debajo de $6.0
n: muestra, para este caso la muestra es de nueve empleados
3 1
Px
9 3
Estimación por Intervalo
La estimación por intervalo es aquella en la que se establece un rango
para el parámetro de la población, denominado intervalo de confianza.
En la estimación por intervalo se debe tomar en consideración dos
aspectos, el origen de la varianza y el tamaño de la muestra a partir de
la cual se va hacer la estimación.
Elementos a tener en consideración
1. Varianza
De la población
Varianza de una muestra
2. Tamaño de la muestra
Grande; n 30
Pequeña; n < 30
Elaborado por Héctor Medina Disla. Junio 2009 5
6. Distribución Muestral y Estimación
Cuando se conoce la varianza de la población el intervalo de
confianza para promedio está dado por:
P X Z ( / 2 ) x 1
n
X : Promedio de la muestra
Z(α/2): es el valor de Z para un nivel de confianza dado
: Desviación estándar en la población
n: Tamaño de la muestra
α : Nivel de significación
Ejemplo: La empresa FORTALEZA dedicada a la producción de
cemento, tiene un proceso de llenado, el cual tiene una varianza de 0.85
Kg. Para fines de control del llenado se seleccionó una muestra de 20
fundas y se encontró que el peso promedio de cada funda es de 41.75
Kg. Con un nivel de confianza de 99.0%, estimar el intervalo del peso
promedio de las fundas de cemento.
Cuando se desconoce la varianza de la población y se tiene una
varianza calculada a partir de una muestra grande, (n 30), el
intervalo de confianza para el promedio está dado por:
P X Z ( / 2 ) x 1
n
X : Promedio de la muestra
Z(α/2): es el valor de Z para un nivel de confianza dado
S: Desviación estándar de la muestra
n: Tamaño de la muestra
α : Nivel de significación
Ejemplo: La Empresa AQUIESTOY se dedica al ensamblaje de
dispositivos electrónicos. Para establecer las especificaciones que debe
tener el diámetro de un arbor, ha tomado una muestra de 42 de ellos y
ha encontrado que diámetro promedio es de 3.0 cms con una varianza
de 0.25 cms. Cuál es el intervalo de confianza, si la empresa desea no
más del 3.0% de las unidades producidas estén fuera de los límites a
establecer.
Elaborado por Héctor Medina Disla. Junio 2009 6
7. Distribución Muestral y Estimación
Cuando se desconoce la varianza de la población y se tiene una
varianza calculada en una muestra pequeña, (n < 30), el intervalo
de confianza para la media esta dado por:
S
P X t (n-1, /2) x 1
n
X : Promedio de la muestra
t(n-1, α/2) : es el valor de t para un nivel de confianza dado
S: Desviación estándar de la muestra
n: Tamaño de la muestra
α : Nivel de significación
Ejemplo: Un inversionista quiere saber, con un nivel de confianza de
95.0% cual es el rango en el que varían el precio de un grupo de
acciones en las cuales piensa invertir. En una muestra de 12 acciones
ha encontrado que el precio promedio es $18.5 y la varianza de 12.6$2.
Intervalo de confianza para la proporción
El intervalo de Confianza para la Proporción de éxito, se obtiene a partir
de la siguiente expresión:
P p x Z ( / 2) S p , donde:
px : Proporción de éxito obtenida en la muestra
p x (1 p x )
Sp: es el error estándar de la proporción, S p
n
Z(α/2) : Valor de Z para el nivel de confianza dado
n : Tamaño de la muestra
α : Nivel de significación
Ejemplo: Se desea estimar, con un nivel de confianza de un 95.0%, el
porcentaje de usuarios que está dispuesto a utilizar los servicios de
una nueva ruta de autobuses de transporte interurbano. De una
muestra de 200 usuarios, 93 dijeron estar dispuestos a utilizar los
servicios de la nueva ruta. Estimar el intervalo para la proporción de los
posibles usuarios de la nueva ruta.
Estimación del tamaño de la muestra
Cuando se desea estimar el tamaño que debe tener una muestra, es
importante definir cual es el estadígrafo que se desea estimar. En tal
sentido hay que estar claro sobre cual parámetro se desea hacer la
estimación, si es sobre un promedio o un total o si la inferencia se
desea hacer sobre una proporción o porcentaje. De igual forma hay que
tener claro sobre el tipo de población en la cual se tomará la muestra, si
Elaborado por Héctor Medina Disla. Junio 2009 7
8. Distribución Muestral y Estimación
es una población finita, es decir que se conoce el número de elementos
de la población o si por el contrario, la población se puede considerar
infinita.
Dependiendo de estos criterios, el tamaño de una muestra se puede
estimar utilizando una de las siguientes fórmulas:
Tabla No. Fórmula para estimar el tamaño de una muestra
Estadístico Población infinita Población finita
Promedio o Z 2S 2 NZ 2 S 2
n n
total E2 ( N 1) E 2 Z 2 S 2
Z 2 P(1 P) NZ 2 P (1 P )
Proporción n n
E2 ( N 1) E 2 Z 2 P (1 P )
n: tamaño de la muestra
Z: Valor de la distribución norma para un nivel de confianza dado
S2: Varianza
E: Error muestral
P: Proporción de éxito en la población
Ejemplos:
1. Se desea conocer el consumo familiar promedio en una comunidad para
evaluar la factibilidad de establecer un punto de distribución en una
comunidad. En estudios anteriores se obtuvo una desviación estándar del
consumo de $630. Cuál debe ser el tamaño de la muestra si se desea una
estimación que no difiera del valor real del consumo en ± 75.0 con un nivel de
confianza de 95.0%.
a) Qué tamaño debe tener la muestra, si no se conoce el tamaño de la
población
b) Qué tamaño debe tener la muestra, si la población de dicha comunidad
es de 2,500 familias.
2. Una organización sin fines de lucro que medir el porcentaje de madres con
conocimientos en salud materno-infantil en una población de 840 familias y
en las cuales por estudios anteriores se sabe que solo el 40.0% tenía
conocimientos sobre este tema, con un margen de error de más o menos
3.0%.
a) ¿Qué tamaño debe tener la muestra?
b) ¿De cuánto sería la muestra si no se conociera el total de la población?
Elaborado por Héctor Medina Disla. Junio 2009 8