1. 1 MUESTREO
El definir el tamaño muestral y el método de selección de las unidades de análisis, es
uno de los puntos más importantes en procesosde análisis de datos, ya que
dependiendo de éste, será posible generar inferencias o generalizaciones a toda la
población, y por ende, definir políticas y tomar acciones que impacten el entorno del
objeto de estudio. El proceso seguido para seleccionar una muestra de una población
se conoce como muestreo.
El propósito que se tiene con el muestreo es recabar información representativa de
toda una población con el propósito de generalizar los resultados obtenidos durante
un estudio; controlando la cantidad de información ya que poca información podría
afectar los resultados del estudio y mucha información podría generar gastos
innecesarios.
Es evidente que el reducir costos en todas las actividades que se realizan en la
cotidianidad es una prioridad en todo estudio, por lo tanto, es menester en lo posible
trabajar con una parte de la población objeto de estudio, en lugar de realizar un
censo. No obstante, se presentan algunos casos donde es imprescindible medir o
explorar a todos los elementos del universo bajo estudio.
1.1 CONCEPTOS BÁSICOS DE MUESTREO
Muestro probabilístico: es aquel cuyos elementos tienen una probabilidad conocida y
mayor de cero de ser seleccionados, tienen la particularidad de que los resultados
encontrados por medio de este método se puede generalizar a toda la población. Se
necesita de formulas matemáticas ya elaboradas para el cálculo del número de
unidades de análisis y tiene como ventaja el poder determinar los errores de
estimación.
Muestreos no probabilísticos: es aquel que no permiten generalizar sus resultados a
toda la población, no obstante, son muy útiles para estudios exploratorios y en
general para estudios de corte cualitativo.La elección del procedimiento depende
fundamentalmente de los objetivos del estudio.
Población o Universo: es un conjunto de elementos (sujetos, objetos, entidades
abstractas, etc.) que poseen una o más características en común, podemos encontrar
dos tipos de poblaciones dependiendo del número de elementos de que consten:
Poblaciones finitas: formadas por un número finito de elementos.
Poblaciones infinitas: formadas por un número infinito de elementos.
El hecho de que las poblaciones, por lo general, sean infinitas o estén formadas por
un gran número de elementos, hace que la descripción exacta de sus propiedades
sea un objetivo prácticamente inaccesible. Por esta razón, lo habitual es trabajar con
“muestras”.
2. Muestra: es un subconjunto de elementos de una población.Para extraer conclusiones
validas e imparciales referidas a todos los elementos de la población a partir de la
observación de sólo unos pocos elementos, es necesario, que la muestra utilizada sea
representativa de la población; esto se consigue mediante las “técnicas de
muestreo”.
Una muestra proporciona una estimación de parámetro a estudiar, pero si se extrae
otra muestra según las mismas reglas de selección, se obtendrá sin duda otro
resultado para la estimación del parámetro a estudiar. Por tanto “el estimador” es
una “variable aleatoria”.
Parámetro: es un valor numérico que describe una característica de una población.
Los parámetros son valores numéricos constantes (es decir, no son variables),
definida una población cualquiera y un parámetro en ella, ese parámetro sólo puede
tomar un valor numérico concreto. Habitualmente los parámetros de interés serán la
media
la varianza
y los porcentajes.
Estadístico o Estimador: es un valor numérico que describe una característica de una
muestra. Su valor concreto depende de los valores de la muestra seleccionada en la
que es calculado. Es evidente que de una población cualquiera es posible extraer más
de una muestra diferente del mismo tamaño, por tanto el valor de un estadístico
varía de una muestra a otra. Un estadístico no es un valor numérico constante (como
lo es un parámetro), sino que es una variable; y su valor concreto depende de la
muestra en la que es calculado.
Algunos de los estadísticos principales son: la media muestral , la varianza
muestral
, el total muestral(n), la proporción muestral, el mayor y menor valor de
la muestra.
La distribución del estimador viene dada por el conjunto de los resultados obtenidos a
partir del conjunto de las muestras posibles; el carácter aleatorio proviene de la
extracción aleatoria de la muestra.Un estadístico que se utiliza para estimar un
parámetro desconocido de la población recibe el nombre de estimador
Variable aleatoria: es una variable que puede tomar un cierto número de valores, con
una probabilidad asociada a cada valor. Por tanto dicha variable aleatoria seguirá
una “distribución” determinada.
Error de estimación: es la diferencia entre el valor estimado del parámetro
usualmente la media
o el porcentaje de la población que cumple una condición
y el verdadero valor del parámetro
o el porcentaje de la población que cumple
una condición
que en general será desconocido. El error de estimación va medido
en las mismas unidades que el parámetro que deseamos estimar; si se quiere
mantener o disminuir el error, más elementos u observaciones de la población
deberán incluirse en la muestra estudiada.
3. Como es natural, al aproximar las características poblacionales mediante
estimadores basados en la muestra se comete un error, error que mide la
representatividad de dicha muestra. Dependiendo del coste del muestreo, del
presupuesto disponible y de otros muchos factores fijaremos un error de muestreo
que en todo caso debe ser el mínimo posible. Dicho error de muestreo puede venir
dado en términos absolutos, en términos relativos o sujeto adicionalmente a un
coeficiente de confianza dado (sujeto a unos límites de tolerancia)
En caso de no incluir nuevas observaciones para la muestra, más error se comete en
la precisión o valor estimado del parámetro. El error de estimación se mide en las
mismas unidades que el parámetro que deseamos estimar ejemplo cantidad,
precio..., etc. y se simboliza por:
ó
La estimación de un valor de interés, como la media o el porcentaje (poblacional),
estará generalmente sujeta a una variación entre una muestra y otra. Estas
variaciones en las posibles muestras de una estadística pueden, teóricamente, ser
expresadas como errores muestrales, sin embargo, normalmente, en la práctica el
error exacto es desconocido. El error muestral se refiere en términos más generales
al fenómeno de la variación entre muestras.
El error muestral deseado, generalmente puede ser controlado tomando una muestra
aleatoria de la población, suficientemente grande, sin embargo, el costo de esto
puede ser limitante. Si las observaciones son tomadas de una muestra aleatoria, la
teoría estadística brinda cálculos probabilísticos del tamaño deseado del error
muestral para una estadística en particular o estimación. Estos usualmente son
expresados en términos del error estándar.
El error muestral puede ser contrastado con el error no muestral, el cual se refiere al
conjunto de las desviaciones del valor real que no van en función de la muestra
escogida, entre los cuales se encuentran varios errores sistemáticos y algunos errores
aleatorios. Resultan mucho más difíciles de cuantificar que el error muestral.
Nivel de confianza: Es la probabilidad de que el verdadero valor del parámetro
estimado en la población se sitúe en el intervalo de confianza obtenido. El nivel de
confianza se denota por (1-α), aunque habitualmente suele expresarse con un
porcentaje ((1-α)•100%). Es usual tomar como nivel de confianza un 95% o un 99%,
que se corresponden con valores α de 0,05 y 0,01, respectivamente; aunque este se
puede escoger a criterio del que realiza el estudio, la idea es que al seleccionar la
muestra esta de mayor que 30 para poder aplicar la tabla de la normal y asumir
4. normalidad cumpliendo con el teorema del limite central “entre más grande sea la
muestra más se aproxima a una normal”
1.2 ESTIMACIÓN DE TAMAÑO DE MUESTRA
Todo estudio lleva implícito en la fase de diseño la determinación del tamaño
muestral. Al no realizar esto pueden suceder diferentes situaciones; seleccionar
menos muestras que las necesarias, perdiéndose precisión en la estimación de
parámetros y en las pruebas estadísticas puede suceder que no se encuentren
diferencias significativas cuando realmente las hay. La segunda situación es que se
puede estudiar más muestras que las necesarias, lo cual lleva implícito pérdida de
tiempo e incremento de recursos innecesarios.
Se debe tener claro el tipo de muestreo que se utilizarápara calcular el tamaño de
muestras. Las limitaciones establecidas en el procedimiento de muestreo varían de
un área de las ciencias a otra. Hay que tomar en cuenta varios factores para
determinar el tamaño que debe alcanzar una muestra como: el tipo de muestreo, el
parámetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de
confianza.
1.3 TAMAÑO DE MUESTRA PARA POBLACIONES FINITAS
Si conocemos el tamaño de la población se usa los métodos para poblaciones finitas.
La ventaja sobre poblaciones finitas es que al conocer exactamente su tamaño, el
tamaño de la muestra resulta con mayor precisión y se pueden ahorrarse recursos y
tiempo para la aplicación y desarrollo del estudio.Se puede determinar tamaño de la
muestra para la media o para la proporción y las formula a utilizar son:
Para la media
Para la proporción
Ejemplo: se desea estimar entre 10.000 establos, el número de vacas lecheras por
establo con un error de estimación de 4 y un nivel de confianza del 95%. Sabemos
que la varianza es 1.000. ¿Cuántos establos deben visitarse para satisfacer estos
requerimientos?
Teniendo en cuenta que el error muestral es de 4 vacas lecheras por establo y para
un nivel de confianza
y un error de confianza es
se busca en la
5. tabla de la normal el
la norma y
y es 1.96 (celda marca de color rojo en la tabla de
=1000, se tiene que la muestra es:
Se deben analizar 234 establos
NOTA: Se puede observar en el ejemplo que como se conoce la varianza y esta es de
1000 vacas lecheras por establo, el error muestral debe ir en la misma unidad de
medida
Ejemplo: Se desea realizar una encuesta entre la población juvenil de una
determinada localidad para determinar la proporción de jóvenes que estaría a favor
de una nueva zona de ocio, existe la impresión de que esta proporción está próxima a
0´35; El número de jóvenes de dicha población es N=2.000.Determinar el tamaño de
muestra necesario para estimar la proporción de estudiantes que están a favor con
un error de estimación de 0´05 y un nivel de confianza del 90%
Teniendo en cuenta que el error muestral es de 0.05 y para un nivel de confianza
y un error de confianza es
se busca en la tabla de la normal el
y es 1.65 (celda marca de color café en la tabla de la norma), como la
proporción según la información a favor es del 0.35 (p éxito) entonces la proporción
de jóvenes que no esta de acuerdo es 0.65 (q Fracaso), se tiene que la muestra es:
Se deben encuestar 221 jóvenes de la localidad
NOTA: cuando no se conoce la varianza o proporción se asume la máxima variabilidad
tomando p=0.5 y q= 0.5
1.4 TAMAÑO DE MUESTRA PARA POBLACIONES INFINITAS
La población infinitaes aquella que teóricamente es imposible observar todos los
elementos. En la práctica se entenderá por población infinita la que no puede ser
enumerada en un período razonable o aquella en la que se incluye un gran conjunto
de medidas y observaciones que no pueden alcanzarse en el conteo. La desventaja
sobre esta población es que como no se conoce con exactitud el tamaño de la
6. población, el tamaño de la muestra resulta con poca precisiónSe puede determinar
tamaño de la muestra para la media o para la proporción y las formula a utilizar son:
Para la media
Para la proporción
EJEMPLO:Una compañía de televisor por cable quisiera estimarla proporción de
personas que comprarían una revista con los programas de televisor por cable; por
estudios anteriores se sabe que el 30% de las personas compraría la revista de
programación. La Compañía desea que su estudio tenga un nivel de confianza del
95% y un error de muestreo del 3%. ¿Qué tamaño de muestra se necesita?
Teniendo en cuenta que el error muestral es de 0.03 y para un nivel de confianza
y un error de confianza es
se busca en la tabla de la normal el
y es 1.96 (celda marca de color rojo en la tabla de la norma), como la
proporción según la información de personas que comprarían la revista es del 0.30
(p éxito) entonces la proporción de personas que no están dispuestas a comprar la
revista es 0.70 (q Fracaso), se tiene que la muestra es:
Se deben encuestar 896 personas
Ejemplo: el director de una compañía de tabacos desea realizar un estudiar a los la
ciudadanos sobre consumo y adicción que tienen a este producto. Por estudios
anteriores se sabe que el consumo tiene una variabilidad
unidades diarias. El
estudio lo realiza el director con una confiabilidad del 95% y un error entre el número
de unidades consumidas de 4. ¿Cuántos ciudadanos debe tener en cuenta en la
muestra el director?
Teniendo en cuenta que el error muestral es de 4 y para un nivel de confianza
y un error de confianza es
se busca en la tabla de la normal el
y es 1.96 (celda marca de color rojo en la tabla de la norma y =225,
se tiene que la muestra es:
7. Se deben analizar 54 ciudadanos
1.5 TIPOS DE MUESTREO PROBABILISTICO
1.5.1 Muestreo Aleatorio Simple:
De población se extrae una muestra de tamaño “n”, dando a cada unidad la misma
probabilidad de ser extraída. La muestra se puede extraer:
Con reposición: cuando una unidad seleccionada en una extracción se
devuelve a la población y puede participar en las siguientes extracciones,
pudiéndose extraer dicha unidad dos veces o más. La composición de la
población siempre es la misma y el elemento puede ser seleccionado
nuevamente. Al no modificarse la composición de la población el elemento
puede ser elegido en cada extracción con la misma probabilidad.
Sin reposición: se obtiene la muestra unidad a unidad de forma aleatoria sin
reposición a la población de las unidades previamente seleccionadas,
teniendo presente además que el orden de colocación de los elementos en las
muestras no interviene, es decir, muestras con los mismos elementos
colocados en orden distinto se consideran iguales.
Las ventajas que tiene este procedimiento de muestreo son las siguientes:
Sencillo y de fácil comprensión.
Calculo rápido de medias y varianzas.
Existen paquetes informáticos para analizar los datos
Por otra parte, las desventajas de este procedimiento de muestreo son:
Requiere que se posea de antemano un listado completo de toda la población.
Si trabajamos con muestras pequeñas, es posible que no representen a
lapoblación adecuadamente.
El procedimiento empleado para seleccionar los elementos de la población que
hacen parte en la muestra son:
Identificar a todas las unidades de observación de la población constante.
se asigna un número o código a cada individuo de la población
Se codifica cada elemento de la población y se seleccionan n códigos a través
de una tabla de números aleatorios que se puede encontrar en libros de
estadística como el libro (JOHN E. FREUD; GARAY A. SIMON Estadística
elemental. Octava edición. Editorial
Pearson). También se pueden
obtenerutilizando Excel a través de la función =ALEATORIO.ENTRE(inferior;
superior). Se eligen tantos sujetos como sea necesario para completar el
tamaño de muestra requerida
8. LA TABLA DE NUMEROS ALEATORIOS
Una tabla de números aleatorios es un conjunto de dígitos generado de modo que,
normalmente, la tabla contenga cada uno de los diez dígitos (0, 1,…,9), en
proporciones aproximadamente iguales, sin mostrar tendencias en el patrón que se
generan los dígitos. Por lo tanto, si se selecciona un número en un lugar aleatorio de
la tabla, es igualmente probable que sea cualquiera de los dígitos entre el 0 y el 9.
Estas tablas se construyen para asegurar que cada dígito, cada par de dígitos, cada
tres dígitos, etc, aparecen conla misma frecuencia. En el caso de extraer una muestra
aleatoria simple, se eligeun lugar para empezar a leer dichos números aleatorios.
Después se seleccionauna dirección (arriba, abajo, derecha e izquierda) y se van
recogiendo dígitos hasta que se consiga el tamaño muestral adecuado. Utilizandoeste
método, un elemento puede aparecer más de una vez. Si queremos extraeruna
muestra aleatoria simple sin reposición, la solución es ignorar los
elementosrepetidos.
Ejemplo: se tiene una población de 50 fabricantes de automóviles y desea
seleccionar una muestra de 20 fábricas
para realizar un estudio sobre
responsabilidad social de las mismas. La siguiente tabla muestra las fabricas que
componen la población y al lado derecho el código asignado para seleccionar las que
hacen parte en la muestra
F. Chip
01
Diameter
26
F. Contra
02
Thickness
27
F. Destiny
03
Lbl offctr
28
Vista A
04
Lbl folded
29
Berger 100
05
Label cut
30
Gab. Assett
06
Mislabeled
31
Neub. Focus
07
No label
32
F. Magellan
08
No hole
33
Janus
09
Hole offct
34
L. Mason Value
10
Hole size
35
Gabelli Growth
11
Chip
36
Franklin Growth
12
Scratch
37
Janus 20
13
Cracked
38
AARP Capital
14
Warped
39
Kemper Growth A
15
Columbia Growth
40
20th Cent. Growth
16
T. R. P. Capital
41
F. OTC
17
Neub. Partners
42
Volkswagen
18
Pontiac
43
Ford
19
Chevrolet
44
Mazda
20
Ford
45
Datsun
21
Ford
46
Honda
22
Plymouth
47
Oldsmobile
23
AMC
48
Dodge
24
Buick
49
Mercury
25
Mercury
50
9. Para seleccionar las fábricas que hacen parte en la muestra se utilizo la siguiente
tabla de números aleatorios, se empezó con los dos primeros dígitos por columna
empezando por la primera columna y el recorrido fue de arriba hacia abajo los dígitos
que se tuvieron en cuenta fuero los resaltados con rojo
TABLA DE NUMEROS ALEATORIOS
RENGLÓN
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
COLUMNAS
49280
61870
43898
62993
33850
97340
70543
89382
37818
60430
82975
39087
55700
14756
32166
23236
45794
09893
54382
94750
70297
87157
11100
36871
23913
79348
92074
06873
12478
57175
91616
78025
27587
16690
70183
90730
10934
82462
27463
02979
88924
41657
65923
93912
58555
03364
29776
93809
72142
22834
66158
71938
24586
23997
53251
73751
26926
20505
74598
89923
34135
47954
02340
50775
48357
36085
54641
21440
37622
55564
11075
73539
67228
20427
58065
35385
93242
30166
10433
52997
35779
07468
25078
30454
51438
88472
10087
00796
67140
14130
84731
40355
93247
78643
70654
31888
15130
14225
01499
37089
53140
32970
12860
30592
63308
27973
53673
75503
99650
65411
80103
14621
80145
04251
65489
15679
13431
79613
07606
00079
00283
08612
86129
84598
85507
04334
10072
95945
50785
96593
19436
54324
32596
75912
92827
81718
82455
68514
14523
20048
33340
26575
74697
57143
16090
65157
54421
11373
31065
42547
07831
39044
10175
64477
31833
90742
24590
47416
16285
92709
81163
98083
78496
56095
71865
63919
55980
34101
22380
23298
55790
08401
11665
83832
63491
06546
78305
46427
68479
80336
42050
57600
96644
17381
51690
07456
18130
49502
83613
70457
59309
47450
12822
73709
82093
50866
02770
13389
93699
90110
07275
97349
97653
20664
79488
36394
64688
81277
16703
56203
69229
26290
63397
32768
04233
83246
55058
56788
27686
94598
82341
40881
89439
68856
54607
22255
60103
17972
69889
03426
13276
03107
86687
73945
16747
78028
48582
80268
60912
47506
89863
20775
91550
12872
76783
11095
68239
66090
53362
92671
28661
40420
44251
18928
33825
47651
52551
96297
46162
26940
44140
12250
28707
25853
72407
25626
69593
82578
58869
72937
26710
12787
65530
92396
10386
75573
00906
05085
94532
53693
02348
45091
08078
64647
31708
92470
20461
88872
44940
15925
13675
59208
43189
57070
60662
04877
47182
78822
83554
36858
82949
73742
25815
35041
55538
57054
49464
16364
29571
83792
73000
47709
49325
68263
59293
67257
58595
96666
95632
40802
Las fábricas que hacen parte en la muestra son las que tienen los Códigos
seleccionados y son:
Buick
49
Pontiac
43
No hole
33
Scratch
37
Warped
39
AARP Capital
14
No label
32
Oldsmobile
23
10. Ford
45
Janus
09
Gabelli Growth
11
Cracked
38
Gab. Assett
06
Franklin Growth
12
Thickness
27
20th Cent. Growth
16
L. Mason Value
10
F. Contra
02
T. R. P. Capital
41
1.5.2 Muestreo Estratificado
La estratificación tiene como objetivo principal aumentar la precisión global de la
estimación sin incrementar el tamaño muestral.
Estratificar una población consiste en dividirla, “antes” de la extracción de la muestra,
en subconjuntos homogéneos (respecto de caracteres determinados a priori),
llamados estratos.
Los estratos deberán ser homogéneos en sí y heterogéneos entre sí respecto de la
característica en estudio. La selección de la muestra se efectúa de
maneraindependiente en el interior de cada estrato. Esto conlleva a que la varianza
en cada estrato sea pequeña. Se trata de que los estratos sean lo más homogéneos
posibles dentro de cada uno de ellos, es decir, que exista en cada uno la menor
variabilidad posible y de que haya grandes diferencias de unos a otros estratos.
En lugar de extraer la muestra totalmente al azar, se extrae parte de la muestra en
cada estrato.Una vez dividido la población en estratos, se deberá repartir la muestra
entre dichos estratos. El reparto o afijación de la muestra a través de los estratos
dependerá de la distribución de la característica en estudio que deberá ser conocida
a prior.
Existen muchas maneras de repartir la muestra, pero las más importantes son:
Afijación uniforme: Consiste en asignar el mismo número de unidades
muestrales a cada estrato. Da la misma importancia a todos los estratos, en
cuanto al tamaño de la muestra. Favorece a los estratos de menor tamaño y
perjudica a los grandes, en cuanto a precisión.
La cantidad de elementos de cada estrato que hacen parte en la muestra
Se simboliza por ni.
11. Ejemplo: Se desea realizar un estudio sobre la gestión financiera del las
microempresas de la cierta ciudad; para ello se tuvo en cuenta aquellas empresas
que tenían contador y que no tenían. Al observar que la proporción de “empresas que
tenían dentro de su empresa un contador era muy baja, se toma la decisión de no
utilizar una “muestra proporcional” puesto que dejaría en la representación de este
estrato a muy pocas empresas. El total de microempresas en la ciudad eran 1780, de
las cuales se selecciono una muestra de 80, el total de empresa por estrato es:
Se tiene en cuenta que la población de empresas esta dividida en dos estratos las
que tienen contador y las que no tienen
La distribución de la población y de la muestra se resume en la siguiente tabla:
N° empresas
Con contador
Sin contador
TOTAL
Porcentaje
de la población
N° de empresas en
la muestra
380
1400
1780
21.3
78.7
100
40
40
80
Porcentaje
de estrato en la
muestra
10.52
2.85
13.37
Como se puede apreciar, se prefiere “el muestreo estratificado uniforme” cuando
existe un estrato con pocos casos o de baja representación en la población que sin
embargo, presenta algúninterés particular.
Afijación proporcional: La muestra se distribuye proporcionalmente a los
tamaños de los estratos, es la indicada cuando no tenemos información sobre
la distribución de la característica en estudio.
Si existen k estratos de tamaños N1,...,Nk, entonces N=N1+...+Nk . Existen dos
métodos para dividir el tamaño total de la muestra n en estratos n1 ,...,nk .
Se mantiene la proporción del estrato escogiendo
n=n1+...+nk
, de modo que
Si el número de unidades de muestreo seleccionadas de cada estrato esproporcional
al tamaño relativo del estrato en la población, el resultado es unamuestra
estratificada proporcional, lo contrario es una muestra estratificada noproporcional.
Esto último es preferible si los diversos estratos no sonhomogéneos con respecto a la
característica bajo estudio.El error de muestreo de una muestra estratificada puede
considerasemenor que el de una muestra simple aleatoria del mismo tamaño.
Lo anterior sedebe a que el diseño de estratificaciones hace uso de información
adicional,considerando la división de la población de acuerdo con las
característicasrelevantes y sirve para reducir el margen de error de muestreo.El
problema con este método, es que aún cuando se conocen lascaracterísticas
12. relevantes y en base a ellas se estratifica, el tamaño relativo de losestratos en la
población no siempre se conoce con gran exactitud.
Debido a esta escasez de información, las ventajas obtenidas con la estratificación se
pierden con las variaciones introducidas por la información incorrecta referente al
tamaño de los estratos en la población, elemento que desafortunadamente se
subestima frecuentemente. Puede aportar información mas precisa de algunas
subpoblaciones que varían bastante en tamaño y propiedades entre sí, pero que son
homogéneas dentro de sí. Los estratos deberían en lo posible estar constituidos por
unidades homogéneas
Ejemplo: Se quiere obtener una muestra de 50 grandes empresas industriales para hacer un
estudio sobre los gastos en publicidad. En una ciudad se cuenta con 352 grandes empresas
industriales. Se divide a las empresas en 5 estratos de acuerdo a su rentabilidad.
Para seleccionar la cantidad de empresas que hacen parte en la muestra se utilizó un
muestreo estratificado proporcional, como se indica en la siguiente tabla
, donde Ni, es la cantidad de empresas por estrado
Rentabilida
d
30% o más
20 – 30%
10 – 20%
0 – 10%
Con pérdida
Estrato
A
B
C
D
E
Total
Número
Porcentaje
Muestra
8
35
189
115
5
352
2
10
54
33
1
100
1
5
27
16
1
50
En un muestreo estratificado no proporcional, el número de elementos estudiado en
cada estrato es desproporcionado con respecto a su número en la población. Por
ejemplo, si un muestreo no proporcional fuese utilizado en el caso anterior, se
deberán ponderar los resultados de cada estrato multiplicándose por 0.02 en el
estrato 1, por 0.10 en el estrato 2, etc.
Afijación de varianza mínima: El reparto de la muestra se hace de forma que
para un tamaño fijo de n unidades, la varianza sea mínima. Cuanto mayor sea
la variabilidad de estrato, más elementos cogeremos de tal forma que la
varianza global sea mínima.
Proporcionalmente a la variabilidad del estrato. Si conocemos la varianza
entonces
i
,
13. Afijación óptima: Consiste en minimizar la varianza para un coste fijo.
Para que sea útil el muestreo estratificado se deben reunir lassiguientes tres
condiciones:
Deben conocerse ciertas características relevantes que influencian
fuertemente el fenómeno bajo estudio:
Que la población sea susceptible de dividirse de acuerdo con las
características relevantes:
La división relativa de la población debe conocerse con cierto grado
deprecisión.
Para la selección de los elementos en cada estrato que van ha ser parte en la
muestra se hace por medio de un muestreo aleatorio simple
Una muestra estratificada puede obtenerse aún cuando no se pudieranidentificar los
elementos del estrato, siempre y cuando se conozca despuésde haberse
seleccionado la muestra. El problema sin embargo, es que los erroresde muestreo de
las estimaciones resultan mayores que si se hubiera estratificadoantes.
El uso adecuado del muestro estratificado puede generar ganancia en precisión, pues
al dividir una población heterogénea en estratos homogéneos, el muestreo en estos
estratos tiene poco error debido precisamente a la homogeneidad.
1.5.3 Muestreo Sistemático
En el muestreo sistemático los elementos se seleccionan de la población con un
intervalo uniforme que se mide en el tiempo, en orden o en el espacio; los elementos
más parecidos tienden a estar más cercanos, el muestreo sistemático suele ser más
preciso que el aleatorio simple, ya que recorre la población de un modo más
uniforme. Difiere del muestreo aleatorio simple en que cada elemento tiene iguales
posibilidades de ser seleccionado, pero cada muestra no tiene esa misma
probabilidad.Una vez definido el tamaño de muestra se fija al azar un punto de
partida en la selección de las unidades de muestreo. A partir de allí la población se
recorre sistemáticamente usando un intervalo fijo.
Para seleccionar las unidades de la muestra en primer lugar se debe calcular la
constante de muestreo (K), dividiendo el total de la población elegible por el tamaño
de la muestra deseado
. La primera unidad (r) se extrae tomando un número al
azar entre 1 y la constante de muestreo (K)o entre 1 y N, a partir de ahí se va
sumando la constante de muestreo consecutivamente hasta completar el tamaño de
14. la muestra, (siendo el primer individuo r, el segundo r + K, el tercero r +2 K y así
sucesivamente hasta completar los “n” individuos).
Este tipo de muestreo tiene la ventaja de no necesitar tener la lista de la población
cerrada de antemano. Sin embargo este tipo de muestreo no es aconsejable en las
situaciones en que las unidades de muestreo están ordenadas por algún criterio
periódico y la constante de muestreo puede coincidir con ello. Por ejemplo si quiere
conocer la demanda en un centro recreación y elegimos como unidad de muestreo el
día de la semana, puede ocurrir que obtengamos como constante de muestreo (K) el
número 7, en ese caso estaríamos describiendo siempre la demanda que se produce
un día determinado, podría ser aleatoriamente sábado, teniendo una elevada
probabilidad que la demanda que se produce el sábado sea diferente de la demanda
que se produce a lo largo de toda la semana, no siendo por tanto la muestra obtenida
representativa de la población que queremos estudiar.
Ejemplo: se desea realizar un estudio sobre la incidencia de cáncer en estudiantes
fumadores de cierta universidad; se opta por un muestreo sistemático, se necesita
calcular primero la constante de muestreo. Si N = 200 estudiantes fumadores y n =
50 la constante de muestreo
se selecciona un número un número entre 1 y
el 4 (supongamos que es el 3, r = 3) y ese será nuestro punto de arranque.
Tomaremos el listado de los estudiantes fumadores de la universidad y el primer
estudiante que se selecciona es el que se encuentra en la lista de tercero, el segundo
estudiante seleccionado seria el que esta de séptimo en la lista(r + K, es decir 3 + 4),
el tercero es el que aparece en la lista de once (r +2 K, es decir 3 + 2x4),y así
sucesivamente hasta tomar los 50 estudiantes fumadores que constituyen nuestra
muestra.
Otra forma de seleccionar el punto de arranque sería seleccionar aleatoriamente un
número entre 1 y 200, por ejemplo aleatoriamente se tiene el número 32, el
estudiante r= 32 de la lista es el primero seleccionado para la muestra, el segundo
es el estudiante 36 (r + K, es decir 32 + 4), el tercero es el 40 (r + 2K, es decir 3 +
2x4), y así sucesivamente.
El muestreo sistemático suele ser más preciso que el aleatorio simple, ya que recorre
la población de un modo más uniforme. Por otro lado, es a menudo más fácil no
cometer errores con un muestreo sistemátic0. Observación: El método tal como se ha
definido anteriormente es sesgado si no es entero, ya que los últimos elementos de
la lista nunca pueden ser escogidos. Un modo de evitar este problema consiste en
considerar la lista como si fuese circular
¿Cuándo usar Muestreo Sistemático y cuándo Muestreo Aleatorio Simple?
Se debe tener cuidado cuando la distribución de los elementos en la
poblaciónpresenta ciclos en los valores de la variable de interés, ya que en el
muestreosistemático se extraerán valores semejantes, lo que se transfiere a una sub
o super valoración del valor verdadero. En estos casos es más conveniente usar el
muestreoaleatorio simple.
Por lo tanto:
15. Si la distribución de la variable en la población ordenada es aleatoria, los
dosdiseños de muestreo tienen la misma performance. A veces redunda en
una economía de recursos el uso del Muestreo Sistemático.
Si la variable presenta ciclos o estacionalidades, es más eficiente el Muestreo
Aleatorio Simple.
Si la distribución de la variable es creciente o decreciente (por ejemplo,
montosde deudores o acreedores) es más eficiente el Muestreo Sistemático.
1.5.4 Muestreo por Conglomerado
Esta técnica tiene utilidad cuando el universo que se requiere estudiar admite ser
subdividido en universos menores de características similares a la del universo
total.Cuando es posible asumir esta alternativa se procede a subdividir el universo en
un número finito de conglomerados. Entre ellos se pasará a elegir algunos que serán
los únicos que se procederá a investigar. Esta elección puede realizarse ya sea por el
método del muestreo simple o muestreo sistemático. Una vez cumplida esta etapa
puede realizarse una segunda selección dentro de cada uno de los conglomerados
elegidos,para llegar a un número aún más reducido de unidades muéstrales; para
obtener una muestra de conglomerados, primero dividir la población en grupos que
son convenientes para el muestreo;Bajo este método, aunque no todos los grupos
son muestreados, cada grupo tiene una igual probabilidad de ser seleccionado. Por lo
tanto la muestra es aleatoria.
Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo
tanto, da menor precisión de las estimaciones acerca de la población) que una
muestra aleatoria simple del mismo tamaño; los elementos individuales dentro de
cada "conglomerado" tienden usualmente a ser iguales. El incremento del tamaño de
la muestra puede fácilmente ser hecho en muestra de área. Por otra parte, una
muestra de conglomerados puede producir la misma precisión en la estimación que
una muestra aleatoria simple, si la variación de los elementos individuales dentro de
cada conglomerado es tan grande como la de la población.
Hay una variante de este muestreo, que puede quedar también incluida en lo que se
llamadiseños complejos y es elconocido como muestreo multietápico o polietápico
de conglomerados (bietápico, trietápico, etc.). En esta variante se seleccionanlos
conglomerados y puede procederse a una segunda selección dentro de los
conglomerados seleccionados y lo mismo en las etapasque sean necesarias. Así la
necesidad de listados se va limitando a aquellas unidades de muestreo que hayan
siendo seleccionadas encada etapa.
Antes de terminar este apartado vale la pena enfatizar la diferencia entre estratos y
conglomerados. Los estratos deben sertan homogéneos dentro de ellos como sea
posible, pero un estrato debe diferir de otro tanto como se pueda en relación a
16. lacaracterística que está siendo medida. Los conglomerados por su parte deben ser
tan heterogéneos dentro de sí mismos como seaposible, pero similares a los otros
para aprovechar las ventajas económicas de su diseño. Los estratos deben quedar
representadostodos, es decir contribuir a la muestra. Los conglomerados no tienen
que quedar representados todos, pero si uno queda en la muestradebe ser
muestreado totalmente (al menos en el monoetápico).
En el muestreo por conglomerados se selecciona una muestraaleatoria de
conglomerados y, dentro de cada conglomerado, se seleccionaal azar una muestra de
sus individuos.
Ejemplo: se supone que se desea conocer algunas características de los estudiantes
de educación superior de cierta ciudad, para lo cual se necesita aplicar un
cuestionario. El universo, los elementos (los estudiantes) están naturalmente
agrupados en unos conjuntos o conglomerados (12 universidades). Se seleccionan 4
universidades a través de un muestreo aleatorio simple, como se indica en el gráfico.
Una vez seleccionadas las universidades, sería posible aplicar la encuesta a la
totalidad de los estudiantes, en cada una de ellas. Se habría llegado a los estudiantes
12 universidades (conglomerado)
a través de los conglomerados que los agrupan.
4 universidades en la muestra (2,4, 7,12 conglomerado)
Esta es una muestra por conglomerados de etapa única: se ha seleccionado al azar
sólo una vez. La eficacia de este tipo de muestras depende de dos factores. En primer
lugar, de la relación
, donde m es la cantidad de conglomerados seleccionados y
M es la cantidad existente en el universo. Cuanto mayor es esta relación, menor será
el error de muestreo: obviamente, si seleccionáramos la totalidad de los
conglomerados no habría error alguno. En segundo término, la muestra será tanto
mejor cuanto más se parezcan los conglomerados entre sí: si fueran muy semejantes
unos a otros, perderíamos muy poco al seleccionar sólo algunos para incluir en la
muestra. Otra vez, vale emplear un razonamiento “por el absurdo”: si todos los
conglomerados fueran idénticos entre sí, bastaría con quedarse con uno solo. De
17. manera que, al contrario de lo que ocurría con los estratos, aquí el ideal consistiría en
que hubiera una gran homogeneidad interconglomerados (similares entre sí) y una
amplia heterogeneidad intraconglomerados (que toda la diversidad del universo
quedara representada al interior de cada uno). En otros términos, que cada
conglomerado fuera “un universo en pequeño”.
Ejemplo: Suponga que se quiere preguntar a las personas de 18 años y más
(habilitadas para votar) que residen en cierta ciudad, la opinión que tienen sobre el
desempeño del gobierno de la región (o sobre cualquier otro variable de interés). ¿De
dónde se sacaría el marco muestral, es decir un listado con los datos de todos los
habitantes de la ciudad. No existe: no se podría disponer de tal listado. Pero se podría
tratar de dar con las personas dentro de los conglomerados que los agrupan: los
hogares. Sin embargo, tampoco se tiene un listado de hogares: ni siquiera uno
actualizado de viviendas. ¿Qué se puede hacer?
El territorio de cualquier ciudad está naturalmente dividido en jurisdicciones
administrativas. Por ejemplo, las fracciones censales, que son grandes jurisdicciones
geográficas al interior de la ciudad. Pues bien, podría seleccionarse al azar algunas
de estas fracciones. A su vez, las fracciones están divididas en áreas menores, que se
denominan radios censales. En un segundo paso o etapa, sería posible seleccionar al
azar cierta cantidad de radios al interior de cada una de las fracciones que
“quedaron” al primer sorteo. Finalmente, se tendría algunos radios de ciertas
fracciones. Y dentro de estos radios, tendrían manzanas, que apelando a la
cartografía podrían ser numeradas y seleccionadas al azar. Estas manzanas que
quedaron en los tres sorteos se denominan, habitualmente, puntos muestra.
Dependiendo del total de hogares que se quieren seleccionar (es decir del n
muestral), suele determinarse previamente cuántos puntos muestra se requiere.
En las encuestas domiciliarias debe preverse un porcentaje considerable de rechazos
(personas que se niegan a ser entrevistadas). Generalmente, este margen de
rechazos se conoce por experiencia y puede ser estimado. Para compensar, es
posible seleccionar más puntos muestra de los necesarios, a los efectos de los
posibles reemplazos.
1.6 TIPOS DE MUESTREO NO PROBABILISTICO
1.6.1 Muestreo por cuotas
También denominado en ocasiones "accidental". Se asienta generalmente sobre la
base de un buen conocimiento de los estratos de la población y/o de los individuos
más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por
tanto, semejanzas con el muestreo aleatorio estratificadoen el sentido que busca
representatividad de diferentes categorías o estratos de la población objeto de
estudio, pero no tiene el carácter de aleatoriedad de aquél, sin embargo, para la
selección de esas unidades no usa el azar.
18. Conceptualmente es un muestreo estratificado en el que los estratos suelen estar
determinados por características sociológicas o demográficas (el sexo, la edad,
profesión, etc.). Sin embargo, se suele llevar a cabo en la calle, de forma que los
encargados de recoger los datos, buscan a las personas de cada estrato que deben
entrevistar para cubrir la cuota en vez de elegirlas al azar. Además, laselección de las
unidades de muestreo queda juicio del investigador;
La muestra debe serproporcional a la población, y en ella deberán tenerse en cuenta
lasdiferentes categorías. El muestreo por cuotas se presta a distorsiones, alquedar a
criterio del investigador la selección de las categorías.
Ejemplo: en un estudio sobre la actitud que tiene la población hacia un candidato
político, se les indica a los encuestadores entrevistar a 150 sujetos
cuota
categorías
30%
30%
20%
20%
Hombres mayores de 30 años,
Mujeres mayores de 30 años,
Hombres menores de 25 años,
Mujeres menores de 25 años
TOTAL
Cantidad de personas encuestadas
en la muestra por categoría
45
45
30
30
150
1.6.2 Muestreo a conveniencia o intencional
El Muestreo por conveniencia es el procedimiento que consiste en la selección de las
unidades de la muestra en forma arbitraria, las que se presentan al investigador, sin
criterio alguno que lo defina. Las unidades de la muestra se autoseleccionan o se
eligen de acuerdo a su fácil disponibilidad. No se específica claramente el universo
del cual se toma la muestra. Por consiguiente, la representatividad estructural es
nula, no se consideran las variables que definen la composición estructural del objeto
de estudio.
Su principal debilidad es el nombre, ya que, para muchas personas el nombre da a
entender que se está haciendo la selección de las unidades de análisis amañando las
respuestas, situación que no es cierta, toma su nombre, debido a que se busca
obtener una representatividad de la población consultando o midiendo unidades de
análisis a las cuales se puede acceder con relativa facilidad. Los límites serios de este
muestreo se evidencian en la etapa exploratoria de una investigación, para generar
hipótesis, elegir problemas de estudio y aproximarse inicialmente a la caracterización
del objeto de estudio
Ejemplo: la realización de una encuesta a los amigos y vecinos para analizar su
opinión sobre el tema “tratado de libre comercio entre estados Unidos y Colombia “.
1.6.3 Muestreo a juicio
En este caso se toman las muestras en aquel lugar en donde hay mayor probabilidad
de encontrar la variable de interés, este tipo de muestreo es muy importante sobre
19. todo cuando la característica buscada sea poco común, como es el caso de ciertas
enfermedades raras, en estas situaciones, el juicio de un experto; porque cree que
son representativos de la población de interés o que son apropiados en alguna otra
forma.
Se busca seleccionar a individuos que se juzga de antemano tienen un conocimiento
profundo del tema bajo estudio, por lo tanto, se considera que la información
aportada por esas personas es vital para la toma de decisiones. Si se utilizará un
método aleatorio, probablemente quedarían en la muestra algunas personas
con poco dominio sobre el tema en estudio
Ejemplo: Se quiere realizar un estudio comparativo de la imagen de una Empresa en
dos ciudades del estado de Colombia. Un experto en Mercadotecnia puede
recomendar, a su juicio, que las dos ciudades idóneas para realizar el estudio son Cali
y Medellín.
El objetivo seria entonces conocer el grado que afectan las opiniones de los
consumidores en los medios masivos de comunicación al volumen de venta de la
Empresa en cada una de las 2 ciudades.
1.6.4 Muestreo bola de nieve
Se definen como aquella técnica en la que los sujetos participantes de un estudio
refieren a otros individuos, que a su vez refieren a otros que son también incluidos en
la muestra. Esta técnica también recibe el nombre de muestreo por red (network
sample) o muestreo por multiplicidad (multiplicity sample).
De la misma manera en que al descender por una cuesta, una bola de nieve va
incorporando más materia, igual sucede con la red de participantes que son
agregados a la muestra de una investigación que emplee esta técnica. Para adquirir
un grupo de estudio que se aproxime a una muestra aleatoria, una condición muy
importante es que el primer grupo de encuestados (en la etapa cero) debe ser
seleccionado aleatoriamente.
El supuesto subyacente es que, los miembros de la población escondida no viven en
completo aislamiento, es decir, tienen por lo menos una “red social” con la cual es
posible contactarlos.El muestreo en bola de nieve, básicamente sigue las siguientes
etapas.
a. Mapa de la red: Se hace una descripción de la población objetivo de la mejor
forma posible, en éste caso, no importa que “lo mejor posible” sea una
descripción muy vaga.
b. Proceso de referenciación: A un informante clave se le pide nominar y
contactar individuos de la población objetivo. Se obtienen así varios puntos de
partida o contactos iníciales. Para ganar validez científica, se debe de elegir
aleatoriamente entre ellos para comenzar.
20. c. Entrevista: Cuando la persona es contactada aleatoriamente, se le entrevista y
a su vez se le pide que nomine a otras personas dentro de la población
objetivo.
d. Repitiendo el procedimiento: Cada grupo de nominados representa una etapa,
se forma entonces una línea de respondientes-referenciado- respondiente, a
esta cadena se le denomina la “bola de nieve”.
La cadena se detiene cuando no se pueden dar más nominaciones o cuando el
individuo seleccionado no es encontrado o se rehúsa a contestar.
Ventajas:
Es un método eficiente en los casos donde se tiene una población de escasos
elementos o donde cierto grado de confianza es requerido para que estén
dispuestos a participar en la investigación.
Permite la creación de un marco de muestra cuando éste no existía per se.
Todos los individuos entrevistados son del conjunto de la población objetivo.
Tipos de Sesgos
Sesgo de Distancia Social: La probabilidad de contacto social entre dos
individuos es función de la distancia social entre los individuos.
El modelo de las isla: Subgrupos de individuos existen, entre los individuos las
probabilidades de conexión son aleatorias, pero entre grupos las
oportunidades de conexión son limitadas.
Círculos traslapados: Si no existen conexiones entre muchos grupos de
individuos, diferentes grupos pueden ser conectados por los individuos que son
miembros de varios grupos.
Sesgo reflexivo: Un referido de una persona a otra teóricamente agranda la
oportunidad de que la primera persona sea nominada otra vez.
Sesgo forzado de campo: Algunos individuos van a tener una gran oportunidad
de ser seleccionados debido a ciertas características como la popularidad.
Desventajas
Como se mencionó anteriormente, produce estimadores sesgados. Ya que
individuos muy populares dentro de una población tiene mayores
oportunidades de ser seleccionados.
Hay poca representatividad entre los resultados y por ende no se puede
extrapolar hacia la población
21. 1.6.5 Muestreo con fines específicos
El cual pretende llegar a grupos muy específicos, tal es el caso, de personas con
preferencias y/o gustos similares, por ejemplo, los que gustan de la música metálica,
es fácil abordarlos en un concierto de ese tipo de música, los constructores se pueden
abordar en un congreso para tal fin.
Se pueden encontrar otros nombres en procedimientos de muestreo, sin embargo, se
pueden encasillar en alguno de los descritos anteriormente.