Este documento describe los métodos paramétricos y no paramétricos para realizar pruebas estadísticas. Explica que los métodos paramétricos se basan en parámetros como la media y desviación estándar de una población normal, mientras que los no paramétricos no requieren esta distribución normal y son más sencillos de aplicar. También cubre ejemplos específicos como la prueba de chi cuadrada y su uso para probar independencia entre variables categóricas.
1. PRUEBAS PARAMETRICAS
Los métodos paramétricos se basan en el muestreo de
una población con parámetros específicos , como la
media poblacional, la desviación estándar o la
proporción p .
Además deben de reunir ciertos requisitos como lo es,
que los datos muestrales provengan de una población
que se distribuya normalmente.
Las pruebas parámetricas se emplean con datos en
una escala ordinal, de intervalo o de razón
3. Pruebas no paramétricas
1.- Los métodos no paramétricos se aplican a una gran
variedad de situaciones
Cuando empleamos tamaños de muestras muy pequeños
Si no sabemos como es la distribución de los datos
O ya se realizó un prueba que nos permite saber que los datos no
tienen una distribución normal
2.- Sus cálculos son más sencillos y nos permiten una
interpretación mas fácil de entender y aplicar, aunque la
potencia de las pruebas es menor a las pruebas parámetricas
4. Chi cuadrada
1.- A diferencia de las distribuciones normal y t student,
la distribución de ji cuadrada no es simétrica.
2.- Los valores χ2 son mayores o iguales que cero
3.- El área bajo la curva de χ2 y sobre el eje
horizontal es 1
4.- La forma de una distribución de χ2 depende de los
grados de libertad, por lo cuál hay un número infinito de
distribuciones de ji cuadrada.
6. CHI CUADRADA supuestos
Los datos se seleccionan aleatoriamente
Los datos muestrales consisten en conteos de
frecuencias para cada una de las diferentes categorías
Para cada categoría, la frecuencia
esperada tiene un valor no menor a 5
7. Prueba de Bondad de ajuste
La prueba de bondad de ajuste nos permite saber si la
distribución muestral sigue la distribución especificada
bajo la hipótesis nula
El objetivo es determinar si la distribución concuerda con
alguna distribución que se asevera en la hipótesis nula
Básicamente es establecer una comparación entre la
distribución de frecuencias observadas con la de
frecuencias esperadas.
8. Prueba de Bondad de ajuste
fe es la frecuencia esperada bajo el supuesto de que
se realice un muestreo aleatorio de la población de la
hipótesis nula
f o es la frecuencia observada de la muestra
Si la diferencia es pequeña, esto es, que el valor
encontrado sea menor al valor crítico, no se rechaza la
hipótesis nula. Ello nos indicaría que la diferencia de los
valores de la frecuencia esperada y de la frecuencia
observada se deben al azar.
9. Xi cuadrada
Básicamente se trata de tomar una decisión comparando
los valores de las frecuencias que esperaríamos obtener
si se realizará un muestreo aleatorio de la población (fe)
, respecto a los valores que en realidad se obtienen ( fo
frecuencia observada)
Es razonable pensar que entre más cercano se encuentre
el valor de fo al de fe tanto más razonable será pensar
que los valores observados son similares a los de la
población
10. Calculo de χ2
X2 = ∑ ( fo - fe ) 2
fe
Los grados de libertad son k -1, donde k es el número
de grupos
Como la dirección de la diferencia no es importante, la
prueba de Ji cuadrada es una prueba no direccional (
de dos colas)
Básicamente χ2 es una medida de la diferencia entre
las frecuencias observadas y las frecuencias esperadas,
por ello mientras mayor sea el valor de χ2 es más
probable rechazar Ho.
11. Criterios
Si X2
obt ≥ X2
cri Rechazo Ho
Esto significa que las diferencias entre las frecuencias
esperadas y las frecuencias observadas son significativamente
grandes y que no se deben al azar
Esta prueba es no direccional , la región critica para el
rechazo siempre está en la cola derecha de la distribución Chi
cuadrada
12. La composición histórica de una población en un ciudad europea es la
siguiente: 53% noruegos, 32% suecos, 8% irlandeses, 5% hispanos y 2%
italianos. Un científico social realiza un estudio con el fin de comprobar dicha
composición.
Consideremos que el valor
esperado es el teórico o el
histórico
noruegos suecos Irlandeses hispanos Italianos total
F
observada
399 193 63 82 13 750
noruegos suecos Irlandeses hispanos Italianos total
F
esperada
397.5
(750 x
0.53)
240
(750x.32
)
60
( 750 x
0.08)
37.5
(750x 0.05)
15
(750x0.02)
750
Para experimentos con una sola variable existen k -1 grados de
libertad k ( grupos)
13. De acuerdo a nuestra formula
χ2 = 0.006 + 9.24+ 0.15+ 52.8+ .26= 62.4
Gl= 5-1 =4
Χ2 critico= 9.48
Por lo que rechazo H0: la composición étnica
parece haber cambiado
14. Ejercicio
Un investigador quiere determinar si en verdad existe una opinión
mayoritaria en el sentido de que las personas con sobrepeso son más
alegres. A una muestra aleatoria de 80 individuos se les preguntó: ¿
cree usted que las personas con sobrepeso son más alegres?. Las
opciones de respuesta eran: a) sí, b) no
Los resultados obtenidos fueron
SI……………44
No…………..36
Usando un alfa de 0.05, cuál serían sus conclusiones
χ2 obt es de 0.8
y Ji critica es de 3.841
No rechazamos Ho, lo que significa que los datos no avalan la
opinión inicial
16. Una de las aplicaciones de la Ji cuadrada consiste en
determinar si dos variables categóricas son
independientes o están relacionadas entre sí
Para ello empleamos una tabla de contingencia que
muestra la relación contingente entre dos variables,
cuando éstas han sido clasificadas en categorías
mutuamente excluyentes y cuando se conocen sus
frecuencias
17. Pruebas de independencia entre variables
Esta prueba nos permite saber si una variable es
independiente de otra, esto es, si tienen alguna relación de
ciertos atributos en una población.
Para su análisis se emplea una tabla de contingencia
que se compone de dos o más entradas y muestra la relación
contingente entre dos variables, siempre y cuando hayan sido
clasificadas en categorías mutuamente excluyentes y los datos
en cada celda representan las frecuencias.
Hay que considerar que contingencia se refiere a
dependencia, pero sólo en el sentido estadístico… no es una
determinación de causa y efecto
18. Consideraciones
Los datos muestrales se seleccionan aleatoriamente
La hipótesis nula , es la afirmación de que las variables de
renglón y de columna son independientes
La hipótesis alternativa es la afirmación de que las
variables de renglón y columna son dependientes
19. Consideraciones
No se conocen las proporciones reales en la
población… hay que estimarlas a partir de la muestra
Cada una de las observaciones registrada en la tabla
de contingencia es independiente de las demás.
El tamaño de la muestra deberá ser lo suficientemente
grande.
La frecuencia esperada en cada celda debe ser por
lo menos 5
SÍ la tabla es 1 x 2 o 2 x 2 la frecuencia
esperada debe ser por lo menos de 10
20. Consideraciones
La hipótesis nula se rechaza si el valor obtenido
es igual o mayor al valor critico
Ello significa que las diferencias encontradas
son debido al muestreo aleatorio
Hay que considerar que los grados de
libertad se calculan como
(r-1) ( c-1) , donde r son los renglones y c
las columnas en la tabla de contingencia
21. Consideraciones
El estadístico de prueba nos permiten
medir el grado de discordancia entre las
frecuencias que se observan en la
realidad y aquellas que se esperarían
Los valores pequeños del estadístico de
prueba Chi implica una gran
concordancia entre las frecuencias que
se esperan y las que se observan
Valores grandes del estadístico de
prueba Chi reflejan diferencias
significativas entre las frecuencias que se
esperan y las observadas.
22. FRECUENCIA ESPERADA PARA TABLA DE CONTIGENCIA
Frecuencia
esperada = (total del renglón) ( total de la columna)
( gran total)
23. Ejercicio resuelto
Esta Universidad estudia la posibilidad de implantar uno de los tres sistemas
de evaluación: E-A; E-B y E-C. Se realiza una encuesta para determinar si
existe alguna relación entre el área de licenciatura que estudia cada alumno y
la preferencia que manifiesta por algún sistema de evaluación en particular.
Se elige una muestra de 200 estudiantes del área de ingeniería; 200 del área
de ciencia sociales y 100 del área de administración . Se pregunta a cada
lumno que sistema de evaluación prefiere. Con un alfa de 0.05 cuales serían
sus conclusiones?
Se supone que lo que buscamos es encontrar que existe un relación
entre el área de formación y la preferencia del sistema de
evaluación
Por lo tanto nuestra Ho sería: que el área de estudio y su
preferencia por algún sistema de evaluación son independientes
entre sí
24. E - A E - B E- C total
Administración 26 55 19 100
Sociales 24 118 58 200
Ingeniería 20 112 68 200
total 70 285 145 500
El 14 % ( 70/ 500) del total prefiere el método A
El 57% ( 285/ 500) del total prefiere el método B
El 29% ( 145/ 500) del total prefiere el método C
E - A
Administración 26 ( 14)
Sociales 24 (28)
Ingeniería 20 ( 28)
70
E - B
55 (57)
118 ( 114)
112 (114)
285
E- C
19 (29) 100
58 (58) 200
68 ( 58) 200
145 500
25. Estudiantes de UNITEC, están tratando de probar si existe
una diferencia entre el nivel de stress mostrado antes de
los exámenes por las diferentes áreas de estudio. Para
ello somete a alumnos de Ingeniería y de Ciencias Sociales
a un test que determina niveles altos o bajos en stress. Si
considera un nivel de 0.05 de significancia, cuáles serían
sus conclusiones?
Nivel de
stress
Bajo Alto
Ingeniería 15 15
Ciencias
Sociales
25 45
26. Nivel de stress Bajo Alto total
Ingeniería 15 (12) 15 (18) 30
Ciencias
Sociales
25 (28) 45 ( 42) 70
Total 40 60 100
Dado que X obt es menor que X cri ( 1.78< 3.84) no se
rechaza Ho, y se concluye que el nivel de stress que se
presenta ante los exámenes es independiente del área del
conocimiento
28. EJERCICIO para resolver
Un psicólogo social está interesado en determinar si existe
alguna relación entre el nivel de educación de los padres y el
número de hijos que tienen. Para ello realiza una encuesta y
obtiene los siguientes resultados. Si emplea un alfa de 0.05 ,
cuáles serían sus conclusiones?
Nivel de
educación
Dos o menos Mas de dos TOTAL
Universidad 53 22 75
Bachillerato 37 38 75
total 90 60 150
29. Ejercicio clase
Cierta compañía manufacturera ha desarrollado un nuevo producto. La
compañía ha empleado publicidad a nivel nacional para licitar posibles
franquicias. En la compañía se ha dividido al país en diez regiones que son
relativamente iguales con respecto al tamaño de la población y posibilidades
de ventas de acuerdo a su ingreso económico. Se esperan en cada una los
mismos resultados. Los resultados reales se muestran en la tabla siguiente. Si
tiene un alfa de 0.05 cual es su conclusión. ¿Formule la hipótesis nula y hipótesis
alternativa y cuales son sus conclusiones
Región 1 2 3 4 5 6 7 8 9 10 total
22 23 18 16 21 17 19 23 20 21 200
30. Un estudio en Estados Unidos sobre los niveles educativos de
los votantes y su afiliación política tuvo los siguientes
resultados
Use un alfa de 0.01 y determine si la afiliación política es
independiente del nivel educativo de los votantes
Demócrata Republicano Independiente
No terminó
secundaria
40 20 10
Preparatoria
completa
30 35 15
Licenciatura 30 45 25
32. Una compañía está interesada en saber si la preferencia de compra para
los viajeros de negocios está en función si éstos viajan al extranjero o en
vuelos locales. En una encuesta reciente se les preguntó: durante los
últimos 12 meses en sus viajes de negocios,¿ qué tipo de boleto de avión
compró con más frecuencia? .Las respuestas obtenidas en la siguiente tabla
de contingencia
Usando un alfa de 0.05, pruebe la independencia del destino del vuelo
y tipo de boleto? ¿Cuáles son sus conclusiones?
nacional internacional
Primera clase 29 22
Clase de negocios 95 121
Clase económica 518 135
33. La compañía M&M patrocinó una encuesta en la que más
de 10 millones personas indicaron su preferencia por los
colores de sus chocolates. Los resultados mostraron la
siguiente distribución:
Café 30%; amarillo 20%; rojo 20%; naranja 10%; verde 10%
AZUL 10%
De acuerdo a ello se supone que las bolsas de chocolate
siguen dicha distribución. Para probarlo la compañía realizo
un estudio empleando una muestra de 506 bolsas que
revelaron los siguientes resultados: café 177; amarillo 135;
rojo 79; naranja 41; verde 36; azul 38
Use un alfa de 0.05 para determinar si estos datos
respaldan lo que publicó la empresa
34. Los resultados de un estudio llevado a cabo por el
área de mercadotecnia, se les pregunto a hombres y
mujeres a qué personas se les dificulta más, comprar
regalos
Use un alfa de 0.05 y pruebe si hay independencia entre
el sexo y la persona más difícil para regalar
Persona a la que
se le regalará
Hombres Mujeres
Consorte 37 25
Padres 28 31
Hijos 7 19
Hermanos 8 3
Pariente político 4 10
Otros 16 12
35. Ejercicio clase
Un año después de los ataques del 11 de septiembre se realizó una
encuesta a 2000 estadounidenses donde se les pregunto: ¿ asistió
usted a la iglesia la semana pasada?. Considerando los resultados
obtenidos en una encuesta similar realizada seis meses antes de los
ataques, se emplearon los datos obtenidos para averiguar si el
sentimiento religioso sufrió alguna modificación un año después de
los ataques terroristas. Considerando un alfa de 0.05 y los datos
presentados en la tabla siguiente, cuál serían sus conclusiones
SI NO Totales
6 meses antes 360 540
1 año después 420 680
36. Tarea
Se taladró un hoyo en un dado y se le rellenó de plomo, luego se
procedió a lanzarlo 200 veces. Las siguientes son las frecuencias que se
observaron para los resultados de 1,2,3,4,5,6 respectivamente:
27,31,42,40,28 y 32. Si emplea un nivel de significancia de 0.05
para probar la aseveración de que los resultados no son igualmente
probables
¿Parece que el dado cargado se comporta de forma diferente a un
dado balanceado?