2. Objetivos del tema Chi-cuadrado
• Conocer en que ocasiones se aplica esta prueba.
• Saber aplicarla e interpretarla
• Criterio de rechazo
• Ejemplos
4. Prueba de Asociación: Chi cuadrado χ 2
• Mide la relación entre dos variables nominales.
• Compara las frecuencias observadas con el modelo
teórico-matemático “Chi cuadrado” (=frecuencias
esperadas).
(freq observadas - esperadas) 2 (O - E) 2
χ2 = ∑ =∑
freq esperadas E
• Medición: escala nominal (datos cualitativos):
• sí/no
• Responde a tratamiento/no responde a tratamiento
• nunca/a veces/siempre
• Sobrevivió/no sobrevivió
• Cada caso (=persona) es contado sólo 1 vez.
5. Distribución chi-cuadrado χ 2
• Cuando se analizan los resultados de una posible
relación, se necesita conocer si los resultados
obtenidos se desvían significativamente de los
resultados esperados.
• La prueba de Chi-cuadrado se usa para comparar los
resultados observados de los resultados esperados
por una hipótesis y si la desviación obtenida no es
significativa y puede atribuirse al azar o es significativa
y otras variables diferentes al azar están influyendo en
nuestros resultados.
6. Distribución chi-cuadrado χ
2
-Nunca adopta valores menores de 0
-Es asimétrica positiva.
-Es en realidad una familia de curvas, en función de los
llamados “grados de libertad”. Es decir, hay una distribución
chi-cuadrado con 1 gl, una distribución chi-cuadrado con 2 gl,
etc. (Nota: Los grados de libertad son siempre números
positivos)
Grados de libertad
df = n – 1 ; donde n es el # de posibles combinaciones.
-A medida que aumentan los grados de libertad, la
distribución se hace más y más simétrica.
7. Prueba chi-cuadrado χ 2
Prueba χ2 como medida de relación: El caso de independencia de dos
variables cualitativas
La hipótesis nula será que ambas variables sean independientes
Las frecuencias empíricas (observadas) son las que tenemos en la tabla de
contingencia. Ahora bien, ¿cómo calcular las frecuencias teóricas (esperadas)? Lo
veremos en un minuto
Bajo la hipótesis nula (ambas variables independientes), dicho estadígrafo sigue
una distribución chi-cuadrado con (num_filas-1)*(num_columnas-1) grados de
libertad
8. Prueba chi-cuadrado χ2
La independencia de dos variables consiste en que
la distribución de una de las variables es similar sea
cual sea el nivel que examinemos de la otra. Esto se
traduce en una tabla de contingencia en que las
frecuencias de las filas (y las columnas) son
aproximadamente proporcionales. Posiblemente sea
más cómodo reconocerlo usando en la tabla de
contingencias los porcentajes por filas (o columnas) y
observando si estos son similares. Sin embargo, la
información que se ingresa a la tabla esta
relacionada con la frecuencia de presentación del
evento.
9. Prueba chi-cuadrado χ2
La prueba de independencia ji-cuadrado (chi-
cuadrado) contrasta la hipótesis de que las variables
son independientes, frente a la hipótesis alternativa
de que una variable se distribuye de modo diferente
para diversos niveles de la otra.
10. Prueba chi-cuadrado χ2
Observe la siguiente tabla, en la que en un estudio
con escolares de 10 a 12 años se les preguntó a qué
daban más prioridad de entre tres posibilidades:
Tener buenas notas, destacar en los deportes o ser
popular entre los compañeros.
Tabla de contingencia Sexo * Prioridad
Recuento
Total
Prioridad
Deportes Notas Popular
Sexo Niña 17 101 75 193
Niño 51 95 38 184
Total 68 196 113 377
12. Prueba chi-cuadrado χ2
Si prestamos atención a la distribución de las
prioridades en porcentajes para cada sexo, tal vez la
diferencia sea más evidente:
13. Prueba chi-cuadrado χ2
La prueba de chi-cuadrado contrasta si las
diferencias observadas entre los dos grupos son
atribuibles al azar. En este caso, después de que
usted haga el ejercicio se dará cuenta que se obtiene
una significación cercana al 0%, con lo que para al
nivel de significación habitual del 5%, se rechaza la
hipótesis de independencia de las prioridades de los
estudiantes y el sexo (las preferencias no se
distribuyen del mismo modo entre chicos y chicas). O
que las preferencias podrían estar relacionadas con
el sexo.
15. Limitaciones de la prueba de chi-cuadrado χ2
El contraste de independencia tiene muy pocas
limitaciones, aunque es conveniente hacer algunas
observaciones:
16. Limitaciones de la prueba de chi-cuadrado χ2
Para contrastar la independencia se suele usar el estadígrafo
chi-cuadrado. Su cálculo se basa en calcular la diferencia entre
las observaciones observadas para cada par de modalidades
de las variables, y las que serían de esperar en caso de que se
satisficiese la condición de independencia. Para que se pueda
considerar correcta la significación calculada por la prueba, se
debe cumplir que las frecuencias esperadas no sean muy
pequeñas (inferiores a 5) más que en unas pocas celdas. Si es
en muchas celdas donde esto ocurre (más del 20% por
ejemplo) se debe usar una prueba que no incluya
aproximaciones, como la prueba exacta de Fisher. Esta la
ofrece cualquier programa como opción cuando se hace este
tipo de contrastes.
17. Limitaciones de la prueba de chi-cuadrado χ2
Si las muestras son muy grandes, la prueba de
independencia dará resultados significativos incluso
donde, posiblemente, consideremos que las
diferencias no sean en realidad clínicamente
interesantes.
18. Limitaciones de la prueba de chi-cuadrado χ2
Si una de las variables es numérica u ordinal,
posiblemente queramos hacer algo más que
contrastar la simple independencia. Lo aconsejable es
usar pruebas de tipo t-student, andeva u otra prueba
estadística.
19. Limitaciones de la prueba de chi-cuadrado χ2
El contraste de chi-cuadrado sirve para contrastar la
independencia. No hay que considerarla como una
medida de la asociación entre variables. Si buscamos
estudiar la asociación de variables tenemos otros
métodos a nuestra disposición como la regresión
lineal o la logística que esta incluida en la tabla
resumen de pruebas estadísticas pero que no se verá
en este curso.
20. Limitaciones de la prueba de chi-cuadrado χ2
Ejemplo: Se tienen datos demográficos de más de
130.000 individuos. De ellos se conoce la edad y el
nivel de estudios. Se desea contrastar si el nivel de
estudios de la población es similar para los individuos
de diferentes edades. La sospecha es que en los
individuos más jóvenes, el nivel de estudios es
superior. Seguramente una prueba ANDEVA o un
modelo de regresión serían más convenientes.