2. Variables cuantitativas: talla y peso
-H1: existe relación entre peso y talla.
-H0: no existe relación.
Hay que considerar que
aceptamos H1 cuando, p<0.05=
error tipo 1.
1. Para comprobar ambas hipótesis
utilizamos la R de PearsonR de Pearson, pero poder
utilizarla, antes tenemos que probar
que se cumplen las dos asunciones.
2. Primera asunciónPrimera asunción: Relación lineal con
gráficos de dispersión. En este caso, los
datos de la gráfica se aproximan a una
línea, por tanto, la primera asunción la
aceptamos.
3. Variables cuantitativas: talla y peso
3. Para comprobar la segunda asunción, hay que evaluar la
normalidadnormalidad de nuestros datos.
Para explorar la normalidad, se utilizan gráficos, por ejemplo el
Histograma o el Diagrama de cajas, o mediante pruebas, las
cuales pueden ser: La de Kolmogorov-Smirnov o Shapiro-Wilk.
Cuando la muestra es mayor de 30 podemos utilizar la prueba
de Kolmogorov.
Hay que plantear una hipótesishipótesis:
-H1: existen diferencias. Nuestra distribución es distinta a la normal.
-H0: no existen diferencias. Nuestra distribución es igual a la normal
4. Variables cuantitativas: talla y peso
Si en la tabla miramos “SIG = p”, como esta en la prueba de Kolmogorov-Smirnov, es menor a 0.05, en
teoría, aceptamos la H1, algo que no es normal ya que nosotros buscamos lo contrario, refutarla. Por
tanto, vemos si mas o menos las gráficas son simétricas. Y fijándonos en los gráficos comprobamos que
si hay una distribución normal con un leve incumplimiento. Además, había que tener en cuenta la n, y a
n grande más se acercan nuestros datos a la población. En nuestro caso, la n= 500 individuos, por lo
tanto diríamos que nuestro datos concuerdan, en su gran mayoría, con la normalidad.
Ahora ya si que podemos hacer la R de Pearson porque la distribución es normal y la relación es lineal,
es decir, se cumplen las dos asunciones.
7. Variables cuantitativas: talla y peso
4. Para ver si existe relación entre las variables, nos fijamos en la correlación.
Mientras más se acerque al 1, mayor es la correlación, fuerza de la relación
entre las variables.
En nuestro caso, 0.646 también es un indicador de una alta relación, se
acerca al uno. A más peso, más talla. La correlación es alta >0.5. Por tanto,
sí podemos aceptar la H1, porque además la p<0.05.
Cuando el valor de la relación es:
>0.1 es baja.
>0.3 es media.
>0.5 es alta.
8. Variables cuantitativas: talla y peso
- En este ejercicio hemos utilizamos la
R de Pearson, pero también podríamos
usar la Tau de Kendall y la Rho de
Spearman que son pruebas nono
paramétricasparamétricas.
- Se dice que las pruebas no
paramétricas son más conservadoras,
es decir, es mas difícil rechazar la H0
en la Tau de Kendall, por ejemplo.
Spearman, también, es mas potente
encuentra las diferencias con más
facilidad.
9. Variables cualitativas o categóricas:
sexo y actividad física
Vemos la relación que existe entre el sexo (variable cualitativa, dicotómica,
binaria, por ello consideramos que es una correlación biserial puntual) y la
actividad física, que es ordinal, pero como se estudian 7 posibilidades, es
cuantitativa (menos de 5 puntos se considera ordinal). Hipótesis:
- H1: existe relación entre sexo y actividad física.
- H0: no existe relación.
Como es una muestra grande asumimos que los datos presentan una
distribución normal. Por lo tanto, se cumplen las dos asunciones.
10. Interpretamos el signo (-), fijándonos en nuestra base de datos. Podemos
observar que 1 es ser chico, y 2 es ser chica. Luego cuando pasamos de
chico, que en este caso es 1, y chica, que es 2, se reduce la frecuencia de
actividad física, ya que hemos dicho que a más, menos.
Variables cualitativas o categóricas:
sexo y actividad física
Aceptamos H1 porque
p<0.05. Por lo tanto existe
relación entre ambas
variables, a más, menos. .
Sin embargo, la correlación
es mediamedia ya que r =0.303.
11. Variables categóricas y variables
categóricas: sexo y consumo de
tabaco
A continuación vamos a ver las relaciones entre variables categóricas y
variables categóricas. Este tipo de correlaciones se analizan utilizando las
tablas de contingencia. Usamos el coeficiente de Phi/ Coeficiente de
Contingencia y la V de Cramer.
Coeficiente de Phi: Lo utilizamos para la relación de dos variables categóricas
dicotómicas. Ej.: sexo y consumo de tabaco. Establecemos las hipótesis:
- H1: existe relación entre el sexo y el consumo de tabaco.
- H0: no existe diferencias.
12. Variables categóricas y variables
categóricas: sexo y consumo de
tabaco
El valor de Phi es bajo, está cerca de 0,019, además P (Sig.) es 0.648,
como está por encima de 0.5, rechazamos la hipótesis alternativa. Por
tanto, no existe relación entre las variables.
13. Variables categóricas y variables
categóricas: sexo y consumo de
tabaco
El recuento esperado es el que se espera cuando no hay diferencias. Nosotros partimos de un
modelo en el que no existen diferencias, que es el recuento esperado. La relación entre el recuento
esperado y recuento observado, nos da una idea de si es cierta o no la relación entre las dos
variables.
En la tabla de frecuencias se parte de un modelo en el que no hay diferencia de consumo de tabaco
en función del sexo. Ello lo comparamos con lo observado, se observó que 149 chicos no fumaban,
y con lo esperado, se esperaba que 146 chicos no fumaran. Hay una pequeña diferencia. En chicas
se esperaba que 153 no fumaran, y no fuman 151 por lo observado, hay una pequeña diferencia
también. Por tanto, podemos decir que las variables no tiene relación ya que la diferencia que se
aprecia entre los datos observados y los esperados, es muy pequeña.
14. Ahora vamos a ver la relación entre variables nominales y nominales.
Utilizaremos el Coeficiente de Contingencia y V de Cramer.
- Variables a relacionar:
Grado apgar (funcionamiento de la familia). Esta tiene tres categorías:
Funcional, disfuncional leve y disfuncional grave. Es una variable nominal.
La vamos a relacionar con la frecuencia de consumo de tabaco: No fumo,
menos de una vez a la semana, al menos una vez a la semana, todos los
días. Variable nominal.
Variables nominales y variables
nominales: funcionamiento familiar y
consumo de tabaco
15. Variables nominales y variables
nominales: funcionamiento familiar y
consumo de tabaco
La prueba Phi la desechamos porque no es dicotómica, no es un tabla de
2x2, las variables no son binarias. Nos fijamos en el coeficiente de
contingencia porque es el que tiene una correlación más alta (0.195). Tiene
una correlación entre baja y media. P (Sig.) es 0.001, por lo que es menor
que 0.5, es significativa, aceptamos la hipótesis alternativa, por tanto, existe
relación entre el grado de funcionamiento familiar (APGAR) y el consumo de
tabaco. La interpretación (signo positivo) es a más, más. Pero como estamos
ante variables nominales, es necesario analizar la tabla. Comparamos las
frecuencias esperadas con las observadas.
16. Variables nominales y variables
nominales: funcionamiento familiar y
consumo de tabaco
17. Las esperadas parten de un modelo que no tiene diferencias y nosotros
ya hemos observado (en la tabla) que sí existen tales diferencias. Por
ejemplo, se esperaba que 1,5 fumaran todos los días y fumaron 5.
La frecuencia observada es mayor a la esperada en aquellos
participantes con una disfunción familiar grave que además fumaban
todos los días.
Variables nominales y variables
nominales: funcionamiento familiar y
consumo de tabaco