DIAGRAMAS DE DISPERSIÓN, CORRELACIÓN Y REGRESIÓN. Bioestadística. LolaFFB
1. BIOESTADÍSTICA: TEORÍA PP2 Lola Fernández de la Fuente Bursón
Página 1
PRUEBA DE PREPARACIÓN Nº2
DIAGRAMAS DE DISPERSIÓN, CORRELACIÓN
Y REGRESIÓN
A lo largo de este tema cada vez que hablemos de variables, supondremos que se
tratan de variables de carácter cuantitativo y discreto, todas tomadas de una misma
población. El hecho de que sean rasgos de una misma población nos hará
preguntarnos si existe una posible dependencia o relación entre los mismos.
Dependencia funcional y estadística de una variable estadística bidimensional (X,Y)
Decimos que existe dependencia funcional de Y sobre X cuando a cada valor xi
se le asigna un único valor yj (y = f(x)), es decir, que el valor de una de las
variables determina exactamente en valor de la otra. Según como se
encuentren los puntos la relación será lineal, exponencial, parabólica…
Las variables X e Y serán independientes si el valor de una variable no influye
sobre la otra, sino que sus distribuciones coinciden.
El resto de casos se trata de dependencia o relación estadística, que será más
o menos intensa según si el diagrama de puntos que formen se aproxime más o
menos a la representación imaginaria de una función. Las relaciones pueden
ser:
o directa, si cuando crece o decrece la una, hace lo mismo la otra,
o inversa, si cuando crece o decrece la una, la otra hace lo contrario.
Diagrama de dispersión
Para descubrir estas relaciones entre variables (X e Y) usamos frecuentemente el
diagrama de dispersión o “nube de puntos”, por ser capaz de informarnos de la clase
de dependencia que poseen.
Considerando que:
xi toma los valores x1, x2,…, xr.
yj toma los valores y1, y2,…, yp.
Entonces definimos nij como el número de individuos que toman el valor xi (para X) y el
valor yj (para la variable Y).
2. BIOESTADÍSTICA: TEORÍA PP2 Lola Fernández de la Fuente Bursón
Página 2
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0 0.2 0.4 0.6 0.8
Dependencia lineal funcional
(directa)
Todos estos datos se organizan fácilmente en tablas de doble entrada.
Así representaremos en el plano cartesiano cada uno de los puntos (xi, yj) con
frecuencia no nula. Los valores de la variable X estarán situados en el eje de abscisas y
los de Y en el de ordenadas. En realidad, en abscisas procuraremos colocar de las dos
variables, la “explicativa” o independiente, siempre que esto se cumpla.
0
0.1
0.2
0.3
0.4
0.5
0 0.2 0.4 0.6
Dependencia lineal estadística
débil (directa)
0
0.1
0.2
0.3
0.4
0.5
0.6
0 0.2 0.4 0.6
Dependencia lineal
estadística débil (inversa)
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0 0.2 0.4 0.6 0.8
Dependencia lineal funcional
(inversa)
0
0.1
0.2
0.3
0.4
0.5
0.6
0 0.2 0.4 0.6 0.8
Dependencia lineal estadística
fuerte (directa)
0
0.2
0.4
0.6
0.8
1
1.2
0 0.5 1
Dependencia lineal estadística
fuerte (inversa)
3. BIOESTADÍSTICA: TEORÍA PP2 Lola Fernández de la Fuente Bursón
Página 3
Antes de sacar conclusiones, debemos tener en cuenta si:
Las variables definidas nos hacen intuir la existencia de una posible relación.
Existen numerosos datos y la nube de puntos sugiere alguna clase de
dependencia.
Los valores observados se han obtenido de la población o de una muestra.
Existen posibles influencias de otras variables sobre las estudiadas.
No olvidemos que causalidad implica correlación, pero no al revés. Es decir: una
relación causa-efecto tiene, por ende, que deberse a una relación entre las variables;
sin embargo, dos variables dependientes no tienen que tener una relación causa-
efecto.
Covarianza
Para estudiar la relación entre dos variables se calcula la denominada covarianza (Sxy),
que nos indica el grado de variación conjunta de ambas variables así como el sentido
de la misma:
directa o positiva (ambas varían en el mismo sentido).
inversa o negativa (varían conjuntamente pero en sentido contrario).
En resumen, nos permite cuantificar la dependencia estadística entre las variables.
Covarianza poblacional:
Covariancia muestral:
La varianza, al ser una suma de valores al cuadrado, tiene siempre valores positivos.
En cambio, la covarianza puede tener resultados negativos ya que en el producto de
dos diferencias, si una es negativa, el producto final será también negativo. Este es el
caso de multiplicar valores de X por encima de la media (+) por valores de Y por debajo
4. BIOESTADÍSTICA: TEORÍA PP2 Lola Fernández de la Fuente Bursón
Página 4
de la misma (-). Existen otros casos en los que los valores positivos compensan a los
negativos haciendo que el valor de la covarianza tienda a cero.
Entonces tenemos que la covarianza tendrá:
Valores positivos si la relación entre las variables es directa.
Valores negativos si la relación de las variables es inversa.
De cero si no existe relación entre las variables o la que la relación que la
explica no es ninguna de las estudiadas.
La covarianza depende pues de:
La intensidad de la relación (el valor absoluto de la covarianza será mayor
cuanto mayor sea la intensidad de la misma).
Las unidades de medida usadas. Al variar la unidad de medida de la varianza,
ésta cambia exponencialmente. Por otro lado, si alteramos las unidades de la
covarianza, el resultado cambia proporcionalmente.
La varianza de las dos variables estudiadas.
Coeficiente de correlación lineal de Pearson
El coeficiente de correlación lineal (r) mide la intensidad de la relación entre X e Y.
;
Características:
Sólo en relaciones de tipo lineal.
Se nombra con ρ cuando pertenece a la población, y r si pertenece a una
muestra.
No tiene unidades: el cambio de las unidades de medida, al contrario que la
varianza y la covarianza, no afecta a su resultado.
Su valor oscila entre 1 y -1.
o 1 cuando la correlación es perfecta y directa.
o 0 cuando no existe correlación.
o -1 cuando es perfecta e inversa.
Pruebas de hipótesis: relación entre dos variables cuantitativas
Normalmente en el estudio usamos una muestra de la población (r), es decir, una
estimación del valor auténtico, de la relación real (ρ).
Por ello debemos construir las siguientes hipótesis:
5. BIOESTADÍSTICA: TEORÍA PP2 Lola Fernández de la Fuente Bursón
Página 5
H0: ρ=0. No existe relación entre las variables.
H1: ρ≠0 (ρ <0 ó ρ >0). Existe relación entre las variables.
Se sabe que siguen una distribución “t” de Student-Fischer con n-2 grados de libertad
si las dos variables siguen la ley normal y no están relacionadas. Entonces, según el
valor de “t” obtenido:
Si t ≤ tαν, no se puede rechazar la hipótesis de independencia de las dos
variables en la población origen de la muestra.
Si t > tαν, se afirma la hipótesis de que existe relación entre las dos variables en
la población origen de la muestra.
Regresión
Para predecir los valores de una de las variables a partir de la otra utilizamos las rectas
de regresión:
de Y sobre X, para hallar los valores de Y conocida X.
de X sobre Y, para hallar los valores de X conocida Y.
En algunos casos, un valor de X se corresponde a un único valor de Y (modelo lineal).
En ellos α representa un valor constante que sitúa la recta, y β es la pendiente de la
misma. En otros casos, a un mismo valor de X no siempre le corresponde un único
valor de Y, sino un intervalo de los mismos. Pero, para ambos casos, podemos
recurrir a la misma expresión ya que nos permite simplificar, comprender y predecir
la relación existente entre las variables:
y = α + βx
Con esto deducimos que habrá un cierto margen de error en la aproximación de la
nube de puntos a una sola recta. Por ello flexibilizamos la fórmula de la siguiente
forma: y = α + βx + e. “e” se corresponde a la parte de la variable Y no explicable por la
variable X, debido a la acción de otras variables auxiliares. Entonces “e” se considera
un efecto residual.
y = α + βx + e
6. BIOESTADÍSTICA: TEORÍA PP2 Lola Fernández de la Fuente Bursón
Página 6
Este modelo combina el efecto científico, esperable, determinista de la variable con el
efecto aleatorio, azaroso, debido a la combinación de variables desconocidas o no
medidas que ejercen su influencia.
Para hallar una recta que se adapte adecuadamente a los valores observados es
necesario estimar α y β poblacionales, que serán sustituidos respectivamente por a y
b.
y = a + bx + e
Tenemos entonces los valores reales “y” y los ajustados “y*”. La diferencia entre
ambos “e” se corresponde a la discrepancia, el margen de error o valor residual para
un individuo entre el valor observado y el calculado:
y = y* + e
Ahora debemos utilizar el método de los mínimos cuadrados para minimizar la suma
de los residuos al cuadrado.
A partir de esta expresión obtenemos las estimaciones de a y b. Este último equivale
al coeficiente de regresión.
;
Una vez hallados ambos valores, hay que contrastar la recta de regresión mediante el
coeficiente de correlación o averiguar si el coeficiente de regresión “b” es semejante al
especificado por la hipótesis nula.
H0: β=0. No existe relación.
H1: β≠0. Existe relación.
Si H0 es cierta, entonces seguirá la distribución “t” de Student-Fisher, por lo que
podremos resolver la prueba de hipótesis con normalidad.
7. BIOESTADÍSTICA: TEORÍA PP2 Lola Fernández de la Fuente Bursón
Página 7
Cálculo de la recta de regresión
Consiste en la sustitución de la nube de puntos por una función que represente la
relación existente entre las variables.
Representatividad de la recta de regresión
Es necesario buscar un criterio para evaluar la representatividad de la recta de
regresión (función) que hemos hallado, evaluar la corrección del ajuste realizado.
Si la varianza de los valores residuales es pequeña, el ajuste será bueno, próximo a la
realidad. Sin embargo, si la varianza es grande, la representatividad de la recta será
escasa.
A partir de la definición anterior: y = y* + e, obtenemos que:
Sy
2
= Sy*
2
+ Se
2
Coeficiente de determinación
El coeficiente de determinación “R2
” es una medida de la proporción en que la
variación total medida por Sy
2
viene explicada por su componente Sy*
2
, es decir, mide
la representatividad que la recta de regresión tiene de la realidad.
Características:
Su valor es siempre positivo (<0).
Su valor se sitúa entre 0 y 1.
o Si R2
= 1, la relación entre las variables es perfecta, y la
representatividad de la recta es máxima. No existen valores residuales.
o Si R2
= 0, la recta de regresión no explica en absoluto la relación entre
las variables.
No posee unidades.
Equivale al cuadrado del coeficiente de correlación lineal de Pearson (R2
= r2
).