Este documento resume conceptos básicos de inferencia estadística como muestreo, estimación de parámetros, intervalos de confianza, prueba de hipótesis, pruebas paramétricas y no paramétricas. Explica la diferencia entre muestras independientes y pareadas y cómo aplicar pruebas estadísticas como chi cuadrado y Q de Cochran para comparar grupos en función del tipo y número de variables y muestras. El documento provee información fundamental sobre conceptos y métodos estadísticos comúnmente usados en investigación
2. Inferencia Estadística
Inferencia Paramétrica
• Variables cuantitativas cuyo número es mayor de
30 datos o provienen de una curva normal.
• Pueden ser menos de 30 datos si es que se tiene la
seguridad que provienen de una curva normal
Inferencia No Paramétrica
• Variables cualitativas y variables cuantitativas sin
curva normal
3. Tipos de Muestras
• Una sola muestra
• Dos o más muestras:
-Muestras Relacionadas o pareadas
-Muestras Independientes
4. Estimación de Parámetros
Es un proceso para obtener valores
aproximados
de
una
población
(parámetros) a partir de los valores
calculados de una muestra (estadísticos)
• INTERVALOS DE CONFIANZA:
a) Puntual
b) Por Intervalos
• PRUEBA DE HIPÓTESIS
5. INTERVALOS DE CONFIANZA
El valor de la respuesta se ofrece a través de un intervalo con una
probabilidad de ocurrencia, mide el grado de confianza en la
respuesta llamado nivel de confianza: 1-α
Ejemplo:
Una muestra de n=100 individuos de una población tiene un
peso medio de 60 kg y desviación de 5kg
Estimaciones puntuales
• 60 kg estima a μ
• 5 kg estima a σ
• 5/raiz(n)= 0,5 estima el error estándar (típico) EE
Estimación por Intervalos de Confianza
• Hay una confianza del 68% de que μ esté en 60±0,5
• Hay una confianza del 95% de que μ esté en 60±1
6. Probabilidad de error o nivel de significancia:
Nivel de confianza = 160
= 0.10, 0.05, 0.01
7. Prueba de Hipótesis
Consideraciones preliminares
•Muestras independientes o pareadas
•Varianzas iguales o diferentes
•Prueba de la normalidad
•Datos fuera de rango
•Pruebas paramétricas o no paramétricas
•El valor de “p”
8. Ejemplos de Hipótesis:
1. La talla de los peruanos es diferente de 1.65
2. El estado nutricional de las gestantes depende del nivel
de hemoglobina
3. La talla promedio de niños con lactancia materna es
mayor de los niños que no recibieron
4. La proporción de fumadores del género femenino es
menor al género masculino
5. Existe relación entre los conocimientos y las prácticas
que tiene la madre del niño menor de 5 años sobre la
medidas preventivas de las IRA.
6. El peso final es diferente al peso inicial después de la
aplicación de una dieta
9. Región crítica y nivel de significancia
=5%
Reg. Crítica
=95%
Reg. Crítica
=2.5%
=2.5%
No rechazo H0
Rechazo H0
Rechazo H0
Nivel de significancia + Nivel de confianza = 100
12. Muestras Independientes o Pareadas
Muestras Independientes
Se dice que dos o más muestras son independientes
cuando sus datos provienen de grupos diferentes,
que no guardan ninguna relación entre sí.
Ejm.
- Proporción de muertes neonatales de los hospitales
de Essalud y Minsa.
- Estado nutricional de niños de Lima Cercado y
Chosica.
- Edad gestacional de Adolescentes y Añosas.
13. …muestras Independientes o Pareadas
Muestras Pareadas o Repetidas
Se dice que las muestras son pareadas cuando
1. Dos o más grupos de datos provienen de una
misma muestra, también se denomina muestra
repetida.
Ejm. Cuando se quieren determinar diferencias entre
los niveles de Hb en una intervención quirúrgica
en tres momentos :Hb basal, a los 10 minutos y a
los 20 minutos.
14. …muestras Independientes o Pareadas
2. Cuando se forman dos muestras en donde las
personas son pareadas o emparejadas con otras
personas que tienen las mismas características
que se desean controlar.
Ejm.
Se quiere determinar si el hecho de comer
pescado es un factor para contraer el cólera. Para
lo cual se identifica a un grupo de personas que
tuvieron la enfermedad y se emparejan cada una
de ellas con otra persona que no tiene la
enfermedad. Se empareja tomando en cuenta
ciertos tipos de variables, edad, sexo, barrio, etc.
15. EL VALOR DE “p”
…sea cual sea el valor de “p” y demasiadas
veces de “ No hay diferencias significativas”
deducimos que “no hay diferencias”.
Austin Bradford Hill
16. …el valor de “p”
El valor de “p” nos permitirá interpretar los
resultados de un análisis de datos realizado por un
software, toda vez que en este caso ya no existe la
necesidad de usar tablas para comparar un valor
calculado con el tabulado.
17. …el valor de “p”
Interpretación:
1. Si el valor de “p” es mayor que el valor de
significación (α) entonces no existen diferencias
estadísticamente significativas.
2. Si el valor de “p” es menor que el valor de
significación (α) entonces existen diferencias
estadísticamente significativas.
18. Prueba de la Normalidad
Es importante realizar esta prueba cuando no se
tiene la certeza de que los datos provienen o no de
una curva normal.
Conocer si los datos provienen de una curva normal
permitirá decidir que pruebas se han de utilizar.
Se utilizarán pruebas Paramétricas si los datos
provienen de una curva normal.
Se utilizarán pruebas No paramétricas si los datos
no provienen de una curva normal.
19. …prueba de la Normalidad
La condición para decidir si un determinado
grupo de datos tiende a una curva normal es que
al menos existan más de 30 datos de la variable
en estudio (tamaño de muestra mínimo) en cada
grupo de estudio.
20. …prueba de la Normalidad
De particular interés están los coeficientes de
asimetría y curtosis estandarizados que pueden
utilizarse para determinar si la muestra procede de
una distribución normal.
Los valores de estos estadísticos fuera del rango de
-2 a +2 indican alejamiento significante de
normalidad que tendería a invalidar cualquier test
estadístico con respecto a la desviación normal.
21. …prueba de la Normalidad
• También se puede utilizar el valor de
Asimetría para la prueba de la normalidad.
• Si el valor de Asimetría es mayor que
1(uno) en valor absoluto entonces se dice
que no pertenece a una distribución normal.
22. Datos Fuera de Rango o Intervalo
En algunos casos a pesar de que existe una
gran cantidad de datos (más de 30), sin
embargo los valores de curtosis o asimetría
indican que los datos no provienen de una
curva normal.
Esto se puede deber a la presencia de datos
FUERA DE RANGO O INTERVALO.
23. Datos Fuera de Rango o Intervalo
Los datos fuera de intervalo aparecen generalmente por
las siguientes razones:
•
•
•
El dato se observa, registra e introduce en la
computadora incorrectamente.
El dato proviene de una población distinta.
El dato es correcto pero representa un suceso
poco común (fortuito).
24. Como detectar un dato fuera de rango
1. Calculando el Valor Z
Z
y
y
s
Si el valor de Z es mayor de 3 quiere decir
que ese dato está fuera de intervalo, ya que se
asume que el 100% de una población está
comprendida dentro del rango de -3z y +3z (3s y +3s).
25. 2. Con el gráfico de Caja y Bigotes (Box and Plot).
– Al elaborar este gráfico haciendo uso de los
rangos intercuartílicos y la mediana, así como
los valores de -3s y +3s. Se puede determinar
fácilmente los datos que se encuentran fuera
de rango.
26. Transformación a curva normal
Los datos que no cumplen el criterio de ser
una curva normal de acuerdo con los
anteriores estadísticos, se pueden convertir
a una curva normal utilizando la raíz
cuadrada o el logaritmo natural de los datos.
27. Pruebas Paramétricas o No
Paramétricas
Pruebas Paramétricas
Se dice que una prueba es paramétrica cuando:
• Se trata de variables cuantitativas cuyo número es
mayor de 30 datos o provienen de una curva
normal.
• Pueden ser menos de 30 datos si es que se tiene la
seguridad que provienen de una curva normal
• Si son seis o menos datos, usar pruebas no
paramétricas. Algunos indican 11 o menor de 20.
28. …Pruebas Paramétricas o No Paramétricas
Pruebas no Paramétricas
Son pruebas no paramétricas cuando:
• Se trata de variables cualitativas.
• Se trata de variables cuantitativas, con
menos de 30 datos y no provienen de una
curva normal.
• Cuando son seis o menos datos. Algunos
indican 11 o 20 datos.
32. COMPARACIÓN DE DOS GRUPOS
Variables Categóricas o Cualitativas
2 grupos
Muestras
independientes
Chi Cuadrado
Corrección de Yates
Frecuencias
pequeñas:
Prueba exacta de
Fisher
Muestras
pareadas
McNemar
Menú principal
33. Comparación de dos proporciones Independientes
Prueba de Chi Cuadrado
Ejemplo 6
Se desea analizar el tratamiento de la
infección urinaria con dos antibióticos A y
B. Dividiéndose 34 pacientes en dos grupos
de 17, evaluándose después de un tiempo de
observación si la infección desapareció o
no.
34. Solución
1. Codificar la variable 1 como:
–
–
–
Etiqueta: Tratamiento de Antibiótico
1= A
2= B
2. Codificar la variable 2 como
–
–
–
Etiqueta: Desaparición de la Infección
1= Si
2= No
35.
36.
37.
38.
39. Interpretación
Como el valor de p = 0,001 es menor que
0,05
entonces
hay
diferencias
significativas entre los grupos, por lo tanto
podemos concluir que el tratamiento con
el antibiótico A es más eficaz que el
antibiótico B.
volver
40. Comparación de dos proporciones pareadas
Prueba de Chi Cuadrado de McNemar
Ejemplo 7
Se desea saber si el efecto de dos fármacos es
el mismo para desaparecer los síntomas de una
úlcera. Para lo cual se seleccionan 50 pacientes
a los que se les administra el fármaco A. Luego
se busca a otro paciente de características
similares (Par o “gemelo”) al que se les
suministra el fármaco B. Después de un periodo
de observación se comprueba en cada caso si
los síntomas han desaparecido.
41. Solución
1. Codificar la variable 1 como:
–
–
–
Etiqueta: Fármaco A
1= Úlcera ha cicatrizado
2= Úlcera no ha cicatrizado
2. Codificar la variable 2 como
–
–
–
Etiqueta: Fármaco B
1= Úlcera ha cicatrizado
2= Úlcera no ha cicatrizado
42.
43.
44.
45. Interpretación
Como el valor de p = 0,607 es mayor que
0,05 entonces no hay diferencias
significativas entre los grupos, por lo tanto
podemos concluir que el Fármaco A y el
Fármaco B tienen la misma eficacia para
la cicatrización de úlceras.
Volver
46. Comparación de 3 o más grupos
Variables Cualitativas
3 o más grupos
Muestras
independientes
χ2
Muestras
pareadas
Q de Cochran
Menú Principal
47. Comparación de 3 o más proporciones
Independientes
Prueba de Chi Cuadrado
Ejemplo 8
Se desea analizar si el efecto de tres tratamientos
dermatológicos para el acné A,B y C, depende del
tipo de presentación, crema, comprimido, polvo y
líquido. Para lo cual se distribuyen 300 pacientes en
12 grupos de 25 cada uno. Luego de un periodo de
observación se analiza la proporción de pacientes sin
acné en cada grupo.
Se desea determinar si la eficacia del tratamiento
está relacionado con el tipo de presentación.
48. Solución
1. Codificar la variable 1 como:
–
–
–
–
Etiqueta: Tratamiento dermatológico
1= A
2= B
3= C
2. Codificar la variable 2 como
–
–
–
–
–
Etiqueta: Presentación del tratamiento
1= Crema
2= Comprimido
3= Polvo
4= Líquido
49.
50.
51.
52.
53.
54.
55. Interpretación
Como el valor de p = 0,00 asociado al
estadístico Chi cuadrado es menor que
0,05
entonces
hay
diferencias
significativas entre los grupos, por lo tanto
podemos concluir que el uso del
tratamiento dependerá del tipo de
presentación.
Volver
56. Comparación de 3 o más proporciones pareadas
Prueba Q de Cochran
Ejemplo 9
Se desea analizar el efecto de dos fármacos sobre los
síntomas de la úlcera, para lo cual se distribuyen 150
pacientes en tres grupos de 50 cada uno.
Aleatoriamente se suministra a 50 pacientes un
placebo, luego se busca dos pares o “gemelos” a
quienes se les suministra los fármacos A y B
respectivamente. Después de un periodo se observa
si los síntomas han desaparecido o no.
Se desea determinar si la eficacia de los fármacos
con respecto al placebo es la misma .
57. Solución
1. Codificar la variable 1 como:
–
–
–
Etiqueta: Placebo
1= Úlcera ha cicatrizado
2= Úlcera no ha cicatrizado
2. Codificar la variable 2 como
–
–
–
Etiqueta: Fármaco A
1= Úlcera ha cicatrizado
2= Úlcera no ha cicatrizado
3. Codificar la variable 3 como:
–
–
–
Etiqueta: Fármaco B
1= Úlcera ha cicatrizado
2= Úlcera no ha cicatrizado
58.
59.
60.
61. Interpretación
Como el valor de p = 0,09 asociado al
estadístico Q de Cochran es menor que
0,05
entonces
hay
diferencias
significativas entre los grupos, por lo tanto
podemos concluir que los fármacos tienen
menor efectividad que el placebo.
Volver
63. COMPARACIÓN DE DOS GRUPOS
Variables Cuantitativas
2 Grupos
Muestras
pareadas
Muestras
independientes
¿Distribución
normal?
("paramétrica")
¿Distribución
normal?
("paramétrica")
Si
No
¿Varianzas Iguales?
U Mann-Whitney
Si
T de student para
var.
diferentes
No
t de Student
pareada
Prueba Wilcoxon
No
t de student para v.
iguales
Si
Menú principal
64. Comparación de dos grupos
independientes con distribución normal
Prueba de t de Student
Ejemplo 10
Se desea conocer si la disminución de
hemoglobina es independiente de la presencia o no
de úlcera en los pacientes cuando se aplica un
nuevo tratamiento. Para lo cual se mide la
disminución de hemoglobina en 70 pacientes, de
los cuales 28 tenían úlcera y 42 no.
65. Solución
1. Codificar la variable 1 como:
–
Etiqueta: Disminución de Hemoglobina
2. Codificar la variable 2 como
–
–
–
Etiqueta: Con úlcera
1= Si
2= No
66.
67.
68.
69.
70. El valor de p= 0,138 nos indica que
no hay diferencias significativas entre
las varianzas por lo que se asume la
igualdad de varianzas.
71.
72. Interpretación
Como el valor de p= 0,00 asociado al
estadístico “t”, cuando se asumen
varianzas iguales es menor que 0,05
entonces existen diferencias significativas
entre los promedios. Por lo tanto se puede
concluir
que
la
disminución
de
hemoglobina es diferente entre los
pacientes con úlcera y sin úlcera. Para el
ejemplo existe mayor disminución de
hemoglobina en los pacientes con úlcera.
Volver
73. Comparación de dos grupos independientes
sin distribución normal (no paramétrica)
Prueba de U de Mann- Witney
Ejemplo 12
Se desea conocer si al aplicar un nuevo Fármaco
más el tratamiento habitual permite incrementar la
FEVI (fracción de eyección del ventrílocuo
izquierdo) deprimida en grado severo. Se
seleccionan 12 pacientes a los que se les aplica el
tratamiento habitual y 11 pacientes a quienes se
les aplica el tratamiento habitual más el nuevo
Fármaco. Luego de seis meses se mide la FEVI en
ambos grupos.
74. Solución
1. Codificar la variable 1 como:
–
Etiqueta: FEVI
2. Codificar la variable 2 como
–
–
–
Etiqueta: Tratamiento
1= Habitual
2= Habitual más fármaco.
75.
76.
77.
78.
79. Interpretación
Como el valor de p= 0,740 asociado al
estadístico “U” de Mann-Whitney, es
mayor que 0,05 entonces no existen
diferencias
significativas
entre
las
muestras. Por lo tanto se puede concluir
que el uso del Farmaco A más el
tratamiento
habitual
no
aumenta
significativamente el FEVI.
Volver
80. Comparación de dos grupos pareados con
distribución normal
Prueba de t de Student para muestras pareadas
Ejemplo 11
Se desea conocer si un tratamiento contra la
artrosis puede causar disminución de
hemoglobina. Para lo cual se mide la
hemoglobina en 70 pacientes antes y
después del tratamiento.
81. Solución
1. Codificar la variable 1 como:
–
Etiqueta: Hemoglobina inicial
2. Codificar la variable 2 como
–
Etiqueta: Hemoglobina final
82.
83.
84.
85. Interpretación
Como el valor de p= 0,00 asociado al
estadístico “t”, es menor que 0,05
entonces existen diferencias significativas
entre los promedios inicial y final. Por lo
tanto se puede concluir que el tratamiento
contra la artrosis produce disminución de
hemoglobina.
Volver
86. Comparación de dos grupos
pareados sin distribución normal
Prueba de Wilcoxon
Ejemplo 13
Se desea conocer si el nivel de colesterol se
incrementa debido a un producto (A) presente en
la dieta de los pacientes de un hospital. Para lo
cual se cambia el Producto A por un producto B
menos rico en colesterol y se hace la medición del
colesterol a 42 pacientes antes y después de la
sustitución del producto.
87. Solución
1. Codificar la variable 1 como:
–
Etiqueta: Colesterol inicial
2. Codificar la variable 2 como
–
Etiqueta: Colesterol final
88.
89.
90.
91. Interpretación
Como el valor de p= 0,230 asociado al
estadístico Wilcoxon, es mayor que 0,05
entonces existen diferencias significativas
entre los rangos positivos y negativos. Por
lo tanto se puede concluir que el colesterol
en los pacientes no se ve incrementado
por el consumo del producto A.
volver
92. Comparación de 3 o más grupos
Variables Cuantitativas
3 o más grupos
Muestras
independientes
Muestras
apareadas
¿Distribución
normal?
("paramétrica")
Si
ANOVA
¿Distribución
normal?
("paramétrica")
No
Si
No
Kruskal-Wallis
ANOVA para
medidas
repetidas
Friedman
Menú Principal
93. Comparación de 3 o más grupos
independientes con distribución normal
ANÁLISIS DE LA VARIANZA (ANOVA)
Ejemplo 14
Se desea saber si el tiempo de reaparición de los
síntomas en pacientes con úlcera péptica es
independiente del tiempo de respuesta a un
tratamiento aplicado. Para lo cual se determina el
tiempo de reaparición de los síntomas y se agrupa de
acuerdo al tiempo de respuesta en cuatro grupos (2,
4, 6 y 8 semanas).
94. Solución
1. Codificar la variable 1 como:
–
–
–
–
–
Etiqueta: Tiempo de respuesta al tratamiento
1 = 2 semanas
2 = 4 semanas
3 = 6 semanas
4 = 8 semanas
2. Codificar la variable 2 como
–
Etiqueta: Tiempo de reaparición de los síntomas
95.
96.
97.
98. • Como el valor de p = 0,00 asociado al
estadístico de Levene es menor que 0,05
entonces las varianzas son diferentes, por lo
que se tendrá que homogenizar las
varianzas con la función potencia, raíz
cuadrada y logaritmo natural.
99.
100.
101.
102.
103.
104.
105.
106.
107.
108.
109.
110.
111. Interpretación
Como el valor de p = 0,00 asociado al
estadístico de F de Snedecor es menor que
0,05
entonces
existen
diferencias
significativas entre los promedios. Por lo
tanto se tiene que realizar la prueba de
comparaciones múltiples para determinar
entre que grupos existen las diferencias.
Tukey (grupos del mismo tamaño)
Scheffé (grupos de diferente tamaño)
112.
113.
114. Conclusión
• El análisis de comparaciones múltiples nos
indica que todos los grupos son diferentes,
por lo tanto se debe considerar que el
tiempo de reaparición de los síntomas va a
ser diferente para cada tiempo de respuesta
al tratamiento.
volver
115. Comparación de 3 o más grupos
independientes sin distribución normal
ANÁLISIS DE LA VARIANZA DE KRUSKAL-WALLIS
Ejemplo 15
Se desea saber si un Fármaco aumenta el índice cardiaco en
pacientes con Shock, pero se sospecha que el aumento
puede ser diferente según el tipo de shock. Para lo cual se
suministra el fármaco a 99 pacientes y después de un
determinado tiempo se mide el índice cardiaco y se divide
en cuatro grupos de acuerdo con el tipo de shock
(Hipovolémico, Cardiogénico, Distributivo y Obstructivo).
116.
117.
118.
119.
120. Interpretación
Como el valor de p = 0,001 es menor que
0,05 entonces los promedios de rangos en
los cuatro tratamientos son diferentes. Por
lo tanto se puede concluir indicando que el
fármaco incrementa el índice cardiaco
independientemente del tipo de shock.
Siendo mayor el efecto en el grupo
cardiogénico.
Volver
121. Comparación de 3 o más grupos
pareados con distribución normal
ANOVA PARA MEDIDAS REPETIDAS
Ejemplo 16
Se desea conocer el efecto de tres fármacos para reducir
la presión arterial sistólica. Para lo cual se buscó a 160
pacientes, a los que se les administró el fármaco A,
luego se buscó a dos “pares” o “gemelos” de la misma
edad, al primero se le administró el Fármaco B y al
segundo el Fármaco C.
122. Solución
1. Codificar la variable 1 como:
–
Etiqueta: Fármaco A
2. Codificar la variable 2 como
–
Etiqueta: Fármaco B
3. Codificar la variable 3 como
–
Etiqueta: Fármaco C
123.
124.
125.
126.
127.
128. Interpretación
Como el valor de p = 0,523 asociado al
estadístico de contraste es mayor que 0,05
entonces
no
existen
diferencias
significativas entre los grupos. Por lo tanto
se puede concluir que el efecto de los
fármacos sobre la presión arterial sistólica
es el mismo.
Volver
129. Comparación de 3 o más grupos
pareados sin distribución normal
PRUEBA DE FRIEDMAN
Ejemplo 17
Se desea conocer si el consumo de un fármaco (A)
antihipertensivo es igual que el de otros dos
fármacos (B y C) de la competencia. Para lo cual
se seleccionan aleatoriamente 34 farmacias y se
obtiene el número de fármacos (A, B y C)
vendidos en el mes en cada farmacia.
130. Solución
1. Codificar la variable 1 como:
–
Etiqueta: Cantidad de Fármaco A
2. Codificar la variable 2 como:
–
Etiqueta: Cantidad de Fármaco B
3. Codificar la variable 3 como:
–
Etiqueta: Cantidad de Fármaco C
131.
132.
133.
134. Interpretación
Como el valor de p = 0,865 asociado al
estadístico de Friedman es mayor que 0,05
entonces
no
existen
diferencias
significativas entre los grupos. Por lo tanto
se puede concluir que la venta de los tres
fármacos es la misma.
volver
135. Asociación entre dos variables
cuantitativas
Correlación de Pearson
Ejemplo 21
Se realiza un estudio para establecer una ecuación
mediante la cual se pueda utilizar la concentración
de estrona en saliva(X) para predecir la
concentración del esteroide en plasma libre (Y).
Para lo cual se midieron la concentración de
ambos indicadores en 14 varones sanos.
136. Solución
1. Codificar la variable 1 como:
–
Etiqueta: Estrona en Saliva
2. Codificar la variable 2 como:
–
Esteroide en plasma libre
137.
138.
139.
140.
141. Interpretación
Como el valor de p = 0,00 asociado al
estadístico t es menor que 0,05 entonces
podemos concluir que conociendo el nivel
de estrona en la saliva se puede predecir
concentración de esteroide en el plasma
libre.
VOLVER
142. Figura 4. Ejemplo de gráfico de Caja y Bigotes. Edad de
encuestados.
412
191
80
60
40
20
edad de los encuestados
Volver