1. Dr. Ronald Mayhuasca Salgado
UNIVERSIDAD PERUANA LOS ANDES
ESCUELA ACADÉMICO PROFESIONAL DE ODONTOLOGÍA
UEC ESTADÍSTICA
Medidas de posición: Cuantilas
Medidas de dispersión y forma
2. Es un valor en el recorrido de la variable en el que se acumula una porción p de datos con medida máxima el valor de la cuantila, o sea un porcentaje (px100) de datos toma medidas menores o iguales a Xp y el resto toma medidas mayores o iguales a Xp.
A las cuantilas se les denomina de manera particular según la porción acumulada a la izquierda del punto.
-Decil: di
-Cuartil: qi
-Percentil: pi
-Mediana: Me=X0,50
Cuantiles o cuantila (Xp)
3. Decil (di) d1=X0,10 ; d2=X0,20 …
Son puntos que dividen al conjunto de datos en 10 partes donde cada uno acumula el 10% de datos, por ejemplo:
16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26
26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36
36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46
X0,10
X0,20
X0,30
X0,40
X0,50
X0,60
4. Decil (di)
Indica que el 10% de las personas tiene a lo más 21 años que el 40% tienen máximo 36 años, también podemos deducir que un 30% de personas poseen edades entre 21 y 36 años
d1=X0,10 = 21 d4=X0,40 = 36
16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26
26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36
36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46
X0,10
X0,20
X0,30
X0,40
X0,50
X0,60
5. Cuartil (qi)
q1=X0,25 ; q2=X0,50 ; q3= X0,75
Son puntos que dividen al conjunto de datos en 4 partes donde cada uno acumula el 25% de datos, por ejemplo:
De los siguientes datos:
16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26
26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36
36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46
X0,25
X0,50
X0,75
6. Cuartil (qi)
Indica que el 25% de las personas tienen hasta 24 años de edad, y que a lo más el 75% posee a lo más hasta 38 años, es decir el 50% tienen entre 24 y 38 años.
16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26
26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36
36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46
X0,25
X0,50
X0,75
q1=X0,15 ; q2=X0,30 ; q3= X0,45
7. Percentil (pi) p1=X0,01 ; p2=X0,02 … p99= X0,99
Son puntos que dividen al conjunto de datos en 100 partes donde cada uno acumula el 1% de datos, por ejemplo: De los siguientes datos: 16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26 26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36 36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46
X0,11
X0,32
X0,45
8. Percentil (pi)
Indica que 11% de las personas tiene un máximo de 21 años y que el 32% de individuos poseen hasta 32años, también diremos que el 65% de individuos tiene más de 38 años y que el 34% de personas poseen entre 21 y 38 años :
16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26
26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36
36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46
X0,11
X0,32
X0,45
p11=X0,11 = 21
p32=X0,32 = 32
p45= X0,45 = 38
9. Mediana (Me)
Me=X0,50
Indica que la mitad o el 50% de datos toma medidas menores o iguales a Me y el otro 50% toma medida mayor igual a Me:
De los siguientes datos:
16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26
26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36
36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46
X0,30
10. Mediana (Me)
Me=X0,50
Indica que el 50% de las personas posee una edad máxima de 31 años, y que el otro 50% posee una edad mínima de 31 años:
16, 16, 17, 18, 18, 19, 20, 20, 21, 21, 21,22, 22, 23, 24, 24, 24, 24, 26, 26
26, 26, 27, 28, 28, 29, 30, 30, 31, 31, 31,32, 32, 33, 34, 34, 34, 34, 36, 36
36, 36, 37, 38, 38, 39, 40, 40, 41, 41, 41,42, 42, 43, 44, 44, 44, 44, 46, 46
X0,30
Me= 31= q2= X0,50
11. Medidas de posición: equivalencias
퐷1=푃10
푄1=푃25
퐷2=푃50=푄2
Medidas derivadas:
•Rango intercuartílico (RIC):
푄3−푄2
•Desviación intercuartil:
푄3−푄2
2
* La desviación intercuartil es una medida que acompaña a la mediana en la descripción de datos
12. Cálculo de las cuantilas
푋푝=푋(푟)
•Si r no es entero redondear al entero superior
Donde: r = n x p
Luego de ordenas los datos ascendentementese determina la cuantila p como el lugar que ocupa el lugar «r»
a. Para datos no agrupados
Para la variable edad:
Varones:
Mujeres
푋0,50=43 푎ñ표푠 (푛 푥 푝=15,5)
푋0,25=27 푎ñ표푠 (푛 푥 푝=7,75)
푋0,75=64 푎ñ표푠 (푛 푥 푝=27,9)
푋0,50=42 푎ñ표푠
푋0,25=35 푎ños
푋0,75=60 푎ñ표푠
13. Cálculo de las cuantilas
•Se determina el intervalo que contiene a la cuantila Xp como el intervalo j:
Consideramos las fi y las Fi
b. Para datos agrupados
Usamos la siguiente fórmula:
푋푝=퐿푗푖 +푐 (푛 .푝 − 퐹푗−1) 푓푗
퐹푗−1
Frecuencia absoluta acumulada anterior a la clase cuantila j
퐿푗푖
Frontera de la clase intervalo j (el punto medio entre los extremos consecutivos para intervalos discretos) o límite inferior para intervalos continuos
14. Construcción de gráfico de caja y bigote
푄1−1,5 푥 푅퐼퐶
푄1,푄2 ,푄3
Calcular
•Rango intercuartílico (RIC):
푄3−푄2
Obtener los límites
•Inferior:
•Superior:
푄3+1,5 푥 푅퐼퐶
15. Generando el gráfico de caja y bigote
푄1−1,5 푥 푅퐼퐶
푀푒
* Son sensibles a datos atípicos
푄3
푄3+1,5 푥 푅퐼퐶
Variable
푄1
16. Algunas recomendaciones respecto a las medidas de resumen
•No siempre es necesario indicar todas las medidas de resumen
•Buscar las más significativas y representativas
•En distribuciones sesgadas o asimétricas es más apropiada la mediana como medida de tendencia central
17. Estadística Descriptiva
•Organización de datos
•Representación de datos: Tablas y Gráficos
•Medidas de resumen
•Medición de datos numéricos
1.Medidas de posición
2.Medidas de dispersión
3.Medidas de forma
•Medición de datos nominales
1.Proporción
2.Razón
3.Medición epidemiológica
18. 2. MEDIDAS DE DISPERSIÓN
Son medidas que cuantifican la variabilidad de las observaciones con respecto a un estadígrafo de tendencia central (generalmente la media aritmética). Los principales estadígrafos de tendencia central son:
•VARIANZA
•DISPERSIÓN ESTÁNDAR
•COEFICIENTE DE VARIACIÓN
19. Varianza ( S2) y Desviación estándar (S o DE)
•Nos informan sobre la magnitud de la variación en los datos , la magnitud con la cual las observaciones se agrupan en torno a las medidas
•Sólo se aplica a variables cuantitativas (medidas en escala de razón)
•Nos indica cuánto varía cada individuo respecto a la media
20. Varianza (S2)
Se define como el promedio del cuadrado de las desviaciones con respecto la media. Cuando la varianza es muestral, se denota como S2(x); y si la varianza es poblacional entonces se denota como σ2. Estudiaremos la varianza muestral.
21. 1. Para datos no agrupados en tablas.
Obedece a la siguiente fórmula:
S2(X)=
n-1
Desarrollando esta sumatoria se puede llegar a una forma más simple para calcular la varianza:
S2(X)=
n-1
Cálculo de la Varianza
22. 2. Para datos agrupados en tablas.
Obedece a la siguiente fórmula:
S2(X)=
n-1
De modo semejante al caso anterior, desarrollando la fórmula se obtiene:
S2(X)=
n-1
•Xi: marca de clase
•fi: frecuencia absoluta
•m: número de clases o intervalos
Cálculo de la Varianza
23. Se define como la raíz cuadrada positiva de la varianza, y como la varianza está expresada en unidades cuadradas, la desviación estándar (que está en las mismas unidades de los datos) representa mejor la variabilidad de las observaciones.
Desviación estándar (S o DE)
푆푥= 푆2(푥)
24. Ejemplo: 5 8 8 5 9
Varianza ( S2) y Desviación estándar (S o DE)
푆푥= 푆2(푥)
S2(X)=
n-1
Media: 7
: 3.5
: 1.87
Interpretación: Existe una variación de 1,87 unidades de cada individuo respecto a la media aritmética.
25. Coeficiente de variación (C.V.)
Se calcula del siguiente modo:
El C.V. se debe expresar en porcentaje, pues no tiene unidades y sirve como medida de comparación con otras distribuciones de cualquier tipo de unidad…el C.V. mide cuán dispersos se hallan los datos. C.V. < 10% : representa una muestra que tiende a ser homogénea, los datos o mediciones no son dispersos. 10%< C.V. < 20% : presentan una regular o moderada dispersión. C.V. > 20% : los datos se muestran muy dispersos.
퐶.푉.= 푆 (푥) 푋
26. EJEMPLO:
Rpta: La primera muestra es más homogénea y la dispersión es mínima.
Coeficiente de variación (C.V.)
퐶.푉.= 푆 (푥) 푋
27. Coeficiente de variación (C.V.)
Proporciona los elementos para comparar la variabilidad en distintos conjuntos de datos que pueden tener distintas medias Indica el porcentaje de datos que están alejados de la media aritmética Una desviación estándar de 500 en una distribución con una media de 5000, sugiere una variabilidad mayor que una desviación de 500 en una distribución de media 5000 Generalmente se expresa en porcentaje
퐶.푉.= 푆 (푥) 푋 x 100%
28. Coeficiente de variación (C.V.)
Si C.V. sale 40%, se interpreta como si el 40% de datos está alejado de la media
퐶.푉.= 푆 (푥) 푋 x 100%
El C.V. debe ser < 30% que indica una muestra casi homogénea, entonces poder usar la media y la D.E.
Si el C.V. es > 30% los datos no son homogéneos, entonces usamos la mediana y su medida de dispersión: desviación intercuartílica
29. Los siguientes datos corresponden a 20 lecturas de temperatura (en °F) tomadas en varios puntos de una esterilizadora de calor seco. 415 460 510 475 430 410 425 490 500 470 450 425 485 470 450 455 460 480 475 465
Determine el coeficiente de variación e interprete.
Rpta: 6,07% Los datos son poco dispersos
Resuelva
30. En el área de radiología se han realizado n determinaciones del volumen(cm2) de una sustancia química, los datos se han agrupado en una tabla , donde se conoce la siguiente información:
Calcular la media aritmética, moda, determine e interprete el coeficiente de variación (C.V.)
(Suma de marcas de clase)
Me=43,265 cm2
264
F2=10 f4=7 f6=f1= n-30 F4=25 h3=4/17
Pregunta tipo
31. Estadística Descriptiva
•Organización de datos
•Representación de datos: Tablas y Gráficos
•Medidas de resumen
•Medición de datos numéricos
1.Medidas de posición
2.Medidas de dispersión
3.Medidas de forma
•Medición de datos nominales
1.Proporción
2.Razón
3.Medición epidemiológica
32. 3. MEDIDAS DE FORMA
Son medidas que indican la dirección en la dispersión de los datos respecto a su centro y completan la descripción de las distribuciones de frecuencia. Los principales estadígrafos de forma son:
•ASIMETRÍA
•CURTOSIS
33. ASIMETRÍA
Indica la deformación horizontal de las distribuciones de frecuencia con respecto a la media aritmética. Para una distribución unimodal tenemos tres situaciones:
1. Distribución simétrica, en cuyo caso la media , mediana y moda coinciden y las frecuencias simples para cada punto equidistante de la media son iguales.
34. ASIMETRÍA
2. Distribución asimétrica, es decir, los datos se concentran a uno de los extremos y aparecen con poca frecuencia hacia el otro extremo.
Asimetría negativa
Asimetría positiva
35. ASIMETRÍA
Coeficiente de asimetría (Skp) El coeficiente de asimetría de Pearson sirve como indicador de los grados de asimetría de las distribuciones de frecuencia.
De donde:
Si Skp = 0, la distribución es simétrica
Si Skp <1, la distribución tiene una asimetría leve
Si 1 < Skp < 2, la distribución tiene asimetría moderada
Si Skp > 2, la distribución tiene una asimetría severa.
푆푘푝= 3(푋 −푀푒) 푆
36. ASIMETRÍA
Los siguientes datos corresponden a 20 lecturas de temperatura (en °F) tomadas en varios puntos de una esterilizadora de calor seco. 415 460 510 475 430 410 425 490 500 470 450 425 485 470 450 455 460 480 475 465
Sin agrupar los datos en tablas de frecuencia calcule: los grados de asimetría de las distribuciones de frecuencia e interprete.
EJEMPLO
37. ASIMETRÍA
De la fórmula se desprende la necesidad de calcular la media aritmética, la desviación estándar y la Mediana.
415 460 510 475 430 410 425 490 500 470 450 425 485 470 450 455 460 480 475 465
1.Cálculo de la media
2.Cálculo de la mediana, datos no agrupados en tabla, n=par, ordenación previa
410 415 425 425 430 450 450 455 460 460 465 470 470 475 475 480 485 490 500 510
푆푘푝= 3(푋 −푀푒) 푆
푀푒= 푥푛 2 + 푥푛+1/22
39. CURTOSIS
Es una medida de la deformación vertical de una distribución de frecuencias, es decir, nos indica el apuntalamiento o achatamiento de la curva, la cual está relacionada con la dispersión de datos.
K =
Coeficiente de curtosis
X0,75 – X0,25
2 (X0,90 – X0,10)
1. Distribución platicúrtica: k 1, es decir los datos están ampliamente esparcidos y la curva es aplanada.
40. CURTOSIS
2. Distribución mesocúrtica: k 0,25 esto ocurre cuando los datos tienen una distribución moderada.
3. Distribución leptocúrtica: k 0,5 esto ocurre cuando los datos están agrupados es un intervalo estrecho, es decir tienen una dispersión pequeña.
41. ERROR ESTÁNDAR (E.S)
Llamado también error típico, es una medida de la variabilidad de cada muestra respecto a la media muestral. Es útil para describir la dispersión de los datos cuando se tiene dos o más muestras que comparar. También se le llama desviación estándar de la media o error típico. Para datos cuantitativos se calcula de la siguiente manera:
Donde Sx: desviación estándar n: muestra
퐸.푆.= 푆푥 푛