El diagrama de caja y bigotes (box plot) es una representación visual que describe características estadísticas como la dispersión y simetría de un conjunto de datos. Fue desarrollado por John Tukey en 1977 y utiliza 5 medidas: el valor mínimo, el primer cuartil, la mediana, el tercer cuartil y el valor máximo. Muestra la tendencia central, dispersión y posibles valores atípicos mediante una caja y bigotes.
2. • DIAGRAMA DE CAJA
Los diagramas de Caja-Bigotes (boxplots o box and
whiskers) son una presentación visual que describe varias
características importantes, al mismo tiempo, tales como la
dispersión y simetría.
3. • ORIGEN:
En 1977 John Tukey, publicó un tipo de grafico estadístico
para resumir información utilizando 5 medidas estadísticas:
el valor mínimo, el primer cuartil, la mediana, el tercer
cuartil y el valor máximo.
este tipo de grafico recibe el nombre de grafico de caja.
4. • Es un tipo de grafico estadístico que permite resumir
utilizando 5 medidas estadísticas:
• El valor mínimo
• El primer cuartil
• La media
• El tercer cuartil
• Y el valor máximo
• Además proporciona una idea de la tendencia central de
conjunto de dato, la dispersión de los mismos y la posible
presencia de datos atípicos.
5. • Para su realización se representan los tres cuartiles y los
valores mínimo y máximo de los datos, sobre un
rectángulo, alineado horizontal o verticalmente.
El bigote de la izquierda representa al colectivo de edades
( Xmín, Q1)
La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmáx).
6. • BIGOTES:
Las líneas verticales que sobre salen de la caja el 'bigote' se
extienden, respectivamente, hasta el mínimo y el máximo
del conjunto de datos. Los extremos de los bigotes están
marcados por 2 líneas horizontales cortas.
Los valores, indicados por puntos, respectivamente por de
bajo y por encima de los bigotes inferior y superior se
consideran valores atípicos.
7. • CUARTIL:
Uno de los tres puntos que dividen un conjunto de datos
numéricamente ordenados en cuatro partes iguales. A estos
tres puntos se les llama primer cuartil (también llamado el
cuartil inferior), segundo cuartil (el cuartil medio; es la
mediana) y el tercer cuartil (cuartil superior),
respectivamente. Se pueden utilizar para darnos una idea de
la dispersión de los datos.
8. • Mediana
El número de la mitad en un conjunto de números.
Para encontrar la mediana coloca los números que te han
dado en orden de valor y encuentra el número del medio.
Ejemplo: encuentra la Mediana de {12, 3 y 5}. Ponlos en
orden: {3, 5, 12}, el número del medio es 5, entonces la
mediana es 5.
Si hay dos números en el medio (como pasa cuando hay una
cantidad par de números) se promedian esos dos números.
Ejemplo: encontrar la Mediana de {12, 3, 5 y 2}. Ponlos en
orden: {2, 3, 5, 12}, los números del medio son 3 y 5, el
promedio de 3 y 5 es 4, así que la mediana es 4.
9. • El rango intercuartílico:
• El rango intercuartílico es una medida de variabilidad
adecuada cuando la medida de posición central empleada
ha sido la mediana. Se define como la diferencia entre el
tercer cuartil (Q3) y el primer cuartil (Q1), es decir: RQ =
Q3 - Q1. A la mitad del rango intercuartil se le conoce
como desviación cuartil (DQ): DQ = RQ/2= (Q3 - Q1)/2.
10. • VALORES ATIPICOS:
• Un valor atípico en un conjunto de datos es muy diferente
de los demás valores. Los valores atípicos pueden
producirse debido a errores experimentales o de
medición, o de poblaciones envejecidas. En los primeros
casos, puede ser deseable identificar los valores atípicos y
quitarlos de los datos antes de realizar análisis
estadísticos porque pueden arrojar resultados erróneos, ya
que no representan la muestra de población con exactitud.
11. • Cuantiles
• Los cuantiles son los valores de la distribución que la
dividen en partes iguales, es decir, en intervalos que
comprenden el mismo número de valores. Cuando la
distribución contiene un número alto de intervalos o
de marcas y se requiere obtener un promedio de una parte
de ella, se puede dividir la distribución en cuatro, en diez
o en cien partes.
12. • Los más usados son los cuartiles, cuando dividen la
distribución en cuatro partes; los deciles, cuando dividen
la distribución en diez partes y los centiles o percentiles,
cuando dividen la distribución en cien partes. Los
cuartiles, como los deciles y los percentiles, son en cierta
forma una extensión de la mediana.
13. • CENTILES O PERCENTILES
• Los percentiles son, tal vez, las medidas más utilizadas
para propósitos de ubicación o clasificación de las
personas cuando atienden características tales como peso,
estatura, etc.
• Los percentiles son ciertos números que dividen la
sucesión de datos ordenados en cien partes
porcentualmente iguales. Estos son los 99 valores que
dividen en cien partes iguales el conjunto de datos
ordenados. Los percentiles (P1, P2,... P99), leídos primer
percentil,..., percentil 99.
14. • ASIMETRÍA
• Esta medida nos permite identificar si los datos se
distribuyen de forma uniforme alrededor del punto central
(Media aritmética). La asimetría presenta tres estados
diferentes [Fig.5-1], cada uno de los cuales define de
forma concisa como están distribuidos los datos respecto
al eje de asimetría. Se dice que la asimetría es positiva
cuando la mayoría de los datos se encuentran por encima
del valor de la media aritmética, la curva es Simétrica
cuando se distribuyen aproximadamente la misma
cantidad de valores en ambos lados de la media y se
conoce como asimetría negativa cuando la mayor
cantidad de datos se aglomeran en los valores menores
que la media.
15.
16. • El Coeficiente de asimetría, se representa mediante la
ecuación matemática,
• Donde (g1) representa el coeficiente de asimetría de
Fisher, (Xi) cada uno de los valores, () la media de la
muestra y (ni) la frecuencia de cada valor. Los resultados
de esta ecuación se interpretan:
17. • (g1 = 0): Se acepta que la distribución es Simétrica, es decir,
existe aproximadamente la misma cantidad de valores a los dos
lados de la media. Este valor es difícil de conseguir por lo que
se tiende a tomar los valores que son cercanos ya sean
positivos o negativos (± 0.5).
• (g1 > 0): La curva es asimétricamente positiva por lo que los
valores se tienden a reunir más en la parte izquierda que en la
derecha de la media.
• (g1 < 0): La curva es asimétricamente negativa por lo que los
valores se tienden a reunir más en la parte derecha de la media.
• Desde luego entre mayor sea el número (Positivo o Negativo),
mayor será la distancia que separa la aglomeración de los
valores con respecto a la media.
18. • CURTOSIS
• Esta medida determina el grado de concentración que
presentan los valores en la región central de la
distribución. Por medio del Coeficiente de Curtosis,
podemos identificar si existe una gran concentración de
valores (Leptocúrtica), una concentración normal
(Mesocúrtica) ó una baja concentración (Platicúrtica).
19. • Para calcular el coeficiente de Curtosis se utiliza la ecuación:
• Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los
valores, () la media de la muestra y (ni) la frecuencia de cada valor.
Los resultados de esta fórmula se interpretan:
•
• (g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es
bastante difícil encontrar un coeficiente de Curtosis de cero (0), por lo
que se suelen aceptar los valores cercanos (± 0.5 aprox.).
• (g2 > 0) la distribución es Leptocúrtica
• (g2 < 0) la distribución es Platicúrtica
20. • Es una gráfica que describe características importantes en una,
tanto la dispersión como la simetría.
• La forma más simple de su realización incorpora al gráfico tres
cuartiles: Q 1, Q 2 , Q3 y los valores mínimos y máximos.
• En un gráfico que suministra información sobre los valores
mínimo y máximo, los cuartiles Q1 y Q2 o mediana y Q3 , sobre
la existencia de valores atípicos y la simetría de la distribución.
• Está compuesto por un rectángulo (la caja) y dos brazos(los
bigotes).
Descripción