2. 2
PARÁMETROS Y ESTADÍSTICOS
Parámetro: Es una cantidad numérica calculada
sobre una población. Ejm.:
Rendimiento académico medio de los alumnos de
las universidades de un país.
La idea es resumir toda la información que hay en
la población en unos pocos números (parámetros).
Estadístico: Es una cantidad numérica calculada
sobre una muestra. Ejm.:
El Rendimiento Académico medio de los que
estamos en esta aula.
Somos una muestra (¿representativa?) de la
población. Si un estadístico se usa para aproximar
un parámetro también se le suele llamar
estimador.
Normalmente nos interesa conocer un parámetro, pero por la
dificultad que conlleva estudiar a *TODA* la población,
calculamos un estimador sobre una muestra y “confiamos” en
que sean próximos. Más adelante veremos como elegir muestras
para que el error sea “confiablemente” pequeño.
4. UN BREVÍSIMO RESUMEN SOBRE
ESTADÍSTICOS
Posición
Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
Cuantiles: percentiles, cuartiles, deciles,...
Centralización
Indican valores con respecto a los que los datos parecen
agruparse.
Media, mediana y moda
Dispersión
Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización.
Desviación típica, coeficiente de variación, rango, varianza
Forma
Asimetría
Apuntamiento o curtosis
4
5. 5
MEDIDAS DE TENDENCIA CENTRAL
SON AQUELLAS MEDIDAS QUE NOS INDICAN LA POSICIÓN DE
UN VALOR RESPECTO A LA VARIABLE Y ADEMÁS NOS INDICA
COMO LOS DATOS TIENDEN A AGRUPARSE.
MEDIA ARITMÉTICA (‘mean’).- se representa por: . Es la
media aritmética (promedio) de los valores de una variable.
Suma de los valores dividido por el tamaño muestral.
a)Fórmula para Datos No Agrupados: x1, x2, ..., xn
Ejm: Hallar la Media de los siguientes datos: 2,2, 3, 7 es
(2+2+3+7)/4=3,5
La media aritmética es conveniente cuando los datos se
concentran simétricamente con respecto a ese valor. Muy
sensible a valores extremos. Representa el centro de
gravedad de los datos.
n
x
x
n
i
i∑=
= 1
x
6. 6
B) FÓRMULA PARA DATOS AGRUPADOS: SI ESTÁ EN
INTERVALOS USAR COMO XI LAS MARCAS DE CLASE.
SI NO IGNORAR LA COLUMNA DE INTERVALOS.
Intervalos de clase
Xi
(Variable)
fi Xifi
L0 – L1 x1 f1 X1f1
L1 – L2 x2 f2 X2f2
... … … …
Lk-1 – Lk xk fk Xkfk
TOTAL n
n
fx
x
k
i
ii∑=
= 1
∑=
=
k
i
iihxx
1
La media aritmética también se puede calcular tomando como
ponderaciones a las frecuencias relativas simples (hi);
7. 7
MEDIANA (‘median’).- Se representa por: Me. Es un valor que
divide a las observaciones en dos grupos con el mismo número
de individuos; de tal manera que el 50% de los datos son
menores que el valor mediano y el otro 50% son valores mayores
que la mediana.
a) Fórmulas para Datos No Agrupados:
a.1) Si el número de datos es impar, se elige la media del
dato central y se utiliza la sgte. Fórmula:
Ejm.: Hallar la Mediana de 1, 2, 4,5 ,6 ,6 ,8 es 5
a.2)Si el número de datos es par, se elige la media de los
dos datos centrales y se utiliza la sgte. Fórmula:
Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
La Mediana es conveniente cuando los datos son asimétricos.
No es sensible a valores extremos. Ejemplo:
E jm.: Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!
2
1
valordelPosición
+
=
n
Me
+
= 1
2
;
2
valordelPosición
nn
Me
8. 8
B) FÓRMULAS PARA DATOS AGRUPADOS: CONSIDEREMOS DOS
CASOS:
Caso a: Cuando Fi-1 = n/2; Me = Y’i-1
Caso b: Cuando Fi-1 < n/2;
Caso a: Cuando Fi-1 < n/2; Me = Yi
Caso b: Cuando Fi-1 = n/2;
Variable Discreta
Variable Continua
2
1 ii YY
Me
+
= −
( )A
f
F
n
YMe
i
i
i
−
+=
−1
1-
2´
Donde:
Fi-1 : Frecuencia absoluta acumulada anterior al intervalo ó posición mediana.
Yi : Marca de clase de la posición mediana.
Yi-1 : Marca de clase anterior a la posición mediana.
A : Amplitud del intervalo de clase.
n/2 : Número de datos dividido entre dos.
fi : Frecuencia absoluta simple del intervalo ó posición mediana.
Y’i-1 : Límite Real Inferior del intervalo mediano.
9. 9
PASOS A SEGUIR EN EL CÁLCULO DE LA
MEDIANA: Obtener las frecuencias absolutas acumuladas .
Buscar la mitad de las observaciones, por medio de n/2.
Localizar el resultado anterior (n/2) en la columna de las frecuencias
absolutas acumuladas y denominarle Fi-1 . Si no aparece el valor n/2, al
valor inmediatamente anterior se denomina Fi-1 y al inmediatamente
superior se denomina Fi.
Si Fi-1 es menor que n/2 ó igual que n/2, entonces el valor de la mediana
será igual aplicando las formulas de los casos antes mencionados.
• MODA (‘mode’).- Se representa por: Mo. Es el/los valor/es donde la
distribución de frecuencia alcanza un máximo. También se define como
aquel valor de la variable que presenta la mayor frecuencia (absoluta
simple) ó el valor que más se repite.
La fórmula es: Mo = Yi (igual a la marca de clase de la mayor
frecuencia absoluta simple).
10. 10
Moda en datos agrupados en intervalos de
clase. Para hallar la moda se procede así:
Se determina el intervalo que contiene a la moda
(intervalo de mayor frecuencia)
Se aplica la fórmula:
Mo
= LRI + A ( donde)
21
1
∆+∆
∆
11 −−=∆ ii ff 12 +−=∆ ii ff
y
El valor más frecuente se denomina fi, el valor
inmediatamente anterior fi-1 y el valor
inmediatamente superior en posición fi+1.
11. ESTADÍSTICOS DE POSICIÓN
11
Se define el cuantil de orden α como un valor de la variable por debajo
del cual se encuentra una frecuencia acumulada α.
Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
12. ESTADÍSTICOS DE POSICIÓN
12
Percentil de orden k = cuantil de orden k/100
La mediana es el percentil 50
El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%
Cuartiles: Dividen a la muestra en 4 grupos con
frecuencias similares.
Primer cuartil = Percentil 25 = Cuantil 0,25
Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
Tercer cuartil = Percentil 75 = cuantil 0,75
13. 13
CUARTILES.- DIVIDE A LA MUESTRA EN 4 GRUPOS CON FRECUENCIAS
SIMILARES. SE REPRESENTA POR QI, DONDE I=1,2,3. LA FÓRMULA ES LA
SIGUIENTE:
( )A
f
F
n
i
YQi
i
i
i
−
+=
−1
1-
4
´
DECILES.- Divide a la muestra en 10 grupos con frecuencias similares.
Se representa por Di, donde i=1,2,3,4,5,6,7,8,9. La fórmula es la siguiente:
( )A
f
F
n
i
YDi
i
i
i
−
+=
−1
1-
10
´
PERCENTILES Ó CENTILES.- Divide a la muestra en 100 grupos con
frecuencias similares. Se representa por Pi, donde i=1,2,3,…,99. La fórmula
es la siguiente:
( )A
f
F
n
i
YPi
i
i
i
−
+=
−1
1-
100
´
Q1 Q2 Q3
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
25% 25% 25% 25%
1% 1%1%1%1% …………………………. 1%
D1 D2 D3 D4 D5 D6 D7 D8 D9
P1 P2 P3 P4 P5 …. P50 ……… P99
14. 14
EJEMPLOS
El 5% de los recién nacidos tiene un peso demasiado
bajo. ¿Qué peso se considera “demasiado bajo”?
Percentil 5
Percentil 5 del peso
Peso al nacer (Kg) de 100 niños
frecuencia
1 2 3 4 5
0510152025
16. 16
EJEMPLO CON VARIABLE EN INTERVALOS
Peso M.
Clas
e
fre
c
Fr.
acu
m.
40 – 50 45 5 5
50 – 60 55 10 15
60 – 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 -
100
95 3 55
100 –
130
115 3 58
En el histograma se identifica “unidad de área” con “individuo”.
Para calcular la media es necesario elegir un punto representante del intervalo: La marca de clase.
La media se desplaza hacia los valores extremos. No coincide con la mediana. Es un punto donde el histograma “estaría
en equilibrio” si tuviese masa.
17. 17
EJEMPLO (CONTINUACIÓN)
Peso M. Clase fi Fi
40 – 50 45 5 5
50 – 60 55 10 15
60 – 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 – 130 115 3 58
58
( ) 8,76)10(
11
365,43
7010
11
36
100
58
75
70)(
100
´
1
175 =
−
+=
−
+=
−
+=
−
− A
f
F
n
i
YP
i
i
i
3,69
58
)3(115)10(55)5(45
=
+++
==
∑
n
fx
x i ii
( ) 6,6610
21
1529
60)10(
21
15
2
58
60
)(2´
1
1
=
−
+=
−
+=
−
+=
−
− A
f
F
n
YMediana
i
i
i
18. 18
MEDIDAS DE DISPERSIÓN
Miden el grado de dispersión (variabilidad) de los
datos, independientemente de su causa.
Amplitud o Rango (‘range’):
Diferencia entre observaciónes extremas.
2,1,4,3,8,4. El rango es 8-1=7
Es muy sensible a los valores extremos.
Rango intercuartílico (‘interquartile range’):
Es la distancia entre primer y tercer cuartil.
Rango intercuartílico = P75 - P25
Parecida al rango, pero eliminando las observaciones
más extremas inferiores y superiores.
No es tan sensible a valores extremos.
150 160 170 180 190
0.000.010.020.030.040.05
150 160 170 180 190
25% 25% 25% 25%
Mín. P25 P50 P75 Máx.
Rango intercuartílico
Rango
19. 19
Varianza S2
(‘Variance’): Mide el promedio de las desviaciones (al
cuadrado) de las observaciones con respecto a la media.
Es sensible a valores extremos (alejados de la media).
Sus unidades son el cuadrado de las de la variable. De interpretación difícil
para un principiante.
La expresión es fea, pero de gran belleza ‘natural’ (físicamente). Contiene la
información geométrica relevante en muchas situaciones donde la energía
interna de un sistema depende de la posición de sus partículas.
Energía de rotación (vía el coeficiente de inercia): patinadores con
brazos extendidos (dispersos) o recogidos (poco dispersos)
Energía elástica: Muelles ‘estirados’ con respecto a su posición de
equilibrio (dispersos) frente a muelles en posición cercana a su
posición de equilibrio (poco dispersos)
} agrupadosNoDatosxx
n
S
i
i )(
1 22
∑ −=
} agrupadosDatos)(
1
1 22
i
i
i fxx
n
S ∑ −
−
=
20. 20
Desviación típica (‘standard
deviation’)
Es la raíz cuadrada de la
varianza
Tiene las misma dimensionalidad
(unidades) que la variable.
Versión ‘estética’ de la varianza.
Cierta distribución que veremos
más adelante (normal o
gaussiana) quedará
completamente determinada por
la media y la desviación típica.
A una distancia de una desv. típica
de la media hay más de la ‘más de la
mitad’.
A una distancia de dos desv. típica de
la media las tendremos casi todas.
2
SS =
20Estadística U.N.C.
Peso recién nacidos en partos gemelares
3.300
2.900
2.500
2.100
1.700
1.300
900
500
50
40
30
20
10
0
Desv. típ. = 568,43
Media = 2023
N = 407,00
21. 21
Coeficiente de variación
Es la razón entre la desviación típica y la media.
Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media”
También se la denomina variabilidad relativa.
Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviación típica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa).
Es una cantidad adimensional. Interesante para comparar
la variabilidad de diferentes variables.
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan más dispersión en peso que en altura.
No debe usarse cuando la variable presenta valores negativos
o donde el valor 0 sea una cantidad fijada arbitrariamente
Por ejemplo 0ºC ≠ 0ºF
Esta Medida de Dispersión es útil para comparar la
dispersión entre dos o más distribuciones de variables con
diferentes unidades de medida.
( )%100
x
S
CV =
21Estadística U.N.C.
22. 22
MEDIDAS DE FORMA
Asimetría o Sesgo:
Se utilizan para medir el grado de deformación de una
distribución de frecuencias tomando como referencia la
Distribución Normal.
En las distribuciones SIMÉTRICAS media y mediana
coinciden. Si sólo hay una moda también coincide.
M(x)=Me=Mo y As=O
La asimetría es positiva o negativa en función de a qué
lado se encuentra la cola de la distribución.
Distrib. Asimétrica positiva: M(x)>Me>Mo y As > O
Distrib. Asimétrica Negativa: M(x)<Me<Mo y As < O
La media tiende a desplazarse hacia las valores extremos
(colas).
Las discrepancias entre las medidas de centralización
son indicación de asimetría.
Las fórmulas del Coeficiente de Asimetría (As) son:
22
( )
s
Mex
As
s
Mox
As
−
=
−
=
3
23. 23
APUNTAMIENTO O KURTOSIS
La kurtosis nos indica el grado de apuntamiento
(aplastamiento) o levantamiento de una distribución con
respecto a la distribución normal o gaussiana. Es
adimensional.
Platicúrtica (aplanada): curtosis < 3
Mesocúrtica (como la normal): curtosis = 3
Leptocúrtica (apuntada): curtosis > 3
Apuntada como la normal
-3 -2 -1 0 1 2 3
0.00.10.20.3
-3 -2 -1 0 1 2 3
x± s
68 %
Aplanada
0.0 0.2 0.4 0.6 0.8 1.0
0.00.51.01.52.0
0.0 0.2 0.4 0.6 0.8 1.0
x± s
57 %
Apuntada
-2 -1 0 1 2
0.00.20.40.60.8
-2 -1 0 1 2
x± s
82 %
23
En el curso serán
de especial interés
las mesocúrticas y
simétricas
(parecidas a la
normal).
( ) ( )
( ) ( )
n
fxx
n
fxx
k
i
ii
k
i
ii
smm
s
m
m
m
K
∑
==
∑
=
==
=
−
=
−
1
2
1
4
2
24
22
4
2
2
4
y
:Donde;
24. ¿QUÉ HEMOS VISTO?
Parámetros
Estadísticos y estimadores
Clasificación
Posición (cuantiles, percentiles,...)
Diagramas de cajas
Medidas de centralización: Media, mediana y moda
Diferenciar sus propiedades.
Medidas de dispersión
con unidades: rango, rango intercuartílico, varianza, desv.
típica
sin unidades: coeficiente de variación
¿Qué usamos para comparar dispersión de dos poblaciones?
Asimetría
positiva
negativa
¿Podemos observar asimetría sin mirar la gráfica?
¿Cómo me gustan los datos?
Medidas de apuntamiento (curtosis)
¿Cómo me gustan los datos?
24