1. Estadística
Una forma de adquirir conocimiento
Prof. EEC Angel Luis
Vicentín
Conceptos básicos
• Población: conjunto completo de individuos, objetos o datos
que el investigador está interesado en estudiar.
– Muestra: Subconjunto de la población.
• Variable: Cualquier propiedad o característica de algún evento,
objeto o persona, que puede tener diversos valores en
diferentes instantes según las condiciones.
– Independiente: es aquella que es controlada por el
investigador.
– Dependiente: es la que mide el observador. Mide el efecto
que la variable independiente ejerce sobre ésta.
• Dato: es el resultado de la medición hecha sobre un evento o
fenómeno.
• Estadístico: valor calculado a partir de los datos de una
muestra.
• Parámetro: valor calculado a partir de los datos de una
Prof. EEC Angel Luis Vicentín
población.
2. Estadística Descriptiva:
Estudia las técnicas que utilizan los datos
muestras obtenidos para hacer inferencias
sobre poblaciones.
Estadística Inferencial:
Involucra las técnicas que se emplean para
obtener datos muestrales y, a partir de ellas, hacer
inferencias sobre sus respectivas poblaciones
Las Técnicas Estadísticas son importantes tanto
para los estudios observacionales, como los
experimentos reales
Prof. EEC Angel Luis Vicentín
Escalas
• Nominales: Asigna nombres a los distintos
valores que asume una variable.
• Ordinales: Asigna un orden a los distintos
valores de la variable.
• De Intervalos: Asigna un número. Escalas
numéricas sin cero absoluto.
• De proporción: Asigna un número. Escala
numérica con cero absoluto.
Prof. EEC Angel Luis Vicentín
3. Variables
• Continua: es aquella que, en teoría, puede
asumir un número infinito de valores entre
unidades adyacentes de una escala.
• Discreta: es aquella para la cual no existen
valores posibles entre las unidades
adyacentes de una escala.
• Deterministica: es aquella cuyo valor está
fijado por el comportamiento de otra.
• Aleatoria: es aquella cuyo valor no puede
ser determinado por el comportamiento de
otra. Prof. EEC Angel Luis Vicentín
Distribución de Frecuencias
• Es una tabla donde se presenta los valores
de los datos y su frecuencia de aparición.
– Ej: Notas de los Notas Frecuencia
10 1
alumnos de Lic.en
9 2
Ed. Física: 8 3
7 4
6 5
5 6
4 7
3 8
2 9
Prof. EEC Angel Luis Vicentín
1 10
4. Distribución de Frecuencias
• Sin Agrupamientos: por la cantidad de
mediciones no se justifica agrupar las
frecuencias.
• Agrupadas: se agrupan los datos por
intervalos de clases. Ej: los grupos
etáreos.
– Rango = Dato máximo – Dato mínimo
– Amplitud de intervalo = Rango
Cantidad de intervalos
Prof. EEC Angel Luis Vicentín
Frecuencias agrupadas
Para construir una tabla de Frecuencias
agrupadas procedemos:
1. Determinar el Rango de los datos.
2. Determinar la Amplitud de cada intervalo.
3. Enumerar los límites de cada intervalo de
clase, colocando el intervalo que contiene al
dato mínimo en la parte inferior.
4. Contar los datos en bruto en los intervalos de
clase adecuados
5. Sumar las cuentas de cada intervalo para
hallar las frecuencias de cada intervalos
Prof. EEC Angel Luis Vicentín
5. Frecuencias AGrupadas
Supongamos que un
grupo de 70 alumnos
fueron evaluados
con un examen. La
escala de las notas
van de 0 a 100. Se
obtuvieron 70 notas
cuyo valor máximo
fue de 99 y el
mínimo de 46 Por lo
tanto el rango de
datos es:
Rango =99-46 = 53
y la amplitud del
intervalo es:
53
I = ---------------- = 5.3
10
Que se redondea a
5. Prof. EEC Angel Luis Vicentín
Distribución de Frecuencias
• Distribución de Frecuencias Relativas indica la
proporción del número total de datos que
aparecen en cada intervalo.
• Distribución de Frecuencias Acumuladas indica
el número de datos que caen por debajo del
límite real superior de cada intervalo.
• Distribución de porcentajes acumulados indica
el porcentaje de datos que caen por debajo del
límite real superior de cada intervalo
• Punto percentil: es el valor sobre la escala de
medida, debajo del cual cae un porcentaje dado
de los datos en la distribución.
Prof. EEC Angel Luis Vicentín
6. Calculo de Percentiles
Los percentiles, entregan la idea de "posición" de los
datos, es decir, avisan a partir de qué observación o
intervalo de clase se ha acumulado un determinado
porcentaje de observaciones. Cuando hablemos de
percentil de orden k, significa que debemos identificar
una observación (caso discreto) o un intervalo de
clase (caso continuo) de tal manera que la frecuencia
asociada a ese valor lleva acumulado el k% de las
observaciones.
Por ejemplo:
• Me interesa saber, cuál fue la nota que el 50 % (o el
30% o el 75%) de los alumnos la superó ( o no la
superó)? Prof. EEC Angel Luis Vicentín
Intervalo de f fr fA fA %
Clase
95 – 99 4 0.06 70 100.00
90 – 94 6 0.09 66 94.29
85 – 89 7 0.10 60 85.71
80 – 84 10 0.14 53 75.71 Acá está 75º punto percentil
75 – 79 16 0.14 43 61.43 Acá está el 50º punto percentil
70 – 74 9 0.23 27 38.57
65 – 69 7 0.13 18 25.71 Acá está el 25º punto percentil
60 – 64 4 0.10 11 15.71
55 – 59 4 0.06 7 10.00
50 – 54 2 0.03 3 4.29
45 – 49 1 0.01 1 1.43
N= 70 1.00
Prof. EEC Angel Luis Vicentín
7. Pk = XL + (i/fi) (fP acumulada – fL acumulada)
Pk :Punto k-esimo percentil
XL :Valor del límite real inferior del intervalo que
contiene el punto percentil.
i : Amplitud del Intervalo.
fi : Frecuencia del Intervalo que contiene el punto
percentil.
fP acumulada: frecuencia de datos que están por
debajo del punto percentil.
fL acumulada: frecuencia de datos que está por
debajo del límite real del intervalo que contiene al
punto percentil.
Punto percentil 50 P50 = 77,00
Prof. EEC Angel Luis Vicentín
Rangos Percentiles
• Es el porcentaje de datos con valores
menores que el del dato en cuestión.
• Es el valor “opuesto” al punto percentil,
ahora sabemos el punto percentil y debemos
calcular el porcentaje de datos que están por
debajo de él. Ej: cuántos alumnos sacaron
menos de 75 puntos?
Prof. EEC Angel Luis Vicentín
8. Cálculo de Rangos Percentiles
fL acumulada + (fi /i) ( X – XL )
• Rango Percentil = ----------------------------------------------------- x 100
N
• fL acumulada: frecuencia de datos que está por debajo del límite
real del intervalo que contiene al punto percentil.
• XL :Valor del límite real inferior del intervalo que contiene el punto
percentil.
• i : Amplitud del Intervalo.
• fi : Frecuencia del Intervalo que contiene el punto percentil.
• fP acumulada: frecuencia de datos que están por debajo del punto
percentil.
• Rango percentil de 86 = 78,71
Prof. EEC Angel Luis Vicentín
Gráficos de las distribuciones de frecuencias
• Una gráfica cartesiana tiene 2 ejes en ángulo
recto. Eje X (horizontal, abscisas), eje Y
(vertical, ordenadas).
• Cada eje tiene una unidad de medida.
• En el eje X se localizan los datos y en el otro
eje la característica que se quiere medir.
• Tener en cuenta la escala con que se miden
los datos.
• Cada eje tiene un rótulo que indica qué se
mide y con qué escala. Título.
Prof. EEC Angel Luis Vicentín
9. Gráficos de Barras
• Usualmente para escalas nominales
Prof. EEC Angel Luis Vicentín
El Histograma
Es un caso de gráfico de barras, utilizado para
representar datos agrupados y/o en escala
de proporciones. Los intervalos se
representan en el eje X. Cada barra
representa la frecuencia de un intervalo.
Se marca el
punto medio
de cada
barra, luego
se unen los
puntos y se
extiende un
“intervalo”
contiguo con
frecuencia 0.
Prof. EEC Angel Luis Vicentín
10. Curva de Frecuencias
• Las distribuciones de frecuencias
acumuladas absolutas y de porcentajes
también se pueden graficar.
Prof. EEC Angel Luis Vicentín
Formas
Prof. EEC Angel Luis Vicentín
11. Diagrama de tallos y hojas
• Son alternativas sencillas de histogramas.
95 57 76 93 86 80 89
76 76 63 74 94 96 77
65 79 60 56 72 82 70 Diagrama de Tallo y Hojas
67 79 71 77 52 76 68
4 6
72 88 84 70 83 93 76
5 2 4 6 6 7 8
82 96 87 69 89 77 81
87 65 77 72 56 78 78 6 0 2 3 3 5 5 6 7 7 8 9
58 54 82 82 66 73 79
7 0 0 1 2 2 2 3 4 4 5 6 6 6 6 6 6 7 7 7 7 8 8 9 9 9
86 81 63 46 62 99 93
82 92 75 76 90 74 67 8 0 1 1 2 2 2 2 2 3 4 6 6 7 7 8 9 9
9 0 2 3 3 3 4 5 6 6 9
Prof. EEC Angel Luis Vicentín
Medidas de Tendencia central
• Son medidas que permiten describir el
comportamiento de una distribución. Se
llaman así porque determinan valores
centrales de la distribución. Sirven para
cuantificar y comparar distribuciones de
frecuencias.
• La Media Aritmética ( promedio ) X
• La Mediana (P50) Me
• La Moda Mo
Prof. EEC Angel Luis Vicentín
12. La Media Aritmética
• Es la suma de los datos dividido la
cantidad de datos.
X = Σ xi = x1 + x2+ …+ xn
N N
μ: en el caso de población.
Prof. EEC Angel Luis Vicentín
Propiedades de la media aritmética
• La media es sensible al valor exacto de TODOS
los datos de la distribución.
• La suma de las desviaciones con respecto a la
Media es 0. Σ (xi – X) = 0. La media es el punto
de equilibro de la distribución.
• La Media es muy sensible a los datos extremos.
• La suma de los cuadrados de las desviaciones
de todos los datos con respecto a su media es
mínima. Σ (xi – X)2
• De todas las MTC la Media es la que menos
sujeta está a la variación debido al muestreo.
Prof. EEC Angel Luis Vicentín
13. La Media Global
• La media de varios grupos de datos es igual a
la suma del producto entre la cantidad de datos
de cada grupo por la media de ese grupo
dividido la suma de las cantidades.
X global = Σ ni Xi
Σ ni
X global = n1 X1 + n2X2 +…+ntXt
n1+n2+…..+nt
Prof. EEC Angel Luis Vicentín
La Mediana
• Me o Mdn
• Es el valor de la escala debajo del cual está
el 50 % de los datos. Es igual a P50
• La mediana es el dato central, si el número
de datos es impar.
• Si el número de datos es par, la Me me
considera el promedio de los datos
centrales.
Prof. EEC Angel Luis Vicentín
14. Propiedades de la mediana
• La Me es menos sensible que la Media a los
datos extremos.
Datos Media Mediana
3,4,6,7,10 6 6
3,4,6,7,100 24 6
3,4,6,7,1000 204 6
• La Me está mas sujeta a la variabilidad de la
muestra que la Media. La Me es menos
estable que la Media, de una muestra a otra
por lo tanto no es tan útil para la estadística
inferencial. Prof. EEC Angel Luis Vicentín
La Moda
• Es el dato mas frecuente. Mo.
• Se halla observando los datos. En datos
agrupados es el punto medio del intervalo
que contiene la mayor frecuencia.
• Distribuciones unimodales: tienen una sola
Mo.
• Distribuciones bi o polimodales: tienen dos o
mas Mo.
• Es la menos usada de las MTC, ya que es la
menos estable de una distribución a otra.
Prof. EEC Angel Luis Vicentín
15. MTC y simetría
Me =Mo = X Mo Me X
X Prof. EEC Angel Luis Vicentín
Mo Me
Medidas de Variabilidad
• La variabilidad tiene que ver con qué tan
alejados están los datos de la Media.
• Cuantifican la extensión de la dispersión
de los datos respecto a la Media.
• Existen tres medidas mas usadas:
– El Rango
– La Desviación Estándar
– La Varianza
16. El Rango
• Se define como la diferencia entre el dato
máximo y el dato mínimo de una
distribución.
• Es fácil de calcular.
• Proporciona una medida, relativamente
inexacta de la dispersión, porque solo
mide la dispersión de los datos extremos y
no de los intermedios.
• Es sensible a los datos extremos.
La Desviación Estándar
• El Puntaje de Desviación nos permite saber qué
tan lejos está un dato en bruto con respecto a la
Media de la distribución.
• Es la diferencia (resta) entre cada valor y su
Media.
• La suma de los puntajes de desviación es igual a
0.
• Se aplica la siguiente fórmula:
S= Σ (xi – X)2
N-1
17. Cálculo de la Desviación Estándar
x x - X (x – X)2
2 -4 16 Σ (xi – X)2
4 -2 4 S=
N–1
6 0 0 40
8 2 4 S= = 3,16
4
10 4 16
0 40
La Varianza
• Es el cuadrado del Medida Muestra Población
desvío estándar. S2
• Es utiliza en la
estadística
Media
Aritmética X μ
inferencial.
Desviación
estándar s σ
• Tener en cuenta:
σ2
Varianza
s2
La Curva Normal
• Es una curva teórica de los datos de una
población en forma de campana.
N
2 2
Y= e –(x-μ) /2σ
2πσ 45
40
35
30
25
20
15
10
5
0
0 2 4 6
18. Correlación
• Se usa para comparar si los datos de una
distribución se relacionan con las de otras.
• Si dos variables están relacionadas, una
podría ser causa de la otra.
• La correlación se ocupa principalmente,
de establecer si existe una relación, así
como determinar su magnitud y dirección.
• La regresión lineal se encarga,
principalmente, de efectuar predicciones.
• Sirve para determinar la confiabilidad de
un test.
Relaciones
• Una gráfica de dispersión es una gráfica de parejas de
valores de X y valores de Y.
• Una relación lineal entre dos variables es aquella que
puede representarse con la mejor exactitud posible
mediante una línea recta.
Salto en largo
Alumnos Altura Salto en largo 5
1 1,65 3,97 4,8
4,6
Marca de Salto
2 1,70 3,85 4,4
3 1,75 4,01 4,2
4
4 1,80 4,21 3,8
5 1,85 4,18 3,6
3,4
6 1,90 4,22 3,2
3
1,6 1,65 1,7 1,75 1,8 1,85 1,9 1,95
Altura
19. Relaciones
• Relación Positiva: indica que existe una
relación directa ( X aumenta, Y también)
entre las variables.
• Relación Negativa: indica que hay una
relación inversa ( X aumenta, Y disminuye),
entre las variables.
• Relaciones Perfectas: todos los puntos
caen sobre la recta.
• Relaciones imperfectas: no todos los
puntos caen sobre la recta.
• Es mas común este tipo de relaciones.
Correlación
• Trata la dirección y el grado de la relación.
• El grado puede ser: desde perfecto a no
existir relación
• La dirección podrá ser positiva o negativa.
• Coeficiente de Correlación lineal r de
Pearson.
• r cerca de -1 entonces relación negativa perfecta
• r cerca de 0 entonces no existe relación
• r cerca de +1 entonces existe relación positiva
20. Coeficiente r de Pearson
Σ xy – Σx Σ y
N
r=
(Σx)2 (Σy)2
Σ x2- Σ y2-
N N
• También permite expresar la variabilidad
de Y explicada por medio de X.
( valores reales vs. Valores obtenidos por la relación )
• Yi – Y = ( Yi – Y’ ) + (Y’ – Y )
Desviación de Yi Error en la Desviación de Yi
predicción que explicada mediante la
utiliza la relación relación entre X e Y
entre X e Y
• Σ(Y – Y)
i
2 = Σ ( Y – Y’ )
i
2 + Σ (Y’ – Y ) 2
Variabilidad Variabilidad total Variabilidad
total de Y de los errores de de Y por el
predicción efecto de X
Σ (Y’ – Y ) 2 proporción de la
• r= variable Y
Σ(Y – Y) i
2 explicada por X
21. Coeficiente r2
• Es el coeficiente de determinación
• r2 = es igual a la proporción de la
variabilidad total de Y de la que da cuenta,
o es explicada por X.
• El coeficiente r y r2 pueden utilizarse en
escala de proporción.
• Existen otros coeficientes de correlación
que se pueden aplicar en otras escalas.
Interpretación de la Correlación
• Que haya correlación entre 2 variables
puede darse porque:
– La correlación entre X e Y sea espuria
• Mala toma de datos
• Errores de cálculo
• Datos no representativos
– Que X es la causa de Y
– Que Y es la causa de X
– Que haya otra variable que cause la
correlación entre X e Y.
22. Regresión Lineal
• Analiza la relación entre 2 o mas variables para
determinar una predicción.
• La Correlación mide la magnitud y la dirección de
la relación.
• La Regresión Lineal determina cómo se predice
el comportamiento, sobre todo cuando la relación
no es perfecta.
• Método de los mínimos cuadrados: es la línea de
predicción que hace mínima las diferencia entre
los valores observados y los obtenidos de la
relación
Construcción de la recta de regresión por
mínimos cuadrados
La ecuación de la línea de regresión por
mínimos cuadrados está dada por:
Y’ es el valor predicho o estimado de Y
bY es la pendiente de la recta que
Y’ = bY X+ aY minimiza los errores de predicción de Y.
aY es la ordenada al origen de la recta que
minimiza los errores de predicción de Y.
Σ XY – (ΣX) (ΣY)
N
bY = aY= Y – bY X
ΣX2 – (ΣX)2
N
23. Regresión de X sobre Y
• Y’ = bY X+ aY significa que los valores de Y
se “predicen” a partir de los valores de X.
• También se puede hacer lo opuesto, es
decir predecir X a partir de valores
observados de Y.
• X’ = bx Y+ ax X’ es el valor predicho o estimado de X
bx es la pendiente de la recta que
minimiza los errores de predicción de X.
ax es la ordenada al origen de la recta que
minimiza los errores de predicción de Y.
Σ XY – (ΣX) (ΣY)
N
bY =
ΣY2 – (ΣY)2
N
a x= X – b Y Y
Error Estándar de la Estimación
• Siempre hay errores en la predicción.
• Es útil conocer ese error.
• El error estándar de la estimación nos da la
medida de la desviación promedio de los errores
de predicción en torno a la línea de regresión.
Σ(Y – Y’)2
• S nx =
N-2