1. "Estadística: es el estudio de los
métodos y Procedimientos para
recoger, clasificar, resumir y
analizar datos y para hacer
inferencias científicas partiendo de
tales datos".
La Estadística actúa como
disciplina puente entre los
modelos matemáticos y los
fenómenos reales
La Estadística proporciona
una metodología para
evaluar y juzgar estas
discrepancias entre la
realidad y la teoría.
ESTADÍSTICA DESCRIPTIVA
2. TIPOS DE ESTADÍSTICA
ESTADÍSTICA DESCRIPTIVA:
procedimientos empleados para
organizar y resumir conjuntos de
observaciones en forma cuantitativa. El
resumen de los puede hacerse
mediante tablas, gráficos o valores
numéricos.
ESTADÍSTICA INFERENCIAL: métodos
empleados para inferir algo acerca de
una población basándose en los datos
obtenidos a partir de una muestra.
ESTADÍSTICA DESCRIPTIVA
3. LEVAMIENTO DE LA INFORMACIÓN: mediante
técnicas que permitan luego aplicar criterios para
codificar esos datos. Entrevistas, Observación de
actividades, Técnicas Audiovisuales, Cuestionarios
(Encuestas), Inspección, Simulación
ETAPAS DE UN ESTUDIO ESTADÍSTICO
PRESENTACIÓN DE LOS DATOS: los cuales deben
expresarse de forma que su lectura sea sencilla.
Existen 3 formas de presentación: con palabras
–para pocos datos-, mediante tablas
estadísticas y mediante gráficos estadísticos.
INFERENCIA ESTADÍSTICA: en los
casos en los que se trabaja con
muestras.
INTERPRETACIÓN: explicar el
sentido de todos los datos
obtenidos.
PLANTEAMIENTO DEL PROBLEMA:
definir objetivo de la investigación y
precisar el universo o población de la
misma y planear los métodos por los
que se recogerán los datos.
ESTADÍSTICA DESCRIPTIVA
4. CONCEPTOS DE POBLACIÓN Y MUESTRA
Población: Es el conjunto de todos los elementos que cumplen ciertas propiedades
y entre los cuales se desea estudiar un determinado fenómeno (pueden ser
hogares, número de tornillos producidos por una fábrica en un año, lanzamientos
de una moneda, etc. ). Llamamos población estadística o universo al conjunto de
referencia sobre el cual van a recaer las observaciones.
Muestra: es el subconjunto de la población
que es estudiado y a partir de la cual se
sacan conclusiones sobre las características
de la población. La muestra debe ser
representativa, en el sentido de que las
conclusiones obtenidas deben servir para el
total de la población.
ESTADÍSTICA DESCRIPTIVA
5. NIVELES Y ESCALA DE MEDICIÓN
Medición : En general, se entiende por medición la asignación de números a
elementos u objetos para representar o cuantificar una propiedad. El
problema básico está dado por la asignación un numeral que represente la
magnitud de la característica que queremos medir y que dicho números
pueden analizarse por manipulaciones de acuerdo a ciertas reglas.
Nominal: hace referencia a datos
que sólo pueden clasificarse en
categorías; existen sólo conteos;
no existe orden particular para los
grupos. Ejemplo: color de ojos.
puede considerarse la escala de
nivel más bajo
ESTADÍSTICA DESCRIPTIVA
6. Ordinal: corresponde a aquellos datos que se pueden agrupar en categorías y
“ordenarlas” según algún tipo de gradación. Ejemplo; nivel de dolor, nivel de
preferencia. Totalmente de acuerdo
De acuerdo
Indiferente
En desacuerdo
Totalmente en desacuerdo
De Intervalo: tiene las características de las mediciones
Nominales y Ordinales y además una unidad numérica de
medición definida( No existe el cero absoluto) nos indica que tan
largo , que tan caliente , que tan cansado incluye todas las
características de la escala ordinal, pero además la distancia
entre valores es constante pues los valores que toma este tipo de
variables corresponde al orden de los números naturales.
Ejemplo: número de hijos Esta es la primera verdaderamente
cuantitativa y a los caracteres que posean esta escala de medida
pueden calculársele todas las medidas estadísticas a excepción
del coeficiente de variación.
NIVELES Y ESCALA DE MEDICIÓN
ESTADÍSTICA DESCRIPTIVA
7. NIVELES Y ESCALA DE MEDICIÓN
De Razón : El nivel de medida más elevado, (Cantidad de una observación
respecto a otra) tiene las características de la escala de intervalo, pero se agrega
un punto cero absoluto tal que significa ausencia del atributo y la razón o
cociente de dos números es significativo pudiéndose aplicarles todo tipo de
instrumental matemático.
ESTADÍSTICA DESCRIPTIVA
Ejemplo: En una encuesta
realizada en un barrio de
esta localidad se observó que
hay familias que no tienen
hijos, otras tienen 6 hijos que
es exactamente el doble de
hijos que aquellas que tienen
3 hijos
8. NIVELES Y ESCALA DE MEDICIÓN
No todos los procedimientos estadísticos son realmente útiles para la totalidad de los niveles de
medida. Cada uno de los tipos de medida posee ciertas características, las cuales debemos tener en
cuenta en el momento de realizar un análisis descriptivo. En la tabla encontrarás algunos de los
procedimientos que resultan ventajosos en los análisis descriptivos de los diferentes niveles de
medida. Es necesario aclarar que esta tabla es sólo una muestra de las medidas que se pueden
emplear; en algunos textos de estadística aparecen tablas más amplias y detalladas de los
procedimientos.
ANÁLISIS DESCRIPTIVO DE ACUERDO AL NIVEL DE MEDIDA :
ESTADÍSTICA DESCRIPTIVA
Escala de
medida
frecuencia Medidas de
posición
Medidas de
dispersión
Medida de
distribución
Gráficos
Nominal Si Moda No No Sectores y
Barras
Ordinal Si Moda No No Sectores
Barras y Áreas
Escala
No Media
Mediana
Moda
Si Si Histograma
Área
Dispersión
9. Sexo, ciudad, situación
laboral, religión, etc.
Clase social, nivel educativo,
escalas de actitud, etc.
Fecha del calendario,
factoriales, test, etc.
Nº de hijos, ingresos,
antigüedad, edad, etc.
Nominal
Ordinal
Intervalo
Razón
NIVELES Y ESCALA DE MEDICIÓN
ESTADÍSTICA DESCRIPTIVA
10. Variable: característica de la muestra o población que se está estudiando. Los datos
son el producto de su medición sobre los elementos o sujetos estudiados
Tipos de Variables
Variables Cualitativas: Son las variables
que expresan distintas cualidades,
características o modalidad. Cada
modalidad que se presenta se denomina
atributo o categoría y la medición consiste
en una clasificación de dichos atributos Las
variables cualitativas pueden ser
dicotómicas (Solo dos valores) politómicas
(tres o más valores).
Cualitativa Nominal: En esta variable
los valores no pueden ser sometidos a
un criterio de orden como por ejemplo
los colores o el lugar de residencia. (no
admiten puntuaciones numéricas
ordenadas significativamente)
Cualitativa Ordinal: La variable
puede tomar distintos Valores
ordenados siguiendo una escala
establecida, aunque no es necesario
que el intervalo entre mediciones sea
uniforme, por ejemplo, leve,
moderado, grave
ESTADÍSTICA DESCRIPTIVA
TIPOS DE VARIABLES ESTADÍSTICAS
11. TIPOS DE VARIABLES ESTADÍSTICAS
Variable Discreta: Es la
variable que presenta
separaciones o interrupciones en
la escala de valores que puede
tomar. Estas separaciones o
interrupciones indican la ausencia
de valores entre los distintos
valores específicos que la variable
pueda asumir. Un ejemplo
población mundial.
Variable continua: Es la
variable que puede adquirir
cualquier valor dentro de un
intervalo especificado de valores.
Por ejemplo el peso o la altura, que
solamente está limitado por la
precisión del aparato medidor, en
teoría permiten que siempre existe
un valor entre dos cualesquiera.
Variables cuantitativas: Son las
variables que se expresan
mediante cantidades numéricas.
Las variables cuantitativas
además pueden ser:
ESTADÍSTICA DESCRIPTIVA
12. PROBLEMA
Variables Independientes
Acciones
Variables Dependientes
Reacción
FORMULACION
Planteamiento
TIPOS DE VARIABLES ESTADÍSTICAS
Según la influencia
que asignemos a unas
variables sobre otras,
podrán ser:
Variables Dependientes: son las de
respuesta que se observan en la
investigación, a partir de las cuales se
obtendrán las conclusiones validas del
estudio. Estarán condicionadas por los
valores que adopte la variable
independiente.
Variables Independientes: son las que el
investigador controla y servirán para establecer
agrupaciones en una investigación también son
aquellas que identifican intrínsecamente a los
sujetos (edad, sexo,...)
ESTADÍSTICA DESCRIPTIVA
13. DISTRIBUCIÓN DE FRECUENCIA para
DATOS NO AGRUPADOS
ESTADÍSTICA DESCRIPTIVA
Una de los primeros pasos que se realizan en cualquier estudio estadístico es
la tabulación de resultados, es decir, recoger la información de la muestra
resumida en una tabla, que denominaremos DISTRIBUCIÓN DE FRECUENCIAS,
en la que cada valor de la variable o clase se le asocian el número de veces que
ha aparecido, su proporción con respecto a otros valores de la variable, etc. En
caso de que las variables estén al menos en escala ordinal aparecen
opcionalmente las frecuencias acumuladas absolutas y acumuladas
porcentuales.
Variables o
clases
Frecuencia
(F)
Frecuencia
Relativa
(Fr%)
Frecuencia
Acumulada
(Fa )
Frecuencia
Relativa
Acumulada
(Fra%)
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS,
14. Definiremos como frecuencia de un dato el número de veces que este aparece en el colectivo.
Siendo N la suma de las respectivas frecuencias de cada dato (N=ΣXi). Este N será denominado
como frecuencia total. A efectos prácticos, asumiremos las siguientes definiciones de
frecuencias:
a) frecuencias Absolutas : es el número de veces que aparece dicho valor de la variable y se
representa por F.
b) frecuencias Relativas: es el cociente entre la frecuencia absoluta y el tamaño de la
muestra. La denotaremos por Fr%
c) frecuencias Absoluta Acumulada: es el número de veces que ha aparecido en la muestra
un valor menor o igual que el de la variable, se puede acumular, en la tabla estadística en
orden ascendente (Fa↑) o descendente (Fa↓)
d) frecuencia Relativa Acumulada: al igual que en el caso anterior se calcula como el cociente
entre la frecuencia absoluta acumulada dividido por el tamaño de la muestra (N).(Far%)
DISTRIBUCIÓN DE FRECUENCIA PARA
DATOS NO AGRUPADOS
ESTADÍSTICA DESCRIPTIVA
15. REPRESENTACIÓN GRAFICAS DE
VARIABLES CUALITATIVAS
El Gráfico es la representación en el
plano, de la información estadística, con
el fin de obtener una impresión visual
global del material presentado, que
facilite su rápida comprensión. Los
gráficos son una alternativa a las tablas.
Se emplean símbolos, barras, polígonos
y sectores, de los datos contenidos en
tablas de frecuencias.
Algunos requisitos recomendables al construir un gráfico
son:
Evitar distorsiones por escalas exageradas.
Elección adecuada del tipo de gráfico, según los objetivos y
tamaño de recorrido de las variables.
Sencillez y autoexplicación.
Al igual que las tablas
estadísticas, los gráficos
estadísticos deben tener
un título y una explicación
de QUE, DONDE y
CUANDO se obtuvo la
información.
ESTADÍSTICA DESCRIPTIVA
16. REPRESENTACIÓN GRAFICAS DE
VARIABLES CUALITATIVAS
ESTADÍSTICA DESCRIPTIVA
Trataremos Cuatro tipos de gráficos estadísticos:
Gráfico de sectores o tortas
Gráficos de Barras
Gráfico de sectores o tortas
Este tipo de diagramas consideran una figura geométrica en que la distribución de
frecuencias se reparte dentro de la figura como puede ser una dona, pastel, círculo o
anillo, en el que cada porción dentro de la figura representa la información
porcentual del total de datos.
Características de los gráficos de sectores
No muestran frecuencias acumuladas.
Se prefiere para el tratamiento de datos cualitativos
La mayor área (o porción de la figura) representa la mayor
frecuencia.
Son muy fáciles de elaborar.
La figura completa equivale al 100% de los datos (360º).
18%
22%
32%
14%
14%
Grafico de Torta
Candidato 1
Candidato 2
Candidato 3
Candidato 4
Candidato 5
17. REPRESENTACIÓN GRAFICAS DE
VARIABLES CUALITATIVAS
Ejemplo de Gráfico de sectores o tortas
Realizar un diagrama de sectores a partir de la siguiente tabla de frecuencia que resume
las preferencias de un grupo de encuestados hacia cinco candidatos a elecciones locales:
Clase Frecuencia
Candidato 1 25
Candidato 2 30
Candidato 3 45
Candidato 4 20
Candidato 5 20
Total 140
Pasos para su construcción
1.-Determinar las frecuencias relativas para cada
clase.
2.- Determinar los ángulos que representan las
porciones dentro de la figura para cada clase.
ESTADÍSTICA DESCRIPTIVA
18. REPRESENTACIÓN GRAFICAS DE
VARIABLES CUALITATIVAS
Un círculo está formado por un ángulo de 360º. La porción correspondiente al
Candidato 1 equivale a un 17.85% de esos 360º, es decir, 64,296º (0.1785*360
= 64,296º.) Gráficamente tendríamos (se parte desde el eje vertical superior, y
se comienza a graficar cada clase en sentido de las manecillas del reloj):
La tabla final con los ángulos repartidos para cada clase quedaría:
Clase (F) Fr% Angulo
Candidato 1 25 0,17857 64,2857
Candidato 2 30 0,21428 77,1428
Candidato 3 45 0,32142 115,7142
Candidato 4 20 0,14285 51,4285
Candidato 5 20 0,14285 51,4285
Total 140 1 360
18%
22%
32%
14%
14%
Grafico de Torta
Candidato 1
Candidato 2
Candidato 3
Candidato 4
Candidato 5
ESTADÍSTICA DESCRIPTIVA
19. REPRESENTACIÓN GRAFICAS DE
VARIABLES CUALITATIVAS
Diagramas de Barras. Se utiliza para representar datos cualitativos y
cuantitativos, con datos de tipo discreto. En el eje x se representan los datos
ordenados en clases mientras que en el eje y se pueden representar frecuencias
absolutas o relativas. Todas las barras deben ser de igual ancho y estar
igualmente espaciadas . El ejemplo para este tipo de representación se realizara
con los datos del ejemplo anterior
Clase (F) Fr% Fa Fra%
Candidato 1 25 0,17857 25 0.17857
Candidato 2 30 0,21428 55 0.39285
Candidato 3 45 0,32142 100 0.71472
Candidato 4 20 0,14285 120 0.855712
Candidato 5 20 0,14285 140 1
Total 140 1
0
5
10
15
20
25
30
35
40
45
Candidato 1 Candidato 2 Candidato 3 Candidato 4 Candidato 5
Frecuencia
Grafica de Barras
ESTADÍSTICA DESCRIPTIVA
20. ESTADÍSTICA DESCRIPTIVA
DISTRIBUCIÓN DE FRECUENCIA PARA
DATOS AGRUPADOS
Es aquella distribución en la que la disposición tabular de los datos estadísticos se
encuentran ordenados en clases y con la frecuencia de cada clase; es decir, los datos
originales de varios valores adyacentes del conjunto se combinan para formar un
intervalo de clase. No existen normas establecidas para determinar cuándo es
apropiado utilizar datos agrupados o datos no agrupados; sin embargo, se sugiere que
cuando el número total de datos (N) es igual o superior 50 se utilizará la distribución de
frecuencia para datos agrupados, también se utilizará este tipo de distribución cuando
se requiera elaborar gráficos lineales como el histograma, el polígono de frecuencia
La razón fundamental para utilizar la distribución de frecuencia de clases es
proporcionar mejor comunicación acerca del patrón establecido en los datos y facilitar
la manipulación de los mismos. Los datos se agrupan en clases con el fin de sintetizar,
resumir, condensar o hacer que la información obtenida de una investigación sea
manejable con mayor facilidad.
21. DISTRIBUCIÓN DE FRECUENCIA PARA
DATOS AGRUPADOS
COMPONENTES DE UNA DISTRIBUCIÓN DE FRECUENCIA DE CLASE
1.- Rango o Amplitud total (recorrido).- Es el límite dentro del cual están comprendidos
todos los valores de la serie de datos, en otras palabras, es el número de diferentes valores
que toma la variable en un estudio o investigación dada. Es la diferencia entre el valor
máximo de una variable y el valor mínimo que ésta toma en una investigación cualquiera.
El rango es el tamaño del intervalo en el cual se ubican todos los valores que pueden
tomar los diferentes datos de la serie de valores, desde el menor de ellos hasta el valor
mayor estando incluidos ambos extremos. El rango de una distribución de frecuencia se
designa con la letra R.
R= Valor Mayor – Valor Menor
ESTADÍSTICA DESCRIPTIVA
22. DISTRIBUCIÓN DE FRECUENCIA PARA
DATOS AGRUPADOS
COMPONENTES DE UNA DISTRIBUCIÓN DE FRECUENCIA DE CLASE
2.-Clase o Intervalo de clase.- Son divisiones o categorías en las cuales se
agrupan un conjunto de datos ordenados con características comunes. En otras
palabras, son fraccionamientos del rango o recorrido de la serie de valores para
reunir los datos que presentan valores comprendidos entre dos limites.
Una regla práctica para determinar cuántos intervalos van a incluirse es el uso de
una fórmula dada por Sturges. Esta fórmula es
donde:
k: número de intervalos de clase,
n: número de valores en el conjunto de datos bajo consideración
La respuesta obtenida bajo la fórmula de Sturges no debe considerarse como
definitiva, sino solo como una guía.( este valor tiene que ser un numero entero)
k = 1 + 3,322 (log n)
ESTADÍSTICA DESCRIPTIVA
23. DISTRIBUCIÓN DE FRECUENCIA PARA
DATOS AGRUPADOS
COMPONENTES DE UNA DISTRIBUCIÓN DE FRECUENCIA DE CLASE
3.-Amplitud de Clase, Longitud o Ancho de una Clase : La amplitud o longitud de
una clase es el número de valores o variables que concurren a una clase
determinada. La amplitud de clase se designa con las letras c. Esta amplitud puede
determinarse dividiendo el recorrido entre el valor de k, el numero de intervalos de
clase. Simbólicamente, la amplitud del intervalo de clase está dada por
ESTADÍSTICA DESCRIPTIVA
24. DISTRIBUCIÓN DE FRECUENCIA PARA
DATOS AGRUPADOS
COMPONENTES DE UNA DISTRIBUCIÓN DE FRECUENCIA DE CLASE
4.-Punto medio o Marca de Clase: El centro de la clase, es el volar de los datos que
se ubica en la posición central de la clase y representa todos los demás valores de
esa clase. Este valor se utiliza para el calculo de la media aritmética.
Intervalo de clase
Ancho de clase= Ic
Limite superior (Ls)
Limite Inferior (Li)
Marca de Clase
ESTADÍSTICA DESCRIPTIVA
25. DISTRIBUCIÓN DE FRECUENCIA PARA
DATOS AGRUPADOS
Es dentro de las técnicas de análisis exploratorio de datos una de más
usadas ya que permite mostrar el orden de rangos así como la forma de
un conjunto de datos en forma simultanea
Se caracteriza por ser fácil de construir y dar más información que un
histograma, debido a que muestra los valores reales
No hay cantidad única de tallos ni hojas aún cuando se recomienda
seleccionar entre 5 a 20 tallos
METODOD PARA DETERMINAR LA FRECUENCIA DE CADA CLASE
Diagrama de tallo y hoja (Stem-and-Leaf)
ESTADÍSTICA DESCRIPTIVA
26. DISTRIBUCIÓN DE FRECUENCIA PARA
DATOS AGRUPADOS
METODOD PARA DETERMINAR LA FRECUENCIA DE CADA CLASE
Diagrama de tallo y hoja (Stem-and-Leaf)
Ejemplo:
Trace un diagrama de tallo y hoja para los siguientes datos.
70, 72, 75, 64, 58, 83, 80, 82, 76, 75, 68, 65, 57, 78, 85, 72
1.Ordenar en forma ascendente
2.Seleccionar rangos (ancho de clases) define tallos
3.Incorporar hojas
5 7 8
6 4 5 8
7 0 2 2 5 5 6 8
8 0 2 3 5
Hoja
Tallo
ESTADÍSTICA DESCRIPTIVA
27. REPRESENTACIÓN GRAFICAS DE
VARIABLES CUALITATIVAS
Histogramas y Polígonos de Frecuencia
Histograma de Frecuencia
Este gráfico se puede preparar con
datos que han sido resumido en una
distribución de frecuencia
Se coloca la variable de interés en el eje
horizontal y la distribución de
frecuencia el vertical
A diferencia del gráfico de barras no
hay separación entre los rectángulos
formados por las clases adyacentes, se
completa con la línea vertical que
separa a cada uno de ellos
Cuando se traza un línea recta entre
cada punto medio de clase se construye
un polígono de frecuencia
ESTADÍSTICA DESCRIPTIVA
28. REPRESENTACIÓN GRAFICAS DE
VARIABLES CUALITATIVAS
ESTADÍSTICA DESCRIPTIVA
Polígono de Frecuencias
Alternativo al histograma de frecuencias
podemos representar la información a través
de los llamados polígonos de frecuencias. Estos
se construyen a partir de los puntos medios de
cada clase. La utilización de los puntos medios
o marcas de clase son llevados al escenario
gráfico mediante la utilización de los polígonos
de frecuencias. Se construye uniendo los
puntos medios de cada clase localizados en las
tapas superiores de los rectángulos utilizados
en los histogramas de las gráficas. Su utilidad
se hace necesaria cuando desean destacarse
las variables de tendencia central, como son
media, modas y medianas
29. ESTADÍSTICA DESCRIPTIVA
EJEMPLO
Una tienda realizo un trabajo para determinar el precio de determinado articulo en las
tiendas de la competencia La siguiente tabla muestra los precios en Bsf de este
artículo. Realizar la distribución de frecuencia
DISTRIBUCIÓN DE FRECUENCIA PARA
DATOS AGRUPADOS
0.738 0.729 0.743 0.740 0.736 0.741 0.735 0.731 0.736
0.728 0.737 0.736 0.735 0.724 0.733 0.742 0.736 0.739
0.745 0.736 0.742 0.740 0.728 0.738 0.725 0.733 0.734
0.733 0.730 0.732 0.730 0.739 0.734 0.738 0.739 0.727
0.735 0.732 0.735 0.727 0.734 0.732 0.736 0.741 0.736
0.732 0.737 0.731 0.746 0.735 0.735 0.729 0.734 0.730
0.730 0.735 0.732 0.700 0.750 0.722 0.729 0.733 0.750
0.732 0.736 0.742 0.727 0.750 0.738 0.725 0.741 0.728
0.735 0.736 0.732 0.731 0.759 0.741 0.751 0.755 0.740
0.754 0.756 0.758 0.729 0.755 0.789 0.800 0.810 0.810
30. ESTADÍSTICA DESCRIPTIVA
COMPONENTES DE UNA DISTRIBUCIÓN DE FRECUENCIA DE CLASE
1.- Rango o Amplitud total (recorrido)
R= Valor Mayor – Valor Menor = 0.81- 0.7 = 0.11
DISTRIBUCIÓN DE FRECUENCIA PARA
DATOS AGRUPADOS
2.-Clase o Intervalo de clase.-
k = 1 + 3,322 (log n) ; K = 1+3.322 ( Log 90) = 7.5 = 8
3.-Amplitud de Clase, Longitud o Ancho de una Clase
31. 70 0
72 24557778889999
73 000011122222223333444455555555666666666778888999
74 0001111222356
75 0001455689
78 9
80 0
81 00
ESTADÍSTICA DESCRIPTIVA
COMPONENTES DE UNA DISTRIBUCIÓN DE FRECUENCIA DE CLASE
DISTRIBUCIÓN DE FRECUENCIA PARA
DATOS AGRUPADOS
Stem-and-Leaf unit = 0,001 1|2 Representa 0,012
Hoja
Tallo
34. CRUCES DE ATRIBUTOS DE m*n
ESTADÍSTICA DESCRIPTIVA
Cruce de Atributos: Es cuando en una tabla de frecuencia (absoluta o
relativa) denominada Tabla de Contingencia los datos se organizan de
modo que sólo considerando una variable a la vez. A manera de estudiar
de manera simultánea la respuesta de dos variables habitualmente de
naturaleza Cualitativa, nominales u ordinales a continuación se muestra
la representación .
X Y d1 … dk . . . ds Total
C1 n11 … n1k … n1s n1.
… … … … … …. …
Cn nh1 … nhk … nhs Nh.
… … … … … … …
Cr nr1 … nrk …. nrs Nr.
Total n1 … n2 … nk n
35. CRUCES DE ATRIBUTOS DE m*n
ESTADÍSTICA DESCRIPTIVA
COMPONENTES DE UNA TABLA DE CONTINGENCIA
Supóngase que se dispone de dos variables, la primera el sexo (hombre o
mujer) y la segunda que recoge si el individuo es zurdo o diestro. Se ha
observado esta pareja de variables en una muestra aleatoria de 100
individuos. Se puede emplear una tabla de contingencia para expresar la
relación entre estas dos variables, del siguiente modo.
Si No Total
Varón 43 9 52
Mujer 44 4 48
TOTAL 87 13 100
SEXO
H. F.
SI NO Total
VARON DISTRIBUCION
CONJUNTA
DISTRIBUCION
MARGINAL
MUJER
Total DISTRIBUCION
MARGINAL
Tamaño
de
muestra
36. CRUCES DE ATRIBUTOS DE m*n
ESTADÍSTICA DESCRIPTIVA
DISTRIBUCIONES CONJUNTA Y MARGINALES
Relación Sexo – Hábito de fumar
Frecuencias ABSOLUTAS
SEXO H. F. SI NO Total
VARON 43 9 52
MUJER 44 4 48
Total 87 13 100
SEXO H. F. SI NO Total
VARON 0.43 0.09 0.52
MUJER 0.44 0.04 0.48
Total 0.87 0.13 1
Relación Sexo – Hábito de fumar
Frecuencias RELATIVA
37. MEDIDAS DE TENDENCIA CENTRAL
DATOS NO AGRUPADOS
ESTADÍSTICA DESCRIPTIVA
Las medidas de tendencia central como su nombre lo dice son cálculos o
evaluaciones que nos proporcionan idea del comportamiento del fenómeno en la
parte céntrica de éste. En otras palabras las mediadas de tendencia central se
ocupan de medir el centro, el foco o el medio de un fenómeno.
Algunas medidas son las siguientes:
Media, Mediana, Moda.
Las medidas de tendencia central proporcionan información acerca de los valores
céntricos de una variable a estudiar. Los valores medios nos darán una idea esencial
a cerca del comportamiento de la variable, por ejemplo el promedio de los datos.
38. MEDIDAS DE TENDENCIA CENTRAL
ESTADÍSTICA DESCRIPTIVA
LA MEDIA ARITMÉTICA.
La medida de tendencia central más familiar es la media aritmética. Conocida en forma
popular como el promedio, en ocasiones es llamada promedio aritmético, o
simplemente la media. Se encuentra sumando todos los valores de una serie de datos y
dividiendo el total entre el número de valores que se sumaron.
n
x
x
n
i
i
1
Muestra
N
x
N
i
i
1
Población
Las propiedades de la media aritmética incluyen las siguientes:
Para una serie de datos, hay una, y sólo una, media aritmética.
Su significado se entiende con facilidad.
Es afectada por valores extremos
Es una medida calculada y por consiguiente puede ser manipulada en forma algebraica. Esta
propiedad la hace una medida útil en especial para propósitos de inferencia estadística.
39. MEDIDAS DE TENDENCIA CENTRAL
ESTADÍSTICA DESCRIPTIVA
EJEMPLO DE LA MEDIA ARITMÉTICA.
Durante los 12 meses de 2007, una secretaria cargó 5, 2, 1, 3, 3, 8, 6, 7, 4, 1, 2 y 6
llamadas a su tarjeta de crédito telefónico. Determine la media, es decir, el promedio del
número de cargos mensuales.
El total de los 12 meses es 5 + 2 + 1 + 3 + 3 + 8 + 6 + 7 + 4 + 1 + 2 + 6 = 48 y, por lo tanto
n
x
x
n
i
i
1
40. ESTADÍSTICA DESCRIPTIVA
LA MEDIANA.
La mediana es el valor por encima del cual cae la mitad de los valores y por debajo del
cual cae la otra mitad. Si el número de puntos es non, la mediana es el valor del punto
medio de una serie ordenada, cuando los puntos están ordenados en orden ascendente
(o descendente) de magnitud. Si el número de puntos es par, ninguno de los puntos tiene
un número igual de valores por encima y por debajo de él. En este caso, la mediana es
igual a la media, o promedio, de los dos valores intermedios.
Serie Par
2
~ 1
2
2
n
n x
x
x
Serie Impar
2
1
~
n
x
x
Las propiedades de la mediana incluyen las siguientes:
Para una serie dada de datos, sólo hay una mediana.
La mediana no es afectada a menudo por valores extremos.
La mediana puede ser usada para caracterizar datos cualitativos. Por ejemplo, un
producto podría ser comercializado en tres categorías de calidad: buena, mejor y óptima,
donde la calidad del producto que cae en la categoría “mejor” es considerada
“promedio”.
MEDIDAS DE TENDENCIA CENTRAL
DATOS NO AGRUPADOS
41. ESTADÍSTICA DESCRIPTIVA
LA MODA.
La moda para datos discretos no agrupados es el valor que ocurre con más frecuencia. Si todos los
valores en una serie de datos son diferentes, no hay moda, si existen de dos valores que se repiten
en igual cantidad se denomina bimodal mas de dos valores multimodal
En las distribuciones simétricas, la media y la mediana tienen valor idéntico. En las distribuciones
asimétricas, estos valores no son iguales. Si la media es mayor que la mediana, la distribución está
sesgada hacia la derecha. Si la media es menor que la mediana, la distribución está sesgada hacia
la izquierda.
Las medidas poblacionales de tendencia central a menudo son llamadas parámetros de
localización, en vista de que “localizan” la posición de una distribución de frecuencia de la
población en el eje horizontal.
MEDIDAS DE TENDENCIA CENTRAL
DATOS NO AGRUPADOS
MO
fi-1
fi+1
MO
fi-1 fi+1
fi+1
fi-1
MO
42. Las 12 sesiones de un seminario para el personal de cierta empresa fueron tomadas por
22, 16, 20, 20, 15, 16, 12, 14, 16, 14, 11 y 16 personas.
Entre estos números:
22, 15, 12 y 11 aparecen una vez , 20 y 14 aparecen dos veces, y 16 aparece cuatro veces.
Por lo tanto, 16 es la moda.
La moda por si sola es una medida de posición en extremo insuficiente en la inferencia
estadística, también tiene la desventaja de que, en algunos conjuntos de datos, es posible
que no exista y, en otros, tal vez no sea única.
Ejemplo:
No existe una moda de las edades 19, 23, 29, 31, 25 y 22 (que son todas diferentes) y
existen dos modas, 9 y 14, de las tallas de vestido 7, 10, 14, 9, 9, 14, 9, 18, 16, 12, 11, 14,
14, 14, 9, 20, 9 y 11.
El hecho de que un conjunto de datos tenga más de una moda (o que sea bimodal) es a
veces indicativo de una falta de compatibilidad en los datos.
ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE TENDENCIA CENTRAL
DATOS NO AGRUPADOS
LA MODA. EJEMPLOS
43. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE TENDENCIA CENTRAL
DATOS NO AGRUPADOS
LA MEDIA GEOMÉTRICA.
Hay algunos problemas que requieren el cálculo de un promedio para el cual ninguno
de los promedios discutidos hasta aquí es apropiado. Por ejemplo, cuando se desea
obtener el valor promedio de una serie de razones, porcentajes o índices de cambio, la
media aritmética prueba ser una opción inadecuada para el trabajo. La medida
necesaria en estas situaciones es la media geométrica.
La media geométrica de una serie de n mediciones es la raíz n-ésima del producto de
las n mediciones.
Las siguientes son algunas características de la media geométrica:
No es influida en forma excesiva por valores extremos.
Siempre es menor que la media aritmética.
Es una medida significativa sólo cuando todas las mediciones son positivas.
El producto de una serie de mediciones permanece sin cambio si la media geométrica
de las mediciones es sustituida por cada medición en la serie
44. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE TENDENCIA CENTRAL
DATOS NO AGRUPADOS
LA MEDIA ARMÓNICA.
Otro promedio preferido sobre otras de estas mediciones en ciertas situaciones es la
media armónica.
La media armónica de una serie de mediciones es el recíproco de la media aritmética de
los recíprocos de las mediciones individuales.
n
i i
x
n
H
1
1
La media armónica es el promedio de elección cuando se requiere el promedio de
índices de tiempo. Tiene ventajas decisivas cuando los datos a ser promediados son
ciertos tipos de datos de precios. En consecuencia, la media armónica encuentra un
uso frecuente en el campo de la economía
45. LA MEDIA GEOMÉTRICA. EJEMPLO
ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE TENDENCIA CENTRAL
DATOS NO AGRUPADOS
Las siguientes temperaturas han sido tomadas de un proceso químico, 13.4oC, 12.8,
11.9, 13.6, determine la temperatura promedio de este proceso.
Solución:
LA MEDIA ARMÓNICA. EJEMPLO
Determine la media armónicadelossiguientesdatos,3.1,2.8,2.84,3.05,93.09
46. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE TENDENCIA CENTRAL
DATOS NO AGRUPADOS
LA MEDIA PONDERADA.
En general, si se designan los pesos con wi una fórmula para calcular una media
muestral ponderada puede ser expresada como sigue
w
x
n
i
i
n
i
i
i
w
w
x
w
x
1
1
Una media poblacional ponderada se calcula de la misma manera. En ocasiones las
mediciones que se van a promediar varían en importancia en lugar de hacerlo en su
frecuencia de ocurrencia. En tales casos, una media ponderada proporcionará un
promedio que refleje la importancia relativa de las mediciones individuales.
47. LA MEDIA PONDERADA EJEMPLO
ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE TENDENCIA CENTRAL
DATOS NO AGRUPADOS
A continuación se mencionan las materias que Luis Pérez llevó en el primer semestre de Ing
Quimica, el número de créditos y la calificación obtenida
MATERIA NUMERO
CREDITOS
CALIFICACIÓN
Metodología de la investigación 8 90.5
Matemáticas I 10 100.0
Programación 8 81.0
Química 10 78.0
Dibujo 4 100.0
Economía 8 84.0
Determine la calificación promedio que obtuvo Luis Pérez en su primer semestre.
Nota: Sí comparamos este promedio con el que se obtiene usando simplemente la media aritmética, que es
un 88.91, nos damos cuenta de que este último es mayor, por no tomar en cuenta el peso o número de
créditos que aporta cada materia a la carrera que se estudia, el promedio de esta persona es menor al de la
media aritmética debido a que obtiene una calificación baja es Química que es una de las materias que
aporta más créditos.
48. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE DISPERSIÓN
DATOS NO AGRUPADOS
Una vez que se ha calculado la media de una serie de datos, se desea saber
el grado en que los valores difieren de esta media. Se usa el término dispersión
para describir el grado en que una serie de valores varía respecto a su media.
Otros términos que transmiten este mismo concepto son variación, difusión y
propagación. Cuando los valores en una muestra o población están todos cerca
de la media, exhiben menos dispersión que cuando algunos de los valores son
mucho más grandes y/o mucho más pequeños que la media. Cuatro medidas
descriptivas usadas para expresar la cantidad de dispersión presente en una
serie de datos son: el rango, la desviación media, la varianza y la desviación
estándar
49. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE DISPERSIÓN
DATOS NO AGRUPADOS
EL RANGO.
El rango es la diferencia entre los valores mayor y menor en una serie de datos.
El rango es fácil de calcular. Sin embargo, por lo general es una medida de dispersión
insatisfactoria, ya que sólo se usan dos valores en una serie de datos para calcularlo. En
otras palabras, el rango no usa toda la información disponible en los datos que se
supone que describe.
LA DESVIACIÓN MEDIA.
La desviación media expresa la cantidad promedio por la que difieren de su media los
valores de una muestra o población.
n
x
x
media
Desviación
n
i
i
1
50. Se toman las mediciones de la cantidad de grasa de la leche en gramos por cada
100 ml de leche que entra a un proceso de pasteurización, a continuación se
enumeran; 14.85, 15.32, 12.76, 16.29, 15.84, 17.3, 17.61, 16.33, determine el
rango o recorrido de la cantidad de grasa de la leche.
Solución:
VM = 17.61
Vm = 12.76
R = 17.61 – 12.76 = 4.85gramos
ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE DISPERSIÓN
DATOS NO AGRUPADOS
EL RANGO EJEMPLO.
51. LA DESVIACIÓN MEDIA.
ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE DISPERSIÓN
DATOS NO AGRUPADOS
Determine la desviación absoluta media de los siguientes datos que son las concentraciones de
plomo de algunas muestras, las que a continuación se enumeran: 18gr, 12, 21, 19, 16, 20, 22
Solución:
Para determinar la desviación absoluta media o promedio, lo primero que hay que hacer es
calcular la media aritmética de los datos de la muestra, la que es 128/7 =18.286, luego se procede
a calcular el promedio de las diferencias absolutas entre cada dato y la media calculada.
La interpretación de este resultado sería que el grado de alejamiento absoluto promedio de los
datos con respecto a su media es de 2.5305 gramos.
¿Por qué sacar el valor absoluto de las diferencias entre cada dato y la media aritmética? Si solo
se hicieran diferencias entre cada dato y la media aritmética, estas tendrían signos positivos y
negativos ya que algunos datos son menores que la media y otros son mayores que la media,
luego al sumar las diferencias, con sus signos correspondientes, éstas se irían anulando unas con
otras y no sería posible medir leal grado de alejamiento promedio de los datos en la muestra.
52. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE DISPERSIÓN
DATOS NO AGRUPADOS
LA VARIANZA.
La varianza, como la desviación promedio, usa todas las desviaciones de los
valores de su media.
N
x
N
i
i
1
2
2
)
(
1
)
(
1
2
2
n
x
x
s
n
i
i
Muestra Población
La varianza también es una clase de promedio. Es el promedio de los cuadrados de
las desviaciones de los valores individuales de su media. La varianza muestral tiene
dos funciones en el análisis estadístico. Primera, es usada como una medida de la
dispersión presente en la muestra. Segunda, es usada para estimar la varianza de la
población de la que se extrajo la muestra.
53. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE DISPERSIÓN
DATOS NO AGRUPADOS
LA VARIANZA EJEMPLO
Los siguientes datos se muestra la cantidad de kilogramos de determinado
articulo, 14.2, 12.1, 15.6, 18.1, 14.3, determine su varianza.
Solución:
Lo primero que hay que calcular es la media aritmética de la muestra como ya se
ha hecho anteriormente. Es este casos es: 14.86
1
)
(
1
2
2
n
x
x
s
n
i
i
=
= 4.853
Nota:
Dentro de la inferencia estadística se plantea la deferencia entre una variancia
muestral s2 y una poblacional, representada por
54. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE DISPERSIÓN
DATOS NO AGRUPADOS
LA DESVIACIÓN ESTÁNDAR.
La varianza es expresada en unidades cuadradas. Si los datos son medidos en metros,
la varianza se expresa en metros cuadrados. En el análisis estadístico, a menudo se
desea tener una medida de dispersión que esté expresada en las mismas unidades que
las observaciones originales. Se obtiene dicha medida, llamada desviación estándar,
extrayendo la raíz cuadrada positiva de la varianza.
N
x
N
i
i
1
2
)
(
1
)
(
1
2
n
x
x
s
n
i
i
Muestra Población
55. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE DISPERSIÓN
DATOS NO AGRUPADOS
LA DESVIACIÓN ESTÁNDAR EJEMPLO.
Es la desviación o diferencia promedio que existe entre cada dato de la muestra y la media
aritmética de la muestra. Y se obtiene a partir de la varianza, sacándole raíz cuadrada.
1
)
(
1
2
n
x
x
s
n
i
i
=
=
La interpretación de este resultado sería, que la cantidad de kilogramos de determinado articulo
en la muestra es en promedio de 14.86 Kgr y que la cantidad de Kgr en la muestra se aleja o
dispersa en promedio 1.9704 Kgr alrededor de la media.
En este caso solo nos interesa conocer el significado de la desviación estándar, aunque es
necesario decir que s es la desviación de la muestra y que es la desviación de la población, así
como s2 es la varianza de la muestra y es la varianza de la población.
56. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE DISPERSIÓN
DATOS NO AGRUPADOS
COEFICIENTE DE VARIACIÓN.
En ocasiones surge la necesidad de comparar la variabilidad presente en dos series de
datos. Esto por lo general puede hacerse de manera satisfactoria comparando las dos
varianzas o desviaciones estándar si los datos satisfacen dos condiciones, a saber:
se empleó la misma unidad de medición en ambas series de datos
las medias de las dos series de datos son aproximadamente iguales.
Si no se cumple cualquiera de estas dos condiciones, se necesita una medida relativa
de dispersión para usarla en la comparación de la variabilidad de las dos series de
datos. Dicha medida relativa de dispersión es el coeficiente de variación.
57. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE DISPERSIÓN
DATOS NO AGRUPADOS
Es una medida de dispersión relativa muestral es igual
a la razón de la desviación estándar con la media. Es
decir
x
s
CV
COEFICIENTE DE VARIACIÓN (CV)
El coeficiente de variación con frecuencia se multiplica
por 100 y se expresa como porcentaje. Nótese que el
coeficiente de variación es independiente de la unidad
de medición. En vista de que tanto la media como la
desviación estándar están expresadas en las mismas
unidades de medición, estas unidades se cancelan en
el cálculo de la razón. Si encontramos que el
coeficiente de variación es próximo o mayor que 0.5 y
no puede haber datos negativos, la distribución no es
normal
Existe algunos criterios para decir que
un grupo de datos es homogéneo o no
estos son:
Valor de CV DECISION
26% o Más Muy Heterogéneo
16% a 25% Heterogéneo Normal
11% a 15% Homogéneo
0% a 10% Muy Homogéneo
58. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE DISPERSIÓN
DATOS NO AGRUPADOS
COEFICIENTE DE VARIACIÓN EJEMPLO
Si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su
desviación típica (s) = 10,44 y la Presión sanguínea de los mismos (150, 170, 135, 180 y
195 mmHg) cuya media es de 166 mmHg y su desviación típica de 21,3. La pregunta sería:
¿qué distribución es más dispersa, el peso o la tensión arterial? Si comparamos las
desviaciones típicas observamos que la desviación típica de la tensión arterial es mucho
mayor; sin embargo, no podemos comparar dos variables que tienen escalas de medidas
diferentes, por lo que calculamos los coeficientes de variación:
A la vista de los resultados, observamos que la
variable peso tiene mayor dispersión. Además
ambos valores son homogéneos ya que sus
valores están entre 11 y 15% según la tabla
anterior además esto también nos indica que
los pacientes son aproximadamente (15/12.8
= 1.17) mas variables en peso que en presión
sanguínea
59. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE POSICIÓN PARA DATOS
NO AGRUPADOS
Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes
fórmulas:
CUARTIL n Par n Impar
1ER
3ER
DECILES
n Par n Impar
PERCENTILES
n Par n Impar
Nota: siendo A el
número del decil
o percentil sea el
caso
60. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE POSICIÓN PARA DATOS
NO AGRUPADOS
EQUIVALENCIA ENTRE LAS MEDIDAS DE POSICION
Del grafico presentado se deduce la equivalencia que existe entre los deciles y cuartiles con los
percentiles, es decir tanto como deciles como los cuartiles se pueden calcular a través de los
percentiles veamos.
Q1 Q3
P10 P20 P30 P 40 P50 P60 P70 P80 P90
D1 D2 D3 D4 D6
D5 D8
D7
Percentiles
Deciles
Cuartiles
Md
D1= P10 ; D2= P20 ; Q1= P25 ; Q2=50
Nótese también la coincidencia muy importante que se da entre estos tres estadístico:
Q2 = D5 = P50 = Md .
de los anterior se puede concluir que los cálculos en este sentido. se reduce a conseguir un
percentil
D9
Q1
61. PK = Pi +(Ps-Pi)*R
Donde:
Pk = Percentil buscado
Pi= dato interior al percentil buscado
Ps= Dato superior al percentil buscado
R= Diferencia entre el percentil buscado y el lugar del dato inferior
ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE POSICIÓN PARA DATOS
NO AGRUPADOS
EQUIVALENCIA ENTRE LAS MEDIDAS DE POSICION
Formula
Ejemplo:
Calcular el valor por debajo del cual se halla el 560% de las puntuaciones logradas por
alumnos que presentaron la prueba de Estadística I cuyos resultados son:
28, 24, 18, 20, 28, 17, 26, 20, 22, 20, 19, 24, 18, 18, 18, 20, 20, 18, 28, 22, 17, 18, 18, 19, 28.
62. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE POSICIÓN PARA DATOS
NO AGRUPADOS
EQUIVALENCIA ENTRE LAS MEDIDAS DE POSICION SOLUCION
1° Paso se ordenan los datos de menos a mayor:
2° Paso se calcula el lugar del Percentil Buscado.
3° Paso se determina el Valor de R
4° Paso se aplica la formula para calcular el Percentil
5° Paso interpretación.
17 17 18 18 18 18 18 18 18 19 19 20 20 20 20 20 22 22 24 24 26 28 28 28 28
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
12.5
R=12.5-12=0.5
P50 = Pi +(Ps-Pi)*R = 20+(20-20)*0.50= 20 Ptos
A ambos lados del valor que ocupa
12.5 (20 Ptos) se encuentra el 50%
de los datos
63. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE TENDENCIA CENTRAL
DATOS AGRUPADOS
En ocasiones se necesitan calcular las diversas medidas de dispersión a partir de
datos que han sido agrupados en intervalos de clase y presentados como una
distribución de frecuencia. Si los datos consisten en una gran cantidad de valores, y
si los cálculos se tienen que hacer en forma manual o con una calculadora, se puede
ahorrar una gran cantidad de trabajo agrupando los datos antes de calcular las
medidas dispersión
Cuando se calculan medidas dispersión a partir de datos agrupados, se deben
hacer ciertas suposiciones respecto a los datos. Como una consecuencia de hacer
estas suposiciones, los valores de las medidas descriptivas calculados de esta
manera se deben considerar como aproximaciones a los valores verdaderos.
64. ESTADÍSTICA DESCRIPTIVA
LA MEDIA.
Cuando se calcula la media a partir de datos
agrupados, se hace la suposición de que cada
observación que cae dentro de un intervalo de
clase determinado es igual al valor del punto
medio de ese intervalo. El punto medio de un
intervalo de clase es llamado marca de clase.
Se obtiene la marca de clase sumando los
límites de clase respectivos y dividiéndolos
entre 2.
La experiencia ha demostrado que
la suposición por lo general es satisfactoria.
Como lo son las suposiciones hechas acerca de
las otras medidas descriptivas calculadas a
partir de datos agrupados.
En vista de que cada observación toma
el valor de la marca de clase del
intervalo en el que cae, se calcula la
media multiplicando cada marca de
clase por su frecuencia correspondiente.
Luego se suman los productos
resultantes y se divide el total entre el
número de observaciones. Se puede
expresar el procedimiento para datos de
muestra por:
n
f
x
x
k
i
i
i
1
k = El número de intervalos de clase.
xi = La marca de clase del i-ésimo intervalo de clase.
fi = la frecuencia del i-ésimo intervalo de clase.
MEDIDAS DE TENDENCIA CENTRAL
DATOS AGRUPADOS
65. ESTADÍSTICA DESCRIPTIVA
LA MEDIANA.
La mediana para una distribución de frecuencia es el valor, o punto,
sobre el eje horizontal del histograma de la distribución en el que una línea
perpendicular divide el área del histograma en dos partes iguales.
MEDIDAS DE TENDENCIA CENTRAL
DATOS AGRUPADOS
donde:
Lm = Límite inferior de la clase mediana.
LM= Límite superior de la clase mediana
n = Número de datos.
Fm= Frecuencia acumulada de la clase mediana
Fm-1 = Frecuencia acumulada de la clase que antecede
a la clase mediana
fm = Frecuencia de la clase mediana.
Ic = Longitud del intervalo de la clase mediana.
Lm LM
Md
Fm-1
Fm
A B
C
E
D
66. ESTADÍSTICA DESCRIPTIVA
LA MODA.
Cuando se trata de datos agrupados para hallar la moda debemos
determinar antes que todo la clase modal en la cual se halla ésta. Dicha clase
corresponde a aquella que presente mayor frecuencia (absoluta). Una vez localizada la
clase modal, procedemos por interpolación para determinarla. Esta interpolación nos
conduce a la siguiente fórmula para la media:
MEDIDAS DE TENDENCIA CENTRAL
DATOS AGRUPADOS
donde: Lm = Límite inferior de la clase modal (la
clase de mayor frecuencia).
d1 = Diferencia entre la frecuencia de la clase modal y
la de la clase que la antecede.
d2 = Diferencia entre la frecuencia de la clase modal y
la de la clase que le sigue.
Ic = Longitud del intervalo de la clase modal.
fi+1
fi-1
IC
LM
Lm
MO
A
B C
D
67. ESTADÍSTICA DESCRIPTIVA
LA MEDIA GEOMÉTRICA.
Para calcular la media geométrica cuando se trata de datos
agrupados, se debe sacar la raíz n-ésima del producto de las respectivas marcas
de clase de cada grupo elevadas a la k-ésima frecuencia, matemáticamente se
puede expresar por:
donde: n = Número de datos.
k = El número de intervalos de clase.
xi = La marca de clase del i-ésimo intervalo de clase.
fi = la frecuencia del i-ésimo intervalo de clase.
n f
i
k
i
i
x
G
1
MEDIDAS DE TENDENCIA CENTRAL
DATOS AGRUPADOS
ó
68. ESTADÍSTICA DESCRIPTIVA
LA MEDIA ARMÓNICA.
La media armónica para datos agrupados se encuentra aplicando la
siguiente fórmula:
donde: n = Número de datos.
k = El número de intervalos de clase.
xi = La marca de clase del i-ésimo intervalo de clase.
fi = La frecuencia del i-ésimo intervalo de clase.
k
i i
i
x
f
n
H
1
MEDIDAS DE TENDENCIA CENTRAL
DATOS AGRUPADOS
69. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE TENDENCIA CENTRAL
DATOS AGRUPADOS
El peso en kilogramos de un grupos de estudiantes del sexo masculino en un curso
de educación física, son los siguientes:
Clases fi
52.5 – 57.5 8
57.5 – 62.5 9
62.5 – 67.5 6
67.5 – 72.5 4
72.5 – 77.5 2
77.5 – 82.5. 1
Total 30
Encuentre la media Aritmética , Geométrica , Armónica , la mediana y la Moda. Compare
los resultados utilizando la fórmula de la correspondencia entre la media aritmética, la
mediana y moda medidas de tendencia central.
EJEMPLO
70. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE TENDENCIA CENTRAL
DATOS AGRUPADOS
Fi Fa Xi Fi*Xi Fi*LogXi Fi/xi
52,5 57,5 8 8 55 440 13,9229 0,14545
57,5 62,5 9 17 60 540 16,0034 0,15
62,5 67,5 6 23 65 390 10,8775 0,09231
67,5 72,5 4 27 70 280 7,38039 0,05714
72,5 77,5 2 29 75 150 3,75012 0,02667
77,5 82,5 1 30 80 80 1,90309 0,0125
30 1880 53,8373 0,48407
Intervalos
SOLUCIÓN
Media Aritmética Media Geométrica
Media Armónica
71. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE TENDENCIA CENTRAL
DATOS AGRUPADOS
Fi Fa Xi Fi*Xi Fi*LogXi Fi/xi
52,5 57,5 8 8 55 440 13,9229 0,14545
57,5 62,5 9 17 60 540 16,0034 0,15
62,5 67,5 6 23 65 390 10,8775 0,09231
67,5 72,5 4 27 70 280 7,38039 0,05714
72,5 77,5 2 29 75 150 3,75012 0,02667
77,5 82,5 1 30 80 80 1,90309 0,0125
30 1880 53,8373 0,48407
Intervalos
Lm
fm
Fm-1
Ic=62.5 - 57.5 =5
CALCULO DE LA MEDIANA
73. MEDIDAS DE DISPERSIÓN
DATOS AGRUPADOS
ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS.
Se hace la misma suposición respecto a los valores asumidos por las
observaciones cuando se calculan las medidas de dispersión a partir de datos
agrupados
DESVIACIÓN MEDIA:
n
x
x
f
media
Desviación
k
i
i
i
1
Medida Población Muestra
VARIANZA:
DESVIACIÓN
ESTÁNDAR
1
)
(
1
2
2
n
x
x
f
s
k
i
i
i
N
x
f
k
i
i
i
1
2
2
)
(
N
x
f
k
i
i
i
1
2
)
(
1
)
(
1
2
n
x
x
f
s
k
i
i
i
74. MEDIDAS DE DISPERSIÓN
DATOS AGRUPADOS
ESTADÍSTICA DESCRIPTIVA
Con la misma tabla de distribución de frecuencia anterior determinar la varianza
y desviación estándar
MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS EJEMPLO.
Intervalos Fi Xi Fi*Xi Abs( xi- X) Fi*Abs(xi- X) Abs(xi-X)2 Fi*Abs(xi-X) 2 Fi*Xi2
52,5 57,5 8 55 440 7,667 61,333 58,778 470,222 24200
57,5 62,5 9 60 540 2,667 24 7,111 64 32400
62,5 67,5 6 65 390 2,333 14 5,444 32,667 25350
67,5 72,5 4 70 280 7,333 29,333 53,778 215,111 19600
72,5 77,5 2 75 150 12,333 24,667 152,111 304,222 11250
77,5 82,5 1 80 80 17,333 17,333 300,444 300,444 6400
30 1880 170,667 1386,667 119200,000
75. MEDIDAS DE DISPERSIÓN
DATOS AGRUPADOS
ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS EJEMPLO.
Calculo de la varianza
76. MEDIDAS DE DISPERSIÓN
DATOS AGRUPADOS
ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS EJEMPLO.
Calculo de la Desviación Estándar
77. Una distribución es simétrica si el lado derecho e izquierdo del histograma con
respecto a la mediana son aproximadamente iguales.
Un distribución es asimétrica hacia la derecha si el lado derecho del
histograma se extiende sobre un mayor número de valores (intervalos) que el
lado izquierdo.
Una distribución es asimétrica hacia la izquierda si el lado izquierdo del
histograma se extiende sobre un mayor número de valores (intervalos) que el
lado derecho.
ESTADÍSTICA DESCRIPTIVA
RELACION ENTRE LA MEDIA ,
MEDIANA Y MODA
DISTRIBUCION SIMETRICA Y ASIMETRICA
Asimetría hacia la derecha Asimetría hacia la izquierda
Distribución Simétrica
78. ESTADÍSTICA DESCRIPTIVA
RELACION ENTRE LA MEDIA ,
MEDIANA Y MODA
Si las medidas de tendencia central se presentan en el siguiente orden de magnitud:
Moda < Mediana < Media o Media < Mediana < Moda
Se dice que el polígono de frecuencias (histograma) es asimétrico, lo que indica que lo los
datos se encuentran distribuidos con algún grado de tendencia
Si al construir el polígono de frecuencias se observa que la distribución es simétrica o
ligeramente asimétrica es posible comprobar experimentalmente la siguiente relación:
Media – Moda = 3 (Media – Mediana) despejando de esta ecuación la moda nos queda
Moda= 3mediana -2Media de Igual forma se despeja la mediana
Mediana= 3 Media +1/3(Moda –Media)
Gracias a esta relación se puede obtener, con un cierto error, alguno de estos parámetros
en función de los otros dos si la distribución es como se ha dicho.
RELACION ENTRE MEDIA MEDIANA Y MODA
79. ESTADÍSTICA DESCRIPTIVA
RELACION ENTRE LA MEDIA ,
MEDIANA Y MODA
Curva sesgada a la derecha o con sesgo
positivo: (Moda < Mediana < Media) en
este caso la mayoría de las observaciones
se encuentran por debajo de la Media
Curva sesgada a la izquierda o con sesgo
negativo: ( Media < Mediana < Moda)
en este caso la mayoría de las
observaciones se encuentran por arriba
de la Media
Mediana
Media
Moda Moda
Mediana
Media
RELACION ENTRE MEDIA MEDIANA Y MODA
Mediana
Media Moda
(Moda = Mediana = Media)
80. ESTADÍSTICA DESCRIPTIVA
COEFICIENTES DE ASIMETRIA
Formula Coeficiente de Fisher
El coeficiente de asimetría más preciso es el de Fisher, que se define por:
Según sea el valor de g1, diremos que la distribución es asimétrica a derechas o positiva, a izquierdas
o negativa, o simétrica, o sea:
Si g1 > 0 la distribución será asimétrica positiva o a derechas (desplazada hacia la derecha).
Si g1 < 0 la distribución será asimétrica negativa o a izquierdas (desplazada hacia la izquierda).
Si g1 = 0 la distribución puede ser simétrica; si la distribución es simétrica, entonces si podremos
afirmar que g1 = 0.
MEDIDAS DE FORMA
81. ESTADÍSTICA DESCRIPTIVA
COEFICIENTES DE ASIMETRIA
Miden el grado de asimetría de la distribución con respecto a la media. Un valor positivo de este
indicador significa que la distribución se encuentra sesgada hacia la izquierda (orientación
positiva). Un resultado negativo significa que la distribución se sesga a la derecha. La distribución
se considera simétrica si el valor del coeficiente es cero.
Los mas usados son el Coeficiente de Pearso que es el mas sencillo y el de Fisher
Formula Coeficiente
asimetría de Pearso
Aunque en la práctica este coeficiente sería más fácil de calcular que el anterior,
casi no lo utilizaremos ya que solo es cierto cuando la distribución tiene las
siguientes condiciones: Unimodal, Campaniforme , Moderada o ligeramente
asimetrica.
Si Asp > 0 la distribución será asimétrica positiva o a derechas (desplazada
hacia la derecha).
Si Asp < 0 la distribución será asimétrica negativa o a izquierdas (desplazada
hacia la izquierda).
Si Asp = 0 la distribución será simétrica.
MEDIDAS DE FORMA
82. COEFICIENTES DE CURTOSIS
ESTADÍSTICA DESCRIPTIVA
Esta medida determina el grado de concentración que presentan los valores en la región
central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe
una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó
una baja concentración (Platicúrtica).
Para calcular el coeficiente de Curtosis se utiliza la ecuación
Los resultados de esta fórmula se interpretan:
(g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es
bastante difícil encontrar un coeficiente de Curtosis de cero (0), por lo
que se suelen aceptar los valores cercanos (± 0.5 aprox.).
(g2 > 0) la distribución es Leptocúrtica
(g2 < 0) la distribución es Platicúrtica
MEDIDAS DE FORMA
Formula Coeficiente
Curtosis de Fisher
83. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE FORMA
COEFICIENTES DE ASIMETRIA
Formula Coeficiente Percentilico
Es una de las mas utilizada por ser fácil de aplicación y que analiza la simetría del 80% de la
distribución
Los resultados de la asimetría varían entre -1 Y 1 Para interpreta el coeficiente de asimetría,
se utiliza la siguiente escala
Coeficiente Grado de Asimetria
As=0 Simétrico
-0.10 ≤ As ≤ +0.10 Ligeramente Asimétrico
± 0.10 ≤ As ≤ ± 0.30 Moderadamente Asimétrico
± 0.30 ≤ As ≤ ± 1 Marcadamente Asimétrico
84. COEFICIENTES DE CURTOSIS PERCENTILICO
ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE FORMA
Formula Coeficiente Curtosis percentilico
Una vez calculado en coeficiente de curtosis, se compara con el valor correspondiente a una
distribución normal para determinar el tipo de curtosis de la distribución.
En una distribución normal la Cu = 0.263
si la Cu <0.263 la distribución es Lectucurtica.
Si la Cu>0.263 la Distribución es Planicurtica
85. COEFICIENTES DE ASIMETRIA Y CURTOSIS EJEMPLO
ESTADÍSTICA DESCRIPTIVA
El peso en kilogramos de un grupos de estudiantes del sexo masculino en un curso
de educación física, son los siguientes:
Clases fi
45-55 6
55-65 10
65-75 19
75-85 11
85-95 4
Total 50
Encuentre el coeficiente de asimetría de Pearson y fisher y el coeficiente de curtosis de
fisher
MEDIDAS DE FORMA
86. SOLUCION
ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE FORMA
Luego es una distribución asimétrica
negativa o a la izquierda y Lectucurtica
Lm Lm fi xi fi*xi fi*Abs(xi-X)^2 (xi-X) (xi-X)^3 fi*(xi-X)^3 fi*(xi-X)^4
45 55 6 50 300 2258,16 -19,4 7301,384 -43808,304 849881,098
55 65 10 60 600 883,6 -9,4 -830,584 -8305,84 78074,896
65 75 19 70 1330 6,84 0,6 0,216 4,104 2,4624
75 85 11 80 880 1235,96 10,6 1191,016 13101,176 138872,466
85 95 4 90 360 1697,44 20,6 8741,816 34967,264 720325,638
50 3470 6082 -4041,6 1787156,56
Pearson
Fisher
87. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE FORMA
Coeficiente Percentilico
Lm Lm fi xi fa
45 55 6 50 6
55 65 10 60 16
65 75 19 70 35
75 85 11 80 46
85 95 4 90 50
50
Cálculos de los percentiles a estudiar
Luego es una distribución ligeramente asimétrica
negativa o a la izquierda y Lectucurtica. Ya que Cu< 0.263
88. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE POSICIÓN PARA DATOS
AGRUPADOS
Tanto las medidas de tendencia central como de dispersión en ocasiones son
insuficientes sobre todo cuando en ocasiones deseamos presentar el análisis con
respecto a la posición que ocupa la información que para nosotros resulta
relevante, así por ejemplo, podemos hablar de dividir la información a la mitad,
realizado por la mediana, en cuatro parte, en cinco, en diez o quizá en otro tipo de
divisiones.
A continuación se presentan algunas medidas conocidas como de posición.
CUARTILES
DECILES PERCENTILES
89. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE POSICIÓN PARA DATOS
AGRUPADOS
CUARTILES
Son tres valores que dividen al conjunto de
datos ordenados en cuatro partes
porcentualmente iguales. Hay tres
cuartiles denotados usualmente Q1, Q2,
Q3. El segundo cuartil es precisamente la
mediana. El primer cuartil, es el valor en
el cual o por debajo del cual queda un
cuarto (25%) de todos los valores de la
sucesión (ordenada); el tercer cuartil, es el
valor en el cual o por debajo del cual
quedan las tres cuartas partes (75%) de los
datos.
donde:
K= 1,2,3
Lm = Límite inferior de la clase del cuartil k.
n = Número de datos.
Fm-1 = Frecuencia acumulada de la clase que antecede
a la clase del cuartil k
fm = Frecuencia de la clase del cuartil k
Ic = Longitud del intervalo de la clase del cuartil k
0% 25% 50% 75% 100%
Q1 Q2 Q3
90. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE POSICIÓN PARA DATOS
AGRUPADOS
DECILES
Una de las divisiones que encontró gran
aplicación dentro de algunas áreas, tales
como la biología, la psicología o la
medicina es la división de la información
de divisiones de 10, como se muestra en el
grafico, definiendo esta partición como
deciles o decillas, aunque es más común
utilizar el primero. Los deciles se denotan
D1, D2,..., D9, que se leen primer decil,
segundo decil, etc. Los deciles, al igual que
los cuartiles, son ampliamente utilizados
para fijar el aprovechamiento académico.
donde:
K= 1,2,3,...,9
Lm = Límite inferior de la clase del Decill k.
n = Número de datos.
Fm-1 = Frecuencia acumulada de la clase que antecede
a la clase del Decil k
fm = Frecuencia de la clase del Decil k
Ic = Longitud del intervalo de la clase del Decil k
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
D1 D2 D3 D4 D6
D5 D8
D7
D9
91. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE POSICIÓN PARA DATOS
AGRUPADOS
PERCENTILES
Los percentiles son, tal vez, las medidas
más utilizadas para propósitos de
ubicación o clasificación de las personas
cuando atienden características tales
como peso, estatura, etc.
Los percentiles son ciertos números que
dividen la sucesión de datos ordenados en
cien partes porcentualmente iguales. Estos
son los 99 valores que dividen en cien
partes iguales el conjunto de datos
ordenados. Los percentiles (P1, P2,... P99),
leídos primer percentil,..., percentil 99.
.
donde:
K= 1,2,3,...,9
Lm = Límite inferior de la clase del Percentil k.
n = Número de datos.
Fm-1 = Frecuencia acumulada de la clase que antecede
a la clase del percentil k
fm = Frecuencia de la clase del percentil k
Ic = Longitud del intervalo de la clase del percentil k
92. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE POSICIÓN PARA DATOS
AGRUPADOS
EJEMPLO DE MEDIDAS DE POSICION
Dada la siguiente distribución de frecuencia determinar el Cuartil 3 el Persentil 30
y el Decil 6
Solución:
Cuartil 3
Intervalos Fi Fa
52.5 57.5 8 8
57.5 62.5 9 17
67.5 67.5 6 23
72.5 72.5 4 27
77.5 77.5 2 29
82.5 82.5 1 30
30
93. ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE POSICIÓN PARA DATOS
AGRUPADOS
EJEMPLO DE MEDIDAS DE POSICION
Decil 6
Percentil 30
Intervalos Fi Fa
52.5 57.5 8 8
57.5 62.5 9 17
67.5 67.5 6 23
72.5 72.5 4 27
77.5 77.5 2 29
82.5 82.5 1 30
30
94. CORRELACION Y REGRECION
LINEAL SIMPLE
ESTADÍSTICA DESCRIPTIVA
CORRELACIÓN
Hay correlación entre dos variables cuando éstas cambian de tal modo que los
valores que toma una de ellas son, hasta cierto punto, predecibles a partir de los
que toma la otra.
El análisis de correlación es el conjunto de técnicas estadísticas empleado
para medir la intensidad de la asociación entre dos variables. El principal objetivo
del análisis de correlación consiste en determinar que tan intensa es la relación
entre dos variables, estas pueden ser.
Variable Dependiente.- es la variable que se predice o calcula. Cuya
representación es "Y"
Variable Independiente.- es la o las variables que proporcionan las bases para
el calculo. Cuya representación es: “X”. Esta o estas variables suelen ocurrir antes
en el tiempo que la variable dependiente.
95. CORRELACION Y REGRECION
LINEAL SIMPLE
ESTADÍSTICA DESCRIPTIVA
COEFICIENTE DE CORRELACIÓN.( Pearson )
Este es un índice estadístico que mide la relación lineal entre dos variables
cuantitativas, es una forma de medir la intensidad de la relación lineal entre dos
variables. El valor del coeficiente de correlación puede tomar valores desde
menos uno hasta uno, -1 < r < 1, indicando que mientras más cercano a uno sea
el valor del coeficiente de correlación, en cualquier dirección, más fuerte será la
asociación lineal entre las dos variables. El coeficiente de correlación de cálculo
“r” es un estimador muestral del coeficiente poblacional Rho, .
Mientras más cercano a cero sea el coeficiente de correlación, este indicará que más
débil es la asociación entre ambas variables. Si es igual a cero se concluirá que no
existe relación lineal alguna entre ambas variables.
-1 1
0
< <
Fuerte
Fuerte
96. CORRELACION Y REGRECION
LINEAL SIMPLE
ESTADÍSTICA DESCRIPTIVA
COEFICIENTE DE CORRELACIÓN.( Pearson )
Formula
Valor de R Nivel de Correlación
≤ 0.20 Insignificante
0.21 a 0.40 Baja
0.41 a 0.70 Moderada
0.71 a 0.90 Alta
0.91 a 1 Muy alta
97. ESTADÍSTICA DESCRIPTIVA
CORRELACION Y REGRECION
LINEAL SIMPLE
No hay
correlación
0
r
Hay correlación no
lineal
0
r
Correlación lineal
positiva
1
r
Correlación lineal
negativa
1
r
El coeficiente de correlación, r, presenta valores entre –1 y +1.
Cuando r es próximo a 0, no hay correlación lineal entre las variables. La nube de puntos está muy
dispersa o bien no forma una línea recta. No se puede trazar una recta de regresión.
Cuando r es cercano a +1, hay una buena correlación positiva entre las variables según un modelo
lineal y la recta de regresión que se determine tendrá pendiente positiva, será creciente.
Cuando r es cercano a -1, hay una buena correlación negativa entre las variables según un
modelo lineal y la recta de regresión que se determine tendrá pendiente negativa: es decreciente.
GRADO DE CORRELACIÓN
98. CORRELACION Y REGRECION
LINEAL SIMPLE
ESTADÍSTICA DESCRIPTIVA
COEFICIENTE DE DETERMINACIÓN, R2
Para estimar la bondad de un ajuste frecuentemente se prefiere utilizar el
Coeficiente de Determinación, R2, que es el Coeficiente de Correlación elevado al
cuadrado.
Se determina mediante cualquiera de las dos expresiones siguientes:
Su valor oscila entre 0 y +1.
Cuando hay una buena correlación lineal, R2 es muy cercano a +1. Normalmente
se acepta para valores de R2 >= 0’99.
Cuando no hay correlación o bien ésta no es lineal, R2 es bajo e incluso cercano a
cero
Grado de dependencia de
una variable respecto a la
otra
99. CORRELACION Y REGRECION
LINEAL SIMPLE
ESTADÍSTICA DESCRIPTIVA
COEFICIENTE DE CORRELACIÓN.( Spearman) ρ (rho),
Es una prueba no parametrica que mide la asociación o interdependencia entre dos
Variables continuas. Para calcular ρ, los datos son ordenados y reemplazados por su
respectivo orden. El estadístico ρ viene dado por la expresión:
donde D es la diferencia entre los correspondientes valores de x - y. n es el número de
parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos,
aunque si éstos son pocos, se puede ignorar tal circunstancia.
La interpretación de coeficiente de Spearman Oscila entre -1 y +1, indicándonos
asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero
no independencia
100. CORRELACION Y REGRECION
LINEAL SIMPLE
ESTADÍSTICA DESCRIPTIVA
Si solamente están involucradas dos variables, se dice que la técnica es una
regresión o correlación simple. Cuando están implicadas tres o más variables,
se tratará de una regresión o correlación múltiple.
Mientras que la correlación mide el grado de vinculación entre variables, la
regresión se encarga de calcular, a partir de las observaciones, el valor real de
los coeficientes que explican una relación funcional matemática.
En Estadística la regresión lineal o ajuste lineal es un método
matemático que modeliza la relación entre una variable dependiente Y,
las variable Independiente X y un término aleatorio
REGRESION LINEAL
101. CORRELACION Y REGRECION
LINEAL SIMPLE
ESTADÍSTICA DESCRIPTIVA
DIAGRAMA DE DISPERSION
un diagrama de dispersión proporciona una imagen visual del tipo de relación involucrada
y sugiere el tipo de ecuación que mejor se ajustará a los datos.
La forma usual de construir un diagrama de dispersión es localizar los valores de la variable
independiente X sobre el eje horizontal y los de la variable dependiente Y sobre el eje
vertical; así se forma un plano bidimensional con X Y.
Cada par de observaciones de X y Y (X,Y) está representado mediante un punto en el plano.
102. CORRELACION Y REGRECION
LINEAL SIMPLE
ESTADÍSTICA DESCRIPTIVA
RECTA DE REGRESION
En el modelo de regresión lineal simple la función elegida para aproximar la relación entre
las variables es una recta, es decir y=a+bx, donde a,b son los parámetros.
A esta recta la llamaremos RECTA DE REGRESIÓN.
Propósito: determinar la ecuación de regresión; se usa para predecir el valor de la variable
dependiente (Y) basado en la variable independiente (X).
Procedimiento:
Seleccionar una muestra de la población y enumerar los datos por pares para cada
observación; dibujar un diagrama de dispersión para visualizar la relación; determinar la
ecuación de regresión.
La ecuación de regresión: Y’= a + bX, donde: Y’ es el valor promedio pronosticado de Y
para cualquier valor de X. a es la intercepción en Y, o el valor estimado de Y cuando X = 0
b es la pendiente de la recta, o cambio promedio en Y’ por cada cambio de una unidad en X
se usa el principio de mínimos cuadrados para obtener a y b
103. CORRELACION Y REGRECION
LINEAL SIMPLE
ESTADÍSTICA DESCRIPTIVA
Cuando la línea de regresión que mejor se ajusta a la nube de puntos es la recta,
es un problema de regresión lineal y distinguiremos dos casos:
Recta de regresión de Y sobre X: Se obtienen valores aproximados de la variable
Y conocidos los valores de la variable X
Recta de regresión de X sobre Y: Se obtienen valores aproximados de la variable
X conocidos los valores de la variable Y
El criterio de mínimos al cuadrado implica que la recta elegida para ajustar los
puntos del diagrama de dispersión sea tal que la suma de los cuadrados de las
distancias verticales entre los puntos y la recta sea lo más pequeño posible.
Los valores para los coeficientes de a y b son:
RECTA DE REGRESION (y=a+bx)
104. CORRELACION Y REGRECION
LINEAL SIMPLE
ESTADÍSTICA DESCRIPTIVA
EJEMPLO COEFICIENTE DE CORRELACIÓN.( Pearson )
Un comerciante a menudo lleva a cabo un
estudio para determinar la relación entre los
gasto de publicidad semanal y las ventas. Se
obtuvieron los siguientes resultados
Costo de
publicidad ($)
Ventas ($)
40 385
20 400
25 395
20 365
30 475
50 440
40 490
20 420
50 560
40 525
25 480
50 510
Determinar el coeficiente de correlación de
Pearson y determinar cual es su nivel.
Dibuje el diagrama de dispersión.
Encuentre la ecuación y grafique la recta de
regresión para pronosticar las ventas semanales
resultante del gasto de publicidad.
Estimes las ventas semanales cuando los gastos
de publicidad asciende a 35$
109. NUMEROS INDICES
ESTADÍSTICA DESCRIPTIVA
Un Número Índice es un relativo porcentual que expresa una medición en un
período determinado como el cociente con respecto a un periodo base determinado
o referencia en el pasado . Las mediciones pueden estar relacionadas con cantidad,
precio o valor. También es entendido como una medida estadística diseñada para
notar los cambios en una variable o en un grupo de variables relacionadas con
respecto al tiempo, situación geográfica, ingresos o cualquier otra característica.
CONCEPTO DE NUMEROS INDICES
Periodo inicial o base, es aquel momento del tiempo sobre el que se va comparando la
evolución de la magnitud o variable estadística X0
Periodo de comparación, o valor a determinar es aquel momento del tiempo en el que
el valor de la magnitud Xt se compara con el del periodo base
110. NUMEROS INDICES
ESTADÍSTICA DESCRIPTIVA
CLASIFICACION DE LOS NUMEROS INDICE
INDICE DE PRECIOS es el cociente entre el precio de un artículo en un período dado (Pn) y su
precio en otro período, conocido como período base o período de referencia (P0). Supóngase
que los precios en cada período son constantes.
NÚMEROS ÍNDICES SIMPLES
INDICE DE CANTIDAD en vez de comparar los precios de un artículo, comparamos las
cantidades (o volúmenes) de producción, consumo o exportación, Se calcula el cociente entre
la cantidad de un artículo que se ha producido, consumido o exportado en un período dado
(qn) y la correspondiente cantidad producida, consumida o exportada durante un período
base (q0). Supóngase que las cantidades en cada período son constantes. Si no los son, se
pueden tomar promedios adecuados
0
100
n
p
p
I
p
0
100
n
q
q
I
q
111. NUMEROS INDICES
ESTADÍSTICA DESCRIPTIVA
CLASIFICACION DE LOS NUMEROS INDICE
NÚMEROS ÍNDICES SIMPLES
INDICE DE VALOR Si p es el precio de un artículo en un período dado y q es la cantidad (o
volumen) producida durante ese periodo, entonces pq se llama el valor total, Se calcula el
cociente del producto (Pn) (qn) de un período dado entre (P0) (q0) el producto de un período
base.
0 0
100
n n
v
p q
I
p q
112. NUMEROS INDICES
ESTADÍSTICA DESCRIPTIVA
EJEMPLO PARA LOS ÍNDICES SIMPLES DE PRECIOS, CANTIDAD Y VALOR
Ejemplo
Artículo Unidades
Precio promedio, $ Consumo mensual per cápita
1985 (po) 1990 (pn ) 1985 (q0) 1990(qn)
Leche Litro 100 1500 5 6
Pan Pieza 0.5 88 1300 3.8 3.7
Huevo Docena 168 2500 1 1.2
Con referencia a la tabla anterior, determine:
a) Los índices de precio simple para los tres artículos en 1990, utilizando 1985 como año base
b) Los índices de cantidad simple para los tres productos en 1990, utilizando 1985 como año
base.
c) Los índices de valor para los tres artículos en 1990, utilizando 1985 como año base
113. NUMEROS INDICES
ESTADÍSTICA DESCRIPTIVA
EJEMPLO PARA LOS ÍNDICES SIMPLES DE PRECIOS, CANTIDAD Y VALOR
SOLUCION:
Artículo Ip Iq Iv
Leche 1500 120 1800
Pan 1477.27 97.37 1438.40
Huevo 1488.10 120 1785.71
Para los demás artículos se
procede de igual forma
114. NUMEROS INDICES
ESTADÍSTICA DESCRIPTIVA
CLASIFICACION DE LOS NUMEROS INDICE
NÚMEROS ÍNDICES COMPUESTO
ÍNDICE NO PONDERADO DE AGREGADOS: La forma mas sencilla de un índice compuesto es el
índice no ponderado de agregados. No ponderado significa que todos los valores incluidos al
calcular el índice tienen igual importancia. Agregado significa que sumamos todos los valores. La
principal ventaja de este índice es su simplicidad.
El índice no ponderado de agregados se obtiene sumando todos los elementos del compuesto
durante cierto periodo y dividiendo después el resultado entre la suma de los mismos elementos
durante el periodo base
La ecuación es:
Índice no ponderado de cantidad de agregados
Donde:
Q1= cantidad de cada elemento en el grupo durante el año actual
Q0= cantidad de cada elemento en el grupo durante el año base
115. ESTADÍSTICA DESCRIPTIVA
CLASIFICACION DE LOS NUMEROS INDICE
NÚMEROS ÍNDICES COMPUESTO
NUMEROS INDICES
ÍNDICE PONDERADO DE AGREGADOS: A menudo debemos atribuir mayor importancia a los
cambios de algunas variables que a los de otras al calcular un índice. Esta ponderación nos
permite incluir más información que el mero cambio de precios a través del tiempo. Además nos
permite mejorar la precisión de la estimación general del nivel de precios, basada en la muestra.
Donde:
P1= precio de cada elemento del grupo en el año actual
P0= precio de cada elemento del grupo en el año base
Q= factor seleccionado de ponderación de cantidad
116. ESTADÍSTICA DESCRIPTIVA
NUMEROS INDICES
MÉTODO DE PONDERAR UN INDICE
MÉTODO DE LASPEYRES
Este método se sirve de las cantidades consumidas durante el periodo base, es la técnica de
mayor uso por requerir medidas de cantidades durante un solo periodo. Como cada número
índice se funda en el mismo precio y cantidad base, los gerentes pueden comparar el índice de
un periodo con el de otro
Se calcula así:
Donde:
P1= Precios en el año actual
Q0= Cantidades vendidas en el año base
P0= Precio en el año base
Ventajas del Método de Laspeyres
La comparabilidad de un índice con otro
El utilizar la misma cantidad del periodo
base nos permite realizar una comparación
directa.
Desventajas del Método de Laspeyres
No toma en cuenta los cambios que se
producen en los patrones de consumo
117. ESTADÍSTICA DESCRIPTIVA
NUMEROS INDICES
MÉTODO DE PONDERAR UN INDICE
MÉTODO DE PAASCHE
Se diferencia del primero, por que se sirve de medidas de cantidad en el periodo actual.
Se calcula así:
Q1=Precios en el periodo actual
P1 =Cantidades en el periodo actual
P0 =Precios en el periodo base
Ventajas del Método de Paasche
Es de gran utilidad por combinar los efectos de
los cambios en los patrones de precio y
consumo, es un mejor indicador de los cambios
generales de la economía
Desventajas del Método de Paasche
Las medidas de cantidad en un periodo índice
suelen ser diferentes de las de otro periodo
índice, por lo cual es imposible atribuir
exclusivamente a los cambios de precio la
diferencia existente entre 2 índices, es difícil
comparar los índices de los diferentes periodos
determinados por este método.
118. ESTADÍSTICA DESCRIPTIVA
NUMEROS INDICES
MÉTODO DE PONDERAR UN INDICE
MÉTODOS DE LASPEYRES Y PAASCHE EJEMPLO
Calcular los índices agregados de precios de Laspeyres y Paasche para el año 2000
de las tres mercancías de la tabla Siguiente, usando como base el año 1995.
Mercancía Unidad de
cotización
Precio
1995
Precio
2000
Consumo
1995
Consumo
2000
Leche Litro 0.99 1.29 15.0 18.0
Pan Pieza de una
libra
1.10 1.20 3.8 3.7
Huevos Docena 0.80 1.20 1.0 1.2
119. Mercancía P1*Q0 P0*Q0
Leche 19.35 ($) 14.85($)
Pan 4.56 4.18
Huevos 1.20 0.80
Total 25.11($) 19.83($)
ESTADÍSTICA DESCRIPTIVA
NUMEROS INDICES
MÉTODO DE PONDERAR UN INDICE
SOLUCION MÉTODO DE LASPEYRES
Este número nos dice que el valor de las
cantidades del año base aumentó un 26.62%
como resultado de incremento en los precios
entre el año 0 y 1. La interpretación usual es
que los precios aumentaron en 26.6% entre el
año 0 y el año 1.
Como puede apreciarse estamos dando una
ponderación fija o constante a cada bien
durante todos los períodos considerados.
Esto implica dar a cada uno de éstos igual
importancia en todas las fechas en que se
calcula el índice. Por lo tanto todas las
variaciones son atribuibles a cambios en los
precios.
120. ESTADÍSTICA DESCRIPTIVA
NUMEROS INDICES
MÉTODO DE PONDERAR UN INDICE
SOLUCION MÉTODO DE PAASCHE
Mercancía P1*Q1 P0*Q1
Leche 23.22 ($) 17.82($)
Pan 4.44 4.07
Huevos 1.44 0.96
Total 29.10($) 22.85($)
Este índice nos dice que el valor de las
cantidades del año dado aumentó en un
27.36% como resultado de cambios en los
precios entre el año 0 y el año 1. La
interpretación usual es que “los precios
aumentaron un 27.36% entre un año y el otro”.
Como puede apreciarse este índice utiliza
ponderaciones variables. De esta forma, para
cada período, deberán recalcularse las mismas.
El índice de precios de Paasche reflejará
entonces no solamente los cambios en los
precios sino una mezcla de variaciones de
precios y de ponderaciones. Como puede
observarse no es posible analizar a través de
éste la evolución en el precio de una canasta
fija de bienes y servicios.
121. ESTADÍSTICA DESCRIPTIVA
NUMEROS INDICES
INDICE DE CANTIDAD DE (PAASCHE Y LASPEYRES)
Son similares a los anteriores, donde el ponderador son los precios, en un caso del período
corriente, en el otro del período base.
INDICE DE VALOR
El numerador es el valor total de todos los bienes en el período corriente. El denominador es el
valor total de todos los bienes en el período base. En términos de índices, no todo índice de
precios multiplicado por uno de cantidad nos da un índice de valor. y se cumple que:
122. Como ya se dijo anteriormente el índice de Laspeyres, tiende a darle mayor importancia relativa
dentro del conjunto, a los artículos que han subido de precio; de manera diferente el índice de
Paasche, tiende a restarle importancia relativa dentro del conjunto a loa artículos que han subido de
precio. Puede pensarse que el índice de precios debe estar en medio de estos dos índices, y esta fue la
lógica que utilizo Fisher para diseñar su índice ideal. El índice de Fisher se obtiene, calculando la
media cuadrática de los índices de Laspeyres y Paasche asi:
ESTADÍSTICA DESCRIPTIVA
NUMEROS INDICES
INDICE DE FISHER
El índice de Fisher parece ser un mejor indicador del índice de precios que los índices de Laspeyres y
Paasche, pero en la práctica se usa poco, porque es una función del índice de Paasche, y ya hemos
visto que este índice utiliza un conjunto de cantidades para cada período, que resulta difícil de
conseguir. La razón permite concluir que el índice de Fisher no presenta uniformidad para la
comparación de los precios en una serie de mas de dos períodos.