SlideShare une entreprise Scribd logo
1  sur  50
DEPARTAMENTODE INGENIERIAINDUSTRIAL
ESTADISTICA INFERENCIAL I
Presentan.
JAVIER GUERRERO RAMOS
Catedrático.
M.C. MOISES MUÑOZ DIAZ
Aguascalientes, Ags., 26 de Noviembre de 2015
UNIDAD 4
PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO
PARAMETRICAS
4.1 BONDA DE AJUSTE
La bondad de ajuste de un modelo estadístico describe lo bien que se ajusta un conjunto de
observaciones. Las medidas de bondad en general, resumen la discrepancia entre los valores
observados y los k valores esperados en el modelo de estudio.
4.1.1 ANALISIS Ji CUADRADA
Propiedades de las distribuciones ji-cuadrada
Los valores de X2 son mayores o iguales que 0.
La forma de una distribución X2 depende del gl=n-1. En consecuencia, hay un número infinito de
distribuciones X2.
El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1.
Las distribuciones X2 no son simétricas. Tienen colas estrechas que se extienden a la derecha;
esto es, están sesgadas a la derecha.
Cuando n>2, la media de una distribución X2 es n-1 y la varianza es 2(n-1).
El valor modal de una distribución X2 se da en el valor (n-3).
Supongamos que tenemos un número k de clases en las cuales se han ido registrado un total de n
observaciones (n será pues el tamaño muestral). Denotaremos las frecuencias observadas en
cada clase por O1, O2, ..., O k (Oi es el número de valores en la clase Ai ). Se cumplirá: O1 + O2 +
... + O k = n Lo que queremos es comparar las frecuencias observadas con las frecuencias
esperadas (teóricas), a las que denotaremos por E1, E2, ..., E k . Se cumplirá: E1 + E2 + ... + E k = n
FRECUENCIA OBSERVADA FRECUENCIA ESPERADA CLASE 1 O1 E1 CLASE 2 O2 E2 ... ... ... CLASE K
OK EK Total n;N .
Se tratará ahora de decidir si las frecuencias observadas están o no en concordancia
con las frecuencias esperadas (es decir, si el número de resultados observados en cada
clase corresponde aproximadamente al número esperado). Para comprobarlo,
haremos uso de un contraste de hipótesis usando la distribución Chi-cuadrado:
El estadístico de contraste será
Observar que este valor será la suma de k números no negativos. El numerador de
cada término es la diferencia entre la frecuencia observada y la frecuencia esperada.
Por tanto, cuanto más cerca estén entre sí ambos valores más pequeño será el
numerador, y viceversa. El denominador permite relativizar el tamaño del numerador.
 



k
1i
i
2
ii2
E
EO

(1)El valor del estadístico χ2 se podrá aproximar por una distribución Chi-cuadrado
cuando el tamaño muestral n sea grande (n > 30), y todas las frecuencias esperadas
sean iguales o mayores a 5 (en ocasiones deberemos agrupar varias categorías a fin
de que se cumpla este requisito).
(2)Las observaciones son obtenidas mediante muestreo aleatorio a partir de una
población particionada en categorías.
La siguiente figura ilustra tres distribuciones X2.
Note que el valor modal aparece en el valor (n-3) = (gl-2).
4.1.2 PRUEBA DE INDEPENDENCIA
El objetivo es verificar si existe una dependencia entre las variables cualitativas que
definen filas y columnas, es decir, si para todo i = 1, ..., k y j = 1, .., m se verifica que la
probabilidad del resultado correspondiente a la combinación Ai ∩ Bj es el producto de
las probabilidades marginales correspondientes. P(Ai) es la probabilidad del resultado i
para la variable fila y P(Bj) la del resultado j para la variable columna.
Cuando cada individuo de la población a estudio se puede clasificar según dos criterios A y B,
admitiendo el primero a posibilidades diferentes y b el segundo, la representación de las
frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de contingencia.
Los datos se disponen de la forma
La hipótesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma
independiente en los individuos de la población de la cual se extrae la muestra; siendo la
alternativa la dependencia estocástica entre ambos caracteres. La realización de esta prueba
requiere el cálculo del estadístico
Ejemplo de Aplicación
En un estudio para determinar si existe relación entre el sexo y el propósito de elegir una carrera técnica
se entrevistaron a 120 aspirantes a la universidad. Los resultados se observan en la siguiente tabla de contingencia:
Sexo
Aspira a Carrera Técnica
Total
Si No
Masculino 40 30 70
Femenino 10 40 50
Total 50 50 120
Se aplicará la fórmula para encontrar χ2
χ2 = (120(40x40 – 10x30)2)/70x50x50x70 = 16,56
4.1.3 PRUEBA DE LA BONDAD DE AJUSTE
Prueba de Bondad de Ajuste, consiste en determinar si los datos de cierta muestra corresponden
a cierta distribución poblacional. En este caso es necesario que los valores de la variable en la
muestra y sobre la cual queremos realizar la inferencia esté dividida en clases de ocurrencia, o
equivalentemente, sea cual sea la variable de estudio, deberemos categorizar los datos asignado
sus valores a diferentes clases o grupos.
Metodología útil para validar las hipótesis sobre la distribución teórica en la población que se
realiza en la estadística paramétrica, i.e., contrastes de hipótesis, intervalos de confianza,
regresión lineal, etc.
La prueba Ji cuadrada hace uso de la distribución del mismo nombre para probar la
bondad del ajuste al comparar el estadístico de prueba Xo2 con el valor en tablas de la
mencionada distribución Ji cuadrada con v grados de libertad y un nivel de
significancia alfa.
8.223 0.836 2.634 4.778 0.406 0.517 2.330 2.563 0.511 6.426
2.230 3.810 1.624 1.507 2.343 1.458 0.774 0.023 0.225 3.214
2.920 0.968 0.333 4.025 0.538 0.234 3.323 3.334 2.325 7.514
0.761 4.490 1.514 1.064 5.088 1.401 0.294 3.491 2.921 0.334
1.064 0.186 2.782 3.246 5.587 0.685 1.725 1.267 1.702 1.849
La siguiente muestra de tamaño 50 ha sido obtenida de una población que registra la vida útil
(en unidades de tiempo) de baterías alcalinas tipo AAA. Pruébese la hipótesis nula de que la
variable aleatoria vida útil de las baterías sigue una distribución exponencial negativa.
Considérese un nivel de significancia alfa de 5%.
k Clase FO absoluta FO relativa
1 0.0 - 1.15 21 0.42
2 1.15 - 3.0 15 0.30
3 3.0 - 4.5 8 0.16
4 4.5 - 6.0 3 0.06
5 6.0 - 7.5 1 0.02
6 7.5 - 9.0 2 0.04
SOLUCIÓN. Calculamos los valores min = 0.023 y max = 8.223.
Resultando ser el rango o recorrido igual a 8.2. El valor promedio es de 2.3.
A continuación ordenamos los valores de manera ascendente y construimos el histograma
de frecuencias relativas con seis clases cada una de longitud 1.5. (esto es debido a que 8.2 / 6 = 1.3)
k Clase FO absoluta FO relativa
1 0.0 - 1.15 21 0.42
2 1.15 - 3.0 15 0.30
3 3.0 - 4.5 8 0.16
4 4.5 - 9.0 6 0.12
Re – agrupamos las clases de modo que la FO sea de al menos 5
k Clase FO relativa FE teórica (FO-FE)2FE
1 0.0 - 1.5 0.42 0.528 0.022
2 1.5 - 3.0 0.30 0.249 0.010
3 3.0 - 4.5 0.16 0.118 0.015
4 4.5 - 9.0 0.12 0.105 0.002
Como nuestra hipótesis nula es que los datos se ajustan a la función de probabilidad exponencial negativa,
emplearemos tal función para calcular mediante integración el porcentaje de probabilidad esperado para cada subintervalo.
Ya vimos que el valor promedio es de 2.3, sin embargo para fines prácticos lo consideraremos como 2.0.
El cálculo de la integral para la primer clase es:
Entonces se tiene el valor
Como vemos el valor calculado es menor que el valor tabulado, por tanto la
conclusión es que no se puede rechazar la hipótesis nula de que la muestra proviene
de una distribución exponencial con media 2.0.
Ahora compararemos este valor calculado contra el valor tabulado de la distribución Ji – cuadrada
con un nivel de significancia alfa de 5% y el número de grados de libertad
V = (k –1) – 1 = (4 –1) –1 = 2. Entonces
4.1.4 TABLAS DE CONTINGENCIA
Diestro Zurdo TOTAL
Hombre 43 9 52
Mujer 44 4 48
TOTAL 87 13 100
En estadística las tablas de contingencia se emplean para registrar y analizar la asociación entre dos o más variables,
habitualmente de naturaleza cualitativa (nominales u ordinales).
Suponga que se dispone de dos variables, la primera el genero(hombre o mujer) y la segunda recoge si el individuo es
zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear
una tabla de contingencia para expresar la relación entre estas dos variables: Las cifras en la columna de la derecha y en
la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el gran total.
La tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente igual a la proporción
de mujeres diestras. Sin embargo, ambas proporciones no son idénticas y la significación estadística de la diferencia entre
ellas puede ser evaluada con la prueba χ² de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de
una población. Si la proporción de individuos en cada columna varía entre las diversas filas y viceversa, se dice que existe
asociación entre las dos variables. Si no existe asociación se dice que ambas variables son independientes.
φ = ,
4.1.5 USO DEL SOFTWARE ESTADISTICO
Un paquete estadístico es un programa informático que está especialmente diseñado para
resolver problemas en el área de la estadística, o bien está programado para resolver problemas
de esta área. Existen muchos programas que no son especialmente estadísticos pero que pueden
hacer algunos cálculos aplicables en estadística aplicada. Estos programas han impulsado y
siguen impulsando enormemente la labor de los investigadores que desean utilizar la estadística
como apoyo en su trabajo.
Los paquetes más sencillos tienen interfaz por ventanas, lo que implica facilidad de uso y
aprendizaje pero un mayor encorsetamiento a la hora de hacer cálculos que el programa no
tenga predefinidos. Los programas más complejos suelen tener la necesidad de conocer
su lenguaje de programación, pero suelen ser mucho más flexibles al poderse incluir en ellos
funciones, tests o contrastes que no traen instalados por definición.
VENTAJAS
La potencia de cálculo de un ordenador puede ayudar a un investigador a realizar cientos o miles
de contrastes de hipótesis en un tiempo muy reducido. Asimismo puede calcular decenas de
modelos de regresión en un tiempo muy corto y después quedarse con el más apropiado de
ellos. En problemas de investigación de operaciones un programa estadístico es capaz de realizar
miles de iteraciones por segundo de un algoritmo en el que una persona tardaría varios minutos
en cada una de ellas. Asimismo, es capaz de elegir entre miles de resultados posibles cuál de
todos ellos es el óptimo. Básicamente, lo que permiten es resolver problemas de estadística
aplicada por fuerza bruta o por probar miles de combinaciones para quedarse finalmente con la
que se crea que es la mejor para el uso
INCONVENIENTES
En los programas más complejos se necesita tener conocimientos de programación, así como
para realizar los cálculos más laboriosos. Por ejemplo si se desea realizar una operación dada a
una columna concreta, lo más frecuente es que se pueda hacer esto por ventanas, sin embargo,
si deseamos hacer esto mismo para todas las columnas de nuestro documento, que pueden ser
centenares, es posible que necesitemos programar un bucle en la sintaxis del programa.
Otro inconveniente está en que en estadística a menudo nos pueden salir resultados
contradictorios entre tests distintos. Un programa informático se dará cuenta de ello y nos
avisará de algún modo, pero tendrá que ser el usuario el que decida a cuál de los test hacer caso,
y esto en ocasiones es complejo, sobre todo si no se está familiarizado a fondo con la estadística
o se tiene poca experiencia.
PAQUETES ESTADISTICOS MAS COMUNES
R
SAS
SPSS
Epi Info 7
SPAD
Stata
Statgraphics
Redatam
Minitab
Matlab
S-PLUS
LISREL
WinQSB
Excel
PSPP
4.2 PRUEBAS NO PARAMETRICAS
Cuando se analizan datos medidos por una variable cuantitativa continua, las pruebas
estadísticas de estimación y contraste frecuentemente empleadas se basan en suponer que se ha
obtenido una muestra aleatoria de una distribución de probabilidad de tipo normal o de Gauss.
Pero en muchas ocasiones esta suposición no resulta válida, y en otras la sospecha de que no sea
adecuada no resulta fácil de comprobar, por tratarse de muestras pequeñas. En estos casos
disponemos de dos posibles mecanismos: los datos se pueden transformar de tal manera que
sigan una distribución normal, o bien se puede acudir a pruebas estadísticas que no se basan en
ninguna suposición en cuanto a la distribución de probabilidad a partir de la que fueron
obtenidos los datos, y por ello se denominan pruebas no paramétricas, mientras que las pruebas
que suponen una distribución de probabilidad determinada para los datos se denominan pruebas
paramétricas.
4.2.1 ESCALA DE MEDICION
El nivel de medida de una variable en matemáticas y estadísticas, también llamado escala de
medición, es una clasificación acordada con el fin de describir la naturaleza de la información
contenida dentro de los números asignados a los objetos y, por lo tanto, dentro de una variable.
Según la teoría de las escalas de medida, varias operaciones matemáticas diferentes son posibles
dependiendo del nivel en el cual la variable se mide.
son una sucesión de medidas que permiten organizar datos en orden jerárquico. Las escalas de
medición, pueden ser clasificadas de acuerdo a una degradación de las características de las
variables. Estas escalas son: nominales, ordinales, intervalares (continua) o racionales. Según
pasa de una escala a otra el atributo o la cualidad aumenta. Las escalas de medición ofrecen
información sobre la clasificación de variables discretas o continuas, también más conocidas
como escalas grandes o pequeñas. Toda vez que dicha clasificación determina la selección de
la gráfica adecuada.
ESCALA NOMINAL
No poseen propiedades cuantitativas y sirven únicamente para identificar las clases.
Los datos empleados con las escalas nominales constan generalmente de la frecuencia
de los valores o de la tabulación de número de casos en cada clase, según la variable
que se está estudiando. El nivel nominal permite mencionar similitudes y diferencias
entre los casos particulares. Los datos evaluados en una escala nominal se llaman
también "observaciones cualitativas", debido a que describen la calidad de una
persona o cosa estudiada, u "observaciones categóricas" porque los valores se
agrupan en categorías.
ESCALA ORDINAL
Las clases en las escalas ordinales no solo se diferencian unas de otras (característica
que define a las escalas nominales) sino que mantiene una especie de relación entre
sí. También permite asignar un lugar específico a cada objeto de un mismo conjunto,
de acuerdo con la intensidad, fuerza, etc.; presentes en el momento de la medición.
Una característica importante de la escala ordinal es el hecho de que, aunque hay
orden entre las categorías, la diferencia entre dos categorías adyacentes no es la
misma en toda la extensión de la escala. Algunas escalas consisten en calificaciones de
múltiples factores que se agregan después para llegar a un índice general.
ESCALA DE INTERVALO
Refleja distancias equivalentes entre los objetos y en la propia escala. Es decir, el uso
de ésta escala permite indicar exactamente la separación entre 2 puntos, lo cual, de
acuerdo al principio de isomorfismos, se traduce en la certeza de que los objetos así
medidos están igualmente separados a la distancia o magnitud expresada en la escala.
ESCALA DE RAZÓN
Constituye el nivel óptimo de medición, posee un cero verdadero como origen,
también denominada escala de proporciones. La existencia de un cero, natural y
absoluto, significa la posibilidad de que el objeto estudiado carezca de propiedad
medida, además de permitir todas las operaciones aritméticas y el uso de números
representada cantidades reales de la propiedad medida.
4.2.2 METODOS ESTADISTICOS CONTRA
NO PARAMETRICOS
La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos
estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su
distribución no puede ser definida a priori, pues son los datos observados los que la determinan.
La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos
se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como
mínimo, de intervalo.
Prueba χ² de Pearson
Prueba binomial
Prueba de Anderson-Darling
Prueba de Cochran
Prueba de Cohen kappa
Prueba de Fisher
Prueba de Friedman
Prueba de Kendall
Prueba de Kolmogórov-Smirnov
Prueba de Kruskal-Wallis
Prueba de Kuiper
Prueba de Mann-Whitney o prueba de Wilcoxon
Prueba de McNemar
Prueba de la mediana
Prueba de Siegel-Tukey
Prueba de los signos
Coeficiente de correlación de Spearman
Tablas de contingencia
Prueba de Wald-Wolfowitz
Prueba de los rangos con signo de Wilcoxon
La mayoría de estos test estadísticos
están programados en los paquetes
estadísticos más frecuentes,
quedando para el investigador,
simplemente, la tarea de decidir por
cuál de todos ellos guiarse o qué
hacer en caso de que dos test nos
den resultados opuestos. Hay que
decir que, para poder aplicar cada
uno existen diversas hipótesis nulas
y condiciones que deben cumplir
nuestros datos para que los
resultados de aplicar el test sean
fiables
4.2.3 PRUEBA DE KOLMOGOROV-SMIRNOV
En estadística, la prueba de Kolmogórov-Smirnov (también prueba K-S) es una prueba no
paramétrica que se utiliza para determinar la bondad de ajuste de dos distribuciones de
probabilidad entre sí.
Mediante la prueba se compara la distribución acumulada de las frecuencias teóricas (ft) con la
distribución acumulada de las frecuencias observadas (fobs), se encuentra el punto de
divergencia máxima y se determina qué probabilidad existe de que una diferencia de esa
magnitud se deba al azar.
Pasos:
1.Calcular las frecuencias esperadas de la distribución teórica específica por considerar
para determinado número de clases, en un arreglo de rangos de menor a mayor.
2.Arreglar estos valores teóricos en frecuencias acumuladas.
3.Arreglar acumulativamente las frecuencias observadas.
4.Aplicar la ecuación D = ft - f obs, donde D es la máxima discrepancia de ambas.
5.Comparar el valor estadístico D de Kolmogorov-Smirnov en la tabla de valores críticos de D.
6.Decidir si se acepta o rechaza la hipótesis.
Ecuación:
D = ft - fobs
En esta ecuación se aprecia que el procedimiento es muy simple y quizá lo que parezca más
complicado
corresponde al cálculo de la frecuencia esperada de cada tipo de distribución teórica. Por lo tanto,
en la marcha de los ejercicios se presentará cada uno de ellos y la manera de aplicar la prueba
estadística.
Ejemplo:
En una investigación, consistente en medir la talla de 100 niños de 5 años de edad, se desea saber
si las observaciones provienen de una población normal.
Planteamiento de la hipótesis.
Hipótesis alterna (Ha). Los valores observados de las frecuencias para cada clase son diferentes
de las frecuencias teóricas de una distribución normal.
Hipótesis nula (Ho). Las diferencias entre los valores observados y los teóricos de la distribución
normal se deben al azar.
Nivel de significancia
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
Tabla de 100 niños. Los valores X + s son 99.2 ± 2.85.
Para cada valor Z, se localiza el área de la curva tipificada de la tabla de números
aleatorios. A partir de estos valores, se obtiene la diferencia entre los límites de clases
entre el superior y el inferior, por ejemplo: 0.4997 - 0.4793 = 0.020, 0.4793 - 0.2357 =
0.2436, 0.2357 - (-0.2794) = 0.5151, -0.2794 - (-0.4854) = 0.206 y -0.4854 - (-0.4994) =
0.014.
Estos resultados de diferencias se multiplican por el tamaño de la muestra (100 niños),
luego se obtienen las frecuencias teóricas y después se arreglan en frecuencias
acumuladas.
Aplicación de la prueba estadística.
Primero se elaboran los cálculos de los valores teóricos esperados para la distribución normal.
Inicialmente se determina el valor Z de los límites de cada clase en la serie, por ejemplo:
en la primera clase se determinan el límite inferior y el superior (90 y 93), y en las subsecuentes
sólo los límites superiores (97, 101, 105 y 109). Para cada valor de Z, se localiza el área bajo la curva norma tipificada.
Los cálculos de valores Z, son de la forma siguiente:
Y así sucesivamente.
Las frecuencias acumuladas teóricas y las observadas se arreglan en los rangos
correspondientes, como se muestra en la siguiente tabla, y posteriormente se aplica la
fórmula de Kolmogorov-Smirnov.
Cálculo estadístico D de Kolmogorov-Smirnov.
Cálculos de los valores teóricos.
D = ft - fobs = - 0.036
La diferencia máxima D es igual a -0.049, valor que se compara con los valores críticos de D en la prueba muestral de Kolmogorov-
Smirnov y se obtiene la probabilidad de la existencia de esa magnitud de acuerdo con la prueba de Kolmogorov-Smirnov. El valor N
es 100 y el mayor número de N en la tabla es 35, por lo cual se aplica la fórmula al pie de la tabla:
Lo anterior quiere decir que para todo valor menor que el crítico para una
probabilidad de 0.05, la probabilidad correspondiente es mayor que 0.05, y todo valor
mayor que D al calculado tinen una probabilidad menor que 0.05, o sea, es
inversamente proporcional al crítico determinado o localizado en la tabla.
Decisión.
En virtud de lo anterior, el estadístico de Kolmogorov-Smirnov obtendo es menor que
el crítico y su probabilidad mayor que 0.05, por lo tanto, se acepta Ho y se rechaza Ha.
Interpretación.
Las frecuencias observadas y las teóricas calculadas no difieren significativamente. Por
lo tanto, las observaciones tienen una distribución normal.
4.2.4 PRUEBA DE ANDERSON- DARLING
La prueba de Anderson-Darling es una prueba no paramétrica sobre si los datos de
una muestra provienen de una distribución específica. La fórmula para el estadístico A
determina si los datos vienen de una distribución con función
acumulativa F.
La prueba de Anderson-Darling es una prueba estadística que permite determinar si
una muestra de datos se extrae de una distribución de probabilidad. En su forma
básica, la prueba asume que no existen parámetros a estimar en la distribución que se
está probando, en cuyo caso la prueba y su conjunto de valores críticos siguen una
distribución libre.
El estadístico de Anderson-Darling mide qué tan bien siguen los datos una distribución específica.
Para un conjunto de datos y una distribución específicos, mientras mejor se ajuste la distribución
a los datos, menor será este estadístico. Por ejemplo, puede utilizar el estadístico de Anderson-
Darling para determinar si los datos cumplen el supuesto de normalidad para una prueba t.
Las hipótesis para la prueba de Anderson-Darling son:
H0: Los datos siguen una distribución especificada
H1: Los datos no siguen una distribución especificada
Utilice el valor p correspondiente (si está disponible) para probar si los datos provienen de la
distribución elegida. Si el valor p es menor que un nivel de significancia elegido (por lo general
0.05 ó 0.10), entonces rechace la hipótesis nula de que los datos provienen de esa distribución.
Minitab no siempre muestra un valor p para la prueba de Anderson-Darling, porque éste no
existe matemáticamente para ciertos casos.
También puede utilizar el estadístico de Anderson-Darling para comparar el ajuste de varias
distribuciones con el fin de determinar cuál es la mejor. Sin embargo, para concluir que una
distribución es la mejor, el estadístico de Anderson-Darling debe ser sustancialmente menor que
los demás. Cuando los estadísticos están cercanos entre sí, se deben usar criterios adicionales,
como gráficas de probabilidad, para elegir entre ellos.
Distribución Anderson-Darling Valor p
Exponencial 9.599 p < 0.003
Normal 0.641 p < 0.089
Weibull de 3 parámetros 0.376 p < 0.432
Exponencial Normal Weibull de 3 parámetros
Ejemplo de comparación de distribuciones
Estas gráficas de probabilidad son para los mismos datos. Tanto la distribución normal como la
distribución de Weibull de 3 parámetros ofrecen un ajuste adecuado a los datos.
Minitab calcula el estadístico de Anderson-Darling usando la distancia al cuadrado ponderada
entre la línea de ajustada de la gráfica de probabilidad (con base en la distribución elegida y
usando el método de estimación de máxima verosimilitud o las estimaciones de mínimos
cuadrados) y la función escalonada no paramétrica. El cálculo se pondera más fuertemente en las
colas de la distribución.
4.2.5 PRUEBA DE RYAN-JOINER
Esta prueba evalúa la normalidad calculando la correlación entre los datos y las
puntuaciones normales de los datos. Si el coeficiente de correlación se encuentra
cerca de 1, es probable que la población sea normal. El estadístico de Ryan-Joiner
evalúa la fuerza de esta correlación; si se encuentra por debajo del valor crítico
apropiado, usted rechazará la hipótesis nula de normalidad en la población. Esta
prueba es similar a la prueba de normalidad de Shapiro-Wilk.
Ejemplo:
En el método de Anderson Darling o Ryan Joiner, si el valor de probabilidad Pde la prueba
es mayor a 0.05, se considera que los datos son normales. Seguir los siguientes
pasos:Generar 100 datos aleatorios en
Minitab
con Media = 264.6 y Desviaciónestándar S = 32.02 con:1. Calc > Random data > Normal2.
Generate 100 Store in columns C1 Mean 264.06 Estandar deviation 32.02OK.Nos
aseguramos que los datos se distribuyan normalmente con la prueba deAnderson Darling o
Ryanjoiner como sigue.1.Stat > Basic statistics > Normality
Test2.Variable C1 Seleccionar Ryan Joiner test OK .El P value debe ser mayor a 0.05 para
que los datos se distribuyannormalmente
4.2.6 PRUEBA DE SHAPIRO-WILK
En estadística, la prueba de Shapiro–Wilk se usa para contrastar la normalidad de un conjunto
de datos. Se plantea como hipótesis nula que una muestra x1, ..., xn proviene de una población
normalmente distribuida. Fue publicado en 1965 por Samuel Shapiro y Martin Wilk. Se considera
uno de los test más potentes para el contraste de normalidad, sobre todo para muestras
pequeñas (n<30).
Con los datos correspondientes a la variable Trans de la encuesta y con referencia a los encuestados que viven en
Barcelona,
se quiere comprobar si su distribución en cuanto al tipo de transporte utilizado se adapta a los resultados de un
estudio realizado por el
Ayuntamiento de Barcelona, que son los siguientes: el 40% de los desplazamientos al trabajo se realizan en
metro; el 30% en autobús;
el 20% en transporte privado y 10% otros medios.
La distribución de frecuencias de la variable Trans es:
En este caso para realizar el contraste Chi-cuadrado es necesario definir las cuatro categorías contempladas en la hipótesis
nula. Para ello, se crea una nueva variable, Trans2, a partir de Trans con las siguientes categorías: Metro, Bus, Privado (que
resultará de agregar Coche y Moto) y Otros (que agrupará Tren y Otros).Una vez creada la nueva variable, con la secuencia
Analizar > Pruebas no paramétricas > Chi-cuadrado se llega al cuadro de diálogo en donde se selecciona la variable Trans2 y
se introduce en Valores esperados las frecuencias relativas de cada categoría según la hipótesis nula correctamente
ordenadas: 0,4 para la categoría 1; 0,3 para la 2; 0,2 para la 3 y 0,10 para la 4. Al aceptar se obtienen los siguientes
resultados:
Como todas las categorías presentan frecuencia esperada mayor que 5 se puede
aplicar el contraste Chi-cuadrado sin modificar el número de categorías. El valor del
estadístico Chi-cuadrado permite rechazar la hipótesis nula para niveles de
significación superiores al 2,7%. Así pues, al 5% de significación se llega a la conclusión
de que la distribución del tipo de transporte que utilizan los alumnos no se adapta a la
publicada por el ayuntamiento.
4.2.7 APLICACIONES DEL PAQUETE
COMPUTACIONAL
Un Paquete Estadístico es un conjunto de programas y subprogramas conectados de manera que
funcionan de manera conjunta; es decir, para pasar de uno a otro no se necesita salir del
programa y volver a él. Un paquete estadístico permite aplicar a un mismo fichero de datos un
conjunto ilimitado de procedimientos estadísticos de manera sincronizada, sin salir del
programa.
La simulación es un ejemplo de cómo utilizar el computador en la estadística aplicada. Existen
software que simulan sistemas físicos, sociales o empresariales. Uno de las más sencillos y
conocidos trata de simular la toma de decisiones en diversos escenarios y analizar sus resultados
en un entorno competitivo.
Paradójicamente, el uso de la computadora ha generado nuevos problemas. Uno de ellos es que
se corre el riesgo de desarrollar análisis que constituyen sólo un ejercicio de uso de software, sin
dedicar el suficiente tiempo a analizar la coherencia y lógica detrás de los mismos.
Algunos ejemplos son:
Determinar medias y desviaciones estándar de variables con escala nominal, debido a que en la
tabla de datos figuran códigos numéricos de las distintas categorías.
Calcular la media y el desvío estándar de los números que identifican cada formulario.
Asignar un número a cada individuo según el orden que ocupa, y concluir que su distribución es
simétrica.
Podemos decir que los Paquetes Estadísticos son muy útiles al momento de hacer cálculos
estadísticos pero, los usuarios que sólo se aproximan circunstancialmente a problemas de tipo
estadístico y que sólo buscan soluciones poco sofisticadas y puntuales deben reexaminar las
rutinas estadísticas de cualquier hoja de cálculo.

Contenu connexe

Tendances

Pruebas de bondad de ajuste
Pruebas de bondad de ajustePruebas de bondad de ajuste
Pruebas de bondad de ajuste
Carlos Becerra
 
APROXIMACIÓN BINOMIAL DE HIPERGEOMÉTRICA
APROXIMACIÓN BINOMIAL DE HIPERGEOMÉTRICAAPROXIMACIÓN BINOMIAL DE HIPERGEOMÉTRICA
APROXIMACIÓN BINOMIAL DE HIPERGEOMÉTRICA
yaritza_ing
 
Trabajo estadistica
Trabajo estadisticaTrabajo estadistica
Trabajo estadistica
hoteles1
 
Distribución f de fisher snedecor
Distribución f de fisher snedecorDistribución f de fisher snedecor
Distribución f de fisher snedecor
pilosofando
 
Deber chi cuadrado (2)
Deber chi cuadrado (2)Deber chi cuadrado (2)
Deber chi cuadrado (2)
amandyta
 
Solucionario libro: Probabilidad y estadística para ingenieros 6 ed - walpole
Solucionario libro: Probabilidad y estadística para ingenieros 6 ed - walpoleSolucionario libro: Probabilidad y estadística para ingenieros 6 ed - walpole
Solucionario libro: Probabilidad y estadística para ingenieros 6 ed - walpole
Miguel Leonardo Sánchez Fajardo
 
Ejercicios Resueltos: Probabilidades y Variables Aleatorias
Ejercicios Resueltos: Probabilidades y Variables AleatoriasEjercicios Resueltos: Probabilidades y Variables Aleatorias
Ejercicios Resueltos: Probabilidades y Variables Aleatorias
Javiera Huera (Temuco)
 

Tendances (20)

Chi cuadrado
Chi  cuadradoChi  cuadrado
Chi cuadrado
 
Pruebas de bondad de ajuste
Pruebas de bondad de ajustePruebas de bondad de ajuste
Pruebas de bondad de ajuste
 
Simulación Clase 3
Simulación Clase 3Simulación Clase 3
Simulación Clase 3
 
APROXIMACIÓN BINOMIAL DE HIPERGEOMÉTRICA
APROXIMACIÓN BINOMIAL DE HIPERGEOMÉTRICAAPROXIMACIÓN BINOMIAL DE HIPERGEOMÉTRICA
APROXIMACIÓN BINOMIAL DE HIPERGEOMÉTRICA
 
Pruebas de bondad de ajuste
Pruebas de bondad de ajustePruebas de bondad de ajuste
Pruebas de bondad de ajuste
 
Pruebas No Parametricas
Pruebas No ParametricasPruebas No Parametricas
Pruebas No Parametricas
 
Diseño factorial de 3 factores
Diseño factorial de 3 factores Diseño factorial de 3 factores
Diseño factorial de 3 factores
 
Distribución t student
Distribución t studentDistribución t student
Distribución t student
 
Trabajo estadistica
Trabajo estadisticaTrabajo estadistica
Trabajo estadistica
 
Distribución f de fisher snedecor
Distribución f de fisher snedecorDistribución f de fisher snedecor
Distribución f de fisher snedecor
 
Tarea 7 de probabilidad y estadistica con respuesta (esperanza matemática o v...
Tarea 7 de probabilidad y estadistica con respuesta (esperanza matemática o v...Tarea 7 de probabilidad y estadistica con respuesta (esperanza matemática o v...
Tarea 7 de probabilidad y estadistica con respuesta (esperanza matemática o v...
 
Deber chi cuadrado (2)
Deber chi cuadrado (2)Deber chi cuadrado (2)
Deber chi cuadrado (2)
 
Solucionario libro: Probabilidad y estadística para ingenieros 6 ed - walpole
Solucionario libro: Probabilidad y estadística para ingenieros 6 ed - walpoleSolucionario libro: Probabilidad y estadística para ingenieros 6 ed - walpole
Solucionario libro: Probabilidad y estadística para ingenieros 6 ed - walpole
 
Ejercicios Resueltos: Probabilidades y Variables Aleatorias
Ejercicios Resueltos: Probabilidades y Variables AleatoriasEjercicios Resueltos: Probabilidades y Variables Aleatorias
Ejercicios Resueltos: Probabilidades y Variables Aleatorias
 
Distribución t de student
Distribución t de studentDistribución t de student
Distribución t de student
 
Pruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricasPruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricas
 
Análisis de la varianza
Análisis de la varianzaAnálisis de la varianza
Análisis de la varianza
 
Tarea 16 de probabilidad y estadistica con respuestas
Tarea 16 de probabilidad y estadistica  con respuestasTarea 16 de probabilidad y estadistica  con respuestas
Tarea 16 de probabilidad y estadistica con respuestas
 
Distribucion Poisson
Distribucion PoissonDistribucion Poisson
Distribucion Poisson
 
Ejemplo distribucion normal
Ejemplo distribucion normalEjemplo distribucion normal
Ejemplo distribucion normal
 

Similaire à Pruebasdebondaddeajuste 151127221517-lva1-app6891

Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1
guest0e7a0f7
 
Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1
guest0e7a0f7
 
5 Planteamiento de Hipotesis en mas de 2 Poblaciones (ji cuadrada)
5 Planteamiento de Hipotesis en mas de 2 Poblaciones (ji cuadrada)5 Planteamiento de Hipotesis en mas de 2 Poblaciones (ji cuadrada)
5 Planteamiento de Hipotesis en mas de 2 Poblaciones (ji cuadrada)
Ana
 
Hipotesis (ji) p resentacion
Hipotesis (ji) p resentacionHipotesis (ji) p resentacion
Hipotesis (ji) p resentacion
guest0e7a0f7
 
(5)hipotesis (ji) p resentacion
(5)hipotesis (ji) p resentacion(5)hipotesis (ji) p resentacion
(5)hipotesis (ji) p resentacion
Ana
 

Similaire à Pruebasdebondaddeajuste 151127221517-lva1-app6891 (20)

Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1
 
Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1
 
Pruebas no parametricas
Pruebas no parametricasPruebas no parametricas
Pruebas no parametricas
 
Chi cuadrada
Chi cuadradaChi cuadrada
Chi cuadrada
 
Estadistica chi cuadrado
Estadistica chi cuadradoEstadistica chi cuadrado
Estadistica chi cuadrado
 
Resumen de estadistica ii
Resumen de  estadistica iiResumen de  estadistica ii
Resumen de estadistica ii
 
Estadística II (II Bimestre)
Estadística II (II Bimestre)Estadística II (II Bimestre)
Estadística II (II Bimestre)
 
5 Planteamiento de Hipotesis en mas de 2 Poblaciones (ji cuadrada)
5 Planteamiento de Hipotesis en mas de 2 Poblaciones (ji cuadrada)5 Planteamiento de Hipotesis en mas de 2 Poblaciones (ji cuadrada)
5 Planteamiento de Hipotesis en mas de 2 Poblaciones (ji cuadrada)
 
Resumen Medidas de Variabilidad
Resumen Medidas de VariabilidadResumen Medidas de Variabilidad
Resumen Medidas de Variabilidad
 
Hipotesis (ji) p resentacion
Hipotesis (ji) p resentacionHipotesis (ji) p resentacion
Hipotesis (ji) p resentacion
 
(5)hipotesis (ji) p resentacion
(5)hipotesis (ji) p resentacion(5)hipotesis (ji) p resentacion
(5)hipotesis (ji) p resentacion
 
Jose borges tarea presentacion ppt dist de prob
Jose borges tarea presentacion ppt dist de probJose borges tarea presentacion ppt dist de prob
Jose borges tarea presentacion ppt dist de prob
 
Chi cuadrada
Chi cuadradaChi cuadrada
Chi cuadrada
 
UNIDAD II
UNIDAD IIUNIDAD II
UNIDAD II
 
Investigacion unidadii
Investigacion unidadiiInvestigacion unidadii
Investigacion unidadii
 
Investigacion unidad II
Investigacion unidad IIInvestigacion unidad II
Investigacion unidad II
 
Investigacion unidad II
Investigacion unidad IIInvestigacion unidad II
Investigacion unidad II
 
Investigacion unidadii
Investigacion unidadiiInvestigacion unidadii
Investigacion unidadii
 
ESTADISTICA UNIDAD II
ESTADISTICA UNIDAD IIESTADISTICA UNIDAD II
ESTADISTICA UNIDAD II
 
Investigacion unidad II
Investigacion unidad IIInvestigacion unidad II
Investigacion unidad II
 

Dernier

Unidad V. Disoluciones quimica de las disoluciones
Unidad V. Disoluciones quimica de las disolucionesUnidad V. Disoluciones quimica de las disoluciones
Unidad V. Disoluciones quimica de las disoluciones
chorantina325
 

Dernier (6)

PPT-HISTORIA-6°-ABC.pptxjjjjjjjjjjjjjjjjjjjjjj
PPT-HISTORIA-6°-ABC.pptxjjjjjjjjjjjjjjjjjjjjjjPPT-HISTORIA-6°-ABC.pptxjjjjjjjjjjjjjjjjjjjjjj
PPT-HISTORIA-6°-ABC.pptxjjjjjjjjjjjjjjjjjjjjjj
 
¡Descubre el Poder del Masaje Holístico en nuestra Primera Sesión del Seminar...
¡Descubre el Poder del Masaje Holístico en nuestra Primera Sesión del Seminar...¡Descubre el Poder del Masaje Holístico en nuestra Primera Sesión del Seminar...
¡Descubre el Poder del Masaje Holístico en nuestra Primera Sesión del Seminar...
 
Unidad V. Disoluciones quimica de las disoluciones
Unidad V. Disoluciones quimica de las disolucionesUnidad V. Disoluciones quimica de las disoluciones
Unidad V. Disoluciones quimica de las disoluciones
 
Corte de luz 2024 Guayaquil Guayas ecuad
Corte de luz 2024 Guayaquil Guayas ecuadCorte de luz 2024 Guayaquil Guayas ecuad
Corte de luz 2024 Guayaquil Guayas ecuad
 
PSICOPATOLOGIA I.pptxdhehehehehehehehehe
PSICOPATOLOGIA I.pptxdhehehehehehehehehePSICOPATOLOGIA I.pptxdhehehehehehehehehe
PSICOPATOLOGIA I.pptxdhehehehehehehehehe
 
Las redes sociales en el mercado digital
Las redes sociales en el mercado digitalLas redes sociales en el mercado digital
Las redes sociales en el mercado digital
 

Pruebasdebondaddeajuste 151127221517-lva1-app6891

  • 1. DEPARTAMENTODE INGENIERIAINDUSTRIAL ESTADISTICA INFERENCIAL I Presentan. JAVIER GUERRERO RAMOS Catedrático. M.C. MOISES MUÑOZ DIAZ Aguascalientes, Ags., 26 de Noviembre de 2015
  • 2. UNIDAD 4 PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMETRICAS
  • 3. 4.1 BONDA DE AJUSTE La bondad de ajuste de un modelo estadístico describe lo bien que se ajusta un conjunto de observaciones. Las medidas de bondad en general, resumen la discrepancia entre los valores observados y los k valores esperados en el modelo de estudio.
  • 4. 4.1.1 ANALISIS Ji CUADRADA Propiedades de las distribuciones ji-cuadrada Los valores de X2 son mayores o iguales que 0. La forma de una distribución X2 depende del gl=n-1. En consecuencia, hay un número infinito de distribuciones X2. El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1. Las distribuciones X2 no son simétricas. Tienen colas estrechas que se extienden a la derecha; esto es, están sesgadas a la derecha. Cuando n>2, la media de una distribución X2 es n-1 y la varianza es 2(n-1). El valor modal de una distribución X2 se da en el valor (n-3).
  • 5. Supongamos que tenemos un número k de clases en las cuales se han ido registrado un total de n observaciones (n será pues el tamaño muestral). Denotaremos las frecuencias observadas en cada clase por O1, O2, ..., O k (Oi es el número de valores en la clase Ai ). Se cumplirá: O1 + O2 + ... + O k = n Lo que queremos es comparar las frecuencias observadas con las frecuencias esperadas (teóricas), a las que denotaremos por E1, E2, ..., E k . Se cumplirá: E1 + E2 + ... + E k = n FRECUENCIA OBSERVADA FRECUENCIA ESPERADA CLASE 1 O1 E1 CLASE 2 O2 E2 ... ... ... CLASE K OK EK Total n;N .
  • 6. Se tratará ahora de decidir si las frecuencias observadas están o no en concordancia con las frecuencias esperadas (es decir, si el número de resultados observados en cada clase corresponde aproximadamente al número esperado). Para comprobarlo, haremos uso de un contraste de hipótesis usando la distribución Chi-cuadrado: El estadístico de contraste será Observar que este valor será la suma de k números no negativos. El numerador de cada término es la diferencia entre la frecuencia observada y la frecuencia esperada. Por tanto, cuanto más cerca estén entre sí ambos valores más pequeño será el numerador, y viceversa. El denominador permite relativizar el tamaño del numerador.      k 1i i 2 ii2 E EO 
  • 7. (1)El valor del estadístico χ2 se podrá aproximar por una distribución Chi-cuadrado cuando el tamaño muestral n sea grande (n > 30), y todas las frecuencias esperadas sean iguales o mayores a 5 (en ocasiones deberemos agrupar varias categorías a fin de que se cumpla este requisito). (2)Las observaciones son obtenidas mediante muestreo aleatorio a partir de una población particionada en categorías. La siguiente figura ilustra tres distribuciones X2. Note que el valor modal aparece en el valor (n-3) = (gl-2).
  • 8. 4.1.2 PRUEBA DE INDEPENDENCIA El objetivo es verificar si existe una dependencia entre las variables cualitativas que definen filas y columnas, es decir, si para todo i = 1, ..., k y j = 1, .., m se verifica que la probabilidad del resultado correspondiente a la combinación Ai ∩ Bj es el producto de las probabilidades marginales correspondientes. P(Ai) es la probabilidad del resultado i para la variable fila y P(Bj) la del resultado j para la variable columna.
  • 9. Cuando cada individuo de la población a estudio se puede clasificar según dos criterios A y B, admitiendo el primero a posibilidades diferentes y b el segundo, la representación de las frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de contingencia. Los datos se disponen de la forma La hipótesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma independiente en los individuos de la población de la cual se extrae la muestra; siendo la alternativa la dependencia estocástica entre ambos caracteres. La realización de esta prueba requiere el cálculo del estadístico
  • 10. Ejemplo de Aplicación En un estudio para determinar si existe relación entre el sexo y el propósito de elegir una carrera técnica se entrevistaron a 120 aspirantes a la universidad. Los resultados se observan en la siguiente tabla de contingencia: Sexo Aspira a Carrera Técnica Total Si No Masculino 40 30 70 Femenino 10 40 50 Total 50 50 120 Se aplicará la fórmula para encontrar χ2 χ2 = (120(40x40 – 10x30)2)/70x50x50x70 = 16,56
  • 11. 4.1.3 PRUEBA DE LA BONDAD DE AJUSTE Prueba de Bondad de Ajuste, consiste en determinar si los datos de cierta muestra corresponden a cierta distribución poblacional. En este caso es necesario que los valores de la variable en la muestra y sobre la cual queremos realizar la inferencia esté dividida en clases de ocurrencia, o equivalentemente, sea cual sea la variable de estudio, deberemos categorizar los datos asignado sus valores a diferentes clases o grupos. Metodología útil para validar las hipótesis sobre la distribución teórica en la población que se realiza en la estadística paramétrica, i.e., contrastes de hipótesis, intervalos de confianza, regresión lineal, etc.
  • 12. La prueba Ji cuadrada hace uso de la distribución del mismo nombre para probar la bondad del ajuste al comparar el estadístico de prueba Xo2 con el valor en tablas de la mencionada distribución Ji cuadrada con v grados de libertad y un nivel de significancia alfa.
  • 13. 8.223 0.836 2.634 4.778 0.406 0.517 2.330 2.563 0.511 6.426 2.230 3.810 1.624 1.507 2.343 1.458 0.774 0.023 0.225 3.214 2.920 0.968 0.333 4.025 0.538 0.234 3.323 3.334 2.325 7.514 0.761 4.490 1.514 1.064 5.088 1.401 0.294 3.491 2.921 0.334 1.064 0.186 2.782 3.246 5.587 0.685 1.725 1.267 1.702 1.849 La siguiente muestra de tamaño 50 ha sido obtenida de una población que registra la vida útil (en unidades de tiempo) de baterías alcalinas tipo AAA. Pruébese la hipótesis nula de que la variable aleatoria vida útil de las baterías sigue una distribución exponencial negativa. Considérese un nivel de significancia alfa de 5%.
  • 14. k Clase FO absoluta FO relativa 1 0.0 - 1.15 21 0.42 2 1.15 - 3.0 15 0.30 3 3.0 - 4.5 8 0.16 4 4.5 - 6.0 3 0.06 5 6.0 - 7.5 1 0.02 6 7.5 - 9.0 2 0.04 SOLUCIÓN. Calculamos los valores min = 0.023 y max = 8.223. Resultando ser el rango o recorrido igual a 8.2. El valor promedio es de 2.3. A continuación ordenamos los valores de manera ascendente y construimos el histograma de frecuencias relativas con seis clases cada una de longitud 1.5. (esto es debido a que 8.2 / 6 = 1.3)
  • 15. k Clase FO absoluta FO relativa 1 0.0 - 1.15 21 0.42 2 1.15 - 3.0 15 0.30 3 3.0 - 4.5 8 0.16 4 4.5 - 9.0 6 0.12 Re – agrupamos las clases de modo que la FO sea de al menos 5
  • 16. k Clase FO relativa FE teórica (FO-FE)2FE 1 0.0 - 1.5 0.42 0.528 0.022 2 1.5 - 3.0 0.30 0.249 0.010 3 3.0 - 4.5 0.16 0.118 0.015 4 4.5 - 9.0 0.12 0.105 0.002 Como nuestra hipótesis nula es que los datos se ajustan a la función de probabilidad exponencial negativa, emplearemos tal función para calcular mediante integración el porcentaje de probabilidad esperado para cada subintervalo. Ya vimos que el valor promedio es de 2.3, sin embargo para fines prácticos lo consideraremos como 2.0. El cálculo de la integral para la primer clase es: Entonces se tiene el valor
  • 17. Como vemos el valor calculado es menor que el valor tabulado, por tanto la conclusión es que no se puede rechazar la hipótesis nula de que la muestra proviene de una distribución exponencial con media 2.0. Ahora compararemos este valor calculado contra el valor tabulado de la distribución Ji – cuadrada con un nivel de significancia alfa de 5% y el número de grados de libertad V = (k –1) – 1 = (4 –1) –1 = 2. Entonces
  • 18. 4.1.4 TABLAS DE CONTINGENCIA Diestro Zurdo TOTAL Hombre 43 9 52 Mujer 44 4 48 TOTAL 87 13 100 En estadística las tablas de contingencia se emplean para registrar y analizar la asociación entre dos o más variables, habitualmente de naturaleza cualitativa (nominales u ordinales). Suponga que se dispone de dos variables, la primera el genero(hombre o mujer) y la segunda recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relación entre estas dos variables: Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el gran total. La tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente igual a la proporción de mujeres diestras. Sin embargo, ambas proporciones no son idénticas y la significación estadística de la diferencia entre ellas puede ser evaluada con la prueba χ² de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de una población. Si la proporción de individuos en cada columna varía entre las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Si no existe asociación se dice que ambas variables son independientes. φ = ,
  • 19. 4.1.5 USO DEL SOFTWARE ESTADISTICO Un paquete estadístico es un programa informático que está especialmente diseñado para resolver problemas en el área de la estadística, o bien está programado para resolver problemas de esta área. Existen muchos programas que no son especialmente estadísticos pero que pueden hacer algunos cálculos aplicables en estadística aplicada. Estos programas han impulsado y siguen impulsando enormemente la labor de los investigadores que desean utilizar la estadística como apoyo en su trabajo. Los paquetes más sencillos tienen interfaz por ventanas, lo que implica facilidad de uso y aprendizaje pero un mayor encorsetamiento a la hora de hacer cálculos que el programa no tenga predefinidos. Los programas más complejos suelen tener la necesidad de conocer su lenguaje de programación, pero suelen ser mucho más flexibles al poderse incluir en ellos funciones, tests o contrastes que no traen instalados por definición.
  • 20. VENTAJAS La potencia de cálculo de un ordenador puede ayudar a un investigador a realizar cientos o miles de contrastes de hipótesis en un tiempo muy reducido. Asimismo puede calcular decenas de modelos de regresión en un tiempo muy corto y después quedarse con el más apropiado de ellos. En problemas de investigación de operaciones un programa estadístico es capaz de realizar miles de iteraciones por segundo de un algoritmo en el que una persona tardaría varios minutos en cada una de ellas. Asimismo, es capaz de elegir entre miles de resultados posibles cuál de todos ellos es el óptimo. Básicamente, lo que permiten es resolver problemas de estadística aplicada por fuerza bruta o por probar miles de combinaciones para quedarse finalmente con la que se crea que es la mejor para el uso
  • 21. INCONVENIENTES En los programas más complejos se necesita tener conocimientos de programación, así como para realizar los cálculos más laboriosos. Por ejemplo si se desea realizar una operación dada a una columna concreta, lo más frecuente es que se pueda hacer esto por ventanas, sin embargo, si deseamos hacer esto mismo para todas las columnas de nuestro documento, que pueden ser centenares, es posible que necesitemos programar un bucle en la sintaxis del programa. Otro inconveniente está en que en estadística a menudo nos pueden salir resultados contradictorios entre tests distintos. Un programa informático se dará cuenta de ello y nos avisará de algún modo, pero tendrá que ser el usuario el que decida a cuál de los test hacer caso, y esto en ocasiones es complejo, sobre todo si no se está familiarizado a fondo con la estadística o se tiene poca experiencia.
  • 22. PAQUETES ESTADISTICOS MAS COMUNES R SAS SPSS Epi Info 7 SPAD Stata Statgraphics Redatam Minitab Matlab S-PLUS LISREL WinQSB Excel PSPP
  • 23. 4.2 PRUEBAS NO PARAMETRICAS Cuando se analizan datos medidos por una variable cuantitativa continua, las pruebas estadísticas de estimación y contraste frecuentemente empleadas se basan en suponer que se ha obtenido una muestra aleatoria de una distribución de probabilidad de tipo normal o de Gauss. Pero en muchas ocasiones esta suposición no resulta válida, y en otras la sospecha de que no sea adecuada no resulta fácil de comprobar, por tratarse de muestras pequeñas. En estos casos disponemos de dos posibles mecanismos: los datos se pueden transformar de tal manera que sigan una distribución normal, o bien se puede acudir a pruebas estadísticas que no se basan en ninguna suposición en cuanto a la distribución de probabilidad a partir de la que fueron obtenidos los datos, y por ello se denominan pruebas no paramétricas, mientras que las pruebas que suponen una distribución de probabilidad determinada para los datos se denominan pruebas paramétricas.
  • 24. 4.2.1 ESCALA DE MEDICION El nivel de medida de una variable en matemáticas y estadísticas, también llamado escala de medición, es una clasificación acordada con el fin de describir la naturaleza de la información contenida dentro de los números asignados a los objetos y, por lo tanto, dentro de una variable. Según la teoría de las escalas de medida, varias operaciones matemáticas diferentes son posibles dependiendo del nivel en el cual la variable se mide. son una sucesión de medidas que permiten organizar datos en orden jerárquico. Las escalas de medición, pueden ser clasificadas de acuerdo a una degradación de las características de las variables. Estas escalas son: nominales, ordinales, intervalares (continua) o racionales. Según pasa de una escala a otra el atributo o la cualidad aumenta. Las escalas de medición ofrecen información sobre la clasificación de variables discretas o continuas, también más conocidas como escalas grandes o pequeñas. Toda vez que dicha clasificación determina la selección de la gráfica adecuada.
  • 25. ESCALA NOMINAL No poseen propiedades cuantitativas y sirven únicamente para identificar las clases. Los datos empleados con las escalas nominales constan generalmente de la frecuencia de los valores o de la tabulación de número de casos en cada clase, según la variable que se está estudiando. El nivel nominal permite mencionar similitudes y diferencias entre los casos particulares. Los datos evaluados en una escala nominal se llaman también "observaciones cualitativas", debido a que describen la calidad de una persona o cosa estudiada, u "observaciones categóricas" porque los valores se agrupan en categorías.
  • 26. ESCALA ORDINAL Las clases en las escalas ordinales no solo se diferencian unas de otras (característica que define a las escalas nominales) sino que mantiene una especie de relación entre sí. También permite asignar un lugar específico a cada objeto de un mismo conjunto, de acuerdo con la intensidad, fuerza, etc.; presentes en el momento de la medición. Una característica importante de la escala ordinal es el hecho de que, aunque hay orden entre las categorías, la diferencia entre dos categorías adyacentes no es la misma en toda la extensión de la escala. Algunas escalas consisten en calificaciones de múltiples factores que se agregan después para llegar a un índice general.
  • 27. ESCALA DE INTERVALO Refleja distancias equivalentes entre los objetos y en la propia escala. Es decir, el uso de ésta escala permite indicar exactamente la separación entre 2 puntos, lo cual, de acuerdo al principio de isomorfismos, se traduce en la certeza de que los objetos así medidos están igualmente separados a la distancia o magnitud expresada en la escala.
  • 28. ESCALA DE RAZÓN Constituye el nivel óptimo de medición, posee un cero verdadero como origen, también denominada escala de proporciones. La existencia de un cero, natural y absoluto, significa la posibilidad de que el objeto estudiado carezca de propiedad medida, además de permitir todas las operaciones aritméticas y el uso de números representada cantidades reales de la propiedad medida.
  • 29. 4.2.2 METODOS ESTADISTICOS CONTRA NO PARAMETRICOS La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo.
  • 30. Prueba χ² de Pearson Prueba binomial Prueba de Anderson-Darling Prueba de Cochran Prueba de Cohen kappa Prueba de Fisher Prueba de Friedman Prueba de Kendall Prueba de Kolmogórov-Smirnov Prueba de Kruskal-Wallis Prueba de Kuiper Prueba de Mann-Whitney o prueba de Wilcoxon Prueba de McNemar Prueba de la mediana Prueba de Siegel-Tukey Prueba de los signos Coeficiente de correlación de Spearman Tablas de contingencia Prueba de Wald-Wolfowitz Prueba de los rangos con signo de Wilcoxon La mayoría de estos test estadísticos están programados en los paquetes estadísticos más frecuentes, quedando para el investigador, simplemente, la tarea de decidir por cuál de todos ellos guiarse o qué hacer en caso de que dos test nos den resultados opuestos. Hay que decir que, para poder aplicar cada uno existen diversas hipótesis nulas y condiciones que deben cumplir nuestros datos para que los resultados de aplicar el test sean fiables
  • 31. 4.2.3 PRUEBA DE KOLMOGOROV-SMIRNOV En estadística, la prueba de Kolmogórov-Smirnov (también prueba K-S) es una prueba no paramétrica que se utiliza para determinar la bondad de ajuste de dos distribuciones de probabilidad entre sí. Mediante la prueba se compara la distribución acumulada de las frecuencias teóricas (ft) con la distribución acumulada de las frecuencias observadas (fobs), se encuentra el punto de divergencia máxima y se determina qué probabilidad existe de que una diferencia de esa magnitud se deba al azar.
  • 32. Pasos: 1.Calcular las frecuencias esperadas de la distribución teórica específica por considerar para determinado número de clases, en un arreglo de rangos de menor a mayor. 2.Arreglar estos valores teóricos en frecuencias acumuladas. 3.Arreglar acumulativamente las frecuencias observadas. 4.Aplicar la ecuación D = ft - f obs, donde D es la máxima discrepancia de ambas. 5.Comparar el valor estadístico D de Kolmogorov-Smirnov en la tabla de valores críticos de D. 6.Decidir si se acepta o rechaza la hipótesis. Ecuación: D = ft - fobs En esta ecuación se aprecia que el procedimiento es muy simple y quizá lo que parezca más complicado corresponde al cálculo de la frecuencia esperada de cada tipo de distribución teórica. Por lo tanto, en la marcha de los ejercicios se presentará cada uno de ellos y la manera de aplicar la prueba estadística. Ejemplo: En una investigación, consistente en medir la talla de 100 niños de 5 años de edad, se desea saber si las observaciones provienen de una población normal.
  • 33. Planteamiento de la hipótesis. Hipótesis alterna (Ha). Los valores observados de las frecuencias para cada clase son diferentes de las frecuencias teóricas de una distribución normal. Hipótesis nula (Ho). Las diferencias entre los valores observados y los teóricos de la distribución normal se deben al azar. Nivel de significancia Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho. Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
  • 34. Tabla de 100 niños. Los valores X + s son 99.2 ± 2.85.
  • 35. Para cada valor Z, se localiza el área de la curva tipificada de la tabla de números aleatorios. A partir de estos valores, se obtiene la diferencia entre los límites de clases entre el superior y el inferior, por ejemplo: 0.4997 - 0.4793 = 0.020, 0.4793 - 0.2357 = 0.2436, 0.2357 - (-0.2794) = 0.5151, -0.2794 - (-0.4854) = 0.206 y -0.4854 - (-0.4994) = 0.014. Estos resultados de diferencias se multiplican por el tamaño de la muestra (100 niños), luego se obtienen las frecuencias teóricas y después se arreglan en frecuencias acumuladas. Aplicación de la prueba estadística. Primero se elaboran los cálculos de los valores teóricos esperados para la distribución normal. Inicialmente se determina el valor Z de los límites de cada clase en la serie, por ejemplo: en la primera clase se determinan el límite inferior y el superior (90 y 93), y en las subsecuentes sólo los límites superiores (97, 101, 105 y 109). Para cada valor de Z, se localiza el área bajo la curva norma tipificada. Los cálculos de valores Z, son de la forma siguiente: Y así sucesivamente.
  • 36. Las frecuencias acumuladas teóricas y las observadas se arreglan en los rangos correspondientes, como se muestra en la siguiente tabla, y posteriormente se aplica la fórmula de Kolmogorov-Smirnov. Cálculo estadístico D de Kolmogorov-Smirnov. Cálculos de los valores teóricos. D = ft - fobs = - 0.036
  • 37. La diferencia máxima D es igual a -0.049, valor que se compara con los valores críticos de D en la prueba muestral de Kolmogorov- Smirnov y se obtiene la probabilidad de la existencia de esa magnitud de acuerdo con la prueba de Kolmogorov-Smirnov. El valor N es 100 y el mayor número de N en la tabla es 35, por lo cual se aplica la fórmula al pie de la tabla: Lo anterior quiere decir que para todo valor menor que el crítico para una probabilidad de 0.05, la probabilidad correspondiente es mayor que 0.05, y todo valor mayor que D al calculado tinen una probabilidad menor que 0.05, o sea, es inversamente proporcional al crítico determinado o localizado en la tabla. Decisión. En virtud de lo anterior, el estadístico de Kolmogorov-Smirnov obtendo es menor que el crítico y su probabilidad mayor que 0.05, por lo tanto, se acepta Ho y se rechaza Ha. Interpretación. Las frecuencias observadas y las teóricas calculadas no difieren significativamente. Por lo tanto, las observaciones tienen una distribución normal.
  • 38. 4.2.4 PRUEBA DE ANDERSON- DARLING La prueba de Anderson-Darling es una prueba no paramétrica sobre si los datos de una muestra provienen de una distribución específica. La fórmula para el estadístico A determina si los datos vienen de una distribución con función acumulativa F. La prueba de Anderson-Darling es una prueba estadística que permite determinar si una muestra de datos se extrae de una distribución de probabilidad. En su forma básica, la prueba asume que no existen parámetros a estimar en la distribución que se está probando, en cuyo caso la prueba y su conjunto de valores críticos siguen una distribución libre.
  • 39. El estadístico de Anderson-Darling mide qué tan bien siguen los datos una distribución específica. Para un conjunto de datos y una distribución específicos, mientras mejor se ajuste la distribución a los datos, menor será este estadístico. Por ejemplo, puede utilizar el estadístico de Anderson- Darling para determinar si los datos cumplen el supuesto de normalidad para una prueba t. Las hipótesis para la prueba de Anderson-Darling son: H0: Los datos siguen una distribución especificada H1: Los datos no siguen una distribución especificada
  • 40. Utilice el valor p correspondiente (si está disponible) para probar si los datos provienen de la distribución elegida. Si el valor p es menor que un nivel de significancia elegido (por lo general 0.05 ó 0.10), entonces rechace la hipótesis nula de que los datos provienen de esa distribución. Minitab no siempre muestra un valor p para la prueba de Anderson-Darling, porque éste no existe matemáticamente para ciertos casos. También puede utilizar el estadístico de Anderson-Darling para comparar el ajuste de varias distribuciones con el fin de determinar cuál es la mejor. Sin embargo, para concluir que una distribución es la mejor, el estadístico de Anderson-Darling debe ser sustancialmente menor que los demás. Cuando los estadísticos están cercanos entre sí, se deben usar criterios adicionales, como gráficas de probabilidad, para elegir entre ellos.
  • 41. Distribución Anderson-Darling Valor p Exponencial 9.599 p < 0.003 Normal 0.641 p < 0.089 Weibull de 3 parámetros 0.376 p < 0.432 Exponencial Normal Weibull de 3 parámetros
  • 42. Ejemplo de comparación de distribuciones Estas gráficas de probabilidad son para los mismos datos. Tanto la distribución normal como la distribución de Weibull de 3 parámetros ofrecen un ajuste adecuado a los datos. Minitab calcula el estadístico de Anderson-Darling usando la distancia al cuadrado ponderada entre la línea de ajustada de la gráfica de probabilidad (con base en la distribución elegida y usando el método de estimación de máxima verosimilitud o las estimaciones de mínimos cuadrados) y la función escalonada no paramétrica. El cálculo se pondera más fuertemente en las colas de la distribución.
  • 43. 4.2.5 PRUEBA DE RYAN-JOINER Esta prueba evalúa la normalidad calculando la correlación entre los datos y las puntuaciones normales de los datos. Si el coeficiente de correlación se encuentra cerca de 1, es probable que la población sea normal. El estadístico de Ryan-Joiner evalúa la fuerza de esta correlación; si se encuentra por debajo del valor crítico apropiado, usted rechazará la hipótesis nula de normalidad en la población. Esta prueba es similar a la prueba de normalidad de Shapiro-Wilk.
  • 44. Ejemplo: En el método de Anderson Darling o Ryan Joiner, si el valor de probabilidad Pde la prueba es mayor a 0.05, se considera que los datos son normales. Seguir los siguientes pasos:Generar 100 datos aleatorios en Minitab con Media = 264.6 y Desviaciónestándar S = 32.02 con:1. Calc > Random data > Normal2. Generate 100 Store in columns C1 Mean 264.06 Estandar deviation 32.02OK.Nos aseguramos que los datos se distribuyan normalmente con la prueba deAnderson Darling o Ryanjoiner como sigue.1.Stat > Basic statistics > Normality Test2.Variable C1 Seleccionar Ryan Joiner test OK .El P value debe ser mayor a 0.05 para que los datos se distribuyannormalmente
  • 45. 4.2.6 PRUEBA DE SHAPIRO-WILK En estadística, la prueba de Shapiro–Wilk se usa para contrastar la normalidad de un conjunto de datos. Se plantea como hipótesis nula que una muestra x1, ..., xn proviene de una población normalmente distribuida. Fue publicado en 1965 por Samuel Shapiro y Martin Wilk. Se considera uno de los test más potentes para el contraste de normalidad, sobre todo para muestras pequeñas (n<30).
  • 46. Con los datos correspondientes a la variable Trans de la encuesta y con referencia a los encuestados que viven en Barcelona, se quiere comprobar si su distribución en cuanto al tipo de transporte utilizado se adapta a los resultados de un estudio realizado por el Ayuntamiento de Barcelona, que son los siguientes: el 40% de los desplazamientos al trabajo se realizan en metro; el 30% en autobús; el 20% en transporte privado y 10% otros medios. La distribución de frecuencias de la variable Trans es: En este caso para realizar el contraste Chi-cuadrado es necesario definir las cuatro categorías contempladas en la hipótesis nula. Para ello, se crea una nueva variable, Trans2, a partir de Trans con las siguientes categorías: Metro, Bus, Privado (que resultará de agregar Coche y Moto) y Otros (que agrupará Tren y Otros).Una vez creada la nueva variable, con la secuencia Analizar > Pruebas no paramétricas > Chi-cuadrado se llega al cuadro de diálogo en donde se selecciona la variable Trans2 y se introduce en Valores esperados las frecuencias relativas de cada categoría según la hipótesis nula correctamente ordenadas: 0,4 para la categoría 1; 0,3 para la 2; 0,2 para la 3 y 0,10 para la 4. Al aceptar se obtienen los siguientes resultados:
  • 47. Como todas las categorías presentan frecuencia esperada mayor que 5 se puede aplicar el contraste Chi-cuadrado sin modificar el número de categorías. El valor del estadístico Chi-cuadrado permite rechazar la hipótesis nula para niveles de significación superiores al 2,7%. Así pues, al 5% de significación se llega a la conclusión de que la distribución del tipo de transporte que utilizan los alumnos no se adapta a la publicada por el ayuntamiento.
  • 48. 4.2.7 APLICACIONES DEL PAQUETE COMPUTACIONAL Un Paquete Estadístico es un conjunto de programas y subprogramas conectados de manera que funcionan de manera conjunta; es decir, para pasar de uno a otro no se necesita salir del programa y volver a él. Un paquete estadístico permite aplicar a un mismo fichero de datos un conjunto ilimitado de procedimientos estadísticos de manera sincronizada, sin salir del programa. La simulación es un ejemplo de cómo utilizar el computador en la estadística aplicada. Existen software que simulan sistemas físicos, sociales o empresariales. Uno de las más sencillos y conocidos trata de simular la toma de decisiones en diversos escenarios y analizar sus resultados en un entorno competitivo.
  • 49. Paradójicamente, el uso de la computadora ha generado nuevos problemas. Uno de ellos es que se corre el riesgo de desarrollar análisis que constituyen sólo un ejercicio de uso de software, sin dedicar el suficiente tiempo a analizar la coherencia y lógica detrás de los mismos. Algunos ejemplos son: Determinar medias y desviaciones estándar de variables con escala nominal, debido a que en la tabla de datos figuran códigos numéricos de las distintas categorías. Calcular la media y el desvío estándar de los números que identifican cada formulario. Asignar un número a cada individuo según el orden que ocupa, y concluir que su distribución es simétrica.
  • 50. Podemos decir que los Paquetes Estadísticos son muy útiles al momento de hacer cálculos estadísticos pero, los usuarios que sólo se aproximan circunstancialmente a problemas de tipo estadístico y que sólo buscan soluciones poco sofisticadas y puntuales deben reexaminar las rutinas estadísticas de cualquier hoja de cálculo.