Se resalta la importancia de las pruebas de bondad de ajuste en la selección de la distirbución que mejor representa la serie histórica de datos, de modo de seleccionarla para la estimación de valores extremos. Se revisa en detalle las pruebas de Chi-Cuadrado y Kolmogorov-Smirnov
2. LA IMPORTANCIA DE LAS PRUEBAS DE BONDAD DE AJUSTE Manuel E. García-Naranjo B. Septiembre 2011
3. INTRODUCCIÓN En la determinación de valores extremos (caudales máximos o mínimos, niveles máximos o mínimos, etc.) necesarios para el análisis y solución de muchos problemas relacionados con la ingeniería hidráulica, resulta común emplear las distribuciones probabílisticas más usuales para el estudio de problemas hidrológicos. Así, a partir de un registro histórico de valores extremos, se infiere aquellos valores máximos o mínimos asociados a un cierto período de retorno de diseño.
4. INTRODUCCIÓN Es relativamente común apreciar estudios en los cuales, a partir de una data histórica de valores extremos, se haya hecho uso de distribuciones tales como: Gumbel, Normal o Log Pearson tipo III, para estimar los valores extremos asociados a un periodo de retorno seleccionado. En menor medida se observará el empleo de distribuciones tales como: log normal de 2 parámetros, log normal de 3 parámetros o la distribución gamma de 2 ó de 3 parámetros.
5. INTRODUCCIÓN En este sentido cabría preguntarse: ¿qué ha llevado al especialista a seleccionar una determinada distribución probabilística para el análisis efectuado? ¿se ha verificado que la distribución escogida sea la que efectivamente mejor se ajusta o representa a la serie histórica de datos? ¿cuál de las distribuciones disponibles debió haberse empleado en verdad en la estimación requerida de valores extremos? Estas preguntas nos conducen a la necesidad de revisar los temas relacionados con las pruebas de bondad de ajuste.
6. DEFINICIONES Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos disponibles se ajustan a una determinada distribución. Se entiende por bondad de ajuste a la asimilación de los datos observados de una variable a una función matemática previamente establecida y reconocida. A través de ésta es posible entonces predecir el comportamiento de la variable en estudio (Pizarro, 1986)
7.
8. PRUEBA DE CHI CUADRADO La prueba de Chi Cuadrado se basa en la comparación entre la frecuencia observada en un intervalo de clase y la frecuencia esperada en dicho intervalo, calculada de acuerdo con la distribución teórica considerada. Es decir, se trata de determinar si las frecuencias observadas en la muestra están lo suficientemente cerca de las frecuencias esperadas bajo la hipótesis nula formulada. Para aplicar esta prueba se debe agrupar las observaciones de la muestra en intervalos de clase, preferiblemente del mismo tamaño.
9.
10. PRUEBA DE CHI CUADRADO Valor tabular de Chi-cuadrado El valor tabular del estadístico Chi-cuadrado, 2 t , se determina a partir del cuadro siguiente, en función de los grados de libertad y del nivel de significación elegido, esto es, la probabilidad de exceder el valor extremo.
12. PRUEBA DE CHI CUADRADO Los grados de libertad se determinan con la expresión: g.l. = k – 1 – p grados de libertad, donde k es el número de intervalos de clase y p es el número de parámetros que definen completamente a la distribución seleccionada. El nivel de significación, , usualmente es 5% o 1%
13. PRUEBA DE CHI CUADRADO Los grados de libertad se determinan con la expresión: g.l. = k – 1 – p grados de libertad, donde k es el número de intervalos de clase y p es el número de parámetros que definen completamente a la distribución seleccionada. El nivel de significación, , usualmente es 5% o 1%
14. PRUEBA DE CHI CUADRADO Criterio de Decisión El criterio de decisión se fundamenta en la comparación del valor calculado de Chi-cuadrado con el valor tabular encontrado, esto es: Si el estadístico Chi-cuadrado calculado es menor o igual que el valor tabular, es decir: 2 C 2 t entonces, se acepta la hipótesis nula, que establece que los valores observados se ajustan a la distribución considerada, al nivel de significación seleccionado (usualmente = 5% o 1%)
15. PRUEBA DE CHI CUADRADO Si el estadístico Chi-cuadrado calculado es mayor que el valor tabular, es decir: 2 C > 2 t entonces, se rechaza la hipótesis nula y se acepta la hipótesis alternativa, que establece que los valores observados no se ajustan a la distribución considerada, al nivel de significación seleccionado (usualmente = 5% o 1%); siendo necesario probar con otra distribución teórica.
28. PRUEBA DE KOLMOGOROV SMIRNOV Este procedimiento es un test no paramétrico que permite establecer si dos muestras se ajustan al mismo modelo probabilístico (Varas y Bois, 1998). Es un test válido para distribuciones continuas y sirve tanto para muestras grandes como para muestras pequeñas (Pizarro et al, 1986). Así mismo, Pizarro (1988), hace referencia a que, como parte de la aplicación de este test, es necesario determinar la frecuencia observada acumulada y la frecuencia teórica acumulada; una vez determinadas ambas frecuencias, se obtiene el máximo de las diferencias entre ambas.
29.
30. PRUEBA DE KOLMOGOROV SMIRNOV Tabla de valores de D en función del nivel de significancia y del tamaño de la muestra
35. PRUEBA DE ANDERSON-DARLING Esta prueba no paramétrica es una modificación del test de Kolmogorov- Smirnov, donde se le da más peso a las colas de la distribución que la prueba de K-S. Fórmula: A 2 = − N− S El estadístico para la prueba de Anderson-Darling es:
38. PRUEBA DE ANDERSON-DARLING Una vez obtenido el estadístico ajustado, la regla de rechazo se realiza de manera análoga a la prueba de Kolmogorov-Smirnov. Si A n 2 es mayor o igual que a o , se acepta la hipótesis nula; siendo a o el valor asociado al estadístico de prueba A n 2