1. UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS Universidad del Perú, DECANA DE AMERICA FACULTAD DE CIENCIAS MATEMÁTICAS Mg. María Estela Ponce Aruneri ESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA SEMESTRE ACADÉMÍCO 2009-Ii CURSO: ANÁLISIS MULTIVARIANTE
3. INFERENCIA ESTADÍSTICA MULTIVARIANTE Fundamentos de la estimación por el método de Máximo Verosimilitud 1º Método creado por Fisher, encuentra el estimador que maximiza el logaritmo de la función de verosimilitud. 2º Se tiene una m.a. de tamaño “n” de una variable p-dimensional con función de densidad:
4. 3º La función de verosimilitud: 4º El EMV se obtiene calculando el valor máximo de la función de verosimilitud, sí la función es diferenciable y su máximo no ocurre en un extremo de su dominio.
5.
6. d) Si existe un estadístico suficiente para el parámetro, el EVM es suficiente. siendo h una función no negativa que no depende de y r una función que sólo depende del parámetro y de la muestra a través del estimador. e) Los EMV son invariantes para cualquier función del parámetro, cuyo estimador es MV. Si es EMV de , entonces es EMV de g ( ) .
7. ESTIMACIÓN DE LOS PARÁMETROS DE UNA DISTRIBUCIÓN NORMAL P-VARIADA Sea : una m.a.s. extraída de una Población Normal p-variada donde: Objetivo: Encontrar los EMV de µ , 1º Construir la función de densidad conjunta
8. 2º La función soporte, eliminando la constante: 3º Resolviendo el segundo término de la expresión anterior: Pero : Reemplazando esta última expresión en la anterior se tiene:
9. Puesto que: Aplicando las propiedades de traza para el primer término de la expresión anterior: Reemplazando esta expresión en la función soporte:
10. 4º Obtención del EMV del vector de medias poblacional: Como la inversa de es definida positiva, entonces: 5º Obtención del EMV de la matriz de covarianzas poblacional:
11. Reemplazando el EMV del vector de medias y sumando un término que nos permita obtener el máximo de la función con respecto a , se tiene que la función soporte se reduce a: Sean i los autovalores de - 1 S:
12. Esta función tendrá un máximo cuando i =1; es decir la función soporte será máxima cuando todos los autovalores de -1 S son iguales a la unidad y se obendrá cuando el EMV de es S : Definición 1: Si es una muestra aleatoria, extraída de una población normal p-variada con vector de medias poblacional µ y matriz de covarianzas , entonces Son estadísticas suficientes.
13. Definición 2: Si es una muestra aleatoria de tamaño “n”, extraída de una población normal p-variada con vector de medias poblacional µ y matriz de covarianzas , entonces: Definición 3: Consecuencia de la ley de los grandes números es que: converge en probabilidad a µ
14. Teorema del límite central Sea observaciones independientes de alguna población con vector de medias µ y matriz de covarianza finita , entonces Cuando n y n > p
15. RESUMIENDO Sí observaciones independientes de alguna población con vector de medias µ y matriz de covarianza finita y no singular , entonces
16. Región de Confianza y Pruebas de Hipótesis para el vector de medias de una población Regiones de Confianza para el vector de medias 1º Una región de confianza del 100(1- )% para el vector de medias de una población que tiene distribución normal p-variada está dado por: Donde:
17. Son las observaciones muestrales . Observación: Sí p 4 no es posible graficar la región de confianza para el vector de medias, pero sí es posible calcular los ejes del elipsoide confidencial y sus respectivas longitudes .
18. Si el centro es el vector de medias muestral, entonces los ejes del elipsoide confidencial están dados por: Ejemplo : De 195 provincias del Perú en el año 2005, se obtuvo la siguiente información :
20. Obtener una región de confianza del 95% para el vector de medias de la población de pacientes que sufrieron infarto al miocardio y que tiene distribución normal bivariada . Los autovalores y autovectores de S son: Reemplazando los valores en la región de confianza se tiene:
21. Sí: ¿se encontrará dentro de la región de confianza? Reemplazando los valores del vector de medias se tiene: 0,0372 > 0,031848
22. Para graficar el elipsoide, se tiene que la longitud media de los ejes está dado por:
23. 2º Una región de confianza del 100(1- )% para el vector de medias de una población que tiene distribución p-variada y matriz de covarianza definida positiva, y si n-p se tiene que: Ejemplo : Suponga que no se conoce la distribución de la población de los datos del ejercicio anterior y calcule la región de confianza para el 95% de confianza.
24. ¿Se encontrará en la región de confianza? Reemplazando los valores del vector de medias se tiene: 0.3147 > 0,030718
26. Pruebas de Hipótesis para el vector de medias de una población Método de la razón de Verosimilitud Proporciona pruebas estadísticas, que tienen ciertas propiedades óptimas para tamaños muestrales grandes. Dado: Y queremos probar las siguientes hipótesis:
27.
28. Definición 2 : La prueba de razón de verosimilitud de tamaño para probar la hipótesis nula contra la hipótesis alternativa, tiene como región de rechazo: ¿Cuál es le valor de gl( )=? gl( )=dim ( )- dim ( o )= p-(p-r)= r,
29. Prueba de hipótesis 1) Sí X= (X 1 , X 2 , …..,X n ) es una muestra aleatoria de tamaño “n”, extraída de una población normal p-variada con vector de medias poblacional µ y matriz de covarianzas conocida , entonces: De la sección anterior se tiene que la función soporte para obtener los EMV, viene dada por:
30. Reemplazando los EMV en la función soporte se tiene que el soporte para H 1 es: Bajo H o, se tiene que la expresión (*) se convierte en: Sumando una cantidad constante , se tiene que:
31. Entonces S o es el EMV de bajo la hipótesis nula, reemplazando este estimador en (**) se tiene el soporte para H o : Luego:
33. Cuando el tamaño de muestra es suficientemente grande o la matriz de covarianzas poblacional es conocida.
34. 2) Sí X= (X 1 , X 2 , …..,X n ) es una muestra aleatoria de tamaño “n”, extraída de una población normal p-variada con vector de medias poblacional µ y matriz de covarianzas desconocida , y si queremos probar: Rechazaremos la hipótesis nula cuando A un nivel de significancia “ ” , rechazamos la hipótesis nula sí:
35. Ejemplos: 1) La siguiente información se obtuvo del estudio del IDH en 195 provincias del Perú, en el 2005. Se consideraron las siguientes variables: X 1 : % DE ALFABETISMO X 2 : % DE ESCOLARIDAD X 3 : % LOGRO EDUCATIVO X 4 : INGRESO FAMILIAR PERCAPITA MENSUAL: NUEVOS SOLES
36.
37. Supongamos que tienen distribución normal p-variada con vector de medias µ y matriz de covarianzas :
40. Ejemplo 2: De 100 grandes compañías de los EEUU, se obtuvo la siguiente información: Probar la hipótesis: X 1 : gastos intangibles en millones X 2 : gastos de publicidad en miilones X 3 : gastos en investigación y desarrollo en millones
44. Teorema : Si X 1 y X 2 son matrices de datos independientes, y si las n i filas de x i son i.i.d con N p ( µ i , i ), i=1,2, cuando µ 1 =µ 2 y 1 = 2, se tiene que: Prueba:
46. Región de Confianza para la diferencia de vectores de dos medias poblacionales Si x i es una muestra aleatoria de tamaño n i , extraída de una población con N p ( µ i , i ), i=1,2, ambas muestras pequeñas e independientes y 1 = 2 = desconocido, y si:
47.
48. Ejemplo: En una muestra de dos grupos de individuos: No son Jefes de familia y los que son Jefe de familia. Las variables consideradas son: X 1 : número de semanas de desempleo X 2 : edad del trabajador en años Obtenga la región para el 99% de confianza . Grafique los contornos del elipsoide si:
49.
50. Para graficar el elipsoide se tiene : Los autovalores y autovectores de son:
51. La longitud media de los ejes: Tarea : ¿Cuál será la región de confianza para la diferencia de vectores de medias de dos poblaciones si 1 2