3° Y 4° Semana Analisis Multivariante

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS Universidad del Perú, DECANA DE AMERICA FACULTAD DE CIENCIAS MATEMÁTICAS Mg. María Estela Ponce Aruneri ESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA SEMESTRE ACADÉMÍCO 2009-Ii CURSO: ANÁLISIS MULTIVARIANTE

UNIDAD 3: INFERENCIA ESTADÍSTICA MULTIVARIANTE

INFERENCIA ESTADÍSTICA MULTIVARIANTE Fundamentos de la estimación por el método de Máximo Verosimilitud 1º Método creado por Fisher, encuentra el estimador que maximiza el logaritmo de la función de verosimilitud. 2º Se tiene una m.a. de tamaño “n” de una variable p-dimensional con función de densidad:

3º La función de verosimilitud: 4º El EMV se obtiene calculando el valor máximo de la función de verosimilitud, sí la función es diferenciable y su máximo no ocurre en un extremo de su dominio.

4º El máximo del logaritmo de la función de verosimilitud : ,[object Object],[object Object],[object Object],[object Object],[object Object]

d) Si existe un estadístico suficiente para el parámetro, el EVM es suficiente. siendo h una función no negativa que no depende de  y r una función que sólo depende del parámetro y de la muestra a través del estimador. e) Los EMV son invariantes para cualquier función del parámetro, cuyo estimador es MV. Si es EMV de  , entonces es EMV de g (  ) .

ESTIMACIÓN DE LOS PARÁMETROS DE UNA DISTRIBUCIÓN NORMAL P-VARIADA Sea : una m.a.s. extraída de una Población Normal p-variada donde: Objetivo: Encontrar los EMV de µ ,  1º Construir la función de densidad conjunta

2º La función soporte, eliminando la constante: 3º Resolviendo el segundo término de la expresión anterior: Pero : Reemplazando esta última expresión en la anterior se tiene:

Puesto que: Aplicando las propiedades de traza para el primer término de la expresión anterior: Reemplazando esta expresión en la función soporte:

4º Obtención del EMV del vector de medias poblacional: Como la inversa de  es definida positiva, entonces: 5º Obtención del EMV de la matriz de covarianzas poblacional:

Reemplazando el EMV del vector de medias y sumando un término que nos permita obtener el máximo de la función con respecto a  , se tiene que la función soporte se reduce a: Sean  i los autovalores de  - 1 S:

Esta función tendrá un máximo cuando  i =1; es decir la función soporte será máxima cuando todos los autovalores de  -1 S son iguales a la unidad y se obendrá cuando el EMV de  es S : Definición 1: Si es una muestra aleatoria, extraída de una población normal p-variada con vector de medias poblacional µ y matriz de covarianzas  , entonces Son estadísticas suficientes.

Definición 2: Si es una muestra aleatoria de tamaño “n”, extraída de una población normal p-variada con vector de medias poblacional µ y matriz de covarianzas  , entonces: Definición 3: Consecuencia de la ley de los grandes números es que: converge en probabilidad a µ

Teorema del límite central Sea observaciones independientes de alguna población con vector de medias µ y matriz de covarianza finita  , entonces Cuando n   y n > p

RESUMIENDO Sí observaciones independientes de alguna población con vector de medias µ y matriz de covarianza finita y no singular  , entonces

Región de Confianza y Pruebas de Hipótesis para el vector de medias de una población Regiones de Confianza para el vector de medias 1º Una región de confianza del 100(1-  )% para el vector de medias de una población que tiene distribución normal p-variada está dado por: Donde:

Son las observaciones muestrales . Observación: Sí p  4 no es posible graficar la región de confianza para el vector de medias, pero sí es posible calcular los ejes del elipsoide confidencial y sus respectivas longitudes .

Si el centro es el vector de medias muestral, entonces los ejes del elipsoide confidencial están dados por: Ejemplo : De 195 provincias del Perú en el año 2005, se obtuvo la siguiente información :

91: HUAYCABAMBA 95: PACHITEA 121: SANCHEZ CARRIÓN

Obtener una región de confianza del 95% para el vector de medias de la población de pacientes que sufrieron infarto al miocardio y que tiene distribución normal bivariada . Los autovalores y autovectores de S son: Reemplazando los valores en la región de confianza se tiene:

Sí: ¿se encontrará dentro de la región de confianza? Reemplazando los valores del vector de medias se tiene: 0,0372 > 0,031848

Para graficar el elipsoide, se tiene que la longitud media de los ejes está dado por:

2º Una región de confianza del 100(1-  )% para el vector de medias de una población que tiene distribución p-variada y matriz de covarianza definida positiva, y si n-p  se tiene que: Ejemplo : Suponga que no se conoce la distribución de la población de los datos del ejercicio anterior y calcule la región de confianza para el 95% de confianza.

¿Se encontrará en la región de confianza? Reemplazando los valores del vector de medias se tiene: 0.3147 > 0,030718

Pruebas de Hipótesis para el vector de medias de una población Método de la razón de Verosimilitud Proporciona pruebas estadísticas, que tienen ciertas propiedades óptimas para tamaños muestrales grandes. Dado: Y queremos probar las siguientes hipótesis:

[object Object],Entonces la razón de verosimilitud, para contrastar H o contra H 1 se define como: Donde f ( H i ) es el mayor valor que toma la función de verosimilitud en la región  i i=0,1. Si el tamaño de la muestra es grande se tiene que cuando la hipótesis nula es cierta:

Definición 2 : La prueba de razón de verosimilitud de tamaño  para probar la hipótesis nula contra la hipótesis alternativa, tiene como región de rechazo: ¿Cuál es le valor de gl(  )=? gl(  )=dim (  )- dim (  o )= p-(p-r)= r, 

Prueba de hipótesis 1) Sí X= (X 1 , X 2 , …..,X n ) es una muestra aleatoria de tamaño “n”, extraída de una población normal p-variada con vector de medias poblacional µ y matriz de covarianzas  conocida , entonces: De la sección anterior se tiene que la función soporte para obtener los EMV, viene dada por:

Reemplazando los EMV en la función soporte se tiene que el soporte para H 1 es: Bajo H o, se tiene que la expresión (*) se convierte en: Sumando una cantidad constante , se tiene que:

Entonces S o es el EMV de  bajo la hipótesis nula, reemplazando este estimador en (**) se tiene el soporte para H o : Luego:

Utilizaremos el siguiente lema: Si A es una matriz no singular y b es un vector:

 Cuando el tamaño de muestra es suficientemente grande o la matriz de covarianzas poblacional es conocida.

2) Sí X= (X 1 , X 2 , …..,X n ) es una muestra aleatoria de tamaño “n”, extraída de una población normal p-variada con vector de medias poblacional µ y matriz de covarianzas  desconocida , y si queremos probar: Rechazaremos la hipótesis nula cuando A un nivel de significancia “  ” , rechazamos la hipótesis nula sí:

Ejemplos: 1) La siguiente información se obtuvo del estudio del IDH en 195 provincias del Perú, en el 2005. Se consideraron las siguientes variables: X 1 : % DE ALFABETISMO X 2 : % DE ESCOLARIDAD X 3 : % LOGRO EDUCATIVO X 4 : INGRESO FAMILIAR PERCAPITA MENSUAL: NUEVOS SOLES

Supongamos que tienen distribución normal p-variada con vector de medias µ y matriz de covarianzas  :

Pruebe la siguiente hipótesis:

Rechazamos la hipótesis nula al 5%, luego:

Ejemplo 2: De 100 grandes compañías de los EEUU, se obtuvo la siguiente información: Probar la hipótesis: X 1 : gastos intangibles en millones X 2 : gastos de publicidad en miilones X 3 : gastos en investigación y desarrollo en millones

No Rechazamos la hipótesis nula al 5%, luego:

Región de Confianza y Pruebas de Hipótesis para la diferencia de vectores de medias poblacionales ,[object Object],Si se tiene dos muestras aleatorias de tamaño n 1 y n 2 , donde n= n 1 + n 2 entonces la distancia de mahalanobis muestral se define como:

Teorema : Si X 1 y X 2 son matrices de datos independientes, y si las n i filas de x i son i.i.d con N p ( µ i ,  i ), i=1,2,  cuando µ 1 =µ 2 y  1 =  2, se tiene que: Prueba:

Región de Confianza para la diferencia de vectores de dos medias poblacionales Si x i es una muestra aleatoria de tamaño n i , extraída de una población con N p ( µ i ,  i ), i=1,2, ambas muestras pequeñas e independientes y  1 =  2 =  desconocido, y si:

Ejemplo: En una muestra de dos grupos de individuos: No son Jefes de familia y los que son Jefe de familia. Las variables consideradas son: X 1 : número de semanas de desempleo X 2 : edad del trabajador en años Obtenga la región para el 99% de confianza . Grafique los contornos del elipsoide si:

Para graficar el elipsoide se tiene : Los autovalores y autovectores de son:

La longitud media de los ejes: Tarea : ¿Cuál será la región de confianza para la diferencia de vectores de medias de dos poblaciones si  1   2

3° Y 4° Semana Analisis Multivariante

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (12)

Similaire à 3° Y 4° Semana Analisis Multivariante

Similaire à 3° Y 4° Semana Analisis Multivariante (20)

Plus de jpgv84

Plus de jpgv84 (18)

Dernier

Dernier (20)

3° Y 4° Semana Analisis Multivariante