SlideShare une entreprise Scribd logo
1  sur  40
UNIVERSIDAD NACIONAL  MAYOR DE SAN MARCOS   Universidad del Perú, DECANA DE AMERICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA Mg. María Estela Ponce Aruneri ESCUELA  ACADÉMICO PROFESIONAL DE ESTADÍSTICA ANÁLISIS MULTIVARIANTE SEMESTRE ACADÉMÍCO 2009 -II
ANÁLISIS EXPLORATORIO DE DATOS MULTIVARIANTES CONTINUACIÓN
3° Homocedasticidad Es una hipótesis muy habitual en algunas técnicas estadísticas como el Análisis de la Varianza, el Análisis Discriminante y el Análisis de Regresión, entre otras. Dicha hipótesis se refiere a suponer la igualdad de varianzas de las variables dependientes en diversos grupos formados por los distintos valores de las variables independientes. Si dicha hipótesis no se cumple, puede alterar la potencia y el nivel de significación de los contrastes utilizados por dichas técnicas, por ello es necesario analizar si se verifica o no , en caso contrario, poner los remedios oportunos.
Los gráficos  de cajas es una herramienta de gran utilidad para evaluar la diferencia o semenjanzas entre grupos, además permite ubicar datos discordantes o extremos. Por ejemplo: ¿Existen diferencias en las características de las viviendas de los distritos del cono norte y sur?
Las pruebas de hipótesis  permite analizar la existencia de esta igualdad que, en muchas ocasiones, esta relacionado con una falta de normalidad de las variables analizadas. En la literatura se han propuesto diversos tests o pruebas (ver, por ejemplo, Jobson, 1991, Volumen 1). Uno de los más utilizados es el test de Levene basado en aplicar un ANOVA a las diferencias absolutas respecto a una medida de tendencia central de los diversos grupos. Dicho test toma como hipótesis nula la existencia de homocedasticidad y como alternativa la de heterocedasticidad. Un posible remedio contra la heterocedasticidad es transformar los datos originales.
Un grupo de transformaciones muy utilizadas son las de Box-Cox que vienen dadas por la siguiente expresión: El valor de  C  se elige de forma que  X  +  C  sea positiva. El valor de  λ  se suele determinar de forma empírica. En general este tipo de transformaciones suelen ser efectivas si no hay un número excesivo de outliers y si el cociente de la desviación típica dividida por la media es mayor que ¼ o si el cociente de la observación más
grande dividida por la más pequeña es mayor que 2.  Es importante que la transformación elegida sea fácilmente interpretable y, en caso de duda, se aconseja repetir el análisis con los datos transformados y sin transformar y observar si los resultados obtenidos difieren demasiado. En éste último caso y si el procedimiento utilizado es poco robusto a la hipótesis de normalidad, utilizar los resultados con los datos transformados. En el caso multivariado, se utiliza la prueba  M de Box,  para verificar homocedasticidad en poblaciones
Tarea: Con la base de datos asignada a cada grupo, verificar si se cumple el supuesto de homocedasticidad. Multivariadas.
QUINTA ETAPA DEL AED: DATOS ATÍPICOS (OUTLIERS) Los casos atípicos son observaciones con características diferentes de las demás. Este tipo de casos no pueden ser caracterizados categóricamente como benéficos o problemáticos sino que deben ser contemplados en el contexto del análisis y debe evaluarse el tipo de información que pueden proporcionar. Su principal problema radica en que son elementos que pueden no ser representativos de la población pudiendo distorsionar seriamente el comportamiento de los contrastes y resultados estadísticos.
Por otra parte, aunque diferentes a la mayor parte de la muestra, pueden ser indicativos de las características de un segmento válido de la población y, por consiguiente, una señal de la falta de representatividad de la muestra. Tipos de outliers Los casos atípicos pueden clasificarse en 4 categorías: La primera categoría  contiene aquellos casos atípicos que surgen de un error de procedimiento, tales como la entrada de datos o un error de codificación. Estos casos atípicos deberían subsanarse en el filtrado de los datos, y si no se puede, deberían eliminarse del análisis o recodificarse como datos ausentes.
La segunda clase  es la observación que ocurre como consecuencia de un acontecimiento extraordinario. En este caso, el outlier no representa ningún segmento válido de la población y puede ser eliminado del análisis. La tercera clase  contiene las observaciones cuyos valores caen dentro del rango de las variables observadas, pero que son únicas en la combinación de los valores de dichas variables. Estas observaciones deberían ser retenidas en el análisis pero estudiando qué influencia ejercen en los procesos de estimación de los modelos considerados.
La cuarta y última clase  comprende las observaciones extraordinarias para las que el investigador no tiene explicación. En estos casos lo mejor que se puede hacer es replicar el análisis con y sin dichas observaciones con el fin de analizar su influencia sobre los resultados. Si dichas observaciones son influyentes el analista debería reportarlo en sus conclusiones y debería averiguar el por qué de dichas observaciones. Identificación de outliers Los casos atípicos pueden identificarse desde una perspectiva univariante o multivariante.
La perspectiva univariante  examina la distribución de observaciones para cada variable, seleccionando como casos atípicos aquellos casos cuyos valores caigan fuera de los rangos de la distribución. La cuestión principal consiste en el establecimiento de un umbral para la designación de caso atípico. Esto se puede hacer gráficamente mediante histogramas o diagramas de caja o bien numéricamente, mediante el cálculo de puntuaciones tipificadas. Para muestras pequeñas (de 80 o incluso menos observaciones), las pautas sugeridas identifican como atípicos aquellos casos con valores estándar de 2.5 o superiores. Cuando los tamaños muestrales son mayores, las pautas sugieren que el valor umbral sea 3.
Pueden analizarse conjuntamente  pares de variables  mediante un gráfico de dispersión. Casos que se ubiquen fuera del rango del resto de las observaciones pueden identificarse como puntos aislados en el gráfico de dispersión. Para ayudar a determinar el rango esperado de las  observaciones, se puede superponer sobre el gráfico de dispersión una elipse que represente un intervalo de confianza especificado para una distribución normal bivariante. Lo que proporciona una representación gráfica de los límites de confianza y facilita la identificación de casos atípicos.
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Fuente: Banco Mundial (2002), FAO (2002) y PNUD (2001).
El Gráfico, contiene las “Caras de Chernoff para los 5 países por encima y los 5 por debajo de Cuba en términos de PIB per cápita a PPA. En este caso se utilizan sólo las 9 variables explicativas tomadas para el ejercicio, excluyendo por supuesto al PIB percápita. Cada rasgo de las caras tienen en cuenta la magnitud relativa para cada país, de la siguiente forma: mientras la boca sea más sonriente, el consumo de kilocalorías per cápita diaria es mayor, mientras la boca sea más larga, mayor es la proporción de la población con acceso a fuentes de agua mejorada, cuando la boca está más pegada a la nariz, menor es la cantidad de Computadoras personales por mil habitantes,
la nariz más grande indica más cantidad de teléfonos y celulares por cien habitantes, una cara más ancha expresa una mayor esperanza de vida al nacer, mientras más para abajo se encuentre el nivel de las orejas, menor tasa de mortalidad para menores de 5 años, un mentón más pronunciado, corresponde a un consumo de electricidad per cápita menor, mientras más achatada sea la parte superior de la cara, mayor será la tenencia de televisores, una cara más alargada, describe una mayor tasa total de matrícula. Este gráfico fue propuesto originalmente por Chernoff (1973) y extendida por Flury y Riedwyl (1981).
[object Object]
[object Object],[object Object],[object Object],[object Object]
Finalmente existen otros procedimientos para detectar atípicos multivariantes, dicha detección se puede hacer mediante un Análisis de Componentes Principales. Tarea: Con la base de datos asignada a cada grupo, identificar datos atípicos a nivel univariado, bivariado y multivariado.
SEXTA ETAPA DEL AED: DATOS AUSENTES Los datos ausentes son algo habitual en el Análisis Multivariante; de hecho, rara es la investigación en la que no aparece este tipo de datos. En estos casos la ocupación primaria del investigador debe ser determinar las razones que subyacen en el dato ausente buscando entender el proceso principal de esta ausencia para seleccionar el curso de acción más apropiado.
Para ello se debe determinar cuál es el proceso de datos ausentes, entendido como cualquier evento sistemático externo al encuestado (errores en la introducción de datos) o acción por parte del encuestado (tales como rehusar a contestar) que da lugar a la ausencia de datos.  En particular, el investigador debe analizar si existe algún patrón no aleatorio en dicho proceso que pueda sesgar los resultados obtenidos debido a la pérdida de representatividad de la muestra analizada.
[object Object],[object Object],[object Object],[object Object]
2)  Datos ausentes no prescindibles:  son resultado de procesos que no se encuentran bajo el control del investigador y/o no pueden ser identificados explícitamente. Ejemplos  de estas situaciones son los errores en la entrada de datos, la renuncia del encuestado a responder a ciertas cuestiones o respuestas inaplicables. En estos casos se debe analizar si existen o no patrones sistemáticos en el proceso que puedan sesgar los resultados obtenidos. Si los datos ausentes son no prescindibles conviene, por lo tanto, analizar el grado de aleatoriedad presente en los mismos.
[object Object],[object Object],[object Object],[object Object]
b)  Datos ausentes aleatorios (MAR),  en este caso el patrón de los datos ausentes en una variable Y no es aleatorio sino que depende de otras variables de la muestra X. Ahora bien, para cada valor de X, los valores observados de Y sí representan una muestra aleatoria de Y. Así, por ejemplo, si X es el género del encuestado e Y es su renta, un proceso MAR se tendría si existen más valores ausentes de Y en hombres que en mujeres y, sin embargo, los datos son aleatorios para ambos géneros en el sentido de que, tanto en los hombres
en las mujeres, el patrón de ausentes es completamente aleatorio. Si, además, tampoco existen diferencias por género los datos ausentes serían MCAR. Si los datos ausentes son MAR cualquier solución al problema deberá tener en cuenta los valores de X dado que afectan al proceso generador de datos ausentes.
c) Datos ausentes no aleatorios:  en este caso existen patrones sistemáticos en el proceso de datos ausentes y habría que evaluar la magnitud del problema calibrando, en particular, el tamaño de los sesgos introducidos por dichos patrones. Si éstos son grandes habría que atacar el problema directamente intentando averiguar cuáles son dichos valores. Localización de datos ausentes El primer paso en el tratamiento de datos ausentes consiste en evaluar la magnitud del problema. Para ello se comienza analizando el porcentaje de datos ausentes por variables y por casos.
Si existen casos con un alto porcentaje de datos ausentes se deberían excluir del problema. Así mismo si existe una variable con un alto porcentaje de este tipo de casos su exclusión dependerá de la importancia teórica de la misma y la posibilidad de ser reemplazada por variables con un contenido informativo similar. Como regla general, sin embargo, si dicha variable es dependiente debería ser eliminada ya que cualquier proceso de imputación de valores puede distorsionar la significación estadística y práctica de los modelos estimados para ella.
[object Object],[object Object],[object Object],[object Object]
b) Utilizar correlaciones dicotomizadas para evaluar la correlación de los datos ausentes en cualquier par de valores. Estas correlaciones indicarían el grado de asociación entre los valores perdidos sobre cada par de variables. Bajas correlaciones implican aleatoriedad en el par de variables y que los datos ausentes pueden clasificarse como MCAR. En caso contrario son MAR. c) Realizar hipótesis conjuntas de aleatoriedad que determinen si los datos ausentes pueden ser clasificados como MCAR.  Estos contrastes analizan el patrón de datos ausentes sobre todas las variables y las compara con el patrón
esperado para un proceso de datos ausentes aleatorio. Si no se encuentran diferencias significativas el proceso puede clasificarse como MCAR; en caso contrario deben utilizarse los procedimientos a) y b) anteriores para identificar los procesos específicos de datos ausentes que no son aleatorios. Aproximaciones al tratamiento de datos ausentes Si se encuentran procesos de datos ausentes MAR o no aleatorios, el investigador debería aplicar sólo el método diseñado específicamente para este proceso. Sólo si el investigador determina que el proceso de ausencia de datos puede clasificarse como MCAR pueden utilizarse las siguientes aproximaciones:
a)Utilizar sólo los casos completos: conveniente si el tamaño muestral no se reduce demasiado. b) Supresión de casos y/o variables con una alta proporción de datos ausentes. Esta supresión deberá basarse en consideraciones teóricas y empíricas. En particular, si algún caso tiene un dato ausente en una variable dependiente, habitualmente excluirlo puesto que cualquier proceso de imputación puede  distorsionar los modelos estimados. Así mismo una variable independiente con muchos datos ausentes podrá eliminarse si existen otras variables muy similares con datos observados.
c) Imputar valores a los datos ausentes utilizando valores válidos de otras variables y/o casos de la muestra Métodos de imputación Los métodos de imputación pueden ser de tres tipos: 1)  Métodos de disponibilidad completa que utilizan toda la información disponible a  partir de un subconjunto de casos para generalizar sobre la muestra entera. Se utilizan habitualmente para estimar medias, varianzas y correlaciones
2)  Métodos de sustitución que estiman valores de reemplazo para los datos ausentes,  sobre la base de otra información existente en la muestra. Así se podría sustituir observaciones con datos ausentes por observaciones no muestrales o sustituir dichos datos por la media de los valores observados o mediante regresión sobre otras variables muy relacionadas con aquella a la que le faltan observaciones. 3)  Métodos basados en modelos que construyen explícitamente el mecanismo por el  que se producen los datos ausentes y lo estiman por máxima verosimilitud. Entran en esta categoría el algoritmo EM o los procesos de aumento de datos.
Tarea: Con la base de datos asignada a cada grupo, realizar el análisis de datos ausentes.
[object Object],[object Object],[object Object],[object Object],[object Object]

Contenu connexe

Tendances

Introducción a la Ciencia de Datos
Introducción a la Ciencia de DatosIntroducción a la Ciencia de Datos
Introducción a la Ciencia de DatosEsteban Vallejo
 
Presentacion estadistica descriptiva
Presentacion estadistica descriptivaPresentacion estadistica descriptiva
Presentacion estadistica descriptivabetis081281
 
Estudio de casos y controles
Estudio de casos y controlesEstudio de casos y controles
Estudio de casos y controlesJorge Escandon
 
Introducción a la Bioestadística - Terminología
Introducción a la Bioestadística - TerminologíaIntroducción a la Bioestadística - Terminología
Introducción a la Bioestadística - Terminologíaabemen
 
Fenotipos del rh
Fenotipos del rhFenotipos del rh
Fenotipos del rhnyequi
 
Presentación de Tipos de datos para c++ de programacion
Presentación de Tipos de datos para c++ de programacionPresentación de Tipos de datos para c++ de programacion
Presentación de Tipos de datos para c++ de programacionValeriaBerrones
 
Clase 1 Estadistica Generalidades.pptx
Clase 1 Estadistica Generalidades.pptxClase 1 Estadistica Generalidades.pptx
Clase 1 Estadistica Generalidades.pptxSistemadeEstudiosMed
 
Errores epidemiológicos
Errores epidemiológicosErrores epidemiológicos
Errores epidemiológicosYoy Rangel
 
Sensibilidad, Especificidad Y Vpp, Vpn
Sensibilidad, Especificidad Y Vpp, VpnSensibilidad, Especificidad Y Vpp, Vpn
Sensibilidad, Especificidad Y Vpp, VpnMarta Ocampo
 
Tipos de errores, riesgo relativo y odds ratio
Tipos de errores, riesgo relativo y odds ratioTipos de errores, riesgo relativo y odds ratio
Tipos de errores, riesgo relativo y odds ratioFela Berecochea
 
Ensayo clinico controlado modificado
Ensayo clinico controlado modificadoEnsayo clinico controlado modificado
Ensayo clinico controlado modificadoRonald Evans
 

Tendances (20)

Introducción a la Ciencia de Datos
Introducción a la Ciencia de DatosIntroducción a la Ciencia de Datos
Introducción a la Ciencia de Datos
 
Presentacion estadistica descriptiva
Presentacion estadistica descriptivaPresentacion estadistica descriptiva
Presentacion estadistica descriptiva
 
Medidas de dispersión
Medidas de dispersiónMedidas de dispersión
Medidas de dispersión
 
Estudio de casos y controles
Estudio de casos y controlesEstudio de casos y controles
Estudio de casos y controles
 
Ajuste de tasas
Ajuste de tasasAjuste de tasas
Ajuste de tasas
 
Introducción a la Bioestadística - Terminología
Introducción a la Bioestadística - TerminologíaIntroducción a la Bioestadística - Terminología
Introducción a la Bioestadística - Terminología
 
Historia de la base de datos
Historia de la base de datosHistoria de la base de datos
Historia de la base de datos
 
Fenotipos del rh
Fenotipos del rhFenotipos del rh
Fenotipos del rh
 
Epi info
Epi infoEpi info
Epi info
 
Clase 1 epidemiologia
Clase 1 epidemiologiaClase 1 epidemiologia
Clase 1 epidemiologia
 
Presentación de Tipos de datos para c++ de programacion
Presentación de Tipos de datos para c++ de programacionPresentación de Tipos de datos para c++ de programacion
Presentación de Tipos de datos para c++ de programacion
 
Clase 1 Estadistica Generalidades.pptx
Clase 1 Estadistica Generalidades.pptxClase 1 Estadistica Generalidades.pptx
Clase 1 Estadistica Generalidades.pptx
 
Errores epidemiológicos
Errores epidemiológicosErrores epidemiológicos
Errores epidemiológicos
 
Teoria del muestreo
Teoria del muestreoTeoria del muestreo
Teoria del muestreo
 
Estudios Ecologicos.pdf
Estudios Ecologicos.pdfEstudios Ecologicos.pdf
Estudios Ecologicos.pdf
 
Medidas de Riesgo (Disdier OM)
Medidas de Riesgo (Disdier OM)Medidas de Riesgo (Disdier OM)
Medidas de Riesgo (Disdier OM)
 
Sensibilidad, Especificidad Y Vpp, Vpn
Sensibilidad, Especificidad Y Vpp, VpnSensibilidad, Especificidad Y Vpp, Vpn
Sensibilidad, Especificidad Y Vpp, Vpn
 
Tipos de errores, riesgo relativo y odds ratio
Tipos de errores, riesgo relativo y odds ratioTipos de errores, riesgo relativo y odds ratio
Tipos de errores, riesgo relativo y odds ratio
 
5. Medidas de asociación
5. Medidas de asociación5. Medidas de asociación
5. Medidas de asociación
 
Ensayo clinico controlado modificado
Ensayo clinico controlado modificadoEnsayo clinico controlado modificado
Ensayo clinico controlado modificado
 

En vedette

analisis de regresion con spps
analisis  de regresion con sppsanalisis  de regresion con spps
analisis de regresion con sppsJuan Timoteo Cori
 
Solución macroeconomía
Solución macroeconomíaSolución macroeconomía
Solución macroeconomíakemv
 
Nosferi - Perturbaciones no esfericas en el modelo lineal
Nosferi - Perturbaciones no esfericas en el modelo linealNosferi - Perturbaciones no esfericas en el modelo lineal
Nosferi - Perturbaciones no esfericas en el modelo linealMiguel Jerez
 
Polinomios de Taylor. Formas cuadráticas
Polinomios de Taylor. Formas cuadráticasPolinomios de Taylor. Formas cuadráticas
Polinomios de Taylor. Formas cuadráticasJIE MA ZHOU
 
3 analisis multivariable
3 analisis multivariable3 analisis multivariable
3 analisis multivariableCarmen Mejia
 
Ejercicios hessiano orlado
Ejercicios hessiano orladoEjercicios hessiano orlado
Ejercicios hessiano orladoCerveza13
 
Taller macroeconomia
Taller macroeconomiaTaller macroeconomia
Taller macroeconomiapaulap100
 
Cálculo multivariable
Cálculo multivariableCálculo multivariable
Cálculo multivariableveresnina
 
Discriminante o-hessiano
Discriminante o-hessianoDiscriminante o-hessiano
Discriminante o-hessianoMARY ANBEL
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariantejpgv84
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariadoLB: El Palmar
 
Ejercicios de Calculo Multivariable
Ejercicios de Calculo MultivariableEjercicios de Calculo Multivariable
Ejercicios de Calculo MultivariableJair Ospino Ardila
 
Ejemplo de analisis multivariado
Ejemplo de analisis multivariadoEjemplo de analisis multivariado
Ejemplo de analisis multivariadoJose Loaiza Torres
 
Macroeconomia
MacroeconomiaMacroeconomia
Macroeconomiacokydark
 
Maximos, Minimos y Mutliplicadores de Lagrange
Maximos, Minimos y Mutliplicadores de LagrangeMaximos, Minimos y Mutliplicadores de Lagrange
Maximos, Minimos y Mutliplicadores de LagrangeJuan Jose Durango
 

En vedette (20)

Analisis multivariante 2012
Analisis multivariante 2012Analisis multivariante 2012
Analisis multivariante 2012
 
Econometria
EconometriaEconometria
Econometria
 
analisis de regresion con spps
analisis  de regresion con sppsanalisis  de regresion con spps
analisis de regresion con spps
 
Tema 8
Tema 8Tema 8
Tema 8
 
Formas cuadraticas
Formas cuadraticasFormas cuadraticas
Formas cuadraticas
 
Solución macroeconomía
Solución macroeconomíaSolución macroeconomía
Solución macroeconomía
 
Nosferi - Perturbaciones no esfericas en el modelo lineal
Nosferi - Perturbaciones no esfericas en el modelo linealNosferi - Perturbaciones no esfericas en el modelo lineal
Nosferi - Perturbaciones no esfericas en el modelo lineal
 
Polinomios de Taylor. Formas cuadráticas
Polinomios de Taylor. Formas cuadráticasPolinomios de Taylor. Formas cuadráticas
Polinomios de Taylor. Formas cuadráticas
 
3 analisis multivariable
3 analisis multivariable3 analisis multivariable
3 analisis multivariable
 
Ejercicios hessiano orlado
Ejercicios hessiano orladoEjercicios hessiano orlado
Ejercicios hessiano orlado
 
Taller macroeconomia
Taller macroeconomiaTaller macroeconomia
Taller macroeconomia
 
Cálculo multivariable
Cálculo multivariableCálculo multivariable
Cálculo multivariable
 
Discriminante o-hessiano
Discriminante o-hessianoDiscriminante o-hessiano
Discriminante o-hessiano
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariante
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariado
 
Ejercicios de Calculo Multivariable
Ejercicios de Calculo MultivariableEjercicios de Calculo Multivariable
Ejercicios de Calculo Multivariable
 
Ejemplo de analisis multivariado
Ejemplo de analisis multivariadoEjemplo de analisis multivariado
Ejemplo de analisis multivariado
 
Macroeconomia
MacroeconomiaMacroeconomia
Macroeconomia
 
Maximos, Minimos y Mutliplicadores de Lagrange
Maximos, Minimos y Mutliplicadores de LagrangeMaximos, Minimos y Mutliplicadores de Lagrange
Maximos, Minimos y Mutliplicadores de Lagrange
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariado
 

Similaire à 5 Semana Analisis Multivariante Parte II

Similaire à 5 Semana Analisis Multivariante Parte II (20)

Descriptiva
DescriptivaDescriptiva
Descriptiva
 
Guia 1-estadistica
Guia 1-estadisticaGuia 1-estadistica
Guia 1-estadistica
 
Guia 1-estadistica
Guia 1-estadisticaGuia 1-estadistica
Guia 1-estadistica
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Guia 1-estadistica
Guia 1-estadisticaGuia 1-estadistica
Guia 1-estadistica
 
Sin título 1(1)
Sin título 1(1)Sin título 1(1)
Sin título 1(1)
 
Terminos basicos (variables)
Terminos basicos (variables)Terminos basicos (variables)
Terminos basicos (variables)
 
Estadistica descriptiva 2
Estadistica descriptiva 2 Estadistica descriptiva 2
Estadistica descriptiva 2
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
 
Generalidades de la estadística
Generalidades de la estadísticaGeneralidades de la estadística
Generalidades de la estadística
 
Presentacion medidas de dispersion
Presentacion medidas de dispersionPresentacion medidas de dispersion
Presentacion medidas de dispersion
 
Fundamentos de la Estadística
Fundamentos de la EstadísticaFundamentos de la Estadística
Fundamentos de la Estadística
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptiva
 
Presentacion estadistica
Presentacion  estadisticaPresentacion  estadistica
Presentacion estadistica
 
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
 
ESTADÍSTICA INFERENCIAL I.docx
ESTADÍSTICA INFERENCIAL I.docxESTADÍSTICA INFERENCIAL I.docx
ESTADÍSTICA INFERENCIAL I.docx
 
Estadsticainferencial 090519154537-phpapp01
Estadsticainferencial 090519154537-phpapp01Estadsticainferencial 090519154537-phpapp01
Estadsticainferencial 090519154537-phpapp01
 
Terminos basicos en estadistica
Terminos basicos en estadisticaTerminos basicos en estadistica
Terminos basicos en estadistica
 
EstadíStica Inferencial Y Conceptos BáSicos
EstadíStica Inferencial Y Conceptos BáSicosEstadíStica Inferencial Y Conceptos BáSicos
EstadíStica Inferencial Y Conceptos BáSicos
 

Plus de jpgv84

directorio_lima_metropolitana_y_lima_provincias_(2).pdf
directorio_lima_metropolitana_y_lima_provincias_(2).pdfdirectorio_lima_metropolitana_y_lima_provincias_(2).pdf
directorio_lima_metropolitana_y_lima_provincias_(2).pdfjpgv84
 
RIESGO OPERACIONAL.pptx
RIESGO OPERACIONAL.pptxRIESGO OPERACIONAL.pptx
RIESGO OPERACIONAL.pptxjpgv84
 
Capacitacion de RO 2023.pptx
Capacitacion de RO 2023.pptxCapacitacion de RO 2023.pptx
Capacitacion de RO 2023.pptxjpgv84
 
Corel draw
Corel drawCorel draw
Corel drawjpgv84
 
La perfeccion Matematica y el amor a Dios
La perfeccion Matematica y el amor a DiosLa perfeccion Matematica y el amor a Dios
La perfeccion Matematica y el amor a Diosjpgv84
 
Invitació..
Invitació..Invitació..
Invitació..jpgv84
 
El Abc De La ComputacióN Escolar
El Abc De La ComputacióN EscolarEl Abc De La ComputacióN Escolar
El Abc De La ComputacióN Escolarjpgv84
 
6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte I6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte Ijpgv84
 
5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte Ijpgv84
 
3° Y 4° Semana Analisis Multivariante
3° Y 4° Semana Analisis Multivariante3° Y 4° Semana Analisis Multivariante
3° Y 4° Semana Analisis Multivariantejpgv84
 
2 Semana Analisis Multivariante Parte Ii
2 Semana Analisis Multivariante Parte Ii2 Semana Analisis Multivariante Parte Ii
2 Semana Analisis Multivariante Parte Iijpgv84
 
2 Semana Analisis Multivariante Parte I
2 Semana Analisis Multivariante Parte I2 Semana Analisis Multivariante Parte I
2 Semana Analisis Multivariante Parte Ijpgv84
 
EstadíStica Descriptiva
EstadíStica DescriptivaEstadíStica Descriptiva
EstadíStica Descriptivajpgv84
 
Estadística Descriptiva
Estadística DescriptivaEstadística Descriptiva
Estadística Descriptivajpgv84
 
EstadÍstica Descriptiva
EstadÍstica DescriptivaEstadÍstica Descriptiva
EstadÍstica Descriptivajpgv84
 
Razones Trigonometricas
Razones TrigonometricasRazones Trigonometricas
Razones Trigonometricasjpgv84
 
Webquest Nociones De Estadistica
Webquest Nociones De EstadisticaWebquest Nociones De Estadistica
Webquest Nociones De Estadisticajpgv84
 
Circunferencia TrigonoméTrica
Circunferencia TrigonoméTricaCircunferencia TrigonoméTrica
Circunferencia TrigonoméTricajpgv84
 
Lineas Seno, Coseno Y Tangente
Lineas Seno, Coseno Y TangenteLineas Seno, Coseno Y Tangente
Lineas Seno, Coseno Y Tangentejpgv84
 

Plus de jpgv84 (19)

directorio_lima_metropolitana_y_lima_provincias_(2).pdf
directorio_lima_metropolitana_y_lima_provincias_(2).pdfdirectorio_lima_metropolitana_y_lima_provincias_(2).pdf
directorio_lima_metropolitana_y_lima_provincias_(2).pdf
 
RIESGO OPERACIONAL.pptx
RIESGO OPERACIONAL.pptxRIESGO OPERACIONAL.pptx
RIESGO OPERACIONAL.pptx
 
Capacitacion de RO 2023.pptx
Capacitacion de RO 2023.pptxCapacitacion de RO 2023.pptx
Capacitacion de RO 2023.pptx
 
Corel draw
Corel drawCorel draw
Corel draw
 
La perfeccion Matematica y el amor a Dios
La perfeccion Matematica y el amor a DiosLa perfeccion Matematica y el amor a Dios
La perfeccion Matematica y el amor a Dios
 
Invitació..
Invitació..Invitació..
Invitació..
 
El Abc De La ComputacióN Escolar
El Abc De La ComputacióN EscolarEl Abc De La ComputacióN Escolar
El Abc De La ComputacióN Escolar
 
6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte I6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte I
 
5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I
 
3° Y 4° Semana Analisis Multivariante
3° Y 4° Semana Analisis Multivariante3° Y 4° Semana Analisis Multivariante
3° Y 4° Semana Analisis Multivariante
 
2 Semana Analisis Multivariante Parte Ii
2 Semana Analisis Multivariante Parte Ii2 Semana Analisis Multivariante Parte Ii
2 Semana Analisis Multivariante Parte Ii
 
2 Semana Analisis Multivariante Parte I
2 Semana Analisis Multivariante Parte I2 Semana Analisis Multivariante Parte I
2 Semana Analisis Multivariante Parte I
 
EstadíStica Descriptiva
EstadíStica DescriptivaEstadíStica Descriptiva
EstadíStica Descriptiva
 
Estadística Descriptiva
Estadística DescriptivaEstadística Descriptiva
Estadística Descriptiva
 
EstadÍstica Descriptiva
EstadÍstica DescriptivaEstadÍstica Descriptiva
EstadÍstica Descriptiva
 
Razones Trigonometricas
Razones TrigonometricasRazones Trigonometricas
Razones Trigonometricas
 
Webquest Nociones De Estadistica
Webquest Nociones De EstadisticaWebquest Nociones De Estadistica
Webquest Nociones De Estadistica
 
Circunferencia TrigonoméTrica
Circunferencia TrigonoméTricaCircunferencia TrigonoméTrica
Circunferencia TrigonoméTrica
 
Lineas Seno, Coseno Y Tangente
Lineas Seno, Coseno Y TangenteLineas Seno, Coseno Y Tangente
Lineas Seno, Coseno Y Tangente
 

Dernier

5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdfOswaldoGonzalezCruz
 
Manejo del Dengue, generalidades, actualización marzo 2024 minsa
Manejo del Dengue, generalidades, actualización marzo 2024 minsaManejo del Dengue, generalidades, actualización marzo 2024 minsa
Manejo del Dengue, generalidades, actualización marzo 2024 minsaLuis Minaya
 
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfTema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfDaniel Ángel Corral de la Mata, Ph.D.
 
Fichas de MatemáticA QUINTO DE SECUNDARIA).pdf
Fichas de MatemáticA QUINTO DE SECUNDARIA).pdfFichas de MatemáticA QUINTO DE SECUNDARIA).pdf
Fichas de MatemáticA QUINTO DE SECUNDARIA).pdfssuser50d1252
 
sesión de aprendizaje 4 E1 Exposición oral.pdf
sesión de aprendizaje 4 E1 Exposición oral.pdfsesión de aprendizaje 4 E1 Exposición oral.pdf
sesión de aprendizaje 4 E1 Exposición oral.pdfpatriciavsquezbecerr
 
Técnicas de grabado y estampación : procesos y materiales
Técnicas de grabado y estampación : procesos y materialesTécnicas de grabado y estampación : procesos y materiales
Técnicas de grabado y estampación : procesos y materialesRaquel Martín Contreras
 
Secuencia didáctica.DOÑA CLEMENTINA.2024.docx
Secuencia didáctica.DOÑA CLEMENTINA.2024.docxSecuencia didáctica.DOÑA CLEMENTINA.2024.docx
Secuencia didáctica.DOÑA CLEMENTINA.2024.docxNataliaGonzalez619348
 
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfEstrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfAlfredoRamirez953210
 
Actividad transversal 2-bloque 2. Actualización 2024
Actividad transversal 2-bloque 2. Actualización 2024Actividad transversal 2-bloque 2. Actualización 2024
Actividad transversal 2-bloque 2. Actualización 2024Rosabel UA
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOweislaco
 
Día de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialDía de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialpatriciaines1993
 
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024gharce
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...fcastellanos3
 
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTESaraNolasco4
 

Dernier (20)

5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
 
Aedes aegypti + Intro to Coquies EE.pptx
Aedes aegypti + Intro to Coquies EE.pptxAedes aegypti + Intro to Coquies EE.pptx
Aedes aegypti + Intro to Coquies EE.pptx
 
VISITA À PROTEÇÃO CIVIL _
VISITA À PROTEÇÃO CIVIL                  _VISITA À PROTEÇÃO CIVIL                  _
VISITA À PROTEÇÃO CIVIL _
 
Manejo del Dengue, generalidades, actualización marzo 2024 minsa
Manejo del Dengue, generalidades, actualización marzo 2024 minsaManejo del Dengue, generalidades, actualización marzo 2024 minsa
Manejo del Dengue, generalidades, actualización marzo 2024 minsa
 
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfTema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
 
Fichas de MatemáticA QUINTO DE SECUNDARIA).pdf
Fichas de MatemáticA QUINTO DE SECUNDARIA).pdfFichas de MatemáticA QUINTO DE SECUNDARIA).pdf
Fichas de MatemáticA QUINTO DE SECUNDARIA).pdf
 
PPTX: La luz brilla en la oscuridad.pptx
PPTX: La luz brilla en la oscuridad.pptxPPTX: La luz brilla en la oscuridad.pptx
PPTX: La luz brilla en la oscuridad.pptx
 
sesión de aprendizaje 4 E1 Exposición oral.pdf
sesión de aprendizaje 4 E1 Exposición oral.pdfsesión de aprendizaje 4 E1 Exposición oral.pdf
sesión de aprendizaje 4 E1 Exposición oral.pdf
 
recursos naturales america cuarto basico
recursos naturales america cuarto basicorecursos naturales america cuarto basico
recursos naturales america cuarto basico
 
Técnicas de grabado y estampación : procesos y materiales
Técnicas de grabado y estampación : procesos y materialesTécnicas de grabado y estampación : procesos y materiales
Técnicas de grabado y estampación : procesos y materiales
 
Secuencia didáctica.DOÑA CLEMENTINA.2024.docx
Secuencia didáctica.DOÑA CLEMENTINA.2024.docxSecuencia didáctica.DOÑA CLEMENTINA.2024.docx
Secuencia didáctica.DOÑA CLEMENTINA.2024.docx
 
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfEstrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
 
Actividad transversal 2-bloque 2. Actualización 2024
Actividad transversal 2-bloque 2. Actualización 2024Actividad transversal 2-bloque 2. Actualización 2024
Actividad transversal 2-bloque 2. Actualización 2024
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
 
Día de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialDía de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundial
 
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
 
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTE
 
Earth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversaryEarth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversary
 
Aedes aegypti + Intro to Coquies EE.pptx
Aedes aegypti + Intro to Coquies EE.pptxAedes aegypti + Intro to Coquies EE.pptx
Aedes aegypti + Intro to Coquies EE.pptx
 

5 Semana Analisis Multivariante Parte II

  • 1. UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS   Universidad del Perú, DECANA DE AMERICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA Mg. María Estela Ponce Aruneri ESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICA ANÁLISIS MULTIVARIANTE SEMESTRE ACADÉMÍCO 2009 -II
  • 2. ANÁLISIS EXPLORATORIO DE DATOS MULTIVARIANTES CONTINUACIÓN
  • 3. 3° Homocedasticidad Es una hipótesis muy habitual en algunas técnicas estadísticas como el Análisis de la Varianza, el Análisis Discriminante y el Análisis de Regresión, entre otras. Dicha hipótesis se refiere a suponer la igualdad de varianzas de las variables dependientes en diversos grupos formados por los distintos valores de las variables independientes. Si dicha hipótesis no se cumple, puede alterar la potencia y el nivel de significación de los contrastes utilizados por dichas técnicas, por ello es necesario analizar si se verifica o no , en caso contrario, poner los remedios oportunos.
  • 4. Los gráficos de cajas es una herramienta de gran utilidad para evaluar la diferencia o semenjanzas entre grupos, además permite ubicar datos discordantes o extremos. Por ejemplo: ¿Existen diferencias en las características de las viviendas de los distritos del cono norte y sur?
  • 5.
  • 6. Las pruebas de hipótesis permite analizar la existencia de esta igualdad que, en muchas ocasiones, esta relacionado con una falta de normalidad de las variables analizadas. En la literatura se han propuesto diversos tests o pruebas (ver, por ejemplo, Jobson, 1991, Volumen 1). Uno de los más utilizados es el test de Levene basado en aplicar un ANOVA a las diferencias absolutas respecto a una medida de tendencia central de los diversos grupos. Dicho test toma como hipótesis nula la existencia de homocedasticidad y como alternativa la de heterocedasticidad. Un posible remedio contra la heterocedasticidad es transformar los datos originales.
  • 7. Un grupo de transformaciones muy utilizadas son las de Box-Cox que vienen dadas por la siguiente expresión: El valor de C se elige de forma que X + C sea positiva. El valor de λ se suele determinar de forma empírica. En general este tipo de transformaciones suelen ser efectivas si no hay un número excesivo de outliers y si el cociente de la desviación típica dividida por la media es mayor que ¼ o si el cociente de la observación más
  • 8. grande dividida por la más pequeña es mayor que 2. Es importante que la transformación elegida sea fácilmente interpretable y, en caso de duda, se aconseja repetir el análisis con los datos transformados y sin transformar y observar si los resultados obtenidos difieren demasiado. En éste último caso y si el procedimiento utilizado es poco robusto a la hipótesis de normalidad, utilizar los resultados con los datos transformados. En el caso multivariado, se utiliza la prueba M de Box, para verificar homocedasticidad en poblaciones
  • 9. Tarea: Con la base de datos asignada a cada grupo, verificar si se cumple el supuesto de homocedasticidad. Multivariadas.
  • 10. QUINTA ETAPA DEL AED: DATOS ATÍPICOS (OUTLIERS) Los casos atípicos son observaciones con características diferentes de las demás. Este tipo de casos no pueden ser caracterizados categóricamente como benéficos o problemáticos sino que deben ser contemplados en el contexto del análisis y debe evaluarse el tipo de información que pueden proporcionar. Su principal problema radica en que son elementos que pueden no ser representativos de la población pudiendo distorsionar seriamente el comportamiento de los contrastes y resultados estadísticos.
  • 11. Por otra parte, aunque diferentes a la mayor parte de la muestra, pueden ser indicativos de las características de un segmento válido de la población y, por consiguiente, una señal de la falta de representatividad de la muestra. Tipos de outliers Los casos atípicos pueden clasificarse en 4 categorías: La primera categoría contiene aquellos casos atípicos que surgen de un error de procedimiento, tales como la entrada de datos o un error de codificación. Estos casos atípicos deberían subsanarse en el filtrado de los datos, y si no se puede, deberían eliminarse del análisis o recodificarse como datos ausentes.
  • 12. La segunda clase es la observación que ocurre como consecuencia de un acontecimiento extraordinario. En este caso, el outlier no representa ningún segmento válido de la población y puede ser eliminado del análisis. La tercera clase contiene las observaciones cuyos valores caen dentro del rango de las variables observadas, pero que son únicas en la combinación de los valores de dichas variables. Estas observaciones deberían ser retenidas en el análisis pero estudiando qué influencia ejercen en los procesos de estimación de los modelos considerados.
  • 13. La cuarta y última clase comprende las observaciones extraordinarias para las que el investigador no tiene explicación. En estos casos lo mejor que se puede hacer es replicar el análisis con y sin dichas observaciones con el fin de analizar su influencia sobre los resultados. Si dichas observaciones son influyentes el analista debería reportarlo en sus conclusiones y debería averiguar el por qué de dichas observaciones. Identificación de outliers Los casos atípicos pueden identificarse desde una perspectiva univariante o multivariante.
  • 14. La perspectiva univariante examina la distribución de observaciones para cada variable, seleccionando como casos atípicos aquellos casos cuyos valores caigan fuera de los rangos de la distribución. La cuestión principal consiste en el establecimiento de un umbral para la designación de caso atípico. Esto se puede hacer gráficamente mediante histogramas o diagramas de caja o bien numéricamente, mediante el cálculo de puntuaciones tipificadas. Para muestras pequeñas (de 80 o incluso menos observaciones), las pautas sugeridas identifican como atípicos aquellos casos con valores estándar de 2.5 o superiores. Cuando los tamaños muestrales son mayores, las pautas sugieren que el valor umbral sea 3.
  • 15. Pueden analizarse conjuntamente pares de variables mediante un gráfico de dispersión. Casos que se ubiquen fuera del rango del resto de las observaciones pueden identificarse como puntos aislados en el gráfico de dispersión. Para ayudar a determinar el rango esperado de las observaciones, se puede superponer sobre el gráfico de dispersión una elipse que represente un intervalo de confianza especificado para una distribución normal bivariante. Lo que proporciona una representación gráfica de los límites de confianza y facilita la identificación de casos atípicos.
  • 16.
  • 17.
  • 18. Fuente: Banco Mundial (2002), FAO (2002) y PNUD (2001).
  • 19. El Gráfico, contiene las “Caras de Chernoff para los 5 países por encima y los 5 por debajo de Cuba en términos de PIB per cápita a PPA. En este caso se utilizan sólo las 9 variables explicativas tomadas para el ejercicio, excluyendo por supuesto al PIB percápita. Cada rasgo de las caras tienen en cuenta la magnitud relativa para cada país, de la siguiente forma: mientras la boca sea más sonriente, el consumo de kilocalorías per cápita diaria es mayor, mientras la boca sea más larga, mayor es la proporción de la población con acceso a fuentes de agua mejorada, cuando la boca está más pegada a la nariz, menor es la cantidad de Computadoras personales por mil habitantes,
  • 20. la nariz más grande indica más cantidad de teléfonos y celulares por cien habitantes, una cara más ancha expresa una mayor esperanza de vida al nacer, mientras más para abajo se encuentre el nivel de las orejas, menor tasa de mortalidad para menores de 5 años, un mentón más pronunciado, corresponde a un consumo de electricidad per cápita menor, mientras más achatada sea la parte superior de la cara, mayor será la tenencia de televisores, una cara más alargada, describe una mayor tasa total de matrícula. Este gráfico fue propuesto originalmente por Chernoff (1973) y extendida por Flury y Riedwyl (1981).
  • 21.
  • 22.
  • 23. Finalmente existen otros procedimientos para detectar atípicos multivariantes, dicha detección se puede hacer mediante un Análisis de Componentes Principales. Tarea: Con la base de datos asignada a cada grupo, identificar datos atípicos a nivel univariado, bivariado y multivariado.
  • 24. SEXTA ETAPA DEL AED: DATOS AUSENTES Los datos ausentes son algo habitual en el Análisis Multivariante; de hecho, rara es la investigación en la que no aparece este tipo de datos. En estos casos la ocupación primaria del investigador debe ser determinar las razones que subyacen en el dato ausente buscando entender el proceso principal de esta ausencia para seleccionar el curso de acción más apropiado.
  • 25. Para ello se debe determinar cuál es el proceso de datos ausentes, entendido como cualquier evento sistemático externo al encuestado (errores en la introducción de datos) o acción por parte del encuestado (tales como rehusar a contestar) que da lugar a la ausencia de datos. En particular, el investigador debe analizar si existe algún patrón no aleatorio en dicho proceso que pueda sesgar los resultados obtenidos debido a la pérdida de representatividad de la muestra analizada.
  • 26.
  • 27. 2) Datos ausentes no prescindibles: son resultado de procesos que no se encuentran bajo el control del investigador y/o no pueden ser identificados explícitamente. Ejemplos de estas situaciones son los errores en la entrada de datos, la renuncia del encuestado a responder a ciertas cuestiones o respuestas inaplicables. En estos casos se debe analizar si existen o no patrones sistemáticos en el proceso que puedan sesgar los resultados obtenidos. Si los datos ausentes son no prescindibles conviene, por lo tanto, analizar el grado de aleatoriedad presente en los mismos.
  • 28.
  • 29. b) Datos ausentes aleatorios (MAR), en este caso el patrón de los datos ausentes en una variable Y no es aleatorio sino que depende de otras variables de la muestra X. Ahora bien, para cada valor de X, los valores observados de Y sí representan una muestra aleatoria de Y. Así, por ejemplo, si X es el género del encuestado e Y es su renta, un proceso MAR se tendría si existen más valores ausentes de Y en hombres que en mujeres y, sin embargo, los datos son aleatorios para ambos géneros en el sentido de que, tanto en los hombres
  • 30. en las mujeres, el patrón de ausentes es completamente aleatorio. Si, además, tampoco existen diferencias por género los datos ausentes serían MCAR. Si los datos ausentes son MAR cualquier solución al problema deberá tener en cuenta los valores de X dado que afectan al proceso generador de datos ausentes.
  • 31. c) Datos ausentes no aleatorios: en este caso existen patrones sistemáticos en el proceso de datos ausentes y habría que evaluar la magnitud del problema calibrando, en particular, el tamaño de los sesgos introducidos por dichos patrones. Si éstos son grandes habría que atacar el problema directamente intentando averiguar cuáles son dichos valores. Localización de datos ausentes El primer paso en el tratamiento de datos ausentes consiste en evaluar la magnitud del problema. Para ello se comienza analizando el porcentaje de datos ausentes por variables y por casos.
  • 32. Si existen casos con un alto porcentaje de datos ausentes se deberían excluir del problema. Así mismo si existe una variable con un alto porcentaje de este tipo de casos su exclusión dependerá de la importancia teórica de la misma y la posibilidad de ser reemplazada por variables con un contenido informativo similar. Como regla general, sin embargo, si dicha variable es dependiente debería ser eliminada ya que cualquier proceso de imputación de valores puede distorsionar la significación estadística y práctica de los modelos estimados para ella.
  • 33.
  • 34. b) Utilizar correlaciones dicotomizadas para evaluar la correlación de los datos ausentes en cualquier par de valores. Estas correlaciones indicarían el grado de asociación entre los valores perdidos sobre cada par de variables. Bajas correlaciones implican aleatoriedad en el par de variables y que los datos ausentes pueden clasificarse como MCAR. En caso contrario son MAR. c) Realizar hipótesis conjuntas de aleatoriedad que determinen si los datos ausentes pueden ser clasificados como MCAR. Estos contrastes analizan el patrón de datos ausentes sobre todas las variables y las compara con el patrón
  • 35. esperado para un proceso de datos ausentes aleatorio. Si no se encuentran diferencias significativas el proceso puede clasificarse como MCAR; en caso contrario deben utilizarse los procedimientos a) y b) anteriores para identificar los procesos específicos de datos ausentes que no son aleatorios. Aproximaciones al tratamiento de datos ausentes Si se encuentran procesos de datos ausentes MAR o no aleatorios, el investigador debería aplicar sólo el método diseñado específicamente para este proceso. Sólo si el investigador determina que el proceso de ausencia de datos puede clasificarse como MCAR pueden utilizarse las siguientes aproximaciones:
  • 36. a)Utilizar sólo los casos completos: conveniente si el tamaño muestral no se reduce demasiado. b) Supresión de casos y/o variables con una alta proporción de datos ausentes. Esta supresión deberá basarse en consideraciones teóricas y empíricas. En particular, si algún caso tiene un dato ausente en una variable dependiente, habitualmente excluirlo puesto que cualquier proceso de imputación puede distorsionar los modelos estimados. Así mismo una variable independiente con muchos datos ausentes podrá eliminarse si existen otras variables muy similares con datos observados.
  • 37. c) Imputar valores a los datos ausentes utilizando valores válidos de otras variables y/o casos de la muestra Métodos de imputación Los métodos de imputación pueden ser de tres tipos: 1) Métodos de disponibilidad completa que utilizan toda la información disponible a partir de un subconjunto de casos para generalizar sobre la muestra entera. Se utilizan habitualmente para estimar medias, varianzas y correlaciones
  • 38. 2) Métodos de sustitución que estiman valores de reemplazo para los datos ausentes, sobre la base de otra información existente en la muestra. Así se podría sustituir observaciones con datos ausentes por observaciones no muestrales o sustituir dichos datos por la media de los valores observados o mediante regresión sobre otras variables muy relacionadas con aquella a la que le faltan observaciones. 3) Métodos basados en modelos que construyen explícitamente el mecanismo por el que se producen los datos ausentes y lo estiman por máxima verosimilitud. Entran en esta categoría el algoritmo EM o los procesos de aumento de datos.
  • 39. Tarea: Con la base de datos asignada a cada grupo, realizar el análisis de datos ausentes.
  • 40.