SlideShare une entreprise Scribd logo
1  sur  57
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                           P. REYES / OCT. 2006


CÁLCULO DEL COEFICIENTE DE CONFIABIL IDAD
(FIABILIDAD) ALFA-CRONBACH


Existen tres procedimientos para determinar el coeficiente “〈” o alfa :


1. Sobre la base de la varianza de los ítems, con la aplicación de la siguiente
fórmula:




En donde N representa el número de ítems de la escala, “s2 (Yi)” es igual a la
sumatoria de las varianzas de los ítems y “s2x” equivale a la varianza de toda la
escala.


2. Sobre la base de la matriz de correlación de los ítems, el procedimiento
sería:


a) Se aplica la escala.
b) Se obtienen los resultados.
c) Se calculan los coeficientes de correlación r de Pearson entre todos los
ítems (todos contra todos de par en par).
d) Se elabora la matriz de correlación con los coeficientes obtenidos. Por
ejemplo:




                                      Pág. 1
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                          P. REYES / OCT. 2006




Los coeficientes que se mencionan como “ya fue calculado”, se ubican en la
parte superior de las líneas horizontales (guiones). Es decir, cada coeficiente
se incluye una sola vez y se excluyen los coeficientes que vinculan al ítem o
puntuación consigo misma (1 con 1, 2 con 2, 3 con 3 y 4 con 4).




                                     Pág. 2
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                        P. REYES / OCT. 2006




3. Mediante otra fórmula que se basa en la correlación promedio




                                   Pág. 3
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                            P. REYES / OCT. 2006


Los métodos de análisis multivariado


Los métodos de análisis multivariado son aquellos en que se analiza la relación
entre diversas variables independientes y al menos una dependiente. Son
métodos más complejos que requieren del uso de computadoras para efectuar
los cálculos necesarios




Entre las técnicas más comunes se encuentran (1) Análisis de componentes
principales y factores comunes, (2) regresión y correlación múltiple, (3) análisis
discriminante múltiple, (4) análisis multivariado de varianza y covarianza, (5)
análisis conjunto, (6) correlación canónica, (7) análisis de clusters, (8) escala
multidimensional.   Otras    técnicas   nuevas     incluyen    (9)   análisis   de
correspondencia, (10) modelos de probabilidad lineal tales como el logit y
probit, y (11) modelos de ecuación simultaneas / estructurales. A continuación
se describen brevemente éstas técnicas.


Análisis de componentes principales y de factores comunes
Es un método estadístico que puede usarse para analizar las interrelaciones
entre un gran número de variables y explicar esas variables en términos de sus
dimensiones subyacentes comunes. El objetivo es hallar la forma de sintetizar
la información contenida en un número de variables originales, dentro de un



                                     Pág. 4
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                        P. REYES / OCT. 2006


conjunto más pequeño de variates (factores) con mínima pérdida de
información.


Regresión múltiple
En un método de análisis adecuado cuando el problema de investigación
involucra una variable dependiente única que se presume se relaciona a dos o
más variables independientes medibles. El objetivo es predecir el cambio en la
variable   dependiente   de   respuesta   con   cambios    en   las   variables
independientes, normalmente con el método de mínimos cuadrados.


Por ejemplo se pueden predecir los montos gastados en cenas a partir de
ingresos de las familias (variable dependiente), su tamaño, y la edad del padre
(variables independientes).


Análisis discriminante múltiple (MDA)
Se aplica cuando la variable dependiente es dicotómica (vgr. hombre – mujer) o
multitómica (vgr. Alto – medio – bajo) y por tanto no medible. Como en la
regresión las variables independientes deben ser medibles. Se aplica cuando la
muestra total se puede dividir en grupos con base en una variable no medible
caracterizando varias clases conocidas. Su objetivo es comprender las
diferencias entre grupos y predecir la probabilidad de que una entidad (objeto
individual) pertenezca a una clase o grupo particular con base en varias
variables independientes medibles o métricas.


Por ejemplo el análisis discriminante se puede utilizar para distinguir entre
innovadores y no innovadores de acuerdo a su perfil demográfico y
psicográfico.


Análisis multivariado de varianza y covarianza (MANOVA)
Es un método estadístico para explorar simultáneamente la relación entre
varias variables categóricas independientes (referidas como tratamientos) y dos
o más variables dependientes medibles o métricas. Es una extensión del
ANOVA univariado. El análisis multivariado de covarianza (MANCOVA) se



                                    Pág. 5
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                           P. REYES / OCT. 2006


puede usar en conjunto con el MANOVA para remover (después del
experimento) el efecto de cualquier variable métrica independiente no
controlada (conocida como covariada) en la variable independiente.


Análisis conjunto
Se aplica a nuevos productos para evaluar la importancia de los atributos del
nuevo producto así como los niveles de cada atributo, mientras que el
consumidor evalúa solo unos pocos perfiles del producto como combinaciones
de los niveles de producto.


Por ejemplo asumir un producto con tres atributos (precio, calidad y color),
cada uno en tres niveles posibles (vgr. Rojo, amarillo y azul). En vez de tener
que evalur las 27 combinaciones posibles (3x3x3), se evalúa un subconjunto de
9 o más combinaciones con base en su atractivo para el consumidor, de
manera que el investigador no solo conozca la importancia de cada atributo,
sino además la importancia de cada nivel (atractivo del rojo vs amarillo vs azul).


Correlación canónica
El análisis de correlación puede ser visto como una extensión lógica de la
regresión múltiple. Donde se trata de correlacionar simultáneamente varias
variables dependientes medibles o métricas y varias variables independientes
medibles. El principio es establecer una combinación lineal de cada conjunto de
variables (dependientes e independientes) para maximizar la correlación entre
los dos conjuntos (obteniendo ponderacións adecuados para las variables).


Análisis de conglomerados (Clusters)
Es una técnica analítica para desarrollar sugrupos significativos de individuos u
o objetos. Específicamente, el objetivo es clasificar una muestra de entidades
(individuos u objetos) en un número más pequeño de grupos más pequeños
con base en las similitudes entre entidades. A diferencia del análisis
discriminante, los grupos no están definidos, más bien se usa para
identificarlos.




                                     Pág. 6
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                             P. REYES / OCT. 2006


Normalmente se realiza en tres pasos. El primero es la medición de alguna
forma de similitud o asociación entre las entidades para identificar cuantos
grupos realmente existen en la muestra. El segundo paso es el proceso en sí
de   conglomerados,       donde   las     entidades   se   particionan   en   grupos
(conglomerados o clusters). El paso final es perfilar las personas o variables
para determinar su composición. Muchas veces esto último se realiza con el
análisis discriminante.


Escala multidimensional
El objetivo es transformar los juicios del consumidor de similitud o preferencias
(vgr. Preferencia por tiendas o marcas) en distancias representadas en un
espacio multidimensional. Si los objetos A y B se juzgan por el consumidor
como similares, comparados con cualquier otro par de objetos, la técnica
posiciona los objetos A y B de manera que la distancia entre ellos en un
espacio multidimensional es más pequeño que la distancia entre cualquier otro
par de objetos. Al final se muestra un mapa perceptual con la posición relativa
de los objetos.


Análisis de correspondencia
Facilita tanto la reducción dimensional de objetos en un conjunto de atributos y
el mapa perceptual de objetos respecto a estos atributos. En su forma más
elemental es una tabla de contingencia o tabulación cruzada de dos variables
categóricas. Transforma los datos no métricos a un nivel medible y realiza una
reducción dimensional (similar al análisis de factores) y un mapa perceptual
(similar al análisis multidimensional).


Por ejemplo, las preferencias de marcas de los consumidores pueden ser
tabuladas contra variables demográficas (vgr. Género, categorías de ingresos,
ocupación) indicando cuanta gente prefiere cada una de las marcas que caen
en cada categoría de las variables demográficas. Por medio del análisis de
correspondencia, la asociación o “correspondencia” de marcas y las
características distintivas de aquellos que prefieren las marcas se muestran en




                                          Pág. 7
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                         P. REYES / OCT. 2006


un mapa tridimensional o bidimensional tanto de marcas como de las
características que distinguen a aquellos que prefieren cada marca.


Modelos de probabilidad lineal (Análisis Logit)
Son una combinación de regresión múltiple y análisis discrimínante. Es similar
al análisis de regresión múltiple excepto que la variable dependiente es
categórica no métrica como en el análisis discriminante.


Modelos de ecuaciones estructurales
A veces se refiere como el nombre del software LISREL, es una técnica que
permite separar las relaciones del conjunto de variables dependientes. En su
forma más sencilla proporciona el modelo más adecuado y la técnica de
estimación más eficiente para una serie de ecuaciones de regresión múltiple,
evaluadas simultáneamente. Se caracteriza por dos componentes básicos: (1)
el modelo estructural y (2) el modelo de medición.


El modelo estructural es la “vía” que relaciona variables dependientes e
independientes. El modelo de medición permite al investigador a usar varias
variables (indicadores) para una variable dependiente e independiente.




                                    Pág. 8
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                          P. REYES / OCT. 2006


Los datos para HATCO son los siguientes:


Variables / Tipo
Percepciones / Medibles (Métricas)
X1    Tiempo de entrega - entrega del producto con la orden confirmada
X2    Nivel de precios      - nivel de precio percibido ponderacióndo por
proveedores
X3    Flexibilidad de precios    - flexibilidad para negociar precios
X4    Imagen de la empresa        - general
X5    Servicio en general        - nivel necesario para mantener relaciones
X6    Imagen de la fuerza de ventas - general
X7    Calidad del producto – calidad percibida en desempeño o rendimiento


Resultados de compras / Medibles (Métricas)
X9    Nivel de utilización - que porcentaje de producto es surtido por Hatco
X10   Nivel de satisfacción – que tan satisfecho esta el cliente con Hatco


Características del comprador / No Medibles (No Métricas)
X8    Tamaño de la empresa       - 1- Grande 0 - pequeño
X11   Especificación de compra - 1-Evalúa por el valor total y 0- especificación
X12   Estructura de abastecimiento – 1- centralizado 0 - descentralizado
X13   Tipo de industria          - 1- industria A     0 – otras industrias
X14   Tipo de situación de compra – 1- nueva 2- modificada 0- tradicional




                                     Pág. 9
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                         P. REYES / OCT. 2006


ANOVA (análisis de varianza de k direcciones )

El ANOVA es similar a la regresión en el sentido de que se utiliza para
investigar y modelar la relación entre una variable de respuesta y una o más
variables independientes. Sin embargo, el ANOVA difiere de la regresión en
dos aspectos: las variables independientes son cualitativas (categóricas), y no
hay supuestos acerca de la naturaleza de la relación (o sea que el modelo no
incluye coeficientes para variables). En efecto el ANOVA extiende la prueba de
dos muestras con prueba t para probar la igualdad de dos poblaciones a una
hipótesis más general al comparar más de dos medias, versus que no sean
iguales.

Definición: Es una prueba estadística para evaluar el efecto de dos o más
variables independientes sobre una variable dependiente.


Responde a esquemas como el que se muestra en la figura:




Constituye una extensión del análisis de varianza unidireccional, solamente
que incluye más de una variable independiente. Evalúa los efectos por
separado de cada variable independiente y los efectos conjuntos de dos o más
variables independientes.


                                    Pág. 10
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                             P. REYES / OCT. 2006




Variables: Dos o más variables independientes y una dependiente.


Nivel de medición de las variables: La variable dependiente (criterio) debe estar
medida en un nivel por intervalos o razón, y las variables independientes
(factores) pueden estar en cualquier nivel de medición, pero expresadas de
manera categórica.


Interpretación y ejemplo


Hi: La similitud en valores, la atracción física y el grado de retroalimentación
positiva son variables que inciden en la satisfacción sobre la relación en
parejas de novios.


Contexto: Muestra de parejas de adultos jóvenes (23-29 años), pertenecientes
a estratos económicos altos (n=400).


El ANOVA efectuado mediante un paquete estadístico computacional como
SPSS produce los siguientes elementos básicos:


• Fuente de la variación (source of variation). Es el factor que origina variación
en la dependiente. Si una fuente no origina variación en la dependiente, no
tiene efectos.


• Efectos principales (main effects). Es el efecto de cada variable independiente
por   separado;   no    está   contaminado      del   efecto   de   otras   variables
iindependientes ni de error. Suele proporcionarse la suma de todos los efectos
principales.


• Interacciones de dos direcciones (2-way interactions). Representa el efecto
conjunto de dos variables independientes, aislado de los demás posibles
efectos de las variables independientes (individuales o en conjuntos). Suele
proporcionarse la suma de los efectos de todas estas interacciones.



                                      Pág. 11
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                                 P. REYES / OCT. 2006


• Interacciones de tres direcciones (3-way interactions). Constituye el efecto
conjunto de tres variables independientes, aislado de otros efectos. Suele
proporcionarse la suma de los efectos de todas estas interacciones.


• Puede haber efecto de K-direcciones, esto dependie del número de variables
independientes.


En nuestro ejemplo, tenemos los resultados siguientes:


TABLA ANOVA

VARIABLE DEPENDIENTE: SATISFACCIÓN EN LA RELACIÓN


Fuente        de Suma        de Grados de Cuadrados        Estadístico F    Significancia
variación        cuadrados      libertad       medios                       de Fc = P
Efectos                                                    22.51            .001**
principales
(main effects
SIMILITUD                                                  31.18            0.001**
ATRACCIÓN                                                  21.02            0.001**
RETROALIM                                                  11.84            0.004**
SIMILITUD                                                  -4.32            0.04*
ATRACCIÓN
SIMILITUD                                                  2.18             0.11
RETROALIM
ATRACCION                                                  1.56             0.190
RETROALIM
SIM     –                                                  8.01             0.02*
RETROL-
ATRACCION

NOTA:     Normalmente interesa saber si las razones “F” resultaron o no
significativas; por tanto, sólo se incluyen estos valores. Se recomienda
concentrarse en dichos valores y evitar confusiones. Desde luego, el
investigador experimentado acostumbra estudiar todos los valores.


**— Razón “F” significativa al nivel del 0.01 (p < 0.01)


                                           Pág. 12
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                             P. REYES / OCT. 2006




*—Razón “F” significativa al nivel del 0.05 (p < 0.05)


Como podemos ver en la tabla, la similitud, la atracción y la retroalimentación
tienen un efecto significativo sobre la satisfacción en la relación.


Respecto a los efectos de dos variables independientes conjuntas, sólo la
similitud y la atracción tienen un efecto, hay un efecto conjunto de las tres
variables independientes. La hipótesis de investigación se acepta y la nula se
rechaza. Asimismo, se recuerda al lector que en el capítulo 5 del presente
disco: Otros diseños experimentales (en el apartado sobre diseños factoriales)
se explica la noción de interacción entre variables independientes. Cabe
agregar que el ANOVA es un método estadístico propio para los diseños
experimentales factoriales.


Ejemplo:
Un experimento se realizó para probar cuanto tiempo toma usar un modelo
nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un
problema estadístico y uno de ingeniería se les toma el tiempo para resolver el
problema. Los ingenieros se consideran como bloques en el diseño
experimental.


Hay dos factores: Tipo de problema y modelo de calculadora – cada uno con
dos niveles, se hacen experimentos donde esos niveles de los factores se
cruzan. Los datos se muestran a continuación:


SolveTime   Engineer    ProbType    Calculator
3.1         Jones       Stat        New
7.5         Jones       Stat        Old
2.5         Jones       Eng         New
5.1         Jones       Eng         Old
3.8         Williams    Stat        New
8.1         Williams    Stat        Old
2.8         Williams    Eng         New
5.3         Williams    Eng         Old
3           Adams       Stat        New
7.6         Adams       Stat        Old
2           Adams       Eng         New



                                      Pág. 13
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                                P. REYES / OCT. 2006


4.9          Adams        Eng          Old
3.4          Dixon        Stat         New
7.8          Dixon        Stat         Old
2.7          Dixon        Eng          New
5.5          Dixon        Eng          Old
3.3          Erickson     Stat         New
6.9          Erickson     Stat         Old
2.5          Erickson     Eng          New
5.4          Erickson     Eng          Old
3.6          Maynes       Stat         New
7.8          Maynes       Stat         Old
2.4          Maynes       Eng          New
4.8          Maynes       Eng          Old




Las instrucciones de Minitab son las siguientes:

1     Abrir la worksheet EXH_AOV.MTW.

2     Stat > ANOVA > Balanced ANOVA.

3     Responses, poner SolveTime.

4     Model, poner Engineer ProbType | Calculator.

5     En Random Factors, poner Engineer.

6 Click Results. En Display means corresponding to the terms, poner
ProbType | Calculator. Click OK cada cuadro de diálogo.

Los resultados obtenidos son los siguientes:

ANOVA: SolveTime versus Engineer, ProbType, Calculator

Factor       Type       Levels   Values
Engineer     random          6   Adams, Dixon, Erickson, Jones, Maynes, Williams
ProbType     fixed           2   Eng, Stat
Calculator   fixed           2   New, Old


Analysis of Variance for SolveTime

Source                   DF       SS       MS         F       P
Engineer                  5    1.053    0.211      3.13   0.039
ProbType                  1   16.667   16.667    247.52   0.000
Calculator                1   72.107   72.107   1070.89   0.000
ProbType*Calculator       1    3.682    3.682     54.68   0.000
Error                    15    1.010    0.067
Total                    23   94.518


S = 0.259487    R-Sq = 98.93%       R-Sq(adj) = 98.36%


Means




                                         Pág. 14
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                           P. REYES / OCT. 2006



ProbType    N   SolveTime
Eng        12      3.8250
Stat       12      5.4917


Calculator    N   SolveTime
New          12      2.9250
Old          12      6.3917


ProbType   Calculator   N   SolveTime
Eng        New          6      2.4833
Eng        Old          6      5.1667
Stat       New          6      3.3667
Stat       Old          6      7.6167




Interpretación de los resultados:

Se muestran los factores (fijos y aleatorios), niveles y valores. Después se
muestra la tabla de ANOVA, donde se indica de acuerdo al valor P que hay una
interacción significativa entre el tipo de problema y el modelo de calculadora, lo
que implica que la reducción en tiempo de proceso de la calculadora depende
del tipo de problema.

En la lista de promedios se observa un menor tiempo entre la calculadora
nueva y la anterior.




                                        Pág. 15
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                               P. REYES / OCT. 2006



  ANÁLISIS               MULTIVARIADO                       DE     VARIANZA
(MANOVA)
Es un modelo para analizar la relación entre una o más variables
independientes y dos o más variables dependientes. Es decir, es útil para
estructuras causales del tipo:




La técnica posee varios usos, entre los que destacan:
- Evaluar diferencias entre grupos a través de múltiples variables dependientes
(medidas por intervalos o razón). La(s) variable(s) independiente(s) es(son)
categórica(s) (no métricas). Tiene el poder de evaluar no solamente las
diferencias   totales,   sino   diferencias   entre   las   combinaciones     de   las
dependientes.


En este sentido representa una extensión del análisis de varianza (ANOVA)
para cubrir casos donde hay más de una variable dependiente y/o cuando las
variables dependientes simplemente no pueden ser combinadas. En otras
palabras, reconoce si los cambios en la(s) variable(s) independiente(s) tienen
un efecto significativo en las dependientes. Señala qué grupos difieren en una
variable o en el conjunto de variables dependientes.




                                       Pág. 16
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                           P. REYES / OCT. 2006


- Identificar las interacciones entre las variables independientes y la asociación
entre las dependientes.


Las tres clases principales del MANOVA son:


1) Hotelling's T. Es parecida a la prueba t (dos grupos) pero con más
dependientes: una variable independiente dicotómica y varias dependientes.


2) MANOVA unidireccional. Análogo al ANOVA de una sola vía, pero con más
dependientes: una variable independiente multicategórica y varias
dependientes.


3) MANOVA factorial. Similar al ANOVA factorial, solamente que con dos o más
dependientes: varias independientes categóricas y varias dependientes.


Los modelos del MANOVA tienen en común que forman combinaciones
lineales de las dependientes que discriminan mejor entre los grupos en un
experimento o una situación no experimental. Es una prueba de significancia
de las diferencias en los grupos en un espacio multidimensional donde cada
dimensión está definida por combinaciones lineales del conjunto de variables
dependientes.


Una pregunta que suele hacer el estudiante al revisar el MANOVA es ¿por qué
no hacemos ANOVAS separados, uno para cada dependiente? La respuesta:
las dependientes están correlacionadas muy frecuentemente, por lo cual los
resultados de varios ANOVA pueden ser redundantes y difíciles de integrar. He
aquí una síntesis de la explicación de Wiersma (1999) sobre este tipo de
análisis:


Al incluir dos o más variables dependientes simultáneamente no se consideran
las diferencias entre las medias en cada variable, sino las diferencias en
variables canónicas. El interés no sólo es saber si los grupos definidos por las
variables independientes difieren en las variables canónicas, sino conocer la
naturaleza de éstas. Una variable canónica es una variable artificial generada a


                                     Pág. 17
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                           P. REYES / OCT. 2006


partir de los datos. Representa constructos y se compone de variables reales,
las cuales deben ser descritas en términos de variables dependientes. Lo
anterior se efectúa por medio de las ponderacións de los coeficientes de
correlación entre una variable dependiente y una variable canónica. Si una
ponderación entre la variable canónica y la dependiente es positiva y elevada,
significa que altos valores en la dependiente se asocian con altos valores en la
canónica. Por ejemplo, si una variable dependiente consiste en puntuaciones a
una prueba sobre innovación, y dichas puntuaciones se correlacionan en forma
considerable con una variable canónica, inferimos que la variable canónica
representa un constructo que involucra esencialmente a la innovación.


En los cálculos que se hacen en el MANOVA, se generan variables canónicas
hasta que se encuentra que no hay una diferencia estadística significativa entre
las categorías o los grupos de las variables independientes; o bien, hasta que
se agotan los grados de libertad de las variables independientes (lo que ocurra
primero). El número de variables canónicas no puede exceder el número de
variables dependientes, pero es común que el número de dependientes sea
mayor que el de variables canónicas estadísticamente significativas o los
grados de libertad.


La hipótesis general de investigación en el MANOVA postula que las medias de
los grupos o las categorías de la(s) variable(s) independiente(s) difieren entre sí
en las variables canónicas. La hipótesis nula postula que dichas medias serán
iguales.


Se calculan diversas estadísticas para evaluar ambas hipótesis, entre las que
destacan: F (total, toma en cuenta el modelo completo), la prueba Hotelling's
TSquare,    T2   (cuando    hay   dos   grupos    formados    por   las   variables
independientes), Wilks' lambda, U (cuando hay más de dos grupos formados
por las variables independientes), y Pillai-Bartlett (cuando hay coeficientes
canónicos); y si resultan significativas en un nivel de confianza, se acepta la
hipótesis de investigación de diferencia de medias. Esto indica que hay, por lo
menos, una variable canónica significativa (pero puede haber varias). Si
diversas variables canónicas son significativas, esto muestra que se presentan


                                     Pág. 18
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                           P. REYES / OCT. 2006


diferencias en las variables canónicas en cuestión, entre los grupos o
categorías de las independientes.


Los paquetes estadísticos que contiene el MANOVA suelen posicionar a los
grupos de las variables independientes por puntuaciones discriminantes; éstas
son calculadas con una función discriminante, que es una ecuación de
regresión para un compuesto de variables dependientes. A cada grupo se le
asigna una puntuación discriminante en cada variable canónica. Las
puntuaciones discriminantes de una variable independiente pueden ser cero o
tener un valor positivo o negativo. Una puntuación discriminante positiva y
elevada para un grupo, indica que éste se coloca por encima de los demás en
la respectiva variable canónica. Y deben considerarse las ponderacións, las
cuales son positivas o negativas. Las puntuaciones discriminantes son
utilizadas para interpretar las separaciones de los grupos en las variables
canónicas, en tanto que las ponderacións se usan para evaluar y ligar los
resultados de las variables dependientes (Wiersma, 1999). Un ejemplo de las
ponderacións   de   los   coeficientes   de   correlación   entre   las   variables
dependientes y las variables canónicas así como                las puntuaciones
discriminantes se muestran en las tablas siguientes:




                                    Pág. 19
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                          P. REYES / OCT. 2006




Como observamos en la última tabla, se obtuvieron tres constructos
subyacentes en las puntuaciones recolectadas de la muestra: motivación
intrínseca, atribución de causalidad externa y desempeño laboral. Vemos en la
tabla que los grupos (niveles en la empresa) están separados en las tres
variables canónicas (los grupos difieren), particularmente en la primera variable
canónica (motivación intrínseca) y los obreros ocupan la posición más baja. Las
variables dependientes enmarcadas en un recuadro en la primera variable



                                    Pág. 20
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                         P. REYES / OCT. 2006


canónica se ponderaciónn en ella; en consecuencia, los ejecutivos tienen las
puntuaciones más altas en motivación intrínseca medida por la escala
mencionada, en atribuciones internas y en sentimientos de éxito en el trabajo.
Así se interpretan todas las variables canónicas y dependientes.


En el MANOVA se incluyen razones F y análisis de varianza. Algunos paquetes
estadísticos agregan una prueba denominada correlación canónica, que es
muy similar al MANOVA. Ésta es la máxima correlación que llega a obtenerse
entre los conjuntos de puntuaciones y las relaciones entre las variables
independientes, entre las variables dependientes y entre los conjuntos de
ambas (dependientes e independientes) (Kerlinger, 1979). Las variables en el
MANOVA y la correlación canónica asumen que las variables dependientes
están medidas en un nivel de intervalos o razón. Tal correlación se interpreta
como otras; pero el contexto de interpretación varía de acuerdo con el número
de variables involucradas.




                                    Pág. 21
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                      P. REYES / OCT. 2006


Ejemplo con Minitab


Se realiza un estudio para determinar las condiciones óptimas para extruir
película plástica. Se miden tres respuestas – Tear, gloss y opacity – cinco
veces en cada combinación de dos factores – tasa de extrusión y cantidad de
aditivo – cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA
balanceado para probar la igualdad de las medias.


DATOS


Tear         Gloss    Opacity    Extrusion   Additive
6.5          9.5      4.4        1           1
6.2          9.9      6.4        1           1
5.8          9.6      3          1           1
6.5          9.6      4.1        1           1
6.5          9.2      0.8        1           1
6.9          9.1      5.7        1           2
7.2          10       2          1           2
6.9          9.9      3.9        1           2
6.1          9.5      1.9        1           2
6.3          9.4      5.7        1           2
6.7          9.1      2.8        2           1
6.6          9.3      4.1        2           1
7.2          8.3      3.8        2           1
7.1          8.4      1.6        2           1
6.8          8.5      3.4        2           1
7.1          9.2      8.4        2           2
7            8.8      5.2        2           2
7.2          9.7      6.9        2           2
7.5          10.1     2.7        2           2
7.6          9.2      1.9        2           2


Instrucciones de Minitab

1      Abrir el archivo EXH_MVAR.MTW.

2      Seleccionar Stat > ANOVA > Balanced MANOVA.

3      En Responses, poner Tear Gloss Opacity.

4      En Model, poner Extrusion | Additive.




                                   Pág. 22
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                                     P. REYES / OCT. 2006


5      Click Results. En Display of Results, seleccionar Matrices
(hypothesis, error, partial correlations) y Eigen analysis.

6      Click OK en cada cuadro de diálogo.

Los resultados se muestran a continuación:


Results for: Exh_mvar.MTW


ANOVA: Tear, Gloss, Opacity versus Extrusion, Additive



MANOVA for Extrusion
s = 1      m = 0.5       n = 6.0


                           Test                      DF
Criterion              Statistic           F   Num    Denom        P
Wilks'                   0.38186    7.554        3        14   0.003
Lawley-Hotelling         1.61877    7.554        3        14   0.003
Pillai's                 0.61814    7.554        3        14   0.003
Roy's                    1.61877




SSCP Matrix for Extrusion


             Tear     Gloss     Opacity
Tear        1.740    -1.505      0.8555
Gloss      -1.505     1.301     -0.7395
Opacity     0.855     -0.739    0.4205




SSCP Matrix for Error


             Tear      Gloss     Opacity
Tear        1.764     0.0200      -3.070
Gloss       0.020     2.6280     -0.552
Opacity    -3.070     -0.5520     64.924




Partial Correlations for the Error SSCP Matrix


               Tear       Gloss      Opacity




                                               Pág. 23
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                                        P. REYES / OCT. 2006


Tear        1.00000      0.00929        -0.28687
Gloss       0.00929     1.00000         -0.04226
Opacity    -0.28687     -0.04226         1.00000




EIGEN Analysis for Extrusion




Eigenvalue    1.619     0.00000      0.00000
Proportion    1.000     0.00000      0.00000
Cumulative    1.000     1.00000      1.00000




Eigenvector             1           2           3
Tear            0.6541      0.4315        0.0604
Gloss          -0.3385      0.5163        0.0012
Opacity         0.0359      0.0302       -0.1209




MANOVA for Additive
s = 1      m = 0.5       n = 6.0


                             Test                       DF
Criterion              Statistic            F   Num      Denom        P
Wilks'                   0.52303        4.256       3        14   0.025
Lawley-Hotelling         0.91192        4.256       3        14   0.025
Pillai's                 0.47697        4.256       3        14   0.025
Roy's                    0.91192




SSCP Matrix for Additive


             Tear     Gloss    Opacity
Tear       0.7605     0.6825        1.931
Gloss      0.6825     0.6125        1.732
Opacity    1.9305     1.7325        4.901




EIGEN Analysis for Additive




Eigenvalue    0.9119     0.00000        0.00000
Proportion    1.0000     0.00000        0.00000
Cumulative    1.0000     1.00000        1.00000




                                                Pág. 24
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                                     P. REYES / OCT. 2006


Eigenvector            1           2           3
Tear          -0.6330       0.4480     -0.1276
Gloss         -0.3214      -0.4992     -0.1694
Opacity       -0.0684       0.0000      0.1102




MANOVA for Extrusion*Additive
s = 1      m = 0.5      n = 6.0


                            Test                     DF
Criterion             Statistic          F   Num      Denom        P
Wilks'                  0.77711      1.339       3        14   0.302
Lawley-Hotelling        0.28683      1.339       3        14   0.302
Pillai's                0.22289      1.339       3        14   0.302
Roy's                   0.28683




SSCP Matrix for Extrusion*Additive


              Tear         Gloss   Opacity
Tear       0.000500    0.01650     0.04450
Gloss      0.016500    0.54450     1.46850
Opacity    0.044500    1.46850     3.96050




EIGEN Analysis for Extrusion*Additive




Eigenvalue    0.2868    0.00000      0.00000
Proportion    1.0000    0.00000      0.00000
Cumulative    1.0000    1.00000      1.00000




Eigenvector            1           2           3
Tear           -0.1364       0.1806     0.7527
Gloss          -0.5376      -0.3028    -0.0228
Opacity        -0.0683       0.1102    -0.0000




Por default se muestra la tabla para las cuatro pruebas multivariadas (Wliks,
Lawley, Hotelling, Pillai y Roy) para cada uno de los términos en el modelo.


Los valores s, m y n se utilizan para los cálculos de los estadísticos de prueba
Fc, el cual es exacto si s = 1 o 2 de otra forma es aproximado.


                                             Pág. 25
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                            P. REYES / OCT. 2006


Examinando los valores P de las pruebas para Extrusión y Aditivo se observa
que son significativas para un nivel de 0.05, no así la interacción.


Las matrices SSCP se usan para evaluar la contribución a la variabilidad de
manera similar a la suma de cuadrados en la ANOVA univariada. La matriz
SSCP para Extrusion es la suma de cuadrados de la hipótesis y matriz de
productos cruzados H para las tres respuestas con el término de modelo
Extrusión. Los elementos diagonales de esta matriz, 1.740, 1.301 y 0.405 son
las sumas de cuadrados univariados para el término del modelo Extrusión
cuando las variables de respuesta son Tear, Gloss y Opacity respectivamente .
Los elementos fuera de la diagonal son los productos cruzados.


La matriz SSCP para el error es la suma de cuadrados de los errores y
productos cruzados E. Los elementos diagonales de la matriz 1.764, 2.6280, y
64.924 son las sumas de cuadrados de los errores para las variables de
respuesta Teat, Gloss y Opacity, respectivamente. Los elementos fuera de la
diagonal de esta matriz son los productos cruzados.

La matriz de correlaciones parciales para el error SSCP, se usa para evaluar
que tanto se relacionan las variables de respuesta. Las correlaciones parciales
entre Tear y Gloss son pequeñas con 0.00929 y entre Gloss y Opacity
-0.04226. Y la correlación parcial entre Tear y Opacity es de -0.28687 tampoco
es grande. Como la estructura de las correlaciones es débil, se pueden realizar
análisis univariados de ANOVA para cada una de las respuestas.

Se puede utilizar el análisis de valores característicos o Eigenvalores, para
evaluar como difieren los promedios de las respuestas entre los niveles de los
diferentes términos del modelo. El análisis de Eigenvalores es E -1 H donde E es
la matriz SCCP del error y H es la matriz SCCP de las variables de respuesta.
Estos son los eigenvalores utilizados para calcular las cuatro pruebas de
MANOVA.

Poner la mayor importancia en los eigenvectores que corresponden a valores
altos de eigenvalores. En el ejemplo, el segundo y tercer eigenvalores son
pequeños, no signiicativos. Para ambos factores, Extrusion y Additive, los


                                     Pág. 26
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                           P. REYES / OCT. 2006


primeros eigenvalores contienen información similar. Para Extrusion is 0.6541,
-0.3385, 0.0359 and for Additive it is -0.6630, -0.3214, -0.0684. El mayor valor
absoluto dentro de esos eigenvalores corresponde a la respuesta Tear, el
segundo a Gloss y el valor para Opacity es pequeño. Esto implica que Tear
tiene la mayor diferencia entre los dos niveles de los factores ya sea Extrusion
o Additive, el Gloss tiene las siguientes mayores diferencias y op.citp. tiene solo
pequeñas diferencias.

Para un análisis más general utilizar General MANOVA con diseños
balanceados y no balanceados, incluso si se tienen covariados.

1   Seleccionar Stat > ANOVA > General MANOVA.

2   En Responses, seleccionar hasta 50 columnas numéricas conteniendo las
variables de respuesta.

3   En Model, introducir los términos del modelo que se quiera ajustar.

4. Click OK.




                                     Pág. 27
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                          P. REYES / OCT. 2006




ANÁLISIS DE COVARIANZA

Definición: Es un método estadístico que analiza la relación entre una variable
dependiente y dos o más independientes, con el que se elimina o controla el
efecto de al menos una de estas independientes. Similar al ANOVA, excepto
que permite controlar la influencia de una variable independiente, la cual con
frecuencia es una característica antecedente que puede variar entre los grupos
(Mertens, 2005) o influir los resultados y afectar la claridad de las
interpretaciones.


Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres perspectivas
para el análisis de covarianza:


A. Perspectiva experimental. Se aplica a aquellas situaciones en que el interés
del investigador se centra en las diferencias observadas en la variable
dependiente, por medio de las categorías de la variable independiente (o
variables independientes). Pero el experimentador asume que hay otras
variables independientes cuantitativas que contaminan la relación y cuya
influencia debe ser controlada.




                                    Pág. 28
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                            P. REYES / OCT. 2006




Y el investigador únicamente se interesa por conocer la relación entre las
variables independientes categóricas y la variable dependiente. Desea al
mismo tiempo remover y controlar el efecto de las variables independientes
cuantitativas no categóricas (continuas). Es decir, desea tener un esquema
como el de la figura




El objetivo es “purificar la relación entre las independientes categóricas y la
dependiente, mediante el control del efecto de las independientes no
categóricas o continuas”.


Ejemplos de variables independientes categóricas serían: género (masculino,
femenino), inteligencia (alta, media, baja), ingreso (menos de un salario
mínimo, dos a cuatro salarios mínimos, cinco a 10 salarios mínimos, 11 o más
salarios mínimos).


Los niveles de medición nominal y ordinal son categóricos en sí mismos,
mientras que los niveles de intervalos y razón deben transformarse en
categorías más discretas. Estos últimos son en sí: cuantitativos, continuos y de
categorías múltiples. Por ejemplo, el ingreso en su “estado natural”
(ponderacións, dólares, euros, etc.) varía de la categoría cero hasta la
categoría (K)k, ya que puede haber millones de categorías.

                                      Pág. 29
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                           P. REYES / OCT. 2006




Variable categórica — unas cuantas categorías o un rango medio.


Variable continua — muchas categorías (a veces una infinidad).


A dichas variables independientes cuantitativas continuas, cuya influencia se
controla, se les denomina “covariables”. Una covariable se incluye en el análisis
para remover su efecto sobre la variable dependiente, e incrementar el
conocimiento de la relación entre las variables independientes categóricas de
interés y la dependiente, lo cual aumenta la precisión del análisis.


En esta perspectiva, el análisis de covarianza puede ser concebido primero
como un ajuste en la variable dependiente respecto a diferencias en la
covariable o las covariables y, posteriormente, como una evaluación de la
relación entre las variables independientes categóricas y los valores ajustados
de la variable dependiente (Wildt y Ahtola, 1978). En términos de Creswell
(2005):


El procedimiento “ajusta” las puntuaciones en la dependiente para dar cuenta
por la covarianza (por decirlo en términos sencillos: “hace equivalentes a los
grupos en la(s) covariable(s)” y controla influencias potenciales que pueden
afectar a la variable dependiente).


B. Perspectiva de interés por la covariable. Esta perspectiva se ejemplifica con
aquellas instancias en las cuales el interés principal se centra en analizar la
relación entre la variable dependiente y la covariable (variable cuantitativa
continua) o las covariables. Aquí el enfoque es distinto; la influencia que se
remueve es la de las variables independientes categóricas. Primero se controla
el efecto (en este caso contaminante) de estas variables y después se analiza
el efecto “purificado” de las covariables.


C. Perspectiva de regresión. En esta tercera perspectiva, tanto las variables
independientes categóricas como las covariables resultan de interés para el
investigador, quien puede desear examinar el efecto de cada variable


                                      Pág. 30
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                            P. REYES / OCT. 2006


independiente (covariables y no covariables, todas) y después ajustar o corregir
los efectos de las demás variables independientes.


En cualquier caso, el análisis de covarianza elimina influencias no deseadas
sobre la variable dependiente. Se puede utilizar en contextos experimentales y
no experimentales. La mayoría de las veces la función del ANCOVA es
“remover” la varianza compartida entre una o más covariables y la dependiente,
de este modo, se valora en su justa dimensión la relación causal entre la(s)
variable(s) independiente(s) de interés y la dependiente (Creswell, 2005).


Veámoslo conceptualmente pero de forma gráfica con un ejemplo simple:


Ejemplo:


Estudio: Al investigador le interesa analizar el efecto en el aprendizaje de la
computación, por medio un nuevo método para su enseñanza a niños. La
hipótesis es: El nuevo método de enseñanza de la computación (MA-RH)
provocará un mayor aprendizaje en los niños que un método tradicional.


Entonces, implementa el siguiente experimento: A un grupo de infantes lo
expone al nuevo método de enseñanza de computación (MA-RHS); a otro
grupo no lo expone al nuevo método, éste aprende con el método tradicional;
finalmente, a un tercer grupo, de control, no recibe ningún tipo de enseñanza
en computación.


La variable independiente es el tipo de método con tres categorías o niveles
(método nuevo, método tradicional y ausencia de método), la dependiente es el
aprendizaje en computación (medida por una prueba estandarizada a nivel de
intervalos). Se tiene un esquema como el de la figura




                                     Pág. 31
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                         P. REYES / OCT. 2006




Con el experimento el investigador desea conocer la varianza en común entre
método y aprendizaje (cuantificarla), la relación XY (pura). Si los niños son
asignados al azar a los grupos del experimento y tiene grupos de tamaño
aceptable, por el diseño mismo, remueve la influencia de las covariables que
pudieran afectar. Pero si no es factible hacerlo y tiene un diseño
cuasiexperimental (grupos intactos), debe remover tal influencia con el análisis
de covarianza (eliminar al mínimo posible la varianza del aprendizaje
no explicada), para evitar que las covariables impidan ver con claridad la
relación XY. Por ejemplo, el nivel educativo tecnológico de los padres puede
influir (hace variar al aprendizaje) y este efecto debe ser controlado, al
introducirlo como covariable.




                                    Pág. 32
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                          P. REYES / OCT. 2006




Lo que el investigador desea también se puede expresar gráficamente así:




Wildt y Ahtola (1978, p. 13) definen algunos usos del análisis de covarianza:


1. Incrementar la precisión en experimentos con asignación al azar.


                                    Pág. 33
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                          P. REYES / OCT. 2006




2. Eliminar influencias extrañas o contaminantes que pueden resultar cuando
las pruebas o los individuos no son asignados al azar a las diferentes
condiciones experimentales (grupos de un experimento).


3. Eliminar efectos de variables que confundan o distorsionen la interpretación
de resultados en estudios no experimentales.


Nivel de medición de las variables: La variable dependiente siempre está
medida por intervalos o razón y las variables independientes pueden estar
medidas en cualquier nivel.


Interpretación: Depende de cada caso específico, ya que el análisis de
covarianza efectuado mediante un programa estadístico computacional,
produce un cuadro de resultados muy parecido al del análisis de varianza. Los
elementos más comunes pueden obssevarse en la tabla ANOVA.


La razón F es, igual que en el análisis de varianza, una razón de varianzas. El
razonamiento estadístico es el mismo y F se interpreta igual, incluso se utiliza
el mismo cuadro de la distribución F. Solamente que las inferencias y
conclusiones se hacen al considerar que las medias de la variable
dependiente, a través de las categorías de las variables independientes, se han
ajustado, de este modo eliminan el efecto de la covariable o covariables.


Ejemplo:


Diseño de investigación que utiliza el análisis de covarianza
Hi: Los trabajadores que reciban retroalimentación verbal sobre el desempeño
de parte de su supervisor mantendrán un nivel mayor de productividad que los
trabajadores que reciban retroalimentación sobre el desempeño por escrito,
más aún que los trabajadores que no reciban ningún tipo de retroalimentación.
    __        __         __
Hi: X1    > X2 >         X3
(verbal) (por escrito) (ausencia)


                                    Pág. 34
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                          P. REYES / OCT. 2006




El investigador plantea un diseño experimental para intentar probar su
hipótesis. Sin embargo, no puede asignar aleatoriamente a los trabajadores a
los tres grupos del experimento. El diseño sería con grupos intactos
(cuasiexperimental) y se esquematizaría así:




Asimismo, el investigador presupone que hay un factor que puede
contaminar los resultados (actuar como fuente de invalidación interna): la
motivación. Diferencias iniciales en motivación pueden invalidar el estudio.


Como la asignación al azar está ausente, no se sabe si los resultados se ven
influidos por dicho factor. Entonces, el experimentador decide eliminar o
controlar el efecto de la motivación sobre la productividad para conocer los
efectos de la variable independiente: tipo de retroalimentación. La motivación
se convierte en covariable.


El esquema es el que se muestra en la figura




                                    Pág. 35
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                                  P. REYES / OCT. 2006


Cabe destacar que, para introducir una covariable en el análisis, de preferencia
debe medirse antes del inicio del experimento.


El análisis de covarianza “quita” a la variabilidad de la dependiente lo que se
debe a la covariable. Ajusta la varianza de la variable dependiente en las
categorías de la independiente, al basarse en la covariable. En el ejemplo,
ajusta la varianza de la productividad debida a la motivación, en las categorías
experimentales (tratamientos o grupos). El ajuste se realiza sobre la base de la
correlación   entre      la   covariable    y   la   dependiente.   Esto   se   muestra
esquemáticamente en la tabla.


Una vez realizado el análisis de covarianza, se evalúa si F es o no significativa.
Cuando F resulta significativa se acepta la hipótesis de investigación.


Si el resultado fuera:


G1 = 35
G2 = 36


La correlación entre la calificación en motivación y las puntuaciones en
productividad es la base para el ajuste.


G3 = 38
Gl entre = K – 1 = 3 – 1 = 2
Gl intra = N – K = 107
F = 1.70


Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es igual a
3.07, y nuestra razón F a 1.70 es menor a este valor. Por lo tanto, rechazamos
la hipótesis de investigación y aceptamos la hipótesis nula. Esto se contrasta y
profundiza con las medias ajustadas de los grupos que proporcione el análisis
de covarianza (no las medias obtenidas en el experimento por cada grupo, sino
las ajustadas con base en la covariable).



                                           Pág. 36
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                          P. REYES / OCT. 2006


Recordemos que SPSS nos proporciona automáticamente la significancia de F.


Ejemplo:


Determinar si hay diferencia en la resistencia de una fibra monofilamento
producida por tres máquinas diferentes. El diámetro de la fibra parece tener
influencia en la resistencia como se muestra abajo (covariado de Y).


Datos de resistencia - Y es la respuesta, X es el covariado.

Y             X         Maq
36            20        1
41            25        1
39            24        1
42            25        1
49            32        1
40            22        2
48            28        2
39            22        2
45            30        2
44            28        2
35            21        3
37            23        3
42            26        3
34            21        3
32            15        3

La relación entre X y Y es significativa como se observa en la siguiente gráfica:


En Minitab:


1. Stat > Regresión > Fitted line plot
2. Introducir Y y X, seleccionar Linear
3. OK




                                         Pág. 37
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                                                      P. REYES / OCT. 2006



                                Fi t t ed Li ne Pl ot
                                Y = 14.14 + 1.080 X
     50                                                                S           1.78174
                                                                       R-Sq         88.1%
                                                                       R-Sq(adj)    87.2%


     45



     40
 Y




     35



     30
          15.0   17.5   20.0   22.5       25.0   27.5   30.0    32.5
                                      X




Para el ANOVA con Covariados, las instrucciones de Minitab son las
siguientes:


1. Stat > ANOVA > General Linear Model

2. Introducir en Response Y, en Model X y Maquina

3. En Covariates X

4. En Results en Display Least Square Means corresponding to the terms Maq

5. En Graphs seleccionar Normal plot for residuals

6. OK

Los resultados se muestran a continuación:

General Linear Model: Y versus Maq

Factor    Type      Levels     Values
Maq       fixed          3     1, 2, 3


Analysis of Variance for Y, using Adjusted SS for Tests

Source    DF     Seq SS   Adj SS          Adj MS        F          P
X          1     305.13   178.01          178.01    69.97      0.000
Maq        2      13.28    13.28            6.64     2.61      0.118
Error     11      27.99    27.99            2.54
Total     14     346.40


S = 1.59505        R-Sq = 91.92%            R-Sq(adj) = 89.72%



                                                   Pág. 38
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                              P. REYES / OCT. 2006




Term          Coef     SE Coef      T       P
Constant    17.177       2.783   6.17   0.000
X           0.9540      0.1140   8.36   0.000


Unusual Observations for Y

Obs         Y        Fit    SE Fit    Residual   St Resid
  7   48.0000    45.1080    0.7489      2.8920       2.05 R

R denotes an observation with a large standardized residual.


Means for Covariates

Covariate      Mean    StDev
X             24.13    4.324


Least Squares Means for Y

Maq    Mean    SE Mean
1     40.38     0.7236
2     41.42     0.7444
3     38.80     0.7879

Conclusión:

Se observa que no hay diferencia en las máquinas una vez que eliminamos la

variabilidad introducida por el diámetro de la fibra, en caso de no haber tomado

en cuenta la covarianza del diámetro en la resitencia, se hubiese concluido al

revés, que si hay diferencia en las máquinas, como se muestra a continuación:


Con Minitab:

1. Stat > ANOVA > One way

2. Response Y Factor Maquina

3. OK

Los resultados son los siguientes:

One-way ANOVA: Y versus Maq

Source   DF       SS      MS      F       P
Maq       2    140.4    70.2   4.09   0.044
Error    12    206.0    17.2
Total    14    346.4

S = 4.143      R-Sq = 40.53%      R-Sq(adj) = 30.62%


                               Individual 95% CIs For Mean Based on Pooled



                                          Pág. 39
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                            P. REYES / OCT. 2006


                             StDev
Level   N     Mean   StDev      +---------+---------+---------+---------
1       5   41.400   4.827                   (---------*----------)
2       5   43.200   3.701                        (---------*---------)
3       5   36.000   3.808      (---------*---------)
                                +---------+---------+---------+---------
                             32.0      36.0      40.0      44.0

Pooled StDev = 4.143




Conclusión: Como P value es menor a 0.05 aparentemente si hay diferencia

entre máquinas.




                                       Pág. 40
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                            P. REYES / OCT. 2006



ANALISIS DISCRIMINANTE

El análisis discriminante, se aplica cuando las variables independientes son
medidas por intervalos o razón, y la dependiente es categórica. Tal análisis
sirve para predecir la pertenencia de un caso a una de las categorías de la
variable dependiente, sobre la base de varias independientes (dos o más). Se
utiliza una ecuación de regresión llamada función discriminante. Por ejemplo, si
queremos predecir el voto obtenido por dos partidos contendientes (variable
dependiente nominal con dos categorías) sobre la base de cuatro variables
independientes, aplicaremos el análisis discriminante, para resolver una
ecuación de regresión; así se obtienen las predicciones individuales. En el
ejemplo, hay dos categorías (votar por A o votar por B); por tanto, los valores a
predecir son 0 y 1 (A y B, respectivamente). Si el sujeto obtiene una puntuación
más cercana a cero, se predice que pertenece al grupo que votará por A; si
logra una puntuación más cercana a 1, se predice que pertenece al grupo que
votará por B. Además, se consigue una medida del grado de discriminación del
modelo.


Usar el Análisis Discrimínate para clasificar observaciones en dos o más
grupos si se tiene una muestra con grupos conocidos. Se puede utilizar
también para investigar como contribuyen las variables a la separación de
grupos.


Se pueden hacer análisis discriminantes lineales y cuadráticos. Los lineales
asumen que todos los grupos tienen la misma matriz de covarianza, los
cuadráticos no hacen este supuesto y no son bien comprendidos.
Para el caso de clasificar las observaciones nuevas en una de dos categorías,
la regresión logística puede ser superior al análisis discriminante.


Ejemplo:

Para regular la pesca de salmón, se desea identificar si el pescado es originario
de Alaska o de Canadá. Cincuenta peces de cada lugar de origen fueron
capturados y pesados cuando vivían en agua dulce y cuando vivieron en agua


                                     Pág. 41
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                            P. REYES / OCT. 2006


salada. El objetivo es el de poder identificar si los nuevos pescados vienen de
criaderos en Alaska o Canadá. Los datos se muestran a continuación:

SalmonOrigin Freshwater    Marine   SalmonOrigin Freshwater     Marine
   Alaska       108         368       Canada        129          420
   Alaska       131         355       Canada        148          371
   Alaska       105         469       Canada        179          407
   Alaska        86         506       Canada        152          381
   Alaska        99         402       Canada        166          377
   Alaska        87         423       Canada        124          389
   Alaska        94         440       Canada        156          419
   Alaska       117         489       Canada        131          345
   Alaska        79         432       Canada        140          362
   Alaska        99         403       Canada        144          345
   Alaska       114         428       Canada        149          393
   Alaska       123         372       Canada        108          330
   Alaska       123         372       Canada        135          355
   Alaska       109         420       Canada        170          386
   Alaska       112         394       Canada        152          301
   Alaska       104         407       Canada        153          397
   Alaska       111         422       Canada        152          301
   Alaska       126         423       Canada        136          438
   Alaska       105         434       Canada        122          306
   Alaska       119         474       Canada        148          383
   Alaska       114         396       Canada         90          385
   Alaska       100         470       Canada        145          337
   Alaska        84         399       Canada        123          364
   Alaska       102         429       Canada        145          376
   Alaska       101         469       Canada        115          354
   Alaska        85         444       Canada        134          383
   Alaska       109         397       Canada        117          355
   Alaska       106         442       Canada        126          345
   Alaska        82         431       Canada        118          379
   Alaska       118         381       Canada        120          369
   Alaska       105         388       Canada        153          403
   Alaska       121         403       Canada        150          354
   Alaska        85         451       Canada        154          390
   Alaska        83         453       Canada        155          349
   Alaska        53         427       Canada        109          325
   Alaska        95         411       Canada        117          344
   Alaska        76         442       Canada        128          400
   Alaska        95         426       Canada        144          403
   Alaska        87         402       Canada        163          370
   Alaska        70         397       Canada        145          355
   Alaska        84         511       Canada        133          375
   Alaska        91         469       Canada        128          383
   Alaska        74         451       Canada        123          349
   Alaska       101         474       Canada        144          373
   Alaska        80         398       Canada        140          388
   Alaska        95         433       Canada        150          339
   Alaska        92         404       Canada        124          341
   Alaska        99         481       Canada        125          346
   Alaska        94         491       Canada        153          352



                                    Pág. 42
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                                       P. REYES / OCT. 2006


    Alaska            87            480            Canada        108         339

Las intrucciones de Minitab son las siguientes:

1   Abrir la worksheet EXH_MVAR.MTW.

2   Stat > Multivariate > Discriminant Analysis.

3   En Groups, poner SalmonOrigin.

4   En Predictors, poner Freshwater Marine. Click OK.


Los resultados obtenidos se muestran a continuación:

Discriminant Analysis: SalmonOrigin versus Freshwater, Marine

Linear Method for Response: SalmonOrigin

Predictors: Freshwater, Marine

Group        Alaska        Canada
Count            50            50

Summary of classification

                        True Group
Put into Group        Alaska Canada
Alaska                    44        1
Canada                     6       49
Total N                   50       50
N correct                 44       49
Proportion             0.880   0.980

N = 100                 N Correct = 93                  Proportion Correct = 0.930

Squared Distance Between Groups

           Alaska       Canada
Alaska    0.00000      8.29187
Canada    8.29187      0.00000

Linear Discriminant Function for Groups
             Alaska Canada
Constant    -100.68 -95.14
Freshwater     0.37    0.50
Marine         0.38    0.33

Summary of Misclassified Observations
                                                              Squared
Observation         True Group      Pred Group       Group   Distance   Probability
          1**           Alaska          Canada      Alaska      3.544         0.428
                                                    Canada      2.960         0.572
             2**           Alaska         Canada    Alaska     8.1131         0.019
                                                    Canada     0.2729         0.981
             12**          Alaska         Canada    Alaska     4.7470         0.118
                                                    Canada     0.7270         0.882
             13**          Alaska         Canada    Alaska     4.7470         0.118
                                                    Canada     0.7270         0.882
             30**          Alaska         Canada    Alaska      3.230         0.289
                                                    Canada      1.429         0.711
             32**          Alaska         Canada    Alaska      2.271         0.464



                                              Pág. 43
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                                    P. REYES / OCT. 2006


                                              Canada      1.985           0.536
         71**        Canada         Alaska    Alaska      2.045           0.948
                                              Canada      7.849           0.052


Interpretando los resultados

El Análisis Discriminante identificó correctamente 93 de los 100 peces, a pesar
de que la probabilidad de clasificar correctamente un pez de Alaska fue menor
(44/50 o 88%) que la probabilidad de clasificar correctamente un pez de
Canadá (49/50 o 98%). Para identificar el origen de un pez recientemente
capturado depende de cual valor discriminante sea mayor. Se puede correr el
análisis discriminante de nuevo y predecir a que grupo pertenecen las nuevas
observaciones.

El resumen de las observaciones mal clasificadas muestra la distancia al
cuadrado desde el punto mal clasificado a los centroides del grupo (vectores
medios) y las probabilidades posteriores. Las observaciones son asignadas al
grupo con la mayor probabilidad posterior.

Si en Options introducimos en Predict membership for: 100 130, la
clasificación aparece como:

Prediction for Test Observations
                                              Squared
Observation     Pred Group    From Group     Distance   Probability
          1       Canada
                               Alaska         78.448         0.000
                               Canada         55.194         1.000




                                           Pág. 44
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                          P. REYES / OCT. 2006



ANÁLISIS DE CONGLOMERADOS
Se cuenta también con el análisis de conglomerados o clusters (técnica para
agrupar los casos o elementos de una muestra en grupos con base en una o
más variables).


Usar Análisis de componentes principales para ayudar a comprender la
estructura de datos y/o a formar un pequeño número de variables no
correlacionadas (por ejemplo para evitar multicolinealidad en la regresión).


Ejemplo:

Se registran las siguientes características para 14 censos: Población total
(Pop), mediana de años escolares (School), empleo total (Employ),empleo en
servicios de salud (Health), y valor mediano del valor de la casa (Home). Los
datos se muestran a continuación:

     Pop      School     Employ      Health        Home
    5.935      14.2       2.265       2.27          2.91
    1.523      13.1       0.597       0.75          2.62
    2.599      12.7       1.237       1.11          1.72
    4.009      15.2       1.649       0.81          3.02
    4.687      14.7       2.312        2.5          2.22
    8.044      15.6       3.641       4.51          2.36
    2.766      13.3       1.244       1.03          1.97
    6.538       17        2.618       2.39          1.85
    6.451      12.9       3.147       5.52          2.01
    3.314      12.2       1.606       2.18          1.82
    3.777       13        2.119       2.83          1.8
     1.53      13.8       0.798       0.84          4.25
    2.768      13.6       1.336       1.75          2.64
    6.585      14.9       2.763       1.91          3.17

Se realiza un análisis de components principales para comprender la estructura
de datos subyacente. Se usa la matriz de correlación para estandarizar las
mediciones dado que no se mide con la misma escala.

Las instrucciones de Minitab son las siguientes:

1   Abrir la worksheet EXH_MVAR.MTW.

2    Stat > Multivariate > Principal Components.

3   En Variables, Pop-Home.

4   En Type of Matrix, seleccionar Correlation.



                                    Pág. 45
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                                                         P. REYES / OCT. 2006


5                 Click Graphs y seleccionar Scree plot.

6                 Click OK en cada cuadro de diálogo.

Los resultados se muestran a continuación:


Principal Component Analysis: Pop, School, Employ, Health, Home

Eigenanalysis of the Correlation Matrix

Eigenvalue                     3.0289       1.2911        0.5725         0.0954   0.0121
Proportion                      0.606        0.258         0.114          0.019    0.002
Cumulative                      0.606        0.864         0.978          0.998    1.000


Variable                        PC1          PC2         PC3              PC4      PC5
Pop                          -0.558       -0.131       0.008            0.551   -0.606
School                       -0.313       -0.629      -0.549           -0.453    0.007
Employ                       -0.568       -0.004       0.117            0.268    0.769
Health                       -0.487        0.310       0.455           -0.648   -0.201
Home                          0.174       -0.701       0.691            0.015    0.014


                                      Scr ee Pl ot of Pop, ..., Home

                  3.0


                  2.5


                  2.0
    Eigenv alue




                  1.5


                  1.0


                  0.5


                  0.0

                         1            2              3                   4          5
                                              Component Number




Interpretando los resultados

El primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el
                        60.6% de la varianza total. Los coeficientes para el PC1 muestran como
                        calcular el nivel del componente principal.

PC1 = −.558 Pop − .313 School − .568 Employ − .487 Health + .174 Home


Notar que la interpretación de los components principales es subjetiva, sin
embargo, frecuentemente surgen patrones obvios. Por ejemplo, se podría
pensar que el primer componente represente el efecto del tamaño de la



                                                                        Pág. 46
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                           P. REYES / OCT. 2006


población total, el nivel de escolaridad, empleo y servicios de salud, dado que
los coeficientes de estos términos tienen el mismo signo y no son cercanos a
cero.

El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la
variabilidad de los datos. Se calcula de los datos originales usando los
coeficientes listados en PC2. Este componente podría ser pensado como nivel
de contraste de escolaridad y valor de la casa con salud y empleo de alguna
manera.

Juntos el primero y segundo componentes representan el 86.4% y 97%,
respectivamente, de la variabilidad total. Así, la mayoría de la estructura de
datos puede ser capturada en dos o tres dimensiones relevantes. Los
componentes remanentes solo tienen una menor proporción de probabilidad y
no son importantes. La gráfica Scree proporciona una visión gráfica de lo
anterior.




                                     Pág. 47
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                          P. REYES / OCT. 2006



ANÁLISIS FACTORIAL
El análisis factorial es un método cuyo propósito principal es definir la
estructura subyacente de una matriz de datos. Atiende el problema de analizar
la estructura de las interrelaciones (correlaciones) entre un gran número de
variables    (vgr. Respuestas de cuestionarios) al definir un conjunto de
dimensiones subyacentes comunes, conocidas como factores. Con el análisis
factorial se identifican las dimensiones separadas de la estructura y después se
determina que tanto cada variable es explicada por cada dimensión. Una vez
que se determinan las dimensiones y se explican las variables por cada
dimensión, se puede hacer un resumen y reducción de datos.


El análisis factorial es una técnica de interdependencia en la cual todas las
variables son consideradas de manera simultanea, cada una relacionada a las
otras, y empleando el concepto de variate, composición lineal de variables. De
hecho las variates (factores) se forman para maximizar su explicación de todo
el conjunto de variables, no para predecir una variable dependiente(s). Una
variate (factor) es una variable dependiente que es función del conjunto total de
variables.


Se usa el Análisis factorial, de manera similar al análisis de componentes
principales, para resumir la estructura de covarianza de los datos en una pocas
dimensiones de los mismos. Sin embargo, el énfasis en análisis factorial es la
identificación de los “factores subyacentes” que pueden explicar las
dimensiones asociadas con la gran variabilidad de los datos.


Se pueden tener tres tipos de datos de entrada:
      Columnas de datos unitarios
      Una Matriz de correlaciones o covarianzas
      Columnas conteniendo ponderaciones de factores


Con los datos del ejemplo anterior de Componentes principales, realizar un
análisis factorial como sigue:




                                     Pág. 48
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                           P. REYES / OCT. 2006


Nos gustaría investigar que “factores” pueden explicar la mayor parte de la
variabilidad. Como primer paso del análisis factorial, se utiliza la extracción de
componentes principales y se examinan los eigenvalores en gráfica como
ayuda para decidir el número de factores.


PROCESO DE DECISIÓN DE ANÁLISIS FACTORIAL
Paso 1. Objetivos del Análisis factorial
El propósito es encontrar una forma de condensar (resumir) la información
contenida en un cierto número de variables originales, en un grupo más
pequeño de dimensiones nuevas, compuestas o variates (factores) con un
mínimo de pérdida de información.


Por ejemplo si hay datos de 100 cuestionarios en 10 características, el análisis
factorial se aplica a la matriz de correlación de variables y se denomina
Análisis Factorial R, para identificar las dimensiones que están latentes o no
son fácilmente observables.


El análisis factorial también se puede aplicar a una matriz de correlación de los
cuestionarios individuales basados sus características, referido como Análisis
Factorial Q, es un método de condensar o combinar un grupo grande de gente
en diferentes grupos distintos dentro de una población grande, para esto se
utiliza el análisis de conglomerados (clusters).


Paso 2. Diseño del análisis factorial
Incluye tres decisiones básicas: (1) cálculo de los datos de entrada (una matiz
de correlación) para cumplir con los objetivos especificados de agrupar
variables o cuestionarios; (2) el diseño del estudio en términos del nñumeor de
variables, propiedades de medición de las variables, y el tipo de variables
permitidas y (3) el tamaño de muestra necesario (al menos 5 veces el númro de
variables analizadas), ambos en términos absolutos y como función de del
número de variables en el análisis.


Paso 3. Supuestos del análisis factorial


                                      Pág. 49
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                         P. REYES / OCT. 2006


Es deseable algún grado de multicolinealidad entre variables dado que el
objetivo es identificar conjuntos de variables interrelacionadas, no son tan
importantes la normalidad, homoestacidad y linealidad a menos que
disminuyan significativamente las correlaciones observadas.


La matriz de correlación debe indicar valores mayores a 0.3 para aplicar el
análisis de correlación. También si las correlaciones parciales entre variables
(correlación entre variables cuando el efecto de las otras variables se toma en
cuenta) son pequeñas dado que la variable puede explicada por los factores
(variates con ponderacións para cada una de             las variables). Si las
correlaciones parciales son altas, no hay factores subyacentes “verdaderos” y
el análisis factorial es inapropiado.


La prueba de esfericidad de Bartlett mide la presencia de correlaciones entre
las variables, proporciona la probabilidad de que la matriz de correlación tenga
correlaciones significativas en algunas de las variables. Otro indicador es el
“Measure of Sampling Adequacy (MSA)”, con rango de 0 a 1, donde 0.8 o más
es meritorio; 0.07 o más es regular; 0.60 o más es mediocre; 0.50 o más
miserable y debajo de 0.50 inaceptable.


El supuesto básico en el análisis factorial es que existe una estructura
subyacente en el conjunto de variables seleccionadas.


Paso 4. Identificando factores y evaluando el ajuste del modelo
Una vez que se especifican las variables y se prepara la matriz de correlación,
se toman decisiones en relación a (1) el método de extracción de los factores
(análisis de factores comunes versus análisis de componentes) y (2) el número
de factores seleccionados para representar la estructura subyacente en los
datos.


Análisis de componentes
El análisis de componentes se usa cuando el objetivo es resumir la mayor parte
de la información original (varianza) en un mínimo número de factores para



                                        Pág. 50
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                         P. REYES / OCT. 2006


propósitos de predicción. Considera la varianza total y determina factores que
contienen pequeñas proporciones de varianza única y, en algunos casos,
varianza del error.


Análisis factorial
En contraste el análisis de factores comunes se utiliza para identificar los
factores subyacentes o dimensiones que reflejan aquello que las variables
comparten en común.


En este método se tienen tres tipos de varianzas: (1) común, (2) específica
(única), y (3) error. La varianza común se define como la varianza en una
variable que es compartida por todas las demás variables. La varianza
específica es la varianza asociada solo con una variable específica. La
varianza del error es la varianza debida a la incertidumbre en el proceso de
recolección de datos, errores de medición, o componente aleatorio en el
fenómeno medido.


Criterios para el número de factores a extraer
El método primero extrae la combinación de variables explicando la mayor
cantidad de varianza y después continua con combinaciones que representan
menos y menos cantidades de varianza.


La selección de factores a extraer equivale a enfocar un microscopio
normalmente se hace por prueba y error contrastando los resultados.


Criterio de Raíz Latente: su racional es que cualquier factor individual debe
contener la varianza de al menos una variable. Como cada variable contribuye
con 1 al eigenvalor total o raíz latente. Se seleccionan solo los factores con
eigenvalores mayores a uno, cuando se tienen menos de 20 variables, los
factores extraídos son pocos.


Criterio a Priori: en este método el investigador ya tiene una idea clara de los
factores a extraer y así lo indica en la computadora.



                                     Pág. 51
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                         P. REYES / OCT. 2006


Criterio de porcentaje de varianza: Enfoque basado en lograr un porcentaje
acumulado de varianza total extraído por factores sucesivos. Normalmente el
proceso para al acumular 95%.


Criterio Scree Test: Se usa para identificar el número óptimo de factores que
pueden ser extraídos antes de que la cantidad de varianza única empiece a
dominar la estructura de varianza común.

     Eig
     env
     alor


     1




                                     8




                              Número de factores
Paso 5. Interpretando los factores
Se obtiene la matriz no rotada para estimar el número de factores a extraer. La
matriz de factores contiene ponderacións de factores para cada variable en
cada factor. El primer factor puede verse como la mejor combinación lineal
incluida en los datos, con cada factor con ponderacións significativos y acumula
la mayor parte de a varianza; el segundo factor es la segunda mejor
combinación lineal de variables, sujeta a que es ortogonal al primer factor, se
basa en la porción residual de la varianza una vez removido el primero, así
sucesivamente.


Los ponderacións de los factores representan la correlación de cada una de las
variables y el factor, entre mayores sean, mayor será la representatividad del
factor por la variable.




                                    Pág. 52
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                                                P. REYES / OCT. 2006


La rotación de los factores más simple es una rotación ortogonal, en la cual
se mantienen los ejes a 90 grados. Se pueden rotar los ejes sin mantener los
90 grados entre los ejes de referencia. Cuando no hay restricción de
ortogonalidad, el procedimiento de rotación se denomina rotación oblicua.
                                                                              +1 Factor II rotado
                                           +1 Factor II sin rotar
                                                                    V1
                                                                         V2




                                                                                       +1 Factor I sin rotar
           -1
                                                                         V4
                                                                                  V3

                                                                   V5
                                                                                       +1 Factor I rotado
                                           -1
                                           Factor II




Fig. 1 Rotación ortogonal de factores ( observar la ponderación                 o ponderación de factores I y
II en la variable V2, es más clara cuando se rotan los factores)



En la figura se observan dos conglomerados de variables (V1 y V2) y (V3, V4 y
V5), sin embargo con los factores sin rotar no es muy obvia su ponderación o
ponderación de los factores I y II. Después de la rotación de los ejes de
factores, las variables 3, 4 y 5 tienen una ponderación o ponderación fuerte de
factor I, y las variables 1 y2 tienen una ponderación o ponderación fuerte en el
factor II. Siendo más obvia la distinción entre conglomerados en dos grupos.


Métodos de rotación ortogonal
En la práctica el objetivo de todos los métodos de rotación es simplificar las
filas y columnas de la matriz de factores para facilitar la interpretación. En una
matriz de factores las columnas representan factores, con cada renglón
correspondiente a la ponderación de las variables a través de los factores. Al
simplificar los renglones, se hacen tantos valores en cada fila tan cercanos a
cero como sea posible (i.e. maximizando la ponderación de una variable con un


                                                 Pág. 53
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                          P. REYES / OCT. 2006


factor único). Simplificando las columnas, se hacen tantos valores en las
columnas tan cercanos a cero como sea posible (i.e. hacer el máximo número
de ponderacións “altas” como sea posible). Se han desarrollado tres métodos
para lo anterior como sigue:


Quartimax: para simplificar las filas de la matriz; o sea, que Quartimax se
enfoca a rotar los factores iniciales de manera que las variables tengan la
mayor ponderación posible de un factor y la mínima de los otros. Aunque este
método no ha sido eficiente.


Varimax: se centra en simplificar las columnas de la matriz factorial. La
máxima simplificación posible se logra cuando solo hay 1’s y 0’s en la columna.
Es decir que VARIMAX maximiza la suma de variancias de ponderacións
requeridas de la matriz factorial. Este método ha probado ser un método
analítico efectivo para obtener una rotación ortogonal de factores.


Equimax:
Es un compromiso entre las anteriores. Trata de simplificar los renglones y las
columnas, no se utiliza frecuentemente.


Métodos de rotación oblicua:
Estos métodos son similares a las rotaciones ortogonales excepto que permiten
factores correlacionados en vez de mantener la independencia de los factores
rotados.


En general no hay reglas para seleccionar uno de los métodos anteriores.


Criterios para la significancia de ponderación de factores en las variables
De manera práctica si las ponderacións son de ± 0.30 se considera que
cumplen el nivel mínimo; ponderacións de ± 0.40 son importantes; ± 0.50 o
mayores son significativas en la práctica. Como la ponderación del factor es la
correlación de la variable y el factor, la ponderación al cuadrado es la cantidad
representada de la varianza total por el factor. De esta forma con ± 0.3 se tiene



                                    Pág. 54
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                           P. REYES / OCT. 2006


un 10% de explicación y un 0.5 de ponderación denota que un 25% de la
varianza es representada por el factor.


Evaluando la significancia estadística
Con base en un nivel de significancia de 0.05, un nivel de potencia del 80% y
errores estándar asumidos se el doble de los coeficientes de correlación
convencionales, se tiene la tabla siguiente:


             Ponderación      Tamaño             de
              del factor      muestra requerida
                              para             tener
                              significancia
                 0.30         350
                 0.35         300
                 0.40         250
                 0.45         200
                 0.50         150
                 0.55         100
                 0.60         85
                 0.65         70
                 0.70         60

Resumiendo las guías para la significancia de los factores son:
   (1) entre mayor sea el tamaño de muestra, el valor de ponderación
       significativo se reduce.
   (2) Entre más variables sean consideradas en el análisis, más pequeña es
       la ponderación que se considera significativa.
   (3) Entre más factores haya, mayor es la ponderación en los factores
       adicionales para que sea considerada significativa.


Cada columna de números en la matriz representa un factor por separado. Las
columnas de números representan las ponderacións para cada una de las
variables. Identificar la más alta ponderación para cada variable. Recordar que
para tamaños de muestra similares a 100 se considera significante ± 0.3. La
comunalidad para cada variable representa la cantidad de varianza
considerada por la solución factorial para cada variable. Evaluar la comunalidad
de las variables, es decir identificar las que tengan más del 50%, ya que las


                                     Pág. 55
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                            P. REYES / OCT. 2006


que tengan menos no tienen suficiente explicación. El nombre de los factores
se desarrolla de manera intuitiva, con base en las variables con una mayor
ponderación se consideran más importantes y tienen una mayor influencia para
el nombre seleccionado para representar al factor.


Validación del análisis factorial
Se trata de evaluar el grado de generalización de los resultados en la población
y la influencia potencial de casos individuales en los resultados totales.


El alfa de Cronbach es una medida del coeficiente de confiabilidad que evalua
la consistencia de toda la escala. Este índice es la relación positiva del número
de ítems en la escala, donde 0.7 se considera adecuado.




                                     Pág. 56
MÉTODOS ESTADÍSTICOS MULTIVARIADOS                           P. REYES / OCT. 2006


Ejemplo con datos de HATCO
Prueba de la adecuación del modelo, utilizando Minitab:

1. Stat > Basic statistics > Correlation
2. Variables X1, X2, X3, X4, X6, X7
3. Display p values
4. OK

Correlations: X1, X2, X3, X4, X6, X7

         X1         X2       X3      X4        X6
X2   -0.349
      0.000

X3       0.476   -0.472
         0.000    0.000

X4       0.050   0.272    -0.095
         0.618   0.006     0.347

X6       0.077   0.186    -0.015   0.788
         0.446   0.064     0.880   0.000

X7   -0.483      0.470    -0.407   0.200    0.177
      0.000      0.000     0.000   0.046    0.078


Cell Contents: Pearson correlation
               P-Value

De la matriz, 7 de 15 correlaciones son significativas estadísticamente. El valor
de MSA de 0.665 cumple con con el criterio para aplicar el análisis factorial.


Análisis factorial con Minitab:

Las instrucciones de Minitab son las siguientes:

1    Cargar los datos de HATCO.

2    Stat > Multivariate > Factor Analysis.

3    En Variables, X1, X2, X3, X4, X6, X7

4    En Number of factors to extract, 2.

     5    En Method of Extraction, seleccionar Principal components

6    En Type of Rotation, seleccionar Varimax.

7    Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.



                                           Pág. 57

Contenu connexe

Tendances

10 Escalas de medición de actitudes
10 Escalas de medición de actitudes10 Escalas de medición de actitudes
10 Escalas de medición de actitudesDiana Vaquero
 
Equipo 5 "Ética en el trabajo con participantes humanos y no humanos"
Equipo 5 "Ética en el trabajo con participantes humanos y no humanos"Equipo 5 "Ética en el trabajo con participantes humanos y no humanos"
Equipo 5 "Ética en el trabajo con participantes humanos y no humanos"RosarioFL
 
Introducción a la estadística
Introducción a la estadísticaIntroducción a la estadística
Introducción a la estadísticaCarlos Sarmiento
 
Escalas medida Estadística
Escalas medida Estadística Escalas medida Estadística
Escalas medida Estadística Miguel Baez Mtz
 
Alcances De La Investigacion
Alcances De La InvestigacionAlcances De La Investigacion
Alcances De La InvestigacionEPYCC.ORG
 
Muestreo por conglomerados
Muestreo por conglomeradosMuestreo por conglomerados
Muestreo por conglomeradosMichael Cabrera
 
Stats Muestreo
Stats   MuestreoStats   Muestreo
Stats Muestreohelena0912
 
Diseños de investigación Unidad II
Diseños de investigación   Unidad IIDiseños de investigación   Unidad II
Diseños de investigación Unidad IIMaría Carreras
 
Métodos estadísticos
Métodos estadísticosMétodos estadísticos
Métodos estadísticosdadaos
 
Muestreo Aleatorio
Muestreo AleatorioMuestreo Aleatorio
Muestreo AleatorioAbrahamJACG
 
El rigor cientifico en la investigacion
El rigor cientifico en la investigacionEl rigor cientifico en la investigacion
El rigor cientifico en la investigacionFlordeMariaMogollnTo
 
Clase multivaariado 01
Clase multivaariado 01Clase multivaariado 01
Clase multivaariado 01Jhoel Calderon
 
Marco Metodologico
Marco MetodologicoMarco Metodologico
Marco MetodologicoLuissanoja
 

Tendances (20)

10 Escalas de medición de actitudes
10 Escalas de medición de actitudes10 Escalas de medición de actitudes
10 Escalas de medición de actitudes
 
Equipo 5 "Ética en el trabajo con participantes humanos y no humanos"
Equipo 5 "Ética en el trabajo con participantes humanos y no humanos"Equipo 5 "Ética en el trabajo con participantes humanos y no humanos"
Equipo 5 "Ética en el trabajo con participantes humanos y no humanos"
 
Introducción a la estadística
Introducción a la estadísticaIntroducción a la estadística
Introducción a la estadística
 
Confiabilidad y validez de un instrumento
Confiabilidad y validez de un instrumentoConfiabilidad y validez de un instrumento
Confiabilidad y validez de un instrumento
 
Introducion al muestreo y tipos de muestreo
Introducion al muestreo y tipos de muestreoIntroducion al muestreo y tipos de muestreo
Introducion al muestreo y tipos de muestreo
 
Tipos de investigacion
Tipos de investigacionTipos de investigacion
Tipos de investigacion
 
Escalas medida Estadística
Escalas medida Estadística Escalas medida Estadística
Escalas medida Estadística
 
DISEÑO-DE-LA-MUESTRA.ppt
DISEÑO-DE-LA-MUESTRA.pptDISEÑO-DE-LA-MUESTRA.ppt
DISEÑO-DE-LA-MUESTRA.ppt
 
Alcances De La Investigacion
Alcances De La InvestigacionAlcances De La Investigacion
Alcances De La Investigacion
 
Muestreo
MuestreoMuestreo
Muestreo
 
Muestreo por conglomerados
Muestreo por conglomeradosMuestreo por conglomerados
Muestreo por conglomerados
 
Stats Muestreo
Stats   MuestreoStats   Muestreo
Stats Muestreo
 
Diseños de investigación Unidad II
Diseños de investigación   Unidad IIDiseños de investigación   Unidad II
Diseños de investigación Unidad II
 
Métodos estadísticos
Métodos estadísticosMétodos estadísticos
Métodos estadísticos
 
Estudio de corte trasversal
Estudio de corte trasversalEstudio de corte trasversal
Estudio de corte trasversal
 
Investigacion Estaditica
Investigacion EstaditicaInvestigacion Estaditica
Investigacion Estaditica
 
Muestreo Aleatorio
Muestreo AleatorioMuestreo Aleatorio
Muestreo Aleatorio
 
El rigor cientifico en la investigacion
El rigor cientifico en la investigacionEl rigor cientifico en la investigacion
El rigor cientifico en la investigacion
 
Clase multivaariado 01
Clase multivaariado 01Clase multivaariado 01
Clase multivaariado 01
 
Marco Metodologico
Marco MetodologicoMarco Metodologico
Marco Metodologico
 

Similaire à Analisis multivariado

Paso 4 descripción de la información.
Paso 4 descripción de la información.Paso 4 descripción de la información.
Paso 4 descripción de la información.MarlyTenorio
 
Análisis de datos
Análisis de datosAnálisis de datos
Análisis de datoscaceli
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariantejpgv84
 
Analisis de encuestas
Analisis de encuestasAnalisis de encuestas
Analisis de encuestasMauricio Cano
 
5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte Ijpgv84
 
Medidas de-tendencia-central
Medidas de-tendencia-centralMedidas de-tendencia-central
Medidas de-tendencia-centralkarmytaJaneta
 
Medidas de-tendencia-central
Medidas de-tendencia-centralMedidas de-tendencia-central
Medidas de-tendencia-centralkarmytaJaneta
 
Analisis multivariado -_branco_saravia_morales
Analisis multivariado -_branco_saravia_moralesAnalisis multivariado -_branco_saravia_morales
Analisis multivariado -_branco_saravia_moralesBrancoSaraviaMorales
 
1 INTRODUCCION AL ANALISIS MULTIVARIANTE.ppt
1 INTRODUCCION AL ANALISIS MULTIVARIANTE.ppt1 INTRODUCCION AL ANALISIS MULTIVARIANTE.ppt
1 INTRODUCCION AL ANALISIS MULTIVARIANTE.pptMiguelngelRamrezLeiv
 

Similaire à Analisis multivariado (20)

Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariado
 
Análisis Multivariado
Análisis  MultivariadoAnálisis  Multivariado
Análisis Multivariado
 
REPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdfREPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdf
 
REPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdfREPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdf
 
Paso 4 descripción de la información.
Paso 4 descripción de la información.Paso 4 descripción de la información.
Paso 4 descripción de la información.
 
Análisis de datos
Análisis de datosAnálisis de datos
Análisis de datos
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariante
 
Analisis de encuestas
Analisis de encuestasAnalisis de encuestas
Analisis de encuestas
 
Tema estadistica
Tema estadisticaTema estadistica
Tema estadistica
 
Tema estadistica
Tema estadisticaTema estadistica
Tema estadistica
 
Tema estadistica
Tema estadisticaTema estadistica
Tema estadistica
 
5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariado
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariado
 
Medidas de-tendencia-central
Medidas de-tendencia-centralMedidas de-tendencia-central
Medidas de-tendencia-central
 
Medidas de-tendencia-central
Medidas de-tendencia-centralMedidas de-tendencia-central
Medidas de-tendencia-central
 
Analisis multivariado -_branco_saravia_morales
Analisis multivariado -_branco_saravia_moralesAnalisis multivariado -_branco_saravia_morales
Analisis multivariado -_branco_saravia_morales
 
1 INTRODUCCION AL ANALISIS MULTIVARIANTE.ppt
1 INTRODUCCION AL ANALISIS MULTIVARIANTE.ppt1 INTRODUCCION AL ANALISIS MULTIVARIANTE.ppt
1 INTRODUCCION AL ANALISIS MULTIVARIANTE.ppt
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 

Analisis multivariado

  • 1. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 CÁLCULO DEL COEFICIENTE DE CONFIABIL IDAD (FIABILIDAD) ALFA-CRONBACH Existen tres procedimientos para determinar el coeficiente “〈” o alfa : 1. Sobre la base de la varianza de los ítems, con la aplicación de la siguiente fórmula: En donde N representa el número de ítems de la escala, “s2 (Yi)” es igual a la sumatoria de las varianzas de los ítems y “s2x” equivale a la varianza de toda la escala. 2. Sobre la base de la matriz de correlación de los ítems, el procedimiento sería: a) Se aplica la escala. b) Se obtienen los resultados. c) Se calculan los coeficientes de correlación r de Pearson entre todos los ítems (todos contra todos de par en par). d) Se elabora la matriz de correlación con los coeficientes obtenidos. Por ejemplo: Pág. 1
  • 2. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Los coeficientes que se mencionan como “ya fue calculado”, se ubican en la parte superior de las líneas horizontales (guiones). Es decir, cada coeficiente se incluye una sola vez y se excluyen los coeficientes que vinculan al ítem o puntuación consigo misma (1 con 1, 2 con 2, 3 con 3 y 4 con 4). Pág. 2
  • 3. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 3. Mediante otra fórmula que se basa en la correlación promedio Pág. 3
  • 4. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Los métodos de análisis multivariado Los métodos de análisis multivariado son aquellos en que se analiza la relación entre diversas variables independientes y al menos una dependiente. Son métodos más complejos que requieren del uso de computadoras para efectuar los cálculos necesarios Entre las técnicas más comunes se encuentran (1) Análisis de componentes principales y factores comunes, (2) regresión y correlación múltiple, (3) análisis discriminante múltiple, (4) análisis multivariado de varianza y covarianza, (5) análisis conjunto, (6) correlación canónica, (7) análisis de clusters, (8) escala multidimensional. Otras técnicas nuevas incluyen (9) análisis de correspondencia, (10) modelos de probabilidad lineal tales como el logit y probit, y (11) modelos de ecuación simultaneas / estructurales. A continuación se describen brevemente éstas técnicas. Análisis de componentes principales y de factores comunes Es un método estadístico que puede usarse para analizar las interrelaciones entre un gran número de variables y explicar esas variables en términos de sus dimensiones subyacentes comunes. El objetivo es hallar la forma de sintetizar la información contenida en un número de variables originales, dentro de un Pág. 4
  • 5. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 conjunto más pequeño de variates (factores) con mínima pérdida de información. Regresión múltiple En un método de análisis adecuado cuando el problema de investigación involucra una variable dependiente única que se presume se relaciona a dos o más variables independientes medibles. El objetivo es predecir el cambio en la variable dependiente de respuesta con cambios en las variables independientes, normalmente con el método de mínimos cuadrados. Por ejemplo se pueden predecir los montos gastados en cenas a partir de ingresos de las familias (variable dependiente), su tamaño, y la edad del padre (variables independientes). Análisis discriminante múltiple (MDA) Se aplica cuando la variable dependiente es dicotómica (vgr. hombre – mujer) o multitómica (vgr. Alto – medio – bajo) y por tanto no medible. Como en la regresión las variables independientes deben ser medibles. Se aplica cuando la muestra total se puede dividir en grupos con base en una variable no medible caracterizando varias clases conocidas. Su objetivo es comprender las diferencias entre grupos y predecir la probabilidad de que una entidad (objeto individual) pertenezca a una clase o grupo particular con base en varias variables independientes medibles o métricas. Por ejemplo el análisis discriminante se puede utilizar para distinguir entre innovadores y no innovadores de acuerdo a su perfil demográfico y psicográfico. Análisis multivariado de varianza y covarianza (MANOVA) Es un método estadístico para explorar simultáneamente la relación entre varias variables categóricas independientes (referidas como tratamientos) y dos o más variables dependientes medibles o métricas. Es una extensión del ANOVA univariado. El análisis multivariado de covarianza (MANCOVA) se Pág. 5
  • 6. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 puede usar en conjunto con el MANOVA para remover (después del experimento) el efecto de cualquier variable métrica independiente no controlada (conocida como covariada) en la variable independiente. Análisis conjunto Se aplica a nuevos productos para evaluar la importancia de los atributos del nuevo producto así como los niveles de cada atributo, mientras que el consumidor evalúa solo unos pocos perfiles del producto como combinaciones de los niveles de producto. Por ejemplo asumir un producto con tres atributos (precio, calidad y color), cada uno en tres niveles posibles (vgr. Rojo, amarillo y azul). En vez de tener que evalur las 27 combinaciones posibles (3x3x3), se evalúa un subconjunto de 9 o más combinaciones con base en su atractivo para el consumidor, de manera que el investigador no solo conozca la importancia de cada atributo, sino además la importancia de cada nivel (atractivo del rojo vs amarillo vs azul). Correlación canónica El análisis de correlación puede ser visto como una extensión lógica de la regresión múltiple. Donde se trata de correlacionar simultáneamente varias variables dependientes medibles o métricas y varias variables independientes medibles. El principio es establecer una combinación lineal de cada conjunto de variables (dependientes e independientes) para maximizar la correlación entre los dos conjuntos (obteniendo ponderacións adecuados para las variables). Análisis de conglomerados (Clusters) Es una técnica analítica para desarrollar sugrupos significativos de individuos u o objetos. Específicamente, el objetivo es clasificar una muestra de entidades (individuos u objetos) en un número más pequeño de grupos más pequeños con base en las similitudes entre entidades. A diferencia del análisis discriminante, los grupos no están definidos, más bien se usa para identificarlos. Pág. 6
  • 7. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Normalmente se realiza en tres pasos. El primero es la medición de alguna forma de similitud o asociación entre las entidades para identificar cuantos grupos realmente existen en la muestra. El segundo paso es el proceso en sí de conglomerados, donde las entidades se particionan en grupos (conglomerados o clusters). El paso final es perfilar las personas o variables para determinar su composición. Muchas veces esto último se realiza con el análisis discriminante. Escala multidimensional El objetivo es transformar los juicios del consumidor de similitud o preferencias (vgr. Preferencia por tiendas o marcas) en distancias representadas en un espacio multidimensional. Si los objetos A y B se juzgan por el consumidor como similares, comparados con cualquier otro par de objetos, la técnica posiciona los objetos A y B de manera que la distancia entre ellos en un espacio multidimensional es más pequeño que la distancia entre cualquier otro par de objetos. Al final se muestra un mapa perceptual con la posición relativa de los objetos. Análisis de correspondencia Facilita tanto la reducción dimensional de objetos en un conjunto de atributos y el mapa perceptual de objetos respecto a estos atributos. En su forma más elemental es una tabla de contingencia o tabulación cruzada de dos variables categóricas. Transforma los datos no métricos a un nivel medible y realiza una reducción dimensional (similar al análisis de factores) y un mapa perceptual (similar al análisis multidimensional). Por ejemplo, las preferencias de marcas de los consumidores pueden ser tabuladas contra variables demográficas (vgr. Género, categorías de ingresos, ocupación) indicando cuanta gente prefiere cada una de las marcas que caen en cada categoría de las variables demográficas. Por medio del análisis de correspondencia, la asociación o “correspondencia” de marcas y las características distintivas de aquellos que prefieren las marcas se muestran en Pág. 7
  • 8. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 un mapa tridimensional o bidimensional tanto de marcas como de las características que distinguen a aquellos que prefieren cada marca. Modelos de probabilidad lineal (Análisis Logit) Son una combinación de regresión múltiple y análisis discrimínante. Es similar al análisis de regresión múltiple excepto que la variable dependiente es categórica no métrica como en el análisis discriminante. Modelos de ecuaciones estructurales A veces se refiere como el nombre del software LISREL, es una técnica que permite separar las relaciones del conjunto de variables dependientes. En su forma más sencilla proporciona el modelo más adecuado y la técnica de estimación más eficiente para una serie de ecuaciones de regresión múltiple, evaluadas simultáneamente. Se caracteriza por dos componentes básicos: (1) el modelo estructural y (2) el modelo de medición. El modelo estructural es la “vía” que relaciona variables dependientes e independientes. El modelo de medición permite al investigador a usar varias variables (indicadores) para una variable dependiente e independiente. Pág. 8
  • 9. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Los datos para HATCO son los siguientes: Variables / Tipo Percepciones / Medibles (Métricas) X1 Tiempo de entrega - entrega del producto con la orden confirmada X2 Nivel de precios - nivel de precio percibido ponderacióndo por proveedores X3 Flexibilidad de precios - flexibilidad para negociar precios X4 Imagen de la empresa - general X5 Servicio en general - nivel necesario para mantener relaciones X6 Imagen de la fuerza de ventas - general X7 Calidad del producto – calidad percibida en desempeño o rendimiento Resultados de compras / Medibles (Métricas) X9 Nivel de utilización - que porcentaje de producto es surtido por Hatco X10 Nivel de satisfacción – que tan satisfecho esta el cliente con Hatco Características del comprador / No Medibles (No Métricas) X8 Tamaño de la empresa - 1- Grande 0 - pequeño X11 Especificación de compra - 1-Evalúa por el valor total y 0- especificación X12 Estructura de abastecimiento – 1- centralizado 0 - descentralizado X13 Tipo de industria - 1- industria A 0 – otras industrias X14 Tipo de situación de compra – 1- nueva 2- modificada 0- tradicional Pág. 9
  • 10. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 ANOVA (análisis de varianza de k direcciones ) El ANOVA es similar a la regresión en el sentido de que se utiliza para investigar y modelar la relación entre una variable de respuesta y una o más variables independientes. Sin embargo, el ANOVA difiere de la regresión en dos aspectos: las variables independientes son cualitativas (categóricas), y no hay supuestos acerca de la naturaleza de la relación (o sea que el modelo no incluye coeficientes para variables). En efecto el ANOVA extiende la prueba de dos muestras con prueba t para probar la igualdad de dos poblaciones a una hipótesis más general al comparar más de dos medias, versus que no sean iguales. Definición: Es una prueba estadística para evaluar el efecto de dos o más variables independientes sobre una variable dependiente. Responde a esquemas como el que se muestra en la figura: Constituye una extensión del análisis de varianza unidireccional, solamente que incluye más de una variable independiente. Evalúa los efectos por separado de cada variable independiente y los efectos conjuntos de dos o más variables independientes. Pág. 10
  • 11. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Variables: Dos o más variables independientes y una dependiente. Nivel de medición de las variables: La variable dependiente (criterio) debe estar medida en un nivel por intervalos o razón, y las variables independientes (factores) pueden estar en cualquier nivel de medición, pero expresadas de manera categórica. Interpretación y ejemplo Hi: La similitud en valores, la atracción física y el grado de retroalimentación positiva son variables que inciden en la satisfacción sobre la relación en parejas de novios. Contexto: Muestra de parejas de adultos jóvenes (23-29 años), pertenecientes a estratos económicos altos (n=400). El ANOVA efectuado mediante un paquete estadístico computacional como SPSS produce los siguientes elementos básicos: • Fuente de la variación (source of variation). Es el factor que origina variación en la dependiente. Si una fuente no origina variación en la dependiente, no tiene efectos. • Efectos principales (main effects). Es el efecto de cada variable independiente por separado; no está contaminado del efecto de otras variables iindependientes ni de error. Suele proporcionarse la suma de todos los efectos principales. • Interacciones de dos direcciones (2-way interactions). Representa el efecto conjunto de dos variables independientes, aislado de los demás posibles efectos de las variables independientes (individuales o en conjuntos). Suele proporcionarse la suma de los efectos de todas estas interacciones. Pág. 11
  • 12. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 • Interacciones de tres direcciones (3-way interactions). Constituye el efecto conjunto de tres variables independientes, aislado de otros efectos. Suele proporcionarse la suma de los efectos de todas estas interacciones. • Puede haber efecto de K-direcciones, esto dependie del número de variables independientes. En nuestro ejemplo, tenemos los resultados siguientes: TABLA ANOVA VARIABLE DEPENDIENTE: SATISFACCIÓN EN LA RELACIÓN Fuente de Suma de Grados de Cuadrados Estadístico F Significancia variación cuadrados libertad medios de Fc = P Efectos 22.51 .001** principales (main effects SIMILITUD 31.18 0.001** ATRACCIÓN 21.02 0.001** RETROALIM 11.84 0.004** SIMILITUD -4.32 0.04* ATRACCIÓN SIMILITUD 2.18 0.11 RETROALIM ATRACCION 1.56 0.190 RETROALIM SIM – 8.01 0.02* RETROL- ATRACCION NOTA: Normalmente interesa saber si las razones “F” resultaron o no significativas; por tanto, sólo se incluyen estos valores. Se recomienda concentrarse en dichos valores y evitar confusiones. Desde luego, el investigador experimentado acostumbra estudiar todos los valores. **— Razón “F” significativa al nivel del 0.01 (p < 0.01) Pág. 12
  • 13. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 *—Razón “F” significativa al nivel del 0.05 (p < 0.05) Como podemos ver en la tabla, la similitud, la atracción y la retroalimentación tienen un efecto significativo sobre la satisfacción en la relación. Respecto a los efectos de dos variables independientes conjuntas, sólo la similitud y la atracción tienen un efecto, hay un efecto conjunto de las tres variables independientes. La hipótesis de investigación se acepta y la nula se rechaza. Asimismo, se recuerda al lector que en el capítulo 5 del presente disco: Otros diseños experimentales (en el apartado sobre diseños factoriales) se explica la noción de interacción entre variables independientes. Cabe agregar que el ANOVA es un método estadístico propio para los diseños experimentales factoriales. Ejemplo: Un experimento se realizó para probar cuanto tiempo toma usar un modelo nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un problema estadístico y uno de ingeniería se les toma el tiempo para resolver el problema. Los ingenieros se consideran como bloques en el diseño experimental. Hay dos factores: Tipo de problema y modelo de calculadora – cada uno con dos niveles, se hacen experimentos donde esos niveles de los factores se cruzan. Los datos se muestran a continuación: SolveTime Engineer ProbType Calculator 3.1 Jones Stat New 7.5 Jones Stat Old 2.5 Jones Eng New 5.1 Jones Eng Old 3.8 Williams Stat New 8.1 Williams Stat Old 2.8 Williams Eng New 5.3 Williams Eng Old 3 Adams Stat New 7.6 Adams Stat Old 2 Adams Eng New Pág. 13
  • 14. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 4.9 Adams Eng Old 3.4 Dixon Stat New 7.8 Dixon Stat Old 2.7 Dixon Eng New 5.5 Dixon Eng Old 3.3 Erickson Stat New 6.9 Erickson Stat Old 2.5 Erickson Eng New 5.4 Erickson Eng Old 3.6 Maynes Stat New 7.8 Maynes Stat Old 2.4 Maynes Eng New 4.8 Maynes Eng Old Las instrucciones de Minitab son las siguientes: 1 Abrir la worksheet EXH_AOV.MTW. 2 Stat > ANOVA > Balanced ANOVA. 3 Responses, poner SolveTime. 4 Model, poner Engineer ProbType | Calculator. 5 En Random Factors, poner Engineer. 6 Click Results. En Display means corresponding to the terms, poner ProbType | Calculator. Click OK cada cuadro de diálogo. Los resultados obtenidos son los siguientes: ANOVA: SolveTime versus Engineer, ProbType, Calculator Factor Type Levels Values Engineer random 6 Adams, Dixon, Erickson, Jones, Maynes, Williams ProbType fixed 2 Eng, Stat Calculator fixed 2 New, Old Analysis of Variance for SolveTime Source DF SS MS F P Engineer 5 1.053 0.211 3.13 0.039 ProbType 1 16.667 16.667 247.52 0.000 Calculator 1 72.107 72.107 1070.89 0.000 ProbType*Calculator 1 3.682 3.682 54.68 0.000 Error 15 1.010 0.067 Total 23 94.518 S = 0.259487 R-Sq = 98.93% R-Sq(adj) = 98.36% Means Pág. 14
  • 15. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 ProbType N SolveTime Eng 12 3.8250 Stat 12 5.4917 Calculator N SolveTime New 12 2.9250 Old 12 6.3917 ProbType Calculator N SolveTime Eng New 6 2.4833 Eng Old 6 5.1667 Stat New 6 3.3667 Stat Old 6 7.6167 Interpretación de los resultados: Se muestran los factores (fijos y aleatorios), niveles y valores. Después se muestra la tabla de ANOVA, donde se indica de acuerdo al valor P que hay una interacción significativa entre el tipo de problema y el modelo de calculadora, lo que implica que la reducción en tiempo de proceso de la calculadora depende del tipo de problema. En la lista de promedios se observa un menor tiempo entre la calculadora nueva y la anterior. Pág. 15
  • 16. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 ANÁLISIS MULTIVARIADO DE VARIANZA (MANOVA) Es un modelo para analizar la relación entre una o más variables independientes y dos o más variables dependientes. Es decir, es útil para estructuras causales del tipo: La técnica posee varios usos, entre los que destacan: - Evaluar diferencias entre grupos a través de múltiples variables dependientes (medidas por intervalos o razón). La(s) variable(s) independiente(s) es(son) categórica(s) (no métricas). Tiene el poder de evaluar no solamente las diferencias totales, sino diferencias entre las combinaciones de las dependientes. En este sentido representa una extensión del análisis de varianza (ANOVA) para cubrir casos donde hay más de una variable dependiente y/o cuando las variables dependientes simplemente no pueden ser combinadas. En otras palabras, reconoce si los cambios en la(s) variable(s) independiente(s) tienen un efecto significativo en las dependientes. Señala qué grupos difieren en una variable o en el conjunto de variables dependientes. Pág. 16
  • 17. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 - Identificar las interacciones entre las variables independientes y la asociación entre las dependientes. Las tres clases principales del MANOVA son: 1) Hotelling's T. Es parecida a la prueba t (dos grupos) pero con más dependientes: una variable independiente dicotómica y varias dependientes. 2) MANOVA unidireccional. Análogo al ANOVA de una sola vía, pero con más dependientes: una variable independiente multicategórica y varias dependientes. 3) MANOVA factorial. Similar al ANOVA factorial, solamente que con dos o más dependientes: varias independientes categóricas y varias dependientes. Los modelos del MANOVA tienen en común que forman combinaciones lineales de las dependientes que discriminan mejor entre los grupos en un experimento o una situación no experimental. Es una prueba de significancia de las diferencias en los grupos en un espacio multidimensional donde cada dimensión está definida por combinaciones lineales del conjunto de variables dependientes. Una pregunta que suele hacer el estudiante al revisar el MANOVA es ¿por qué no hacemos ANOVAS separados, uno para cada dependiente? La respuesta: las dependientes están correlacionadas muy frecuentemente, por lo cual los resultados de varios ANOVA pueden ser redundantes y difíciles de integrar. He aquí una síntesis de la explicación de Wiersma (1999) sobre este tipo de análisis: Al incluir dos o más variables dependientes simultáneamente no se consideran las diferencias entre las medias en cada variable, sino las diferencias en variables canónicas. El interés no sólo es saber si los grupos definidos por las variables independientes difieren en las variables canónicas, sino conocer la naturaleza de éstas. Una variable canónica es una variable artificial generada a Pág. 17
  • 18. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 partir de los datos. Representa constructos y se compone de variables reales, las cuales deben ser descritas en términos de variables dependientes. Lo anterior se efectúa por medio de las ponderacións de los coeficientes de correlación entre una variable dependiente y una variable canónica. Si una ponderación entre la variable canónica y la dependiente es positiva y elevada, significa que altos valores en la dependiente se asocian con altos valores en la canónica. Por ejemplo, si una variable dependiente consiste en puntuaciones a una prueba sobre innovación, y dichas puntuaciones se correlacionan en forma considerable con una variable canónica, inferimos que la variable canónica representa un constructo que involucra esencialmente a la innovación. En los cálculos que se hacen en el MANOVA, se generan variables canónicas hasta que se encuentra que no hay una diferencia estadística significativa entre las categorías o los grupos de las variables independientes; o bien, hasta que se agotan los grados de libertad de las variables independientes (lo que ocurra primero). El número de variables canónicas no puede exceder el número de variables dependientes, pero es común que el número de dependientes sea mayor que el de variables canónicas estadísticamente significativas o los grados de libertad. La hipótesis general de investigación en el MANOVA postula que las medias de los grupos o las categorías de la(s) variable(s) independiente(s) difieren entre sí en las variables canónicas. La hipótesis nula postula que dichas medias serán iguales. Se calculan diversas estadísticas para evaluar ambas hipótesis, entre las que destacan: F (total, toma en cuenta el modelo completo), la prueba Hotelling's TSquare, T2 (cuando hay dos grupos formados por las variables independientes), Wilks' lambda, U (cuando hay más de dos grupos formados por las variables independientes), y Pillai-Bartlett (cuando hay coeficientes canónicos); y si resultan significativas en un nivel de confianza, se acepta la hipótesis de investigación de diferencia de medias. Esto indica que hay, por lo menos, una variable canónica significativa (pero puede haber varias). Si diversas variables canónicas son significativas, esto muestra que se presentan Pág. 18
  • 19. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 diferencias en las variables canónicas en cuestión, entre los grupos o categorías de las independientes. Los paquetes estadísticos que contiene el MANOVA suelen posicionar a los grupos de las variables independientes por puntuaciones discriminantes; éstas son calculadas con una función discriminante, que es una ecuación de regresión para un compuesto de variables dependientes. A cada grupo se le asigna una puntuación discriminante en cada variable canónica. Las puntuaciones discriminantes de una variable independiente pueden ser cero o tener un valor positivo o negativo. Una puntuación discriminante positiva y elevada para un grupo, indica que éste se coloca por encima de los demás en la respectiva variable canónica. Y deben considerarse las ponderacións, las cuales son positivas o negativas. Las puntuaciones discriminantes son utilizadas para interpretar las separaciones de los grupos en las variables canónicas, en tanto que las ponderacións se usan para evaluar y ligar los resultados de las variables dependientes (Wiersma, 1999). Un ejemplo de las ponderacións de los coeficientes de correlación entre las variables dependientes y las variables canónicas así como las puntuaciones discriminantes se muestran en las tablas siguientes: Pág. 19
  • 20. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Como observamos en la última tabla, se obtuvieron tres constructos subyacentes en las puntuaciones recolectadas de la muestra: motivación intrínseca, atribución de causalidad externa y desempeño laboral. Vemos en la tabla que los grupos (niveles en la empresa) están separados en las tres variables canónicas (los grupos difieren), particularmente en la primera variable canónica (motivación intrínseca) y los obreros ocupan la posición más baja. Las variables dependientes enmarcadas en un recuadro en la primera variable Pág. 20
  • 21. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 canónica se ponderaciónn en ella; en consecuencia, los ejecutivos tienen las puntuaciones más altas en motivación intrínseca medida por la escala mencionada, en atribuciones internas y en sentimientos de éxito en el trabajo. Así se interpretan todas las variables canónicas y dependientes. En el MANOVA se incluyen razones F y análisis de varianza. Algunos paquetes estadísticos agregan una prueba denominada correlación canónica, que es muy similar al MANOVA. Ésta es la máxima correlación que llega a obtenerse entre los conjuntos de puntuaciones y las relaciones entre las variables independientes, entre las variables dependientes y entre los conjuntos de ambas (dependientes e independientes) (Kerlinger, 1979). Las variables en el MANOVA y la correlación canónica asumen que las variables dependientes están medidas en un nivel de intervalos o razón. Tal correlación se interpreta como otras; pero el contexto de interpretación varía de acuerdo con el número de variables involucradas. Pág. 21
  • 22. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Ejemplo con Minitab Se realiza un estudio para determinar las condiciones óptimas para extruir película plástica. Se miden tres respuestas – Tear, gloss y opacity – cinco veces en cada combinación de dos factores – tasa de extrusión y cantidad de aditivo – cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA balanceado para probar la igualdad de las medias. DATOS Tear Gloss Opacity Extrusion Additive 6.5 9.5 4.4 1 1 6.2 9.9 6.4 1 1 5.8 9.6 3 1 1 6.5 9.6 4.1 1 1 6.5 9.2 0.8 1 1 6.9 9.1 5.7 1 2 7.2 10 2 1 2 6.9 9.9 3.9 1 2 6.1 9.5 1.9 1 2 6.3 9.4 5.7 1 2 6.7 9.1 2.8 2 1 6.6 9.3 4.1 2 1 7.2 8.3 3.8 2 1 7.1 8.4 1.6 2 1 6.8 8.5 3.4 2 1 7.1 9.2 8.4 2 2 7 8.8 5.2 2 2 7.2 9.7 6.9 2 2 7.5 10.1 2.7 2 2 7.6 9.2 1.9 2 2 Instrucciones de Minitab 1 Abrir el archivo EXH_MVAR.MTW. 2 Seleccionar Stat > ANOVA > Balanced MANOVA. 3 En Responses, poner Tear Gloss Opacity. 4 En Model, poner Extrusion | Additive. Pág. 22
  • 23. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 5 Click Results. En Display of Results, seleccionar Matrices (hypothesis, error, partial correlations) y Eigen analysis. 6 Click OK en cada cuadro de diálogo. Los resultados se muestran a continuación: Results for: Exh_mvar.MTW ANOVA: Tear, Gloss, Opacity versus Extrusion, Additive MANOVA for Extrusion s = 1 m = 0.5 n = 6.0 Test DF Criterion Statistic F Num Denom P Wilks' 0.38186 7.554 3 14 0.003 Lawley-Hotelling 1.61877 7.554 3 14 0.003 Pillai's 0.61814 7.554 3 14 0.003 Roy's 1.61877 SSCP Matrix for Extrusion Tear Gloss Opacity Tear 1.740 -1.505 0.8555 Gloss -1.505 1.301 -0.7395 Opacity 0.855 -0.739 0.4205 SSCP Matrix for Error Tear Gloss Opacity Tear 1.764 0.0200 -3.070 Gloss 0.020 2.6280 -0.552 Opacity -3.070 -0.5520 64.924 Partial Correlations for the Error SSCP Matrix Tear Gloss Opacity Pág. 23
  • 24. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Tear 1.00000 0.00929 -0.28687 Gloss 0.00929 1.00000 -0.04226 Opacity -0.28687 -0.04226 1.00000 EIGEN Analysis for Extrusion Eigenvalue 1.619 0.00000 0.00000 Proportion 1.000 0.00000 0.00000 Cumulative 1.000 1.00000 1.00000 Eigenvector 1 2 3 Tear 0.6541 0.4315 0.0604 Gloss -0.3385 0.5163 0.0012 Opacity 0.0359 0.0302 -0.1209 MANOVA for Additive s = 1 m = 0.5 n = 6.0 Test DF Criterion Statistic F Num Denom P Wilks' 0.52303 4.256 3 14 0.025 Lawley-Hotelling 0.91192 4.256 3 14 0.025 Pillai's 0.47697 4.256 3 14 0.025 Roy's 0.91192 SSCP Matrix for Additive Tear Gloss Opacity Tear 0.7605 0.6825 1.931 Gloss 0.6825 0.6125 1.732 Opacity 1.9305 1.7325 4.901 EIGEN Analysis for Additive Eigenvalue 0.9119 0.00000 0.00000 Proportion 1.0000 0.00000 0.00000 Cumulative 1.0000 1.00000 1.00000 Pág. 24
  • 25. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Eigenvector 1 2 3 Tear -0.6330 0.4480 -0.1276 Gloss -0.3214 -0.4992 -0.1694 Opacity -0.0684 0.0000 0.1102 MANOVA for Extrusion*Additive s = 1 m = 0.5 n = 6.0 Test DF Criterion Statistic F Num Denom P Wilks' 0.77711 1.339 3 14 0.302 Lawley-Hotelling 0.28683 1.339 3 14 0.302 Pillai's 0.22289 1.339 3 14 0.302 Roy's 0.28683 SSCP Matrix for Extrusion*Additive Tear Gloss Opacity Tear 0.000500 0.01650 0.04450 Gloss 0.016500 0.54450 1.46850 Opacity 0.044500 1.46850 3.96050 EIGEN Analysis for Extrusion*Additive Eigenvalue 0.2868 0.00000 0.00000 Proportion 1.0000 0.00000 0.00000 Cumulative 1.0000 1.00000 1.00000 Eigenvector 1 2 3 Tear -0.1364 0.1806 0.7527 Gloss -0.5376 -0.3028 -0.0228 Opacity -0.0683 0.1102 -0.0000 Por default se muestra la tabla para las cuatro pruebas multivariadas (Wliks, Lawley, Hotelling, Pillai y Roy) para cada uno de los términos en el modelo. Los valores s, m y n se utilizan para los cálculos de los estadísticos de prueba Fc, el cual es exacto si s = 1 o 2 de otra forma es aproximado. Pág. 25
  • 26. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Examinando los valores P de las pruebas para Extrusión y Aditivo se observa que son significativas para un nivel de 0.05, no así la interacción. Las matrices SSCP se usan para evaluar la contribución a la variabilidad de manera similar a la suma de cuadrados en la ANOVA univariada. La matriz SSCP para Extrusion es la suma de cuadrados de la hipótesis y matriz de productos cruzados H para las tres respuestas con el término de modelo Extrusión. Los elementos diagonales de esta matriz, 1.740, 1.301 y 0.405 son las sumas de cuadrados univariados para el término del modelo Extrusión cuando las variables de respuesta son Tear, Gloss y Opacity respectivamente . Los elementos fuera de la diagonal son los productos cruzados. La matriz SSCP para el error es la suma de cuadrados de los errores y productos cruzados E. Los elementos diagonales de la matriz 1.764, 2.6280, y 64.924 son las sumas de cuadrados de los errores para las variables de respuesta Teat, Gloss y Opacity, respectivamente. Los elementos fuera de la diagonal de esta matriz son los productos cruzados. La matriz de correlaciones parciales para el error SSCP, se usa para evaluar que tanto se relacionan las variables de respuesta. Las correlaciones parciales entre Tear y Gloss son pequeñas con 0.00929 y entre Gloss y Opacity -0.04226. Y la correlación parcial entre Tear y Opacity es de -0.28687 tampoco es grande. Como la estructura de las correlaciones es débil, se pueden realizar análisis univariados de ANOVA para cada una de las respuestas. Se puede utilizar el análisis de valores característicos o Eigenvalores, para evaluar como difieren los promedios de las respuestas entre los niveles de los diferentes términos del modelo. El análisis de Eigenvalores es E -1 H donde E es la matriz SCCP del error y H es la matriz SCCP de las variables de respuesta. Estos son los eigenvalores utilizados para calcular las cuatro pruebas de MANOVA. Poner la mayor importancia en los eigenvectores que corresponden a valores altos de eigenvalores. En el ejemplo, el segundo y tercer eigenvalores son pequeños, no signiicativos. Para ambos factores, Extrusion y Additive, los Pág. 26
  • 27. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 primeros eigenvalores contienen información similar. Para Extrusion is 0.6541, -0.3385, 0.0359 and for Additive it is -0.6630, -0.3214, -0.0684. El mayor valor absoluto dentro de esos eigenvalores corresponde a la respuesta Tear, el segundo a Gloss y el valor para Opacity es pequeño. Esto implica que Tear tiene la mayor diferencia entre los dos niveles de los factores ya sea Extrusion o Additive, el Gloss tiene las siguientes mayores diferencias y op.citp. tiene solo pequeñas diferencias. Para un análisis más general utilizar General MANOVA con diseños balanceados y no balanceados, incluso si se tienen covariados. 1 Seleccionar Stat > ANOVA > General MANOVA. 2 En Responses, seleccionar hasta 50 columnas numéricas conteniendo las variables de respuesta. 3 En Model, introducir los términos del modelo que se quiera ajustar. 4. Click OK. Pág. 27
  • 28. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 ANÁLISIS DE COVARIANZA Definición: Es un método estadístico que analiza la relación entre una variable dependiente y dos o más independientes, con el que se elimina o controla el efecto de al menos una de estas independientes. Similar al ANOVA, excepto que permite controlar la influencia de una variable independiente, la cual con frecuencia es una característica antecedente que puede variar entre los grupos (Mertens, 2005) o influir los resultados y afectar la claridad de las interpretaciones. Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres perspectivas para el análisis de covarianza: A. Perspectiva experimental. Se aplica a aquellas situaciones en que el interés del investigador se centra en las diferencias observadas en la variable dependiente, por medio de las categorías de la variable independiente (o variables independientes). Pero el experimentador asume que hay otras variables independientes cuantitativas que contaminan la relación y cuya influencia debe ser controlada. Pág. 28
  • 29. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Y el investigador únicamente se interesa por conocer la relación entre las variables independientes categóricas y la variable dependiente. Desea al mismo tiempo remover y controlar el efecto de las variables independientes cuantitativas no categóricas (continuas). Es decir, desea tener un esquema como el de la figura El objetivo es “purificar la relación entre las independientes categóricas y la dependiente, mediante el control del efecto de las independientes no categóricas o continuas”. Ejemplos de variables independientes categóricas serían: género (masculino, femenino), inteligencia (alta, media, baja), ingreso (menos de un salario mínimo, dos a cuatro salarios mínimos, cinco a 10 salarios mínimos, 11 o más salarios mínimos). Los niveles de medición nominal y ordinal son categóricos en sí mismos, mientras que los niveles de intervalos y razón deben transformarse en categorías más discretas. Estos últimos son en sí: cuantitativos, continuos y de categorías múltiples. Por ejemplo, el ingreso en su “estado natural” (ponderacións, dólares, euros, etc.) varía de la categoría cero hasta la categoría (K)k, ya que puede haber millones de categorías. Pág. 29
  • 30. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Variable categórica — unas cuantas categorías o un rango medio. Variable continua — muchas categorías (a veces una infinidad). A dichas variables independientes cuantitativas continuas, cuya influencia se controla, se les denomina “covariables”. Una covariable se incluye en el análisis para remover su efecto sobre la variable dependiente, e incrementar el conocimiento de la relación entre las variables independientes categóricas de interés y la dependiente, lo cual aumenta la precisión del análisis. En esta perspectiva, el análisis de covarianza puede ser concebido primero como un ajuste en la variable dependiente respecto a diferencias en la covariable o las covariables y, posteriormente, como una evaluación de la relación entre las variables independientes categóricas y los valores ajustados de la variable dependiente (Wildt y Ahtola, 1978). En términos de Creswell (2005): El procedimiento “ajusta” las puntuaciones en la dependiente para dar cuenta por la covarianza (por decirlo en términos sencillos: “hace equivalentes a los grupos en la(s) covariable(s)” y controla influencias potenciales que pueden afectar a la variable dependiente). B. Perspectiva de interés por la covariable. Esta perspectiva se ejemplifica con aquellas instancias en las cuales el interés principal se centra en analizar la relación entre la variable dependiente y la covariable (variable cuantitativa continua) o las covariables. Aquí el enfoque es distinto; la influencia que se remueve es la de las variables independientes categóricas. Primero se controla el efecto (en este caso contaminante) de estas variables y después se analiza el efecto “purificado” de las covariables. C. Perspectiva de regresión. En esta tercera perspectiva, tanto las variables independientes categóricas como las covariables resultan de interés para el investigador, quien puede desear examinar el efecto de cada variable Pág. 30
  • 31. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 independiente (covariables y no covariables, todas) y después ajustar o corregir los efectos de las demás variables independientes. En cualquier caso, el análisis de covarianza elimina influencias no deseadas sobre la variable dependiente. Se puede utilizar en contextos experimentales y no experimentales. La mayoría de las veces la función del ANCOVA es “remover” la varianza compartida entre una o más covariables y la dependiente, de este modo, se valora en su justa dimensión la relación causal entre la(s) variable(s) independiente(s) de interés y la dependiente (Creswell, 2005). Veámoslo conceptualmente pero de forma gráfica con un ejemplo simple: Ejemplo: Estudio: Al investigador le interesa analizar el efecto en el aprendizaje de la computación, por medio un nuevo método para su enseñanza a niños. La hipótesis es: El nuevo método de enseñanza de la computación (MA-RH) provocará un mayor aprendizaje en los niños que un método tradicional. Entonces, implementa el siguiente experimento: A un grupo de infantes lo expone al nuevo método de enseñanza de computación (MA-RHS); a otro grupo no lo expone al nuevo método, éste aprende con el método tradicional; finalmente, a un tercer grupo, de control, no recibe ningún tipo de enseñanza en computación. La variable independiente es el tipo de método con tres categorías o niveles (método nuevo, método tradicional y ausencia de método), la dependiente es el aprendizaje en computación (medida por una prueba estandarizada a nivel de intervalos). Se tiene un esquema como el de la figura Pág. 31
  • 32. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Con el experimento el investigador desea conocer la varianza en común entre método y aprendizaje (cuantificarla), la relación XY (pura). Si los niños son asignados al azar a los grupos del experimento y tiene grupos de tamaño aceptable, por el diseño mismo, remueve la influencia de las covariables que pudieran afectar. Pero si no es factible hacerlo y tiene un diseño cuasiexperimental (grupos intactos), debe remover tal influencia con el análisis de covarianza (eliminar al mínimo posible la varianza del aprendizaje no explicada), para evitar que las covariables impidan ver con claridad la relación XY. Por ejemplo, el nivel educativo tecnológico de los padres puede influir (hace variar al aprendizaje) y este efecto debe ser controlado, al introducirlo como covariable. Pág. 32
  • 33. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Lo que el investigador desea también se puede expresar gráficamente así: Wildt y Ahtola (1978, p. 13) definen algunos usos del análisis de covarianza: 1. Incrementar la precisión en experimentos con asignación al azar. Pág. 33
  • 34. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 2. Eliminar influencias extrañas o contaminantes que pueden resultar cuando las pruebas o los individuos no son asignados al azar a las diferentes condiciones experimentales (grupos de un experimento). 3. Eliminar efectos de variables que confundan o distorsionen la interpretación de resultados en estudios no experimentales. Nivel de medición de las variables: La variable dependiente siempre está medida por intervalos o razón y las variables independientes pueden estar medidas en cualquier nivel. Interpretación: Depende de cada caso específico, ya que el análisis de covarianza efectuado mediante un programa estadístico computacional, produce un cuadro de resultados muy parecido al del análisis de varianza. Los elementos más comunes pueden obssevarse en la tabla ANOVA. La razón F es, igual que en el análisis de varianza, una razón de varianzas. El razonamiento estadístico es el mismo y F se interpreta igual, incluso se utiliza el mismo cuadro de la distribución F. Solamente que las inferencias y conclusiones se hacen al considerar que las medias de la variable dependiente, a través de las categorías de las variables independientes, se han ajustado, de este modo eliminan el efecto de la covariable o covariables. Ejemplo: Diseño de investigación que utiliza el análisis de covarianza Hi: Los trabajadores que reciban retroalimentación verbal sobre el desempeño de parte de su supervisor mantendrán un nivel mayor de productividad que los trabajadores que reciban retroalimentación sobre el desempeño por escrito, más aún que los trabajadores que no reciban ningún tipo de retroalimentación. __ __ __ Hi: X1 > X2 > X3 (verbal) (por escrito) (ausencia) Pág. 34
  • 35. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 El investigador plantea un diseño experimental para intentar probar su hipótesis. Sin embargo, no puede asignar aleatoriamente a los trabajadores a los tres grupos del experimento. El diseño sería con grupos intactos (cuasiexperimental) y se esquematizaría así: Asimismo, el investigador presupone que hay un factor que puede contaminar los resultados (actuar como fuente de invalidación interna): la motivación. Diferencias iniciales en motivación pueden invalidar el estudio. Como la asignación al azar está ausente, no se sabe si los resultados se ven influidos por dicho factor. Entonces, el experimentador decide eliminar o controlar el efecto de la motivación sobre la productividad para conocer los efectos de la variable independiente: tipo de retroalimentación. La motivación se convierte en covariable. El esquema es el que se muestra en la figura Pág. 35
  • 36. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Cabe destacar que, para introducir una covariable en el análisis, de preferencia debe medirse antes del inicio del experimento. El análisis de covarianza “quita” a la variabilidad de la dependiente lo que se debe a la covariable. Ajusta la varianza de la variable dependiente en las categorías de la independiente, al basarse en la covariable. En el ejemplo, ajusta la varianza de la productividad debida a la motivación, en las categorías experimentales (tratamientos o grupos). El ajuste se realiza sobre la base de la correlación entre la covariable y la dependiente. Esto se muestra esquemáticamente en la tabla. Una vez realizado el análisis de covarianza, se evalúa si F es o no significativa. Cuando F resulta significativa se acepta la hipótesis de investigación. Si el resultado fuera: G1 = 35 G2 = 36 La correlación entre la calificación en motivación y las puntuaciones en productividad es la base para el ajuste. G3 = 38 Gl entre = K – 1 = 3 – 1 = 2 Gl intra = N – K = 107 F = 1.70 Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es igual a 3.07, y nuestra razón F a 1.70 es menor a este valor. Por lo tanto, rechazamos la hipótesis de investigación y aceptamos la hipótesis nula. Esto se contrasta y profundiza con las medias ajustadas de los grupos que proporcione el análisis de covarianza (no las medias obtenidas en el experimento por cada grupo, sino las ajustadas con base en la covariable). Pág. 36
  • 37. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Recordemos que SPSS nos proporciona automáticamente la significancia de F. Ejemplo: Determinar si hay diferencia en la resistencia de una fibra monofilamento producida por tres máquinas diferentes. El diámetro de la fibra parece tener influencia en la resistencia como se muestra abajo (covariado de Y). Datos de resistencia - Y es la respuesta, X es el covariado. Y X Maq 36 20 1 41 25 1 39 24 1 42 25 1 49 32 1 40 22 2 48 28 2 39 22 2 45 30 2 44 28 2 35 21 3 37 23 3 42 26 3 34 21 3 32 15 3 La relación entre X y Y es significativa como se observa en la siguiente gráfica: En Minitab: 1. Stat > Regresión > Fitted line plot 2. Introducir Y y X, seleccionar Linear 3. OK Pág. 37
  • 38. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Fi t t ed Li ne Pl ot Y = 14.14 + 1.080 X 50 S 1.78174 R-Sq 88.1% R-Sq(adj) 87.2% 45 40 Y 35 30 15.0 17.5 20.0 22.5 25.0 27.5 30.0 32.5 X Para el ANOVA con Covariados, las instrucciones de Minitab son las siguientes: 1. Stat > ANOVA > General Linear Model 2. Introducir en Response Y, en Model X y Maquina 3. En Covariates X 4. En Results en Display Least Square Means corresponding to the terms Maq 5. En Graphs seleccionar Normal plot for residuals 6. OK Los resultados se muestran a continuación: General Linear Model: Y versus Maq Factor Type Levels Values Maq fixed 3 1, 2, 3 Analysis of Variance for Y, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P X 1 305.13 178.01 178.01 69.97 0.000 Maq 2 13.28 13.28 6.64 2.61 0.118 Error 11 27.99 27.99 2.54 Total 14 346.40 S = 1.59505 R-Sq = 91.92% R-Sq(adj) = 89.72% Pág. 38
  • 39. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Term Coef SE Coef T P Constant 17.177 2.783 6.17 0.000 X 0.9540 0.1140 8.36 0.000 Unusual Observations for Y Obs Y Fit SE Fit Residual St Resid 7 48.0000 45.1080 0.7489 2.8920 2.05 R R denotes an observation with a large standardized residual. Means for Covariates Covariate Mean StDev X 24.13 4.324 Least Squares Means for Y Maq Mean SE Mean 1 40.38 0.7236 2 41.42 0.7444 3 38.80 0.7879 Conclusión: Se observa que no hay diferencia en las máquinas una vez que eliminamos la variabilidad introducida por el diámetro de la fibra, en caso de no haber tomado en cuenta la covarianza del diámetro en la resitencia, se hubiese concluido al revés, que si hay diferencia en las máquinas, como se muestra a continuación: Con Minitab: 1. Stat > ANOVA > One way 2. Response Y Factor Maquina 3. OK Los resultados son los siguientes: One-way ANOVA: Y versus Maq Source DF SS MS F P Maq 2 140.4 70.2 4.09 0.044 Error 12 206.0 17.2 Total 14 346.4 S = 4.143 R-Sq = 40.53% R-Sq(adj) = 30.62% Individual 95% CIs For Mean Based on Pooled Pág. 39
  • 40. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 StDev Level N Mean StDev +---------+---------+---------+--------- 1 5 41.400 4.827 (---------*----------) 2 5 43.200 3.701 (---------*---------) 3 5 36.000 3.808 (---------*---------) +---------+---------+---------+--------- 32.0 36.0 40.0 44.0 Pooled StDev = 4.143 Conclusión: Como P value es menor a 0.05 aparentemente si hay diferencia entre máquinas. Pág. 40
  • 41. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 ANALISIS DISCRIMINANTE El análisis discriminante, se aplica cuando las variables independientes son medidas por intervalos o razón, y la dependiente es categórica. Tal análisis sirve para predecir la pertenencia de un caso a una de las categorías de la variable dependiente, sobre la base de varias independientes (dos o más). Se utiliza una ecuación de regresión llamada función discriminante. Por ejemplo, si queremos predecir el voto obtenido por dos partidos contendientes (variable dependiente nominal con dos categorías) sobre la base de cuatro variables independientes, aplicaremos el análisis discriminante, para resolver una ecuación de regresión; así se obtienen las predicciones individuales. En el ejemplo, hay dos categorías (votar por A o votar por B); por tanto, los valores a predecir son 0 y 1 (A y B, respectivamente). Si el sujeto obtiene una puntuación más cercana a cero, se predice que pertenece al grupo que votará por A; si logra una puntuación más cercana a 1, se predice que pertenece al grupo que votará por B. Además, se consigue una medida del grado de discriminación del modelo. Usar el Análisis Discrimínate para clasificar observaciones en dos o más grupos si se tiene una muestra con grupos conocidos. Se puede utilizar también para investigar como contribuyen las variables a la separación de grupos. Se pueden hacer análisis discriminantes lineales y cuadráticos. Los lineales asumen que todos los grupos tienen la misma matriz de covarianza, los cuadráticos no hacen este supuesto y no son bien comprendidos. Para el caso de clasificar las observaciones nuevas en una de dos categorías, la regresión logística puede ser superior al análisis discriminante. Ejemplo: Para regular la pesca de salmón, se desea identificar si el pescado es originario de Alaska o de Canadá. Cincuenta peces de cada lugar de origen fueron capturados y pesados cuando vivían en agua dulce y cuando vivieron en agua Pág. 41
  • 42. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 salada. El objetivo es el de poder identificar si los nuevos pescados vienen de criaderos en Alaska o Canadá. Los datos se muestran a continuación: SalmonOrigin Freshwater Marine SalmonOrigin Freshwater Marine Alaska 108 368 Canada 129 420 Alaska 131 355 Canada 148 371 Alaska 105 469 Canada 179 407 Alaska 86 506 Canada 152 381 Alaska 99 402 Canada 166 377 Alaska 87 423 Canada 124 389 Alaska 94 440 Canada 156 419 Alaska 117 489 Canada 131 345 Alaska 79 432 Canada 140 362 Alaska 99 403 Canada 144 345 Alaska 114 428 Canada 149 393 Alaska 123 372 Canada 108 330 Alaska 123 372 Canada 135 355 Alaska 109 420 Canada 170 386 Alaska 112 394 Canada 152 301 Alaska 104 407 Canada 153 397 Alaska 111 422 Canada 152 301 Alaska 126 423 Canada 136 438 Alaska 105 434 Canada 122 306 Alaska 119 474 Canada 148 383 Alaska 114 396 Canada 90 385 Alaska 100 470 Canada 145 337 Alaska 84 399 Canada 123 364 Alaska 102 429 Canada 145 376 Alaska 101 469 Canada 115 354 Alaska 85 444 Canada 134 383 Alaska 109 397 Canada 117 355 Alaska 106 442 Canada 126 345 Alaska 82 431 Canada 118 379 Alaska 118 381 Canada 120 369 Alaska 105 388 Canada 153 403 Alaska 121 403 Canada 150 354 Alaska 85 451 Canada 154 390 Alaska 83 453 Canada 155 349 Alaska 53 427 Canada 109 325 Alaska 95 411 Canada 117 344 Alaska 76 442 Canada 128 400 Alaska 95 426 Canada 144 403 Alaska 87 402 Canada 163 370 Alaska 70 397 Canada 145 355 Alaska 84 511 Canada 133 375 Alaska 91 469 Canada 128 383 Alaska 74 451 Canada 123 349 Alaska 101 474 Canada 144 373 Alaska 80 398 Canada 140 388 Alaska 95 433 Canada 150 339 Alaska 92 404 Canada 124 341 Alaska 99 481 Canada 125 346 Alaska 94 491 Canada 153 352 Pág. 42
  • 43. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Alaska 87 480 Canada 108 339 Las intrucciones de Minitab son las siguientes: 1 Abrir la worksheet EXH_MVAR.MTW. 2 Stat > Multivariate > Discriminant Analysis. 3 En Groups, poner SalmonOrigin. 4 En Predictors, poner Freshwater Marine. Click OK. Los resultados obtenidos se muestran a continuación: Discriminant Analysis: SalmonOrigin versus Freshwater, Marine Linear Method for Response: SalmonOrigin Predictors: Freshwater, Marine Group Alaska Canada Count 50 50 Summary of classification True Group Put into Group Alaska Canada Alaska 44 1 Canada 6 49 Total N 50 50 N correct 44 49 Proportion 0.880 0.980 N = 100 N Correct = 93 Proportion Correct = 0.930 Squared Distance Between Groups Alaska Canada Alaska 0.00000 8.29187 Canada 8.29187 0.00000 Linear Discriminant Function for Groups Alaska Canada Constant -100.68 -95.14 Freshwater 0.37 0.50 Marine 0.38 0.33 Summary of Misclassified Observations Squared Observation True Group Pred Group Group Distance Probability 1** Alaska Canada Alaska 3.544 0.428 Canada 2.960 0.572 2** Alaska Canada Alaska 8.1131 0.019 Canada 0.2729 0.981 12** Alaska Canada Alaska 4.7470 0.118 Canada 0.7270 0.882 13** Alaska Canada Alaska 4.7470 0.118 Canada 0.7270 0.882 30** Alaska Canada Alaska 3.230 0.289 Canada 1.429 0.711 32** Alaska Canada Alaska 2.271 0.464 Pág. 43
  • 44. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Canada 1.985 0.536 71** Canada Alaska Alaska 2.045 0.948 Canada 7.849 0.052 Interpretando los resultados El Análisis Discriminante identificó correctamente 93 de los 100 peces, a pesar de que la probabilidad de clasificar correctamente un pez de Alaska fue menor (44/50 o 88%) que la probabilidad de clasificar correctamente un pez de Canadá (49/50 o 98%). Para identificar el origen de un pez recientemente capturado depende de cual valor discriminante sea mayor. Se puede correr el análisis discriminante de nuevo y predecir a que grupo pertenecen las nuevas observaciones. El resumen de las observaciones mal clasificadas muestra la distancia al cuadrado desde el punto mal clasificado a los centroides del grupo (vectores medios) y las probabilidades posteriores. Las observaciones son asignadas al grupo con la mayor probabilidad posterior. Si en Options introducimos en Predict membership for: 100 130, la clasificación aparece como: Prediction for Test Observations Squared Observation Pred Group From Group Distance Probability 1 Canada Alaska 78.448 0.000 Canada 55.194 1.000 Pág. 44
  • 45. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 ANÁLISIS DE CONGLOMERADOS Se cuenta también con el análisis de conglomerados o clusters (técnica para agrupar los casos o elementos de una muestra en grupos con base en una o más variables). Usar Análisis de componentes principales para ayudar a comprender la estructura de datos y/o a formar un pequeño número de variables no correlacionadas (por ejemplo para evitar multicolinealidad en la regresión). Ejemplo: Se registran las siguientes características para 14 censos: Población total (Pop), mediana de años escolares (School), empleo total (Employ),empleo en servicios de salud (Health), y valor mediano del valor de la casa (Home). Los datos se muestran a continuación: Pop School Employ Health Home 5.935 14.2 2.265 2.27 2.91 1.523 13.1 0.597 0.75 2.62 2.599 12.7 1.237 1.11 1.72 4.009 15.2 1.649 0.81 3.02 4.687 14.7 2.312 2.5 2.22 8.044 15.6 3.641 4.51 2.36 2.766 13.3 1.244 1.03 1.97 6.538 17 2.618 2.39 1.85 6.451 12.9 3.147 5.52 2.01 3.314 12.2 1.606 2.18 1.82 3.777 13 2.119 2.83 1.8 1.53 13.8 0.798 0.84 4.25 2.768 13.6 1.336 1.75 2.64 6.585 14.9 2.763 1.91 3.17 Se realiza un análisis de components principales para comprender la estructura de datos subyacente. Se usa la matriz de correlación para estandarizar las mediciones dado que no se mide con la misma escala. Las instrucciones de Minitab son las siguientes: 1 Abrir la worksheet EXH_MVAR.MTW. 2 Stat > Multivariate > Principal Components. 3 En Variables, Pop-Home. 4 En Type of Matrix, seleccionar Correlation. Pág. 45
  • 46. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 5 Click Graphs y seleccionar Scree plot. 6 Click OK en cada cuadro de diálogo. Los resultados se muestran a continuación: Principal Component Analysis: Pop, School, Employ, Health, Home Eigenanalysis of the Correlation Matrix Eigenvalue 3.0289 1.2911 0.5725 0.0954 0.0121 Proportion 0.606 0.258 0.114 0.019 0.002 Cumulative 0.606 0.864 0.978 0.998 1.000 Variable PC1 PC2 PC3 PC4 PC5 Pop -0.558 -0.131 0.008 0.551 -0.606 School -0.313 -0.629 -0.549 -0.453 0.007 Employ -0.568 -0.004 0.117 0.268 0.769 Health -0.487 0.310 0.455 -0.648 -0.201 Home 0.174 -0.701 0.691 0.015 0.014 Scr ee Pl ot of Pop, ..., Home 3.0 2.5 2.0 Eigenv alue 1.5 1.0 0.5 0.0 1 2 3 4 5 Component Number Interpretando los resultados El primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el 60.6% de la varianza total. Los coeficientes para el PC1 muestran como calcular el nivel del componente principal. PC1 = −.558 Pop − .313 School − .568 Employ − .487 Health + .174 Home Notar que la interpretación de los components principales es subjetiva, sin embargo, frecuentemente surgen patrones obvios. Por ejemplo, se podría pensar que el primer componente represente el efecto del tamaño de la Pág. 46
  • 47. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 población total, el nivel de escolaridad, empleo y servicios de salud, dado que los coeficientes de estos términos tienen el mismo signo y no son cercanos a cero. El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la variabilidad de los datos. Se calcula de los datos originales usando los coeficientes listados en PC2. Este componente podría ser pensado como nivel de contraste de escolaridad y valor de la casa con salud y empleo de alguna manera. Juntos el primero y segundo componentes representan el 86.4% y 97%, respectivamente, de la variabilidad total. Así, la mayoría de la estructura de datos puede ser capturada en dos o tres dimensiones relevantes. Los componentes remanentes solo tienen una menor proporción de probabilidad y no son importantes. La gráfica Scree proporciona una visión gráfica de lo anterior. Pág. 47
  • 48. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 ANÁLISIS FACTORIAL El análisis factorial es un método cuyo propósito principal es definir la estructura subyacente de una matriz de datos. Atiende el problema de analizar la estructura de las interrelaciones (correlaciones) entre un gran número de variables (vgr. Respuestas de cuestionarios) al definir un conjunto de dimensiones subyacentes comunes, conocidas como factores. Con el análisis factorial se identifican las dimensiones separadas de la estructura y después se determina que tanto cada variable es explicada por cada dimensión. Una vez que se determinan las dimensiones y se explican las variables por cada dimensión, se puede hacer un resumen y reducción de datos. El análisis factorial es una técnica de interdependencia en la cual todas las variables son consideradas de manera simultanea, cada una relacionada a las otras, y empleando el concepto de variate, composición lineal de variables. De hecho las variates (factores) se forman para maximizar su explicación de todo el conjunto de variables, no para predecir una variable dependiente(s). Una variate (factor) es una variable dependiente que es función del conjunto total de variables. Se usa el Análisis factorial, de manera similar al análisis de componentes principales, para resumir la estructura de covarianza de los datos en una pocas dimensiones de los mismos. Sin embargo, el énfasis en análisis factorial es la identificación de los “factores subyacentes” que pueden explicar las dimensiones asociadas con la gran variabilidad de los datos. Se pueden tener tres tipos de datos de entrada:  Columnas de datos unitarios  Una Matriz de correlaciones o covarianzas  Columnas conteniendo ponderaciones de factores Con los datos del ejemplo anterior de Componentes principales, realizar un análisis factorial como sigue: Pág. 48
  • 49. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Nos gustaría investigar que “factores” pueden explicar la mayor parte de la variabilidad. Como primer paso del análisis factorial, se utiliza la extracción de componentes principales y se examinan los eigenvalores en gráfica como ayuda para decidir el número de factores. PROCESO DE DECISIÓN DE ANÁLISIS FACTORIAL Paso 1. Objetivos del Análisis factorial El propósito es encontrar una forma de condensar (resumir) la información contenida en un cierto número de variables originales, en un grupo más pequeño de dimensiones nuevas, compuestas o variates (factores) con un mínimo de pérdida de información. Por ejemplo si hay datos de 100 cuestionarios en 10 características, el análisis factorial se aplica a la matriz de correlación de variables y se denomina Análisis Factorial R, para identificar las dimensiones que están latentes o no son fácilmente observables. El análisis factorial también se puede aplicar a una matriz de correlación de los cuestionarios individuales basados sus características, referido como Análisis Factorial Q, es un método de condensar o combinar un grupo grande de gente en diferentes grupos distintos dentro de una población grande, para esto se utiliza el análisis de conglomerados (clusters). Paso 2. Diseño del análisis factorial Incluye tres decisiones básicas: (1) cálculo de los datos de entrada (una matiz de correlación) para cumplir con los objetivos especificados de agrupar variables o cuestionarios; (2) el diseño del estudio en términos del nñumeor de variables, propiedades de medición de las variables, y el tipo de variables permitidas y (3) el tamaño de muestra necesario (al menos 5 veces el númro de variables analizadas), ambos en términos absolutos y como función de del número de variables en el análisis. Paso 3. Supuestos del análisis factorial Pág. 49
  • 50. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Es deseable algún grado de multicolinealidad entre variables dado que el objetivo es identificar conjuntos de variables interrelacionadas, no son tan importantes la normalidad, homoestacidad y linealidad a menos que disminuyan significativamente las correlaciones observadas. La matriz de correlación debe indicar valores mayores a 0.3 para aplicar el análisis de correlación. También si las correlaciones parciales entre variables (correlación entre variables cuando el efecto de las otras variables se toma en cuenta) son pequeñas dado que la variable puede explicada por los factores (variates con ponderacións para cada una de las variables). Si las correlaciones parciales son altas, no hay factores subyacentes “verdaderos” y el análisis factorial es inapropiado. La prueba de esfericidad de Bartlett mide la presencia de correlaciones entre las variables, proporciona la probabilidad de que la matriz de correlación tenga correlaciones significativas en algunas de las variables. Otro indicador es el “Measure of Sampling Adequacy (MSA)”, con rango de 0 a 1, donde 0.8 o más es meritorio; 0.07 o más es regular; 0.60 o más es mediocre; 0.50 o más miserable y debajo de 0.50 inaceptable. El supuesto básico en el análisis factorial es que existe una estructura subyacente en el conjunto de variables seleccionadas. Paso 4. Identificando factores y evaluando el ajuste del modelo Una vez que se especifican las variables y se prepara la matriz de correlación, se toman decisiones en relación a (1) el método de extracción de los factores (análisis de factores comunes versus análisis de componentes) y (2) el número de factores seleccionados para representar la estructura subyacente en los datos. Análisis de componentes El análisis de componentes se usa cuando el objetivo es resumir la mayor parte de la información original (varianza) en un mínimo número de factores para Pág. 50
  • 51. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 propósitos de predicción. Considera la varianza total y determina factores que contienen pequeñas proporciones de varianza única y, en algunos casos, varianza del error. Análisis factorial En contraste el análisis de factores comunes se utiliza para identificar los factores subyacentes o dimensiones que reflejan aquello que las variables comparten en común. En este método se tienen tres tipos de varianzas: (1) común, (2) específica (única), y (3) error. La varianza común se define como la varianza en una variable que es compartida por todas las demás variables. La varianza específica es la varianza asociada solo con una variable específica. La varianza del error es la varianza debida a la incertidumbre en el proceso de recolección de datos, errores de medición, o componente aleatorio en el fenómeno medido. Criterios para el número de factores a extraer El método primero extrae la combinación de variables explicando la mayor cantidad de varianza y después continua con combinaciones que representan menos y menos cantidades de varianza. La selección de factores a extraer equivale a enfocar un microscopio normalmente se hace por prueba y error contrastando los resultados. Criterio de Raíz Latente: su racional es que cualquier factor individual debe contener la varianza de al menos una variable. Como cada variable contribuye con 1 al eigenvalor total o raíz latente. Se seleccionan solo los factores con eigenvalores mayores a uno, cuando se tienen menos de 20 variables, los factores extraídos son pocos. Criterio a Priori: en este método el investigador ya tiene una idea clara de los factores a extraer y así lo indica en la computadora. Pág. 51
  • 52. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Criterio de porcentaje de varianza: Enfoque basado en lograr un porcentaje acumulado de varianza total extraído por factores sucesivos. Normalmente el proceso para al acumular 95%. Criterio Scree Test: Se usa para identificar el número óptimo de factores que pueden ser extraídos antes de que la cantidad de varianza única empiece a dominar la estructura de varianza común. Eig env alor 1 8 Número de factores Paso 5. Interpretando los factores Se obtiene la matriz no rotada para estimar el número de factores a extraer. La matriz de factores contiene ponderacións de factores para cada variable en cada factor. El primer factor puede verse como la mejor combinación lineal incluida en los datos, con cada factor con ponderacións significativos y acumula la mayor parte de a varianza; el segundo factor es la segunda mejor combinación lineal de variables, sujeta a que es ortogonal al primer factor, se basa en la porción residual de la varianza una vez removido el primero, así sucesivamente. Los ponderacións de los factores representan la correlación de cada una de las variables y el factor, entre mayores sean, mayor será la representatividad del factor por la variable. Pág. 52
  • 53. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 La rotación de los factores más simple es una rotación ortogonal, en la cual se mantienen los ejes a 90 grados. Se pueden rotar los ejes sin mantener los 90 grados entre los ejes de referencia. Cuando no hay restricción de ortogonalidad, el procedimiento de rotación se denomina rotación oblicua. +1 Factor II rotado +1 Factor II sin rotar V1 V2 +1 Factor I sin rotar -1 V4 V3 V5 +1 Factor I rotado -1 Factor II Fig. 1 Rotación ortogonal de factores ( observar la ponderación o ponderación de factores I y II en la variable V2, es más clara cuando se rotan los factores) En la figura se observan dos conglomerados de variables (V1 y V2) y (V3, V4 y V5), sin embargo con los factores sin rotar no es muy obvia su ponderación o ponderación de los factores I y II. Después de la rotación de los ejes de factores, las variables 3, 4 y 5 tienen una ponderación o ponderación fuerte de factor I, y las variables 1 y2 tienen una ponderación o ponderación fuerte en el factor II. Siendo más obvia la distinción entre conglomerados en dos grupos. Métodos de rotación ortogonal En la práctica el objetivo de todos los métodos de rotación es simplificar las filas y columnas de la matriz de factores para facilitar la interpretación. En una matriz de factores las columnas representan factores, con cada renglón correspondiente a la ponderación de las variables a través de los factores. Al simplificar los renglones, se hacen tantos valores en cada fila tan cercanos a cero como sea posible (i.e. maximizando la ponderación de una variable con un Pág. 53
  • 54. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 factor único). Simplificando las columnas, se hacen tantos valores en las columnas tan cercanos a cero como sea posible (i.e. hacer el máximo número de ponderacións “altas” como sea posible). Se han desarrollado tres métodos para lo anterior como sigue: Quartimax: para simplificar las filas de la matriz; o sea, que Quartimax se enfoca a rotar los factores iniciales de manera que las variables tengan la mayor ponderación posible de un factor y la mínima de los otros. Aunque este método no ha sido eficiente. Varimax: se centra en simplificar las columnas de la matriz factorial. La máxima simplificación posible se logra cuando solo hay 1’s y 0’s en la columna. Es decir que VARIMAX maximiza la suma de variancias de ponderacións requeridas de la matriz factorial. Este método ha probado ser un método analítico efectivo para obtener una rotación ortogonal de factores. Equimax: Es un compromiso entre las anteriores. Trata de simplificar los renglones y las columnas, no se utiliza frecuentemente. Métodos de rotación oblicua: Estos métodos son similares a las rotaciones ortogonales excepto que permiten factores correlacionados en vez de mantener la independencia de los factores rotados. En general no hay reglas para seleccionar uno de los métodos anteriores. Criterios para la significancia de ponderación de factores en las variables De manera práctica si las ponderacións son de ± 0.30 se considera que cumplen el nivel mínimo; ponderacións de ± 0.40 son importantes; ± 0.50 o mayores son significativas en la práctica. Como la ponderación del factor es la correlación de la variable y el factor, la ponderación al cuadrado es la cantidad representada de la varianza total por el factor. De esta forma con ± 0.3 se tiene Pág. 54
  • 55. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 un 10% de explicación y un 0.5 de ponderación denota que un 25% de la varianza es representada por el factor. Evaluando la significancia estadística Con base en un nivel de significancia de 0.05, un nivel de potencia del 80% y errores estándar asumidos se el doble de los coeficientes de correlación convencionales, se tiene la tabla siguiente: Ponderación Tamaño de del factor muestra requerida para tener significancia 0.30 350 0.35 300 0.40 250 0.45 200 0.50 150 0.55 100 0.60 85 0.65 70 0.70 60 Resumiendo las guías para la significancia de los factores son: (1) entre mayor sea el tamaño de muestra, el valor de ponderación significativo se reduce. (2) Entre más variables sean consideradas en el análisis, más pequeña es la ponderación que se considera significativa. (3) Entre más factores haya, mayor es la ponderación en los factores adicionales para que sea considerada significativa. Cada columna de números en la matriz representa un factor por separado. Las columnas de números representan las ponderacións para cada una de las variables. Identificar la más alta ponderación para cada variable. Recordar que para tamaños de muestra similares a 100 se considera significante ± 0.3. La comunalidad para cada variable representa la cantidad de varianza considerada por la solución factorial para cada variable. Evaluar la comunalidad de las variables, es decir identificar las que tengan más del 50%, ya que las Pág. 55
  • 56. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 que tengan menos no tienen suficiente explicación. El nombre de los factores se desarrolla de manera intuitiva, con base en las variables con una mayor ponderación se consideran más importantes y tienen una mayor influencia para el nombre seleccionado para representar al factor. Validación del análisis factorial Se trata de evaluar el grado de generalización de los resultados en la población y la influencia potencial de casos individuales en los resultados totales. El alfa de Cronbach es una medida del coeficiente de confiabilidad que evalua la consistencia de toda la escala. Este índice es la relación positiva del número de ítems en la escala, donde 0.7 se considera adecuado. Pág. 56
  • 57. MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006 Ejemplo con datos de HATCO Prueba de la adecuación del modelo, utilizando Minitab: 1. Stat > Basic statistics > Correlation 2. Variables X1, X2, X3, X4, X6, X7 3. Display p values 4. OK Correlations: X1, X2, X3, X4, X6, X7 X1 X2 X3 X4 X6 X2 -0.349 0.000 X3 0.476 -0.472 0.000 0.000 X4 0.050 0.272 -0.095 0.618 0.006 0.347 X6 0.077 0.186 -0.015 0.788 0.446 0.064 0.880 0.000 X7 -0.483 0.470 -0.407 0.200 0.177 0.000 0.000 0.000 0.046 0.078 Cell Contents: Pearson correlation P-Value De la matriz, 7 de 15 correlaciones son significativas estadísticamente. El valor de MSA de 0.665 cumple con con el criterio para aplicar el análisis factorial. Análisis factorial con Minitab: Las instrucciones de Minitab son las siguientes: 1 Cargar los datos de HATCO. 2 Stat > Multivariate > Factor Analysis. 3 En Variables, X1, X2, X3, X4, X6, X7 4 En Number of factors to extract, 2. 5 En Method of Extraction, seleccionar Principal components 6 En Type of Rotation, seleccionar Varimax. 7 Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot. Pág. 57