SlideShare une entreprise Scribd logo
1  sur  24
Universidade de A Coruña
Facultade de Socioloxía
Mestrado en Metodoloxía de Investigación Social
Obradoiro de Análise Multivariante
Práctica1: Análisis
Discriminante
Concellos de Galicia
Sergio Rodríguez Fernández
16-Mayo-2012
2
ÍNDICE
1. INTRODUCIIÓN…………………………………………………………………………….2
2. Primer paso: ¿la mejor variable discriminante?...........................................4
3. Segundo paso: Las funciones discriminantes………………………………….5
4. Tercer paso: Pesos, cargas y puntuaciones discriminantes……………15
5. Cuarto paso: La matriz de clasificación………………………………………...17
6. Quinto paso: El diagnóstico por caso……………………………………………22
7. Conclusión………………………………………………………………………………….24
3
INTRODUCCIÓN
El presente informe tiene como objetivo principal determinar que
características nos permiten diferenciar los diferentes grupos/categorías de
concellos de los que consta nuestro índice de dependencia socioeconómica; índice
obtenido a partir de un análisis factorial elaborado con observaciones de índole
sociodemográfica y sociolaboral, de los distintos concellos de la Comunidad
Autónoma de Galicia. Son tres las categorías que agrupan a los diferentes
concellos, a saber: baja, mediana y alta.
Por lo tanto, para identificar las características diferenciadoras de nuestras
tres categorías, recurriremos al análisis discriminante. Esta técnica estadística
tiene la capacidad de proporcionar información, acerca de que variables son las
que mejor diferencian nuestras categorías, además de establecer el número
concreto de variables necesarias para un mejor modelo. Este tipo de análisis utiliza
como variable dependiente, una variable categórica; y como variables
independientes, variables métricas
El fundamento del análisis discriminante es obtener una combinación lineal
de dos o más variables independientes que mejor diferencien las categorías
establecidas de antemano (variable dependiente). Buscamos que las ponderaciones
del valor teórico para cada variable maximicen la varianza entre-grupos y
minimicen la varianza intra-grupos.
El objetivo último es obtener una o varias funciones discriminantes,
extraídas de forma jerárquica, siendo la primera de ellas la que explique el máximo
de diferencia entre las categorías, y así sucesivamente. El número de funciones
obtenidas es igual al número de grupos menos uno, aunque sí el número de
variables independientes es menor al de grupos, las funciones serán igual al
número de variables menos uno. Las funciones obtenidas son independientes
entre sí, ya que la primera función busca, principalmente, discriminar lo mejor
posible dos categorías, y la siguiente, entre las dos categorías más cercanas en la
primera función.
4
Utilizaremos como método de estimación el método por pasos, utilizando para
ello, las diferentes categorías del índice de dependencia socioeconómica como
variable dependiente; y como variables independientes o de clasificación, el número
de empresas por concello y la renta bruta disponible por concello. Se deduce de ello
nuestra hipótesis de trabajo, al considerar al número de empresas por concello y la
renta bruta disponible como características diferenciadoras de las tres categorías
de nuestro índice de dependencia socioeconómica.
• Primer paso: ¿la mejor variable discriminante?
En este primer paso, nuestra tarea consiste en determinar cuál de las dos
variables independientes discrimina mejor nuestra categorización de municipios.
Es decir, queremos saber cual de nuestras variables independientes nos permite
con mayor facilidad, diferenciar un grupo de concellos sobre otro.
Como podemos observar en la siguiente tabla, las pruebas de igualdad de
las medias de los grupos muestran que nuestras variables número de empresas y
renta total disponible, son significativas, descartando la hipótesis nula de que los
categorías del índice de dependencia socioeconómica tienen promedios iguales en
las dos variables discriminantes.
Pruebas de igualdad de las medias de los grupos
Lambda de
Wilks F gl1 gl2 Sig.
Renda bruta dispoñible
(2002)
,952 7,912 2 312 ,000
Número de empresas
(2009)
,912 14,998 2 312 ,000
Lo importante para nosotros en este punto, es el análisis del estadístico
lambda de Wilks, cuya función consiste en expresar la proporción de variabilidad
total que no se debe a las diferencias de las categorías, contrastando la hipótesis
nula de que los centroides de los grupos son iguales. Los valores que adopta este
estadístico van de 0 a 1, siendo los más próximos a 0 los que indican que las
medias de las categorías son diferentes, y los próximos a 1más semejantes. Las
variables independientes con un lambda de Wilks alto no tienen un gran potencial
5
discriminante. Es decir, cuanto más separados estén los grupos, la variabilidad
inter-grupos irá aumentando, y la variabilidad intra-grupos disminuyendo.
El estadístico F evalúa la disminución que se produciría en lambda de Wilks
si la variable fuese seleccionada. Las variables son evaluadas individualmente para
entrar en el modelo. Cuanto mayor sea el valor de F, la disminución será
significativa y la variable escogida la adecuada.
En nuestro caso, nuestras variables independientes, presentan una lambda
de Wilks muy próxima a 1, siendo relativamente más baja en la variable número de
empresas (0,912), por lo que sería nuestra mejor variable discriminante. El
estadístico F, es también en esta variable, ligeramente más alto (F=14,998).
Parece que las variables seleccionadas no discriminan todo lo deseable y
que nuestro modelo pude llegar a no ser del todo apropiado, pero la baja
significación (0,00) nos permiten rechazar la hipótesis nula, de que las categorías
del índice de dependencia socioeconómica tienen promedios iguales en las dos
variables discriminantes, por lo que proseguiremos con el análisis de nuestro
modelo.
• Segundo paso: Las funciones discriminantes
A continuación, se comentaran y analizaran las funciones discriminantes
obtenidas con nuestro modelo. Las funciones discriminantes, son combinaciones
lineales de variables dependientes (número de empresas y renta bruta disponible)
que procuran maximizar la varianza entre-grupos y minimizar la varianza intra-
grupos. El número de funciones obtenidas es igual al número de grupos menos
uno, aunque sí el número de variables independientes es menor al de grupos, las
funciones serán igual al número de variables menos uno. En nuestro caso
obtendremos dos funciones discriminantes, ya que aunque el índice de dependencia
socioeconómica tenga tres categorías, disponemos únicamente de dos variables
discriminantes (número de empresas y renta bruta disponible).
Necesitamos por lo tanto conocer, que aspectos diferencian a los grupos
significativamente. Es decir, comparar de manera global la capacidad
6
discriminativa de cada función. Para ello observaremos en primer lugar la
siguiente tabla:
Autovalores
Función
Autovalor % de varianza % acumulado
Correlación
canónica
1 ,117
a
94,1 94,1 ,324
2 ,007
a
5,9 100,0 ,085
a. Se han empleado las 2 primeras funciones discriminantes canónicas en el
análisis.
En ella se nos muestran los autovalores y otros estadísticos descriptivos
como él % de varianza y la correlación canónica. El autovalor, es el cociente entre
la variación debida a las diferencias entre los grupos y la variación que se da
dentro de cada grupo combinada en una única cantidad, sin que intervengan los
grados de libertad. Más concretamente, resulta de dividir la suma de cuadrados
intergrupos entre la suma de cuadrados intragrupos. El autovalor permite
comparar como se distribuye la dispersión inter-grupos cuando existe más de una
función.
Él % de varianza, informa sobre la capacidad que tiene la varianza de
explicar la separación entre las categorías de la variable dependiente. Nos muestra
el aporte que el número de empresas y la renta bruta disponible proporcionan a la
diferenciación entre las categorías del índice de dependencia socioeconómica.
Por su parte, la correlación canónica es la que se produce entre la
combinación lineal de la función discriminante y la combinación lineal de
variables que recogen la pertenencia a los grupos. Sus valores van de 0 a 1, siendo
los valores próximos a 1 los que indican que las variables discriminantes permiten
diferenciar a las categorías.
En nuestro intento por conocer las diferencias de las categorías de nuestro
índice, observaremos también la siguiente tabla:
7
Lambda de Wilks
Contraste de las
funciones
Lambda de
Wilks Chi-cuadrado gl Sig.
1 a la 2 ,889 36,774 4 ,000
2 ,993 2,285 1 ,131
El principal estadístico para nosotros, es de nuevo lambda de Wilks. En este
caso, lo que intentamos averiguar es que función discriminante es mejor
diferenciando las categorías del índice de dependencia socioeconómica. Buscamos
conocer qué función separa mejor los centroides de las categorías. Al igual que
antes, la escala comprende de 0 a 1, siendo los valores más próximos a 1 los que
reflejen una peor capacidad discriminante por parte de la función.
Centrándonos ya en nuestro modelo, vemos que la función 1 presenta un
autovalor de 0,117, con un porcentaje de varianza explicativa de las diferencias de
las categorías del índice de dependencia socioeconómica de un 94%. Observando
el autovalor, podemos suponer que esta función no discrimina todo lo bien que se
desearía, pero por otro lado, el porcentaje de varianza que explica las diferencias
entre las categorías es del 94,1%.
La función 2 por su parte, tiene un autovalor (0,007) bastante peor que el de
la función 1, al igual que él % de varianza explicado (5,9%). Esta función
discrimina muy mal y pero que la función 1, por lo que parece menos apta.
En cuanto a la lambda de Wilks, en la función 1es bastante alta (0,889), por
lo que existe peligro de un gran solapamiento de los centroides de las categorías
del índice. Pese a ello, al igual que con el análisis del autovalor, el nivel de
significación es de 0,00, por lo que descartamos la hipótesis nula de aproximación
de las puntuaciones medias de las tres categorías. Aunque la función no presente
en los estadísticos los valores deseados, no la descartaremos, ya que por muy débil
que sea la aportación de nuestras variables, parece que por lo menos será
significativa.
La función 2 presenta una lambda de Wilks con un valor de 0,993, lo que
refleja que el solapamiento entre los centroides de las tres categorías parece
8
evidente. Además esta función tiene un nivel de significación para este estadístico
de 0,131, por lo que no podemos descartar la hipótesis nula de coincidencia de las
puntuaciones de los centroides de las tres categorías, más bien todo lo contrario.
En la siguiente tabla vemos claramente como los centroides de los grupos se
encuentran bastante juntos en la función 1 y especialmente en la función 2.
Los valores que obtenemos no se encuentran tipificados, situándose todos
por debajo de 1, por lo que existe un peligro de solapamiento en ambas funciones.
• Función 1:
Aunque podemos observar como la categoría de baja dependencia
socioeconómica es la que más lejana se encuentra de los centroides de las otras dos
categorías, que se encuentran más cercanas entre ellas.
• Función 2:
Funciones en los centroides de los grupos
Índice de dependencia
socioec
Función
1 2
Baja dependencia socioec ,463 -,033
Mediana dependencia
socioec
-,118 ,117
Alta dependencia socioec -,345 -,084
Funciones discriminantes canónicas no tipificadas
evaluadas en las medias de los grupos
ALTA
-0,84
MEDIA
0,117
BAJA
-0,033
ALTA
-0,345
MEDIA
-0,118
BAJA
0,463
9
En esta función los centroides se encuentran muy juntos, y efectivamente
parece haber un solapamiento entre el centroide de la categoría alta y el de la
categoría baja.
Vemos como hay algunos casos que se distancian considerablemente de los
centroides de su categoría de origen, o bien se introducen en la dinámica de otra
categoría. Esta apreciación será analizada a fondo más adelante.
Ahora procederemos a la construcción de la función discriminante 1 y 2:
ó = + í +
Utilizaremos para su elaboración algunos de los siguientes valores,
coeficientes y estadísticos.
Beariz
Vigo
10
Funciones en los centroides de los grupos
Índice de dependencia
socioec
Función
1 2
Baja dependencia
socioec
,463 -,033
Mediana dependencia
socioec
-,118 ,117
Alta dependencia
socioec
-,345 -,084
Funciones discriminantes canónicas no
tipificadas evaluadas en las medias de los
grupos
Coeficientes de las funciones
canónicas discriminantes
Función
1 2
Renda bruta
dispoñible (2002)
,000 ,001
Número de
empresas (2009)
,000 ,000
(Constante) -3,008 -5,457
Coeficientes no tipificados.
Coeficientes brutos que sirven para
calcular las puntuaciones
discriminantes y la ubicación de los
centroides de las categorías
Estadísticos de grupo
Índice de dependencia socioec
Media Desv. típ.
N válido (según lista)
No
ponderados Ponderados
Baja dependencia
socioec
Renda bruta dispoñible
(2002)
8500,5143 991,24523 105 105,000
Número de empresas
(2009)
1558,3048 3545,13283 105 105,000
Mediana dependencia
socioec
Renda bruta dispoñible
(2002)
8170,2762 1796,39485 105 105,000
Número de empresas
(2009)
341,0000 517,78175 105 105,000
Alta dependencia
socioec
Renda bruta dispoñible
(2002)
7772,4667 1039,84545 105 105,000
Número de empresas
(2009)
99,4571 72,79661 105 105,000
Total Renda bruta dispoñible
(2002)
8147,7524 1356,93458 315 315,000
Número de empresas
(2009)
666,2540 2159,18732 315 315,000
11
• Función 1:
! = −#, % + &&%, # '% ∗ , # + %& , & '# ∗ , # = , ')#
*+,- = −#, % + % . , .) ∗ , # + #' ∗ , # = − , %
/0 = −#, % + ... , ')). ∗ , # + 11, '&. ∗ , # = − , #'&
• Función 2:
! = −&, '&. + &&%, # '% ∗ , + %& , & '# ∗ , # = − , #
*+,- = −&, '&. + % . , .) ∗ , + #' ∗ , # = , .
/0 = −&, '&. + ... , ')). ∗ , + 11, '&. ∗ , # = − , %'
Mediante el desarrollo de la ecuación, obtenemos las funciones
discriminantes no tipificadas de los centroides de las categorías del índice de
dependencia socioeconómica. Disponemos ahora de un valor teórico para la media
de cada categoría, lo que nos permite conocer cuán de cerca están los centroides
entre sí. Parece que en nuestro caso están bastante próximos, y que el modelo no
ha conseguido, todo lo deseable, maximizar la varianza entre-grupos y minimizar
la varianza intra-grupos.
Por último, el mapa territorial nos muestra gráficamente la combinación de
los grupos delimitados por fronteras. Los asteriscos muestran los centroides de los
grupos, que representan la situación más común de los concellos en una
determinada categoría del índice de dependencia socioeconómica. La mayor
separación de los centroides, reflejara la mayor maximización de la varianza entre-
grupos frente a la varianza intra-grupos, lo que nos ayudará para realizar el
pronóstico discriminante con el número de empresas y la renta bruta disponible.
12
Mapa territorial
Discriminante canónica
Función 2
-4,0 -3,0 -2,0 -1,0 ,0 1,0
2,0 3,0 4,0
+---------+---------+---------+---------+---------+---------
+---------+---------+
4,0 + 332 21
+
I 322 21
I
I 332 21
I
I 322 21
I
I 332 21
I
I 322 21
I
3,0 + 332 + + + 21
+ + +
I 322 21
I
I 332 21
I
I 32 21
I
I 322 21
I
I 332 21
I
2,0 + + 322 + + 21 +
+ + +
I 332 21
I
I 322 21
I
I 332 21
I
I 322 21
I
13
I 332 21
I
1,0 + + + 322 + 21 +
+ + +
I 332 21
I
I 322 21
I
I 332 21
I
I 322 21
I
I 332 * 21
I
,0 + + + + 322+ 21 * +
+ + +
I *33221
I
I 321
I
I 31
I
I 31
I
I 31
I
-1,0 + + + + +31 +
+ + +
I 31
I
I 31
I
I 31
I
I 31
I
I 31
I
-2,0 + + + + + 31 +
+ + +
14
I 31
I
I 31
I
I 31
I
I 31
I
I 31
I
-3,0 + + + + + 31 +
+ + +
I 31
I
I 31
I
I 31
I
I 31
I
I 31
I
-4,0 + 31
+
+---------+---------+---------+---------+---------+---------
+---------+---------+
-4,0 -3,0 -2,0 -1,0 ,0 1,0
2,0 3,0 4,0
Función discriminante canónica 1
Símbolos usados en el mapa territorial
Símbol Grupo Etiqu
------ ----- --------------------
1 1 Baja dependencia soc
2 2 Mediana dependencia
3 3 Alta dependencia soc
* Indica un centroide de grupo
15
• Tercer paso: pesos, cargas y puntuaciones discriminantes.
Comenzaremos este paso con el comentario de los pesos discriminantes. Los
coeficientes tipificados, con independencia de su signo, nos permiten valorar la
contribución neta de cada variable en cada función. La interpretación de estos
coeficientes es similar a la interpretación de las puntuaciones beta del análisis de
regresión y también, a las saturaciones factoriales del análisis factorial.
Coeficientes estandarizados de las
funciones discriminantes canónicas
Función
1 2
Renda bruta
dispoñible (2002)
,448 ,923
Número de
empresas (2009)
,798 -,645
Vemos pues, que en la función 1, la variable número de empresas es la que
más contribuye a diferenciar las tres categorías (0,798), es decir es la variable que
mejor discrimina. A mayor número de empresas la tendencia a clasificarse en la
función 1 es mayor, mientras que la renta bruta disponible tiene la misma tendencia
pero en menor grado e importancia.
Por otro lado, en la función 2 es la renta bruta disponible la variable con más
capacidad (0,923) para discriminar las categorías del índice de dependencia
socioeconómica. A su vez, la variable número de empresas presenta un coeficiente
negativo, lo que quiere decir que entre los concellos con puntuaciones iguales en la
variable número de empresas, los que tienen una mayor renta bruta disponible
tienen una puntuación menor en la función discriminante.
Seguimos considerando a la función 1 la que más y mejor discrimina, donde
a mayor número de empresas mayor es la posibilidad de clasificarse en la categoría
de baja dependencia socioeconómica. Con la renta bruta disponible el coeficiente
tipificado se aproxima al valor del centroide de la categoría de baja dependencia
16
socioeconómica, por lo que los que los concellos que tengan puntuaciones iguales
en la variable número de empresas y un alto nivel de renta bruta disponible, serán
bien clasificados en la categoría de baja dependencia socioeconómica.
En la matriz de estructura tenemos las cargas discriminantes, que
representa los coeficientes de correlación entre cada variable y la función
discriminante. Vemos como en la función 2 se produce un cambio de signo como
consecuencia del alto grado de colinealidad existente, siendo la renta bruta
disponible la que mejor correlaciona (0,778). Los coeficientes de la función 1 nos
muestran que la variable que mejor correlaciona es el número de empresas, con un
valor muy alto (0,9), lo que indica que distingue muy bien los concellos con muchas
empresas de los que tienen menos. En el caso de la renta bruta disponible, la
distinción también es buena, pero menos potente.
Matriz de estructura
Función
1 2
Número de empresas
(2009)
,900
*
-,437
Renda bruta dispoñible
(2002)
,629 ,778
*
Correlaciones intra-grupo combinadas entre las
variables discriminantes y las funciones
discriminantes canónicas tipificadas
Variables ordenadas por el tamaño de la
correlación con la función.
*. Mayor correlación absoluta entre cada variable y
cualquier función discriminante.
Por último, comentaremos las puntuaciones discriminantes, unidades métricas
que nos informa sobre donde se situarán los concellos en la función que mejor se
adapte a sus características. Cada concello tiene una puntuación que teóricamente
debe estar próxima al valor del centroide de su categoría previa, algo que como
veremos a continuación no siempre se cumple. La puntuación se obtiene
desarrollando la ecuación de cada función para cada concello, pero en vez de
17
multiplicar por las medias lo hacemos con las observaciones de cada concello,
obteniendo así un valor pronosticado (DIS_1 & DIS_2).
2 332 = + ∗ 2 332 + ∗ 4 , 2 332
2 332 = + ∗ 2 332 + ∗ 4 , 2 332
Por ejemplo, para el concello de O Porriño la puntuación obtenida con
nuestro modelo sería la siguiente:
5 62 ñ2 = −#, % + , # ∗ )%% + , # ∗ %%#1 = , ) .).
5 62 ñ2 = −&, '&. + , # ∗ )%% + , ∗ %%#1 = , ) 1&
O concello de O Porriño pertenece de antemano al grupo de baja
dependencia socioeconómica, y según nuestro modelo las puntuaciones
discriminantes obtenidas no se alejan en exceso de los centroides de su categoría
en la función 1, presentando una puntuación de 0,62767 frente al centroide del
grupo que tiene un valor de 0,463. En la función 2 el concello de O Porriño ya no es
clasificado cerca del centroide de su categoría de origen, de hecho su puntuación
(0,16195) es muy próxima al centroide de media dependencia socioeconómica
(0,117), por lo que no se clasifica correctamente.
• Cuarto paso: la matriz de clasificación
En este cuarto paso comprobaremos, analizando la matriz de clasificación, si las
variables número de empresas y renta bruta disponible, clasifican a los concellos
igual en sus categorías originales del índice de dependencia socioeconómica. Los
resultados de clasificación resumen la validación de la función, resumiendo la
capacidad predictiva de las funciones discriminantes. El ratio de aciertos
determinará cuán correctamente clasifica los concellos. Las categorías del índice
de dependencia socioeconómica no son variables métricas, por lo que no podemos
disponer de un determinante que nos indique la predicción exacta de cada variable
18
a la clasificación. Por lo tanto debemos valorar la clasificación de cada concello
como si se realizase correctamente.
.
En el desarrollo de este trabajo hemos realizado paralelamente otros dos
análisis discriminantes utilizando las variables número de empresas y renta bruta
disponible por separado, y poder así analizar sus respectivas tablas de clasificación
y el porcentaje de casos clasificados correctamente. Lo que pretendemos con este
doble ejercicio adicional es conocer si al realizar un análisis con ambas variables
por separado existe o no, una mejora de la matriz de clasificación, saber si nuestras
variables independientes discriminan mejor por separado.
La matriz de clasificación en la que trabajamos con las dos variables
independientes, clasifica correctamente el 49,8% de los casos
En la diagonal matriz podemos observar el número de concellos clasificados
correctamente, los que se encuentran fuera de la diagonal, estarán clasificados de
manera incorrecta. Disponemos de valores absolutos y de tantos por ciento que
nos permiten conocer en donde son clasificados y en qué medida, los 315
concellos. En ciencias sociales se considera como bueno el análisis discriminante
cuando clasifica como mínimo el 75% de los casos correctamente.
En esta primera matriz, en la que el modelo consta de dos funciones
obtenidas a partir de nuestras dos variables independientes , renta bruta
disponible y número de empresas, son clasificados correctamente el 49,8% de los
casos, siendo la categoría de alta dependencia socioeconómica la que mejor
clasifica con un 58,1% de acierto, las otras dos categorías clasifican por debajo del
50% de los casos, aunque cabe decir que el mayor porcentaje de clasificación para
las tres categorías se corresponde con su grupo de origen. La anomalía principal se
produce en el desvío existente en los concellos que originariamente se
encontraban en el grupo de baja dependencia socioeconómica y que han sido
clasificados en la categoría de alta dependencia socioeconómica (28,6%). Parece
por lo tanto que nuestro modelo no clasifica todo lo bien que desearíamos los
concellos en sus categorías de origen.
19
Resultados de la clasificaciónb
,c
Indice de
dependencia
socioec
Grupo de pertenencia pronosticado
Total
Baja
dependencia
socioec
Mediana
dependencia
socioec
Alta
dependencia
socioec
Original Recuento Baja
dependencia
socioec
45 30 30 105
Mediana
dependencia
socioec
10 51 44 105
Alta
dependencia
socioec
2 42 61 105
% Baja
dependencia
socioec
42,9 28,6 28,6 100,0
Mediana
dependencia
socioec
9,5 48,6 41,9 100,0
Alta
dependencia
socioec
1,9 40,0 58,1 100,0
a. La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se
clasifica mediante las funciones derivadas a partir del resto de los casos.
b. Clasificados correctamente el 49,8% de los casos agrupados originales.
c. Clasificados correctamente el 49,8% de los casos agrupados validados mediante validación cruzada.
En esta siguiente matriz, el análisis se realiza con una sola variable
dependiente, la renta bruta disponible. En este resultado vemos que son
clasificados correctamente un 43,5%, un porcentaje relativamente menor al de la
anterior clasificación. Por su parte este modelo, clasifica dos categorías por encima
del 50%, alta y baja; mientras que la categoría de media dependencia
socioeconómica es clasificada muy mal con solo un 18,1% de acierto. Es reseñable
también la oscilación que se produce en la categoría de baja dependencia
socioeconómica hacia alta, clasificando incorrectamente un 30,5% de los concellos.
20
Resultados de la clasificaciónb
,c
Índice de
dependencia
socioec
Grupo de pertenencia pronosticado
Total
Baja
dependencia
socioec
Mediana
dependencia
socioec
Alta
dependencia
socioec
Original Recuento Baja
dependencia
socioec
57 16 32 105
Mediana
dependencia
socioec
41 19 45 105
Alta
dependencia
socioec
23 21 61 105
% Baja
dependencia
socioec
54,3 15,2 30,5 100,0
Mediana
dependencia
socioec
39,0 18,1 42,9 100,0
Alta
dependencia
socioec
21,9 20,0 58,1 100,0
a. La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se
clasifica mediante las funciones derivadas a partir del resto de los casos.
b. Clasificados correctamente el 43,5% de los casos agrupados originales.
c. Clasificados correctamente el 43,5% de los casos agrupados validados mediante validación cruzada.
Por último, la matriz constituida a partir del análisis con la variable
independiente número de empresas, es la que mejor porcentaje de clasificación
tiene, un 57,5%. Es especialmente buena la clasificación para la categoría de alta
dependencia socioeconómica, discriminando correctamente 97 de 105 casos
posibles. Por otro lado, media y baja dependencia socioeconómica no clasifican tan
bien, en ambas el mayor porcentaje es clasificado en la categoría inmediatamente
superior. Para el caso de baja dependencia socioeconómica, el mayor porcentaje de
clasificación se encuentra en media, con un 47, 6 frente al 37,1 que es clasificado
correctamente. Por su parte, los concellos bien clasificados en media dependencia
socioeconómica conforman el 42,9% y el 51, 4& en alta.
21
Resultados de la clasificaciónb
,c
Indice de
dependencia
socioec
Grupo de pertenencia pronosticado
Total
Baja
dependencia
socioec
Mediana
dependencia
socioec
Alta
dependencia
socioec
Original Recuento Baja
dependencia
socioec
39 50 16 105
Mediana
dependencia
socioec
6 45 54 105
Alta
dependencia
socioec
0 8 97 105
% Baja
dependencia
socioec
37,1 47,6 15,2 100,0
Mediana
dependencia
socioec
5,7 42,9 51,4 100,0
Alta
dependencia
socioec
,0 7,6 92,4 100,0
a. La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se
clasifica mediante las funciones derivadas a partir del resto de los casos.
b. Clasificados correctamente el 57,5% de los casos agrupados originales.
c. Clasificados correctamente el 57,5% de los casos agrupados validados mediante validación cruzada.
Es interesante analizar esta última clasificación ya que el alto porcentaje de
concellos bien clasificados en la categoría de dependencia socioeconómica junto
con el desplazamiento de las otras dos categorías hacia el grupo inmediatamente
superior, nos hace pensar que la variable número de empresas discrimina muy
bien con niveles de dependencia socioeconómica alta, por lo que el menor número
de empresas podría considerarse un factor diferenciador de los niveles más altos
de dependencia socioeconómica.
Por lo tanto, es la variable número de empresas la que produce una mejora
en la clasificación de los concellos, con respecto al modelo con dos variables
independientes. Esto viene a confirmar lo expuesto, en anteriores pasos con el
análisis de la lambda de Wilks, de que la variable número de empresas es la
variable que mejor discrimina nuestras tres categorías del índice de dependencia
socioeconómica.
22
• Quinto paso: El diagnóstico por caso
En este quinto y último paso, realizaremos un diagnóstico de dos concellos
clasificados incorrectamente por el modelo con dos variables independientes.
Realizar el diagnóstico por caso, examinando los resultados predictivos, es una
manera muy buena de evaluar el ajuste del modelo. Lo que pretendemos es saber
si las observaciones de los concellos están bien clasificadas y si son representativas
de la población. Procederemos por lo tanto a evaluar la tabla de estadísticos por
caso con el objetivo de vislumbrar las peculiaridades de dos de nuestros concellos.
La probabilidad condicional [P (D>d | G=g)], nos sirve para determinar si
un caso está bastante próximo al centroide del grupo en que ha sido clasificado.
Primero vamos analizar el caso del concello de Beariz. Nuestro modelo con
las variables renta bruta disponible y número de empresas predice en su
clasificación que el grupo pronosticado es el de baja dependencia socioeconómica,
cuando en realidad pertenece a la categoría de media dependencia
socioeconómica. Su puntuación discriminante en la función 1 es de 5,07774 y en la
función 2 de 11,15808, unas puntuaciones muy altas que se alejan del centroide de
cualquier categoría ya que todos esos centroides tienen valores próximos a 0. A
pesar de esta gran distancia el concello de Beariz tiene su puntuación factorial para
la función 1 (5,07774) más próximo al centroide de la categoría de baja
dependencia socioeconómica. En el caso de la función 2 si es bien clasificada
aunque una enorme distancia, el centroide tiene un valor de 0,117 y la puntuación
factorial es para el concello de Beariz de 11,15808.
Estadísticos
Original Número
de caso
Grupo
real
Grupo mayor
Grupo
pronosticado
P(D>d | G=g)
P(G=g
| D=d)
Distancia de
Mahalanobis
al cuadrado
hasta el
centroidep gl
28 2 1
**
,000 1 ,947 134,656
Podemos observar por lo tanto como la clasificación que realiza la función 1
es la que determina la categoría pronosticada, ya que es la que presentaba un
mayor porcentaje de varianza aportada y unos mejores estadísticos de validación.
23
De ahí el por qué de que aunque en la función 2 se clasifique bien, ahora será
clasificado en la baja dependencia socioeconómica.
El caso de Beariz es realmente interesante de analizar. Su población es de
algo más de 500 habitantes y solo existen 31 empresas, pero su renta bruta
disponible es de 23911€. Este último dato viene explicado por la gran cantidad de
capitales que aportan los emigrantes retornados procedentes de Centroamérica y
Sudamérica, lo que hace que se dispare su puntuación en la función y se clasifique
en la categoría de baja dependencia socioeconómica, aun cuando su actividad
empresarial sea baja y su población muy reducida y envejecida.
El otro concello que analizaremos es el de Vigo, en su caso la clasificación es
realizada correctamente pero presenta unas puntuaciones discriminantes
“peculiares”, a mucha distancia de los centroides de las categorías, algo parecido a
lo que le sucede al concello de Beariz. Su puntuación factorial en la función 1 es de
9,86821 y para la función 2 es de -6,10445, bastante alejadas de los centroides,
todos por debajo de 0,5. Según la clasificación que realiza la función 2 estaría
encuadrada en la categoría de alta dependencia socioeconómica, algo impensable
para un concello como el de Vigo. La alta significación que presentaba esta función
nos hacía pensar la alta probabilidad de que se cumpliese la hipótesis nula de
coincidencia de los centroides de la categoría, algo que podemos corroborar ahora
al 100%. El estrecho margen entre los centroides en la función 2 (-0,084-0,117) es
bastante ilustrativo.
El caso del concello de Vigo viene explicado por el gran número de
empresas que tiene, 24549, el concello con mayor número de Galicia. A su vez la
renta disponible es de las más altas, situándose en el grupo de los concellos con
mayor renta bruta disponible (>10.000€). Vigo se inserta dentro de la región de las
Rías Baixas, siendo su centro industrial y económico, del que surge a su alrededor
un área metropolitana con una actividad económica relativamente diversificada
pero con un carácter principalmente industrial, por lo que existe un gran volumen
de población asalariada.
24
Un caso similar al de Vigo es el de A Coruña que presenta puntuaciones
próximas y que aparece inmediatamente al lado en el gráfico de funciones
discriminantes canónicas
• Conclusión
Las funciones que hemos obtenido con nuestro análisis discriminante no
han sido todo lo buenas que hubiéramos deseado, y parece que nuestras variables
independientes, número de empresas y renta bruta disponible, no discriminan en
gran medida a los concellos en las tres categorías del índice de dependencia
socioeconómica.
Para la realización de nuestro análisis factorial, utilizamos para la
construcción del índice de dependencia socioeconómica variables de carácter
demográfico que no correlacionan lo suficientemente bien con variables de
carácter económico.
La existencia a una población tan envejecida como la de Galicia, con unos
cohortes de población joven en constante reducción, no pueden ser explicados por
la cantidad de empresas ni por el nivel de renta. Aun así las grandes áreas
económicas de Galicia, con observaciones más altas para las dos variables
independientes, si son clasificadas en su categoría de origen. Esto último no ocurre
en las zonas en las que las observaciones son más bajas, siendo su clasificación más
difusa.
Por lo tanto el mayor número de empresas y la mayor renta bruta disponible
explicaría relativamente bien la diferencia o peculiaridad de la categoría de baja
dependencia socioeconómica, pero el menor número de empresas y la menor renta
bruta disponible no lo consigue con las otras dos categorías.

Contenu connexe

Similaire à Estudio socioeonómico concellos de galicia análisis discriminante

Social Science From Mexico Unam 126
Social Science From Mexico Unam 126Social Science From Mexico Unam 126
Social Science From Mexico Unam 126
guestb23700
 
Modelo de votante pp santiago de compostela regresión logística
Modelo de votante pp santiago de compostela regresión logísticaModelo de votante pp santiago de compostela regresión logística
Modelo de votante pp santiago de compostela regresión logística
Sergio Rodríguez Fernández
 
Escalas de medida
Escalas de medidaEscalas de medida
Escalas de medida
705694
 
Análisis de la estructura salarial de una empresa análisis de regresión múltiple
Análisis de la estructura salarial de una empresa análisis de regresión múltipleAnálisis de la estructura salarial de una empresa análisis de regresión múltiple
Análisis de la estructura salarial de una empresa análisis de regresión múltiple
Sergio Rodríguez Fernández
 

Similaire à Estudio socioeonómico concellos de galicia análisis discriminante (20)

Social Science From Mexico Unam 126
Social Science From Mexico Unam 126Social Science From Mexico Unam 126
Social Science From Mexico Unam 126
 
Modelo de votante pp santiago de compostela regresión logística
Modelo de votante pp santiago de compostela regresión logísticaModelo de votante pp santiago de compostela regresión logística
Modelo de votante pp santiago de compostela regresión logística
 
Discriminante mb
Discriminante mbDiscriminante mb
Discriminante mb
 
Spss
SpssSpss
Spss
 
Analisis discriminentes(spss)
Analisis discriminentes(spss)Analisis discriminentes(spss)
Analisis discriminentes(spss)
 
Anova de un factor
Anova de un factorAnova de un factor
Anova de un factor
 
Escalas de medida
Escalas de medidaEscalas de medida
Escalas de medida
 
Escalas de medida
Escalas de medidaEscalas de medida
Escalas de medida
 
Estadística: Análisis Factorial con SPSS
Estadística: Análisis Factorial con SPSSEstadística: Análisis Factorial con SPSS
Estadística: Análisis Factorial con SPSS
 
Escalas de Medición
Escalas de Medición Escalas de Medición
Escalas de Medición
 
Escalas
EscalasEscalas
Escalas
 
conceptos Básicos de la Estadística
conceptos Básicos de la Estadística conceptos Básicos de la Estadística
conceptos Básicos de la Estadística
 
Análisis de la estructura salarial de una empresa análisis de regresión múltiple
Análisis de la estructura salarial de una empresa análisis de regresión múltipleAnálisis de la estructura salarial de una empresa análisis de regresión múltiple
Análisis de la estructura salarial de una empresa análisis de regresión múltiple
 
Clase 1 y 2 Tablas de Frecuencia.ppt
Clase 1 y 2 Tablas de Frecuencia.pptClase 1 y 2 Tablas de Frecuencia.ppt
Clase 1 y 2 Tablas de Frecuencia.ppt
 
Karla
KarlaKarla
Karla
 
Términos Básicos de la estadística
Términos Básicos de la estadística Términos Básicos de la estadística
Términos Básicos de la estadística
 
Variables
VariablesVariables
Variables
 
Medidas de dispersion
Medidas de dispersionMedidas de dispersion
Medidas de dispersion
 
Medidas de Dispersion
Medidas de DispersionMedidas de Dispersion
Medidas de Dispersion
 
Análisis multivariante
Análisis multivarianteAnálisis multivariante
Análisis multivariante
 

Estudio socioeonómico concellos de galicia análisis discriminante

  • 1. Universidade de A Coruña Facultade de Socioloxía Mestrado en Metodoloxía de Investigación Social Obradoiro de Análise Multivariante Práctica1: Análisis Discriminante Concellos de Galicia Sergio Rodríguez Fernández 16-Mayo-2012
  • 2. 2 ÍNDICE 1. INTRODUCIIÓN…………………………………………………………………………….2 2. Primer paso: ¿la mejor variable discriminante?...........................................4 3. Segundo paso: Las funciones discriminantes………………………………….5 4. Tercer paso: Pesos, cargas y puntuaciones discriminantes……………15 5. Cuarto paso: La matriz de clasificación………………………………………...17 6. Quinto paso: El diagnóstico por caso……………………………………………22 7. Conclusión………………………………………………………………………………….24
  • 3. 3 INTRODUCCIÓN El presente informe tiene como objetivo principal determinar que características nos permiten diferenciar los diferentes grupos/categorías de concellos de los que consta nuestro índice de dependencia socioeconómica; índice obtenido a partir de un análisis factorial elaborado con observaciones de índole sociodemográfica y sociolaboral, de los distintos concellos de la Comunidad Autónoma de Galicia. Son tres las categorías que agrupan a los diferentes concellos, a saber: baja, mediana y alta. Por lo tanto, para identificar las características diferenciadoras de nuestras tres categorías, recurriremos al análisis discriminante. Esta técnica estadística tiene la capacidad de proporcionar información, acerca de que variables son las que mejor diferencian nuestras categorías, además de establecer el número concreto de variables necesarias para un mejor modelo. Este tipo de análisis utiliza como variable dependiente, una variable categórica; y como variables independientes, variables métricas El fundamento del análisis discriminante es obtener una combinación lineal de dos o más variables independientes que mejor diferencien las categorías establecidas de antemano (variable dependiente). Buscamos que las ponderaciones del valor teórico para cada variable maximicen la varianza entre-grupos y minimicen la varianza intra-grupos. El objetivo último es obtener una o varias funciones discriminantes, extraídas de forma jerárquica, siendo la primera de ellas la que explique el máximo de diferencia entre las categorías, y así sucesivamente. El número de funciones obtenidas es igual al número de grupos menos uno, aunque sí el número de variables independientes es menor al de grupos, las funciones serán igual al número de variables menos uno. Las funciones obtenidas son independientes entre sí, ya que la primera función busca, principalmente, discriminar lo mejor posible dos categorías, y la siguiente, entre las dos categorías más cercanas en la primera función.
  • 4. 4 Utilizaremos como método de estimación el método por pasos, utilizando para ello, las diferentes categorías del índice de dependencia socioeconómica como variable dependiente; y como variables independientes o de clasificación, el número de empresas por concello y la renta bruta disponible por concello. Se deduce de ello nuestra hipótesis de trabajo, al considerar al número de empresas por concello y la renta bruta disponible como características diferenciadoras de las tres categorías de nuestro índice de dependencia socioeconómica. • Primer paso: ¿la mejor variable discriminante? En este primer paso, nuestra tarea consiste en determinar cuál de las dos variables independientes discrimina mejor nuestra categorización de municipios. Es decir, queremos saber cual de nuestras variables independientes nos permite con mayor facilidad, diferenciar un grupo de concellos sobre otro. Como podemos observar en la siguiente tabla, las pruebas de igualdad de las medias de los grupos muestran que nuestras variables número de empresas y renta total disponible, son significativas, descartando la hipótesis nula de que los categorías del índice de dependencia socioeconómica tienen promedios iguales en las dos variables discriminantes. Pruebas de igualdad de las medias de los grupos Lambda de Wilks F gl1 gl2 Sig. Renda bruta dispoñible (2002) ,952 7,912 2 312 ,000 Número de empresas (2009) ,912 14,998 2 312 ,000 Lo importante para nosotros en este punto, es el análisis del estadístico lambda de Wilks, cuya función consiste en expresar la proporción de variabilidad total que no se debe a las diferencias de las categorías, contrastando la hipótesis nula de que los centroides de los grupos son iguales. Los valores que adopta este estadístico van de 0 a 1, siendo los más próximos a 0 los que indican que las medias de las categorías son diferentes, y los próximos a 1más semejantes. Las variables independientes con un lambda de Wilks alto no tienen un gran potencial
  • 5. 5 discriminante. Es decir, cuanto más separados estén los grupos, la variabilidad inter-grupos irá aumentando, y la variabilidad intra-grupos disminuyendo. El estadístico F evalúa la disminución que se produciría en lambda de Wilks si la variable fuese seleccionada. Las variables son evaluadas individualmente para entrar en el modelo. Cuanto mayor sea el valor de F, la disminución será significativa y la variable escogida la adecuada. En nuestro caso, nuestras variables independientes, presentan una lambda de Wilks muy próxima a 1, siendo relativamente más baja en la variable número de empresas (0,912), por lo que sería nuestra mejor variable discriminante. El estadístico F, es también en esta variable, ligeramente más alto (F=14,998). Parece que las variables seleccionadas no discriminan todo lo deseable y que nuestro modelo pude llegar a no ser del todo apropiado, pero la baja significación (0,00) nos permiten rechazar la hipótesis nula, de que las categorías del índice de dependencia socioeconómica tienen promedios iguales en las dos variables discriminantes, por lo que proseguiremos con el análisis de nuestro modelo. • Segundo paso: Las funciones discriminantes A continuación, se comentaran y analizaran las funciones discriminantes obtenidas con nuestro modelo. Las funciones discriminantes, son combinaciones lineales de variables dependientes (número de empresas y renta bruta disponible) que procuran maximizar la varianza entre-grupos y minimizar la varianza intra- grupos. El número de funciones obtenidas es igual al número de grupos menos uno, aunque sí el número de variables independientes es menor al de grupos, las funciones serán igual al número de variables menos uno. En nuestro caso obtendremos dos funciones discriminantes, ya que aunque el índice de dependencia socioeconómica tenga tres categorías, disponemos únicamente de dos variables discriminantes (número de empresas y renta bruta disponible). Necesitamos por lo tanto conocer, que aspectos diferencian a los grupos significativamente. Es decir, comparar de manera global la capacidad
  • 6. 6 discriminativa de cada función. Para ello observaremos en primer lugar la siguiente tabla: Autovalores Función Autovalor % de varianza % acumulado Correlación canónica 1 ,117 a 94,1 94,1 ,324 2 ,007 a 5,9 100,0 ,085 a. Se han empleado las 2 primeras funciones discriminantes canónicas en el análisis. En ella se nos muestran los autovalores y otros estadísticos descriptivos como él % de varianza y la correlación canónica. El autovalor, es el cociente entre la variación debida a las diferencias entre los grupos y la variación que se da dentro de cada grupo combinada en una única cantidad, sin que intervengan los grados de libertad. Más concretamente, resulta de dividir la suma de cuadrados intergrupos entre la suma de cuadrados intragrupos. El autovalor permite comparar como se distribuye la dispersión inter-grupos cuando existe más de una función. Él % de varianza, informa sobre la capacidad que tiene la varianza de explicar la separación entre las categorías de la variable dependiente. Nos muestra el aporte que el número de empresas y la renta bruta disponible proporcionan a la diferenciación entre las categorías del índice de dependencia socioeconómica. Por su parte, la correlación canónica es la que se produce entre la combinación lineal de la función discriminante y la combinación lineal de variables que recogen la pertenencia a los grupos. Sus valores van de 0 a 1, siendo los valores próximos a 1 los que indican que las variables discriminantes permiten diferenciar a las categorías. En nuestro intento por conocer las diferencias de las categorías de nuestro índice, observaremos también la siguiente tabla:
  • 7. 7 Lambda de Wilks Contraste de las funciones Lambda de Wilks Chi-cuadrado gl Sig. 1 a la 2 ,889 36,774 4 ,000 2 ,993 2,285 1 ,131 El principal estadístico para nosotros, es de nuevo lambda de Wilks. En este caso, lo que intentamos averiguar es que función discriminante es mejor diferenciando las categorías del índice de dependencia socioeconómica. Buscamos conocer qué función separa mejor los centroides de las categorías. Al igual que antes, la escala comprende de 0 a 1, siendo los valores más próximos a 1 los que reflejen una peor capacidad discriminante por parte de la función. Centrándonos ya en nuestro modelo, vemos que la función 1 presenta un autovalor de 0,117, con un porcentaje de varianza explicativa de las diferencias de las categorías del índice de dependencia socioeconómica de un 94%. Observando el autovalor, podemos suponer que esta función no discrimina todo lo bien que se desearía, pero por otro lado, el porcentaje de varianza que explica las diferencias entre las categorías es del 94,1%. La función 2 por su parte, tiene un autovalor (0,007) bastante peor que el de la función 1, al igual que él % de varianza explicado (5,9%). Esta función discrimina muy mal y pero que la función 1, por lo que parece menos apta. En cuanto a la lambda de Wilks, en la función 1es bastante alta (0,889), por lo que existe peligro de un gran solapamiento de los centroides de las categorías del índice. Pese a ello, al igual que con el análisis del autovalor, el nivel de significación es de 0,00, por lo que descartamos la hipótesis nula de aproximación de las puntuaciones medias de las tres categorías. Aunque la función no presente en los estadísticos los valores deseados, no la descartaremos, ya que por muy débil que sea la aportación de nuestras variables, parece que por lo menos será significativa. La función 2 presenta una lambda de Wilks con un valor de 0,993, lo que refleja que el solapamiento entre los centroides de las tres categorías parece
  • 8. 8 evidente. Además esta función tiene un nivel de significación para este estadístico de 0,131, por lo que no podemos descartar la hipótesis nula de coincidencia de las puntuaciones de los centroides de las tres categorías, más bien todo lo contrario. En la siguiente tabla vemos claramente como los centroides de los grupos se encuentran bastante juntos en la función 1 y especialmente en la función 2. Los valores que obtenemos no se encuentran tipificados, situándose todos por debajo de 1, por lo que existe un peligro de solapamiento en ambas funciones. • Función 1: Aunque podemos observar como la categoría de baja dependencia socioeconómica es la que más lejana se encuentra de los centroides de las otras dos categorías, que se encuentran más cercanas entre ellas. • Función 2: Funciones en los centroides de los grupos Índice de dependencia socioec Función 1 2 Baja dependencia socioec ,463 -,033 Mediana dependencia socioec -,118 ,117 Alta dependencia socioec -,345 -,084 Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos ALTA -0,84 MEDIA 0,117 BAJA -0,033 ALTA -0,345 MEDIA -0,118 BAJA 0,463
  • 9. 9 En esta función los centroides se encuentran muy juntos, y efectivamente parece haber un solapamiento entre el centroide de la categoría alta y el de la categoría baja. Vemos como hay algunos casos que se distancian considerablemente de los centroides de su categoría de origen, o bien se introducen en la dinámica de otra categoría. Esta apreciación será analizada a fondo más adelante. Ahora procederemos a la construcción de la función discriminante 1 y 2: ó = + í + Utilizaremos para su elaboración algunos de los siguientes valores, coeficientes y estadísticos. Beariz Vigo
  • 10. 10 Funciones en los centroides de los grupos Índice de dependencia socioec Función 1 2 Baja dependencia socioec ,463 -,033 Mediana dependencia socioec -,118 ,117 Alta dependencia socioec -,345 -,084 Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos Coeficientes de las funciones canónicas discriminantes Función 1 2 Renda bruta dispoñible (2002) ,000 ,001 Número de empresas (2009) ,000 ,000 (Constante) -3,008 -5,457 Coeficientes no tipificados. Coeficientes brutos que sirven para calcular las puntuaciones discriminantes y la ubicación de los centroides de las categorías Estadísticos de grupo Índice de dependencia socioec Media Desv. típ. N válido (según lista) No ponderados Ponderados Baja dependencia socioec Renda bruta dispoñible (2002) 8500,5143 991,24523 105 105,000 Número de empresas (2009) 1558,3048 3545,13283 105 105,000 Mediana dependencia socioec Renda bruta dispoñible (2002) 8170,2762 1796,39485 105 105,000 Número de empresas (2009) 341,0000 517,78175 105 105,000 Alta dependencia socioec Renda bruta dispoñible (2002) 7772,4667 1039,84545 105 105,000 Número de empresas (2009) 99,4571 72,79661 105 105,000 Total Renda bruta dispoñible (2002) 8147,7524 1356,93458 315 315,000 Número de empresas (2009) 666,2540 2159,18732 315 315,000
  • 11. 11 • Función 1: ! = −#, % + &&%, # '% ∗ , # + %& , & '# ∗ , # = , ')# *+,- = −#, % + % . , .) ∗ , # + #' ∗ , # = − , % /0 = −#, % + ... , ')). ∗ , # + 11, '&. ∗ , # = − , #'& • Función 2: ! = −&, '&. + &&%, # '% ∗ , + %& , & '# ∗ , # = − , # *+,- = −&, '&. + % . , .) ∗ , + #' ∗ , # = , . /0 = −&, '&. + ... , ')). ∗ , + 11, '&. ∗ , # = − , %' Mediante el desarrollo de la ecuación, obtenemos las funciones discriminantes no tipificadas de los centroides de las categorías del índice de dependencia socioeconómica. Disponemos ahora de un valor teórico para la media de cada categoría, lo que nos permite conocer cuán de cerca están los centroides entre sí. Parece que en nuestro caso están bastante próximos, y que el modelo no ha conseguido, todo lo deseable, maximizar la varianza entre-grupos y minimizar la varianza intra-grupos. Por último, el mapa territorial nos muestra gráficamente la combinación de los grupos delimitados por fronteras. Los asteriscos muestran los centroides de los grupos, que representan la situación más común de los concellos en una determinada categoría del índice de dependencia socioeconómica. La mayor separación de los centroides, reflejara la mayor maximización de la varianza entre- grupos frente a la varianza intra-grupos, lo que nos ayudará para realizar el pronóstico discriminante con el número de empresas y la renta bruta disponible.
  • 12. 12 Mapa territorial Discriminante canónica Función 2 -4,0 -3,0 -2,0 -1,0 ,0 1,0 2,0 3,0 4,0 +---------+---------+---------+---------+---------+--------- +---------+---------+ 4,0 + 332 21 + I 322 21 I I 332 21 I I 322 21 I I 332 21 I I 322 21 I 3,0 + 332 + + + 21 + + + I 322 21 I I 332 21 I I 32 21 I I 322 21 I I 332 21 I 2,0 + + 322 + + 21 + + + + I 332 21 I I 322 21 I I 332 21 I I 322 21 I
  • 13. 13 I 332 21 I 1,0 + + + 322 + 21 + + + + I 332 21 I I 322 21 I I 332 21 I I 322 21 I I 332 * 21 I ,0 + + + + 322+ 21 * + + + + I *33221 I I 321 I I 31 I I 31 I I 31 I -1,0 + + + + +31 + + + + I 31 I I 31 I I 31 I I 31 I I 31 I -2,0 + + + + + 31 + + + +
  • 14. 14 I 31 I I 31 I I 31 I I 31 I I 31 I -3,0 + + + + + 31 + + + + I 31 I I 31 I I 31 I I 31 I I 31 I -4,0 + 31 + +---------+---------+---------+---------+---------+--------- +---------+---------+ -4,0 -3,0 -2,0 -1,0 ,0 1,0 2,0 3,0 4,0 Función discriminante canónica 1 Símbolos usados en el mapa territorial Símbol Grupo Etiqu ------ ----- -------------------- 1 1 Baja dependencia soc 2 2 Mediana dependencia 3 3 Alta dependencia soc * Indica un centroide de grupo
  • 15. 15 • Tercer paso: pesos, cargas y puntuaciones discriminantes. Comenzaremos este paso con el comentario de los pesos discriminantes. Los coeficientes tipificados, con independencia de su signo, nos permiten valorar la contribución neta de cada variable en cada función. La interpretación de estos coeficientes es similar a la interpretación de las puntuaciones beta del análisis de regresión y también, a las saturaciones factoriales del análisis factorial. Coeficientes estandarizados de las funciones discriminantes canónicas Función 1 2 Renda bruta dispoñible (2002) ,448 ,923 Número de empresas (2009) ,798 -,645 Vemos pues, que en la función 1, la variable número de empresas es la que más contribuye a diferenciar las tres categorías (0,798), es decir es la variable que mejor discrimina. A mayor número de empresas la tendencia a clasificarse en la función 1 es mayor, mientras que la renta bruta disponible tiene la misma tendencia pero en menor grado e importancia. Por otro lado, en la función 2 es la renta bruta disponible la variable con más capacidad (0,923) para discriminar las categorías del índice de dependencia socioeconómica. A su vez, la variable número de empresas presenta un coeficiente negativo, lo que quiere decir que entre los concellos con puntuaciones iguales en la variable número de empresas, los que tienen una mayor renta bruta disponible tienen una puntuación menor en la función discriminante. Seguimos considerando a la función 1 la que más y mejor discrimina, donde a mayor número de empresas mayor es la posibilidad de clasificarse en la categoría de baja dependencia socioeconómica. Con la renta bruta disponible el coeficiente tipificado se aproxima al valor del centroide de la categoría de baja dependencia
  • 16. 16 socioeconómica, por lo que los que los concellos que tengan puntuaciones iguales en la variable número de empresas y un alto nivel de renta bruta disponible, serán bien clasificados en la categoría de baja dependencia socioeconómica. En la matriz de estructura tenemos las cargas discriminantes, que representa los coeficientes de correlación entre cada variable y la función discriminante. Vemos como en la función 2 se produce un cambio de signo como consecuencia del alto grado de colinealidad existente, siendo la renta bruta disponible la que mejor correlaciona (0,778). Los coeficientes de la función 1 nos muestran que la variable que mejor correlaciona es el número de empresas, con un valor muy alto (0,9), lo que indica que distingue muy bien los concellos con muchas empresas de los que tienen menos. En el caso de la renta bruta disponible, la distinción también es buena, pero menos potente. Matriz de estructura Función 1 2 Número de empresas (2009) ,900 * -,437 Renda bruta dispoñible (2002) ,629 ,778 * Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función. *. Mayor correlación absoluta entre cada variable y cualquier función discriminante. Por último, comentaremos las puntuaciones discriminantes, unidades métricas que nos informa sobre donde se situarán los concellos en la función que mejor se adapte a sus características. Cada concello tiene una puntuación que teóricamente debe estar próxima al valor del centroide de su categoría previa, algo que como veremos a continuación no siempre se cumple. La puntuación se obtiene desarrollando la ecuación de cada función para cada concello, pero en vez de
  • 17. 17 multiplicar por las medias lo hacemos con las observaciones de cada concello, obteniendo así un valor pronosticado (DIS_1 & DIS_2). 2 332 = + ∗ 2 332 + ∗ 4 , 2 332 2 332 = + ∗ 2 332 + ∗ 4 , 2 332 Por ejemplo, para el concello de O Porriño la puntuación obtenida con nuestro modelo sería la siguiente: 5 62 ñ2 = −#, % + , # ∗ )%% + , # ∗ %%#1 = , ) .). 5 62 ñ2 = −&, '&. + , # ∗ )%% + , ∗ %%#1 = , ) 1& O concello de O Porriño pertenece de antemano al grupo de baja dependencia socioeconómica, y según nuestro modelo las puntuaciones discriminantes obtenidas no se alejan en exceso de los centroides de su categoría en la función 1, presentando una puntuación de 0,62767 frente al centroide del grupo que tiene un valor de 0,463. En la función 2 el concello de O Porriño ya no es clasificado cerca del centroide de su categoría de origen, de hecho su puntuación (0,16195) es muy próxima al centroide de media dependencia socioeconómica (0,117), por lo que no se clasifica correctamente. • Cuarto paso: la matriz de clasificación En este cuarto paso comprobaremos, analizando la matriz de clasificación, si las variables número de empresas y renta bruta disponible, clasifican a los concellos igual en sus categorías originales del índice de dependencia socioeconómica. Los resultados de clasificación resumen la validación de la función, resumiendo la capacidad predictiva de las funciones discriminantes. El ratio de aciertos determinará cuán correctamente clasifica los concellos. Las categorías del índice de dependencia socioeconómica no son variables métricas, por lo que no podemos disponer de un determinante que nos indique la predicción exacta de cada variable
  • 18. 18 a la clasificación. Por lo tanto debemos valorar la clasificación de cada concello como si se realizase correctamente. . En el desarrollo de este trabajo hemos realizado paralelamente otros dos análisis discriminantes utilizando las variables número de empresas y renta bruta disponible por separado, y poder así analizar sus respectivas tablas de clasificación y el porcentaje de casos clasificados correctamente. Lo que pretendemos con este doble ejercicio adicional es conocer si al realizar un análisis con ambas variables por separado existe o no, una mejora de la matriz de clasificación, saber si nuestras variables independientes discriminan mejor por separado. La matriz de clasificación en la que trabajamos con las dos variables independientes, clasifica correctamente el 49,8% de los casos En la diagonal matriz podemos observar el número de concellos clasificados correctamente, los que se encuentran fuera de la diagonal, estarán clasificados de manera incorrecta. Disponemos de valores absolutos y de tantos por ciento que nos permiten conocer en donde son clasificados y en qué medida, los 315 concellos. En ciencias sociales se considera como bueno el análisis discriminante cuando clasifica como mínimo el 75% de los casos correctamente. En esta primera matriz, en la que el modelo consta de dos funciones obtenidas a partir de nuestras dos variables independientes , renta bruta disponible y número de empresas, son clasificados correctamente el 49,8% de los casos, siendo la categoría de alta dependencia socioeconómica la que mejor clasifica con un 58,1% de acierto, las otras dos categorías clasifican por debajo del 50% de los casos, aunque cabe decir que el mayor porcentaje de clasificación para las tres categorías se corresponde con su grupo de origen. La anomalía principal se produce en el desvío existente en los concellos que originariamente se encontraban en el grupo de baja dependencia socioeconómica y que han sido clasificados en la categoría de alta dependencia socioeconómica (28,6%). Parece por lo tanto que nuestro modelo no clasifica todo lo bien que desearíamos los concellos en sus categorías de origen.
  • 19. 19 Resultados de la clasificaciónb ,c Indice de dependencia socioec Grupo de pertenencia pronosticado Total Baja dependencia socioec Mediana dependencia socioec Alta dependencia socioec Original Recuento Baja dependencia socioec 45 30 30 105 Mediana dependencia socioec 10 51 44 105 Alta dependencia socioec 2 42 61 105 % Baja dependencia socioec 42,9 28,6 28,6 100,0 Mediana dependencia socioec 9,5 48,6 41,9 100,0 Alta dependencia socioec 1,9 40,0 58,1 100,0 a. La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se clasifica mediante las funciones derivadas a partir del resto de los casos. b. Clasificados correctamente el 49,8% de los casos agrupados originales. c. Clasificados correctamente el 49,8% de los casos agrupados validados mediante validación cruzada. En esta siguiente matriz, el análisis se realiza con una sola variable dependiente, la renta bruta disponible. En este resultado vemos que son clasificados correctamente un 43,5%, un porcentaje relativamente menor al de la anterior clasificación. Por su parte este modelo, clasifica dos categorías por encima del 50%, alta y baja; mientras que la categoría de media dependencia socioeconómica es clasificada muy mal con solo un 18,1% de acierto. Es reseñable también la oscilación que se produce en la categoría de baja dependencia socioeconómica hacia alta, clasificando incorrectamente un 30,5% de los concellos.
  • 20. 20 Resultados de la clasificaciónb ,c Índice de dependencia socioec Grupo de pertenencia pronosticado Total Baja dependencia socioec Mediana dependencia socioec Alta dependencia socioec Original Recuento Baja dependencia socioec 57 16 32 105 Mediana dependencia socioec 41 19 45 105 Alta dependencia socioec 23 21 61 105 % Baja dependencia socioec 54,3 15,2 30,5 100,0 Mediana dependencia socioec 39,0 18,1 42,9 100,0 Alta dependencia socioec 21,9 20,0 58,1 100,0 a. La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se clasifica mediante las funciones derivadas a partir del resto de los casos. b. Clasificados correctamente el 43,5% de los casos agrupados originales. c. Clasificados correctamente el 43,5% de los casos agrupados validados mediante validación cruzada. Por último, la matriz constituida a partir del análisis con la variable independiente número de empresas, es la que mejor porcentaje de clasificación tiene, un 57,5%. Es especialmente buena la clasificación para la categoría de alta dependencia socioeconómica, discriminando correctamente 97 de 105 casos posibles. Por otro lado, media y baja dependencia socioeconómica no clasifican tan bien, en ambas el mayor porcentaje es clasificado en la categoría inmediatamente superior. Para el caso de baja dependencia socioeconómica, el mayor porcentaje de clasificación se encuentra en media, con un 47, 6 frente al 37,1 que es clasificado correctamente. Por su parte, los concellos bien clasificados en media dependencia socioeconómica conforman el 42,9% y el 51, 4& en alta.
  • 21. 21 Resultados de la clasificaciónb ,c Indice de dependencia socioec Grupo de pertenencia pronosticado Total Baja dependencia socioec Mediana dependencia socioec Alta dependencia socioec Original Recuento Baja dependencia socioec 39 50 16 105 Mediana dependencia socioec 6 45 54 105 Alta dependencia socioec 0 8 97 105 % Baja dependencia socioec 37,1 47,6 15,2 100,0 Mediana dependencia socioec 5,7 42,9 51,4 100,0 Alta dependencia socioec ,0 7,6 92,4 100,0 a. La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se clasifica mediante las funciones derivadas a partir del resto de los casos. b. Clasificados correctamente el 57,5% de los casos agrupados originales. c. Clasificados correctamente el 57,5% de los casos agrupados validados mediante validación cruzada. Es interesante analizar esta última clasificación ya que el alto porcentaje de concellos bien clasificados en la categoría de dependencia socioeconómica junto con el desplazamiento de las otras dos categorías hacia el grupo inmediatamente superior, nos hace pensar que la variable número de empresas discrimina muy bien con niveles de dependencia socioeconómica alta, por lo que el menor número de empresas podría considerarse un factor diferenciador de los niveles más altos de dependencia socioeconómica. Por lo tanto, es la variable número de empresas la que produce una mejora en la clasificación de los concellos, con respecto al modelo con dos variables independientes. Esto viene a confirmar lo expuesto, en anteriores pasos con el análisis de la lambda de Wilks, de que la variable número de empresas es la variable que mejor discrimina nuestras tres categorías del índice de dependencia socioeconómica.
  • 22. 22 • Quinto paso: El diagnóstico por caso En este quinto y último paso, realizaremos un diagnóstico de dos concellos clasificados incorrectamente por el modelo con dos variables independientes. Realizar el diagnóstico por caso, examinando los resultados predictivos, es una manera muy buena de evaluar el ajuste del modelo. Lo que pretendemos es saber si las observaciones de los concellos están bien clasificadas y si son representativas de la población. Procederemos por lo tanto a evaluar la tabla de estadísticos por caso con el objetivo de vislumbrar las peculiaridades de dos de nuestros concellos. La probabilidad condicional [P (D>d | G=g)], nos sirve para determinar si un caso está bastante próximo al centroide del grupo en que ha sido clasificado. Primero vamos analizar el caso del concello de Beariz. Nuestro modelo con las variables renta bruta disponible y número de empresas predice en su clasificación que el grupo pronosticado es el de baja dependencia socioeconómica, cuando en realidad pertenece a la categoría de media dependencia socioeconómica. Su puntuación discriminante en la función 1 es de 5,07774 y en la función 2 de 11,15808, unas puntuaciones muy altas que se alejan del centroide de cualquier categoría ya que todos esos centroides tienen valores próximos a 0. A pesar de esta gran distancia el concello de Beariz tiene su puntuación factorial para la función 1 (5,07774) más próximo al centroide de la categoría de baja dependencia socioeconómica. En el caso de la función 2 si es bien clasificada aunque una enorme distancia, el centroide tiene un valor de 0,117 y la puntuación factorial es para el concello de Beariz de 11,15808. Estadísticos Original Número de caso Grupo real Grupo mayor Grupo pronosticado P(D>d | G=g) P(G=g | D=d) Distancia de Mahalanobis al cuadrado hasta el centroidep gl 28 2 1 ** ,000 1 ,947 134,656 Podemos observar por lo tanto como la clasificación que realiza la función 1 es la que determina la categoría pronosticada, ya que es la que presentaba un mayor porcentaje de varianza aportada y unos mejores estadísticos de validación.
  • 23. 23 De ahí el por qué de que aunque en la función 2 se clasifique bien, ahora será clasificado en la baja dependencia socioeconómica. El caso de Beariz es realmente interesante de analizar. Su población es de algo más de 500 habitantes y solo existen 31 empresas, pero su renta bruta disponible es de 23911€. Este último dato viene explicado por la gran cantidad de capitales que aportan los emigrantes retornados procedentes de Centroamérica y Sudamérica, lo que hace que se dispare su puntuación en la función y se clasifique en la categoría de baja dependencia socioeconómica, aun cuando su actividad empresarial sea baja y su población muy reducida y envejecida. El otro concello que analizaremos es el de Vigo, en su caso la clasificación es realizada correctamente pero presenta unas puntuaciones discriminantes “peculiares”, a mucha distancia de los centroides de las categorías, algo parecido a lo que le sucede al concello de Beariz. Su puntuación factorial en la función 1 es de 9,86821 y para la función 2 es de -6,10445, bastante alejadas de los centroides, todos por debajo de 0,5. Según la clasificación que realiza la función 2 estaría encuadrada en la categoría de alta dependencia socioeconómica, algo impensable para un concello como el de Vigo. La alta significación que presentaba esta función nos hacía pensar la alta probabilidad de que se cumpliese la hipótesis nula de coincidencia de los centroides de la categoría, algo que podemos corroborar ahora al 100%. El estrecho margen entre los centroides en la función 2 (-0,084-0,117) es bastante ilustrativo. El caso del concello de Vigo viene explicado por el gran número de empresas que tiene, 24549, el concello con mayor número de Galicia. A su vez la renta disponible es de las más altas, situándose en el grupo de los concellos con mayor renta bruta disponible (>10.000€). Vigo se inserta dentro de la región de las Rías Baixas, siendo su centro industrial y económico, del que surge a su alrededor un área metropolitana con una actividad económica relativamente diversificada pero con un carácter principalmente industrial, por lo que existe un gran volumen de población asalariada.
  • 24. 24 Un caso similar al de Vigo es el de A Coruña que presenta puntuaciones próximas y que aparece inmediatamente al lado en el gráfico de funciones discriminantes canónicas • Conclusión Las funciones que hemos obtenido con nuestro análisis discriminante no han sido todo lo buenas que hubiéramos deseado, y parece que nuestras variables independientes, número de empresas y renta bruta disponible, no discriminan en gran medida a los concellos en las tres categorías del índice de dependencia socioeconómica. Para la realización de nuestro análisis factorial, utilizamos para la construcción del índice de dependencia socioeconómica variables de carácter demográfico que no correlacionan lo suficientemente bien con variables de carácter económico. La existencia a una población tan envejecida como la de Galicia, con unos cohortes de población joven en constante reducción, no pueden ser explicados por la cantidad de empresas ni por el nivel de renta. Aun así las grandes áreas económicas de Galicia, con observaciones más altas para las dos variables independientes, si son clasificadas en su categoría de origen. Esto último no ocurre en las zonas en las que las observaciones son más bajas, siendo su clasificación más difusa. Por lo tanto el mayor número de empresas y la mayor renta bruta disponible explicaría relativamente bien la diferencia o peculiaridad de la categoría de baja dependencia socioeconómica, pero el menor número de empresas y la menor renta bruta disponible no lo consigue con las otras dos categorías.