Evolución de distancias para clasificadores basados en prototipos
1. Evolución de distancias para clasificadores
basados en prototipos
Christian Felipe Álvarez
Ingeniería en Informática
19 de mayo de 2010
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 1 / 26
2. Índice
1 Introducción
Objetivos
Fundamentos
2 Definición del método
Clasificación
Optimización de la función de distancia
3 Implementación
4 Experimentación
5 Variante al método propuesto
6 Conclusiones y líneas futuras
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 2 / 26
3. Objetivos
Realizar un estudio sobre la optimización de funciones de distancia
mediante algoritmos de inspiración biológica en clasificadores basados
en prototipos.
Definición del método de clasificación.
Optimización de la función de distancia.
Integración de la optimización de la distancia en el método de
clasificación.
Implementación del algoritmo definido.
Experimentación y análisis de los resultados.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 3 / 26
4. Fundamentos
K-Medias
Funciones de distancia
Estrategias Evolutivas
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 4 / 26
5. Fundamentos
d (x, y ) = (x − y )M · M T (x − y )T
K-Medias
Funciones de distancia
1 0 1 0
M · MT = M · MT =
0 1 0 10
Estrategias Evolutivas
1
1
M · MT = 1
2
2 2
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 4 / 26
6. Fundamentos
Son técnicas de computación evolutiva en
las que se optimizan valores reales.
K-Medias
Estrategias Evolutivas (1+1)
Funciones de distancia
Estrategias Evolutivas con poblaciones
Estrategias Evolutivas
CMA-ES (Covarianze Matrix Adaptation
Evolution Strategy )
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 4 / 26
7. Definición del algoritmo
El método de clasificación
Clasificación según el centro más cercano
1 Se fija el número de centros por clase: k.
2 Se distribuyen los centros de cada clase mediante K-Medias.
3 Para determinar la clase de los datos nuevos:
Se calcula la distancia hasta todos los centros.
Se establece su clase como la del centro más cercano.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 5 / 26
8. Definición del algoritmo
El método de clasificación
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
9. Definición del algoritmo
El método de clasificación
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
10. Definición del algoritmo
El método de clasificación
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
11. Definición del algoritmo
El método de clasificación
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
12. Definición del algoritmo
El método de clasificación
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
13. Definición del algoritmo
El método de clasificación
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
14. Definición del algoritmo
El método de clasificación
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
15. Definición del algoritmo
El método de clasificación
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
16. Definición del algoritmo
Optimización de la función de distancia
Optimización de la función de Distancia Euclídea Generalizada
d (x, y ) = (x − y )M · M T (x − y )T
Objetivo: maximizar la tasa de aciertos en clasificación
Uso de estrategias evolutivas ⇒ codificación + cálculo del fitness
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 7 / 26
17. Definición del algoritmo
Optimización de la función de distancia
Codificación del problema: consideraciones.
Optimización de la matriz M · M T , no de M.
Número de funciones de distancia:
Una matriz por clase.
Una matriz por centro.
Forma de las matrices:
Matrices diagonales.
Matrices simétricas (M · M T siempre lo es).
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 8 / 26
18. Definición del algoritmo
Optimización de la función de distancia
Fitness = “Número de fallos en la clasificación”
Codificación de m matrices en el cromosoma:
C = c1 c2 · · · cm
m1,1 m1,2 · · · m1,n
m2,1 m2,2 · · · m2,n
Matrices diagonales
ci ↔ Mi = . . .
. . .. .
. . . .
Matrices simétricas
mn,1 mn,2 · · · mn,n
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 9 / 26
19. Definición del algoritmo
Optimización de la función de distancia
Fitness = “Número de fallos en la clasificación”
Codificación de m matrices en el cromosoma:
C = c1 c2 · · · cm
m1,1 m1,2 · · · m1,n
m2,1 m2,2 · · · m2,n
Matrices diagonales
ci ↔ M i = . . .
. . .. .
. . . .
Matrices simétricas
mn,1 mn,2 · · · mn,n
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 9 / 26
20. Definición del algoritmo
Optimización de la función de distancia
Problema: no todas las matrices reales dan lugar a distancias válidas.
“Si M · M T no es definida positiva el cuadrado
de la distancia puede ser negativo”.
Soluciones:
× Restringir a matrices definidas
positivas.
→ Es necesario realizar operaciones
Restringir a matrices con todos los demasiado costosas.
elementos no negativos.
Considerar las distancias de
cuadrado negativo como infinitas.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 10 / 26
21. Definición del algoritmo
Optimización de la función de distancia
Problema: no todas las matrices reales dan lugar a distancias válidas.
“Si M · M T no es definida positiva el cuadrado
de la distancia puede ser negativo”.
Soluciones:
→ Quedan matrices definidas positivas
× Restringir a matrices definidas fuera del espacio de búsqueda.
positivas.
→ Implementación directa: uso del
Restringir a matrices con todos los valor absoluto.
elementos no negativos.
→ Se introducen redundancias en la
Considerar las distancias de representación.
cuadrado negativo como infinitas.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 10 / 26
22. Definición del algoritmo
Optimización de la función de distancia
Problema: no todas las matrices reales dan lugar a distancias válidas.
“Si M · M T no es definida positiva el cuadrado
de la distancia puede ser negativo”.
Soluciones:
× Restringir a matrices definidas
positivas.
→ Se relajan algunas propiedades de
Restringir a matrices con todos los las funciones de distancia.
elementos no negativos.
Considerar las distancias de
cuadrado negativo como infinitas.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 10 / 26
23. Implementación
Características de la aplicación
Uso de un fichero de configuración.
Parámetros propios del método.
Parámetros de las técnicas de optimización.
Uso de distintas técnicas de optimización para la misma ejecución.
Evaluación del clasificador: validación cruzada.
Posibilidad de calcular y obtener los centros y la matriz con todos
los datos.
Datos de salida: porcentaje de aciertos y tiempo de ejecución.
Implementación en Java.
Disponible en http://www.lab.inf.uc3m.es/~christian/kmes.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 11 / 26
26. Implementación
Funcionamiento
Salida del programa
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 14 / 26
27. Experimentación
Objetivos y estructura
Objetivos de la experimentación:
Comprobar y explicar el funcionamiento.
Detectar ventajas e inconvenientes del método.
¿En qué consiste?
Diseño de cinco dominios sintéticos.
Ejecución de pruebas.
Distintos parámetros.
Optimización con EE-(1+1), EE-Múltiples y CMA-ES.
Interpretación de los resultados.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 15 / 26
28. Experimentación
Dominio 1: nubes alineadas
Dominio sencillo, muestra la necesidad
de ponderar la distancia. Uso de un centro por clase.
Resultados:
Diagonales Simétricas
Euclídea 50 % 50 %
CMA-ES 100 % 100 %
EE-(1+1) 100 % 100 %
EE-M 100 % 100 %
Mayor tiempo para matrices
simétricas.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 16 / 26
29. Experimentación
Dominio 1: nubes alineadas
Dominio sencillo, muestra la necesidad
de ponderar la distancia. Uso de un centro por clase.
Resultados:
Diagonales Simétricas
Euclídea 50 % 50 %
CMA-ES 100 % 100 %
EE-(1+1) 100 % 100 %
EE-M 100 % 100 %
Mayor tiempo para matrices
simétricas.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 16 / 26
31. Experimentación
Dominio 2: nubes reflejo
Dominio que muestra la necesidad de Resultados:
ajustar ciertos parámetros. Utilizando una matriz por centro:
- Número de centros. Centros Euclídea GED opt.
- Matriz por clase o por centro. 1 60 % 75 %
2 60,33 % 100 %
3 92 % 100 %
4 100 % 100 %
Utilizando una matriz por clase y
dos centros:
60 % de aciertos con la
distancia Euclídea.
80,66 % con la GED
optimizada.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 18 / 26
32. Experimentación
Dominio 2: nubes reflejo
Dominio que muestra la necesidad de Resultados:
ajustar ciertos parámetros. Utilizando una matriz por centro:
- Número de centros. Centros Euclídea GED opt.
- Matriz por clase o por centro. 1 60 % 75 %
2 60,33 % 100 %
3 92 % 100 %
4 100 % 100 %
Utilizando una matriz por clase y
dos centros:
60 % de aciertos con la
distancia Euclídea.
80,66 % con la GED
optimizada.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 18 / 26
33. Experimentación
Dominio 3: nubes rotadas
Dominio basado en el primero, aplicando Uso de un centro por clase
una rotación de 45o .
Resultados:
Diagonales Simétricas
Euclídea 50 % 50 %
CMA-ES 98,75 % 100 %
EE-(1+1) 100 % 100 %
EE-M 99 % 100 %
→ Mayor tiempo con las diagonales.
75 % de aciertos con matrices
diagonales y positivas.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 19 / 26
34. Experimentación
Dominio 3: nubes rotadas
Dominio basado en el primero, aplicando Uso de un centro por clase
una rotación de 45o .
Resultados:
Diagonales Simétricas
Euclídea 50 % 50 %
CMA-ES 98,75 % 100 %
EE-(1+1) 100 % 100 %
EE-M 99 % 100 %
→ Mayor tiempo con las diagonales.
75 % de aciertos con matrices
diagonales y positivas.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 19 / 26
35. Experimentación
Dominio 4: elipses
Dominio más realista basado en nubes
reflejo. Uso de dos centros por clase.
Resultados:
Diagonales Simétricas
Euclídea 73,69 % 73,69 %
CMA-ES 99,62 % 97,57 %
EE-(1+1) 98,13 % 95,52 %
EE-M 96,64 % 95,70 %
→ Tiempo mucho mayor utilizando
distancias simétricas.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 20 / 26
36. Experimentación
Dominio 4: elipses
Dominio más realista basado en nubes
reflejo. Uso de dos centros por clase.
Resultados:
Diagonales Simétricas
Euclídea 73,69 % 73,69 %
CMA-ES 99,62 % 97,57 %
EE-(1+1) 98,13 % 95,52 %
EE-M 96,64 % 95,70 %
→ Tiempo mucho mayor utilizando
distancias simétricas.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 20 / 26
37. Experimentación
Dominio 5: atributos aleatorios
Dominio para comprobar si se pueden
discriminar atributos irrelevantes. Resultados:
No se logra superar el 52 % de
Cuatro atributos: x1 , x2 , x3 , x4 . aciertos de la distancia
Euclídea.
x1 y x2 ∈ [0, 1].
→ Los centros se sitúan
x3 y x4 ∈ [0, 100].
inicialmente mediante distancia
Si x1 > x2 de clase 0, Euclídea.
si no de clase 1. → Los atributos x3 y x4 son mucho
x3 y x4 son irrelevantes. más significativos.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 21 / 26
38. Experimentación
Dominio 5: atributos aleatorios
Dominio para comprobar si se pueden
discriminar atributos irrelevantes. Resultados:
No se logra superar el 52 % de
Cuatro atributos: x1 , x2 , x3 , x4 . aciertos de la distancia
Euclídea.
x1 y x2 ∈ [0, 1].
→ Los centros se sitúan
x3 y x4 ∈ [0, 100].
inicialmente mediante distancia
Si x1 > x2 de clase 0, Euclídea.
si no de clase 1. → Los atributos x3 y x4 son mucho
x3 y x4 son irrelevantes. más significativos.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 21 / 26
39. Experimentación
Dominio 5: atributos aleatorios
Dominio para comprobar si se pueden
discriminar atributos irrelevantes. Resultados:
No se logra superar el 52 % de
Cuatro atributos: x1 , x2 , x3 , x4 . aciertos de la distancia
Euclídea.
x1 y x2 ∈ [0, 1].
→ Los centros se sitúan
x3 y x4 ∈ [0, 100].
inicialmente mediante distancia
Si x1 > x2 de clase 0, Euclídea.
si no de clase 1. → Los atributos x3 y x4 son mucho
x3 y x4 son irrelevantes. más significativos.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 21 / 26
40. Variante propuesta
Características
“ Volver a ubicar los centros para cada matriz y
favorecer las matrices con valores cercanos a cero”
Volver a situar los centros con K-Medias.
→ Penalización si K-Medias no converge en 1000 iteraciones.
→ Uso de matrices positivas para evitar esto en parte.
Nuevos parámetros en la función de fitness.
→ Se tiene en cuenta el número de ceros en el cromosoma.
→ Se tiene en cuenta el valor absoluto.
Nuevo operador genético.
→ En cada iteración se pone un valor del cromosoma a cero con cierta
probabilidad.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 22 / 26
41. Variante propuesta
Resultados
Resultados representativos del CMA-ES.
Dominio Fitness centros fijos Fitness K-Medias
Nubes alineadas 100 % 100 %
Nubes reflejo 100 % 82 %
Nubes rotadas 100 % 75 %
Elipses 99,52 % 88,99 %
Atributos aleatorios 50 % 97,00 %
En el dominio atributos aleatorios:
Se alcanzan resultados próximos al 100 % de aciertos.
Con el nuevo operador genético se converge muy rápidamente.
En el resto de dominios:
Aumenta mucho el tiempo de cómputo.
Se necesitan más iteraciones.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 23 / 26
42. Conclusiones
El diseño de dominios y la experimentación han permitido comprender
y evaluar el método propuesto.
El algoritmo propuesto está limitado por la disposición de los centros,
influídos por los atributos más significativos.
Hemos propuesto una variante que solventa el problema pero que
precisa más tiempo de ejecución y que se respeten las propiedades de
las funciones de distancia.
Se han apreciado diferencias entre las estrategias evolutivas empleadas.
Relajar algunas restricciones de las funciones de distancia nos ha
hecho encontrar propiedades interesantes.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 24 / 26
43. Líneas futuras
Experimentación con dominios reales.
Tratamiento o restricción de las “distancias negativas”.
Codificación de los centros en el cromosoma.
Uso de otros método de clasificación basados en prototipos y otras
técnicas para optimizar las distancias.
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 25 / 26
44. Turno de preguntas
Gracias por su atención
Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 26 / 26