SlideShare une entreprise Scribd logo
1  sur  44
Télécharger pour lire hors ligne
Evolución de distancias para clasificadores
                 basados en prototipos

                                  Christian Felipe Álvarez

                                    Ingeniería en Informática


                                   19 de mayo de 2010


Christian Felipe Álvarez (UC3M)       Proyecto Fin de Carrera   19/05/2010   1 / 26
Índice

1   Introducción
      Objetivos
      Fundamentos

2   Definición del método
     Clasificación
     Optimización de la función de distancia

3   Implementación

4   Experimentación

5   Variante al método propuesto

6   Conclusiones y líneas futuras


Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera   19/05/2010   2 / 26
Objetivos


      Realizar un estudio sobre la optimización de funciones de distancia
      mediante algoritmos de inspiración biológica en clasificadores basados
      en prototipos.

             Definición del método de clasificación.
             Optimización de la función de distancia.
             Integración de la optimización de la distancia en el método de
             clasificación.

             Implementación del algoritmo definido.
             Experimentación y análisis de los resultados.




Christian Felipe Álvarez (UC3M)    Proyecto Fin de Carrera           19/05/2010   3 / 26
Fundamentos




     K-Medias

     Funciones de distancia

     Estrategias Evolutivas




Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera   19/05/2010   4 / 26
Fundamentos



                                         d (x, y ) =         (x − y )M · M T (x − y )T



     K-Medias

     Funciones de distancia
                                                            1 0                  1 0
                                      M · MT =                     M · MT =
                                                            0 1                  0 10
     Estrategias Evolutivas




                                                                          1
                                                                      1
                                                       M · MT =       1
                                                                          2
                                                                      2   2
Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera                  19/05/2010    4 / 26
Fundamentos



                                      Son técnicas de computación evolutiva en
                                   las que se optimizan valores reales.
     K-Medias
                                          Estrategias Evolutivas (1+1)
     Funciones de distancia
                                          Estrategias Evolutivas con poblaciones
     Estrategias Evolutivas
                                          CMA-ES (Covarianze Matrix Adaptation
                                          Evolution Strategy )




Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera          19/05/2010   4 / 26
Definición del algoritmo
El método de clasificación




                Clasificación según el centro más cercano

  1   Se fija el número de centros por clase: k.

  2   Se distribuyen los centros de cada clase mediante K-Medias.

  3   Para determinar la clase de los datos nuevos:

             Se calcula la distancia hasta todos los centros.

             Se establece su clase como la del centro más cercano.




Christian Felipe Álvarez (UC3M)    Proyecto Fin de Carrera           19/05/2010   5 / 26
Definición del algoritmo
El método de clasificación




Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera   19/05/2010   6 / 26
Definición del algoritmo
El método de clasificación




Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera   19/05/2010   6 / 26
Definición del algoritmo
El método de clasificación




Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera   19/05/2010   6 / 26
Definición del algoritmo
El método de clasificación




Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera   19/05/2010   6 / 26
Definición del algoritmo
El método de clasificación




Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera   19/05/2010   6 / 26
Definición del algoritmo
El método de clasificación




Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera   19/05/2010   6 / 26
Definición del algoritmo
El método de clasificación




Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera   19/05/2010   6 / 26
Definición del algoritmo
El método de clasificación




Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera   19/05/2010   6 / 26
Definición del algoritmo
Optimización de la función de distancia




    Optimización de la función de Distancia Euclídea Generalizada



                           d (x, y ) =     (x − y )M · M T (x − y )T



      Objetivo: maximizar la tasa de aciertos en clasificación

      Uso de estrategias evolutivas ⇒ codificación + cálculo del fitness



Christian Felipe Álvarez (UC3M)          Proyecto Fin de Carrera       19/05/2010   7 / 26
Definición del algoritmo
Optimización de la función de distancia



               Codificación del problema: consideraciones.

      Optimización de la matriz M · M T , no de M.

      Número de funciones de distancia:

             Una matriz por clase.
             Una matriz por centro.

      Forma de las matrices:

             Matrices diagonales.
             Matrices simétricas (M · M T siempre lo es).


Christian Felipe Álvarez (UC3M)      Proyecto Fin de Carrera   19/05/2010   8 / 26
Definición del algoritmo
Optimización de la función de distancia




                Fitness = “Número de fallos en la clasificación”

                 Codificación de m matrices en el cromosoma:

                                  C = c1 c2 · · ·               cm

                                                                            
                                                   m1,1 m1,2 · · ·      m1,n
                                                   m2,1 m2,2 · · ·     m2,n 
     Matrices diagonales
                                        ci ↔ Mi =  .     .              . 
                                                                            
                                                   .     .    ..        . 
                                                     .    .       .      .
     Matrices simétricas
                                                    mn,1 mn,2 · · ·     mn,n



Christian Felipe Álvarez (UC3M)       Proyecto Fin de Carrera        19/05/2010   9 / 26
Definición del algoritmo
Optimización de la función de distancia




                Fitness = “Número de fallos en la clasificación”

                 Codificación de m matrices en el cromosoma:

                                  C = c1 c2 · · ·               cm

                                                                          
                                                     m1,1 m1,2 · · · m1,n
                                                     m2,1 m2,2 · · · m2,n 
     Matrices diagonales
                                         ci ↔ M i =  .     .          . 
                                                                          
                                                       .    .    ..    . 
                                                     .     .       .  .
     Matrices simétricas
                                                      mn,1 mn,2 · · · mn,n



Christian Felipe Álvarez (UC3M)       Proyecto Fin de Carrera        19/05/2010   9 / 26
Definición del algoritmo
Optimización de la función de distancia




    Problema: no todas las matrices reales dan lugar a distancias válidas.

                    “Si M · M T no es definida positiva el cuadrado
                           de la distancia puede ser negativo”.

Soluciones:

 × Restringir a matrices definidas
      positivas.
                                                 → Es necesario realizar operaciones
      Restringir a matrices con todos los              demasiado costosas.
      elementos no negativos.
      Considerar las distancias de
      cuadrado negativo como infinitas.


 Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera              19/05/2010   10 / 26
Definición del algoritmo
Optimización de la función de distancia




    Problema: no todas las matrices reales dan lugar a distancias válidas.

                    “Si M · M T no es definida positiva el cuadrado
                           de la distancia puede ser negativo”.

Soluciones:
                                                 → Quedan matrices definidas positivas
 × Restringir a matrices definidas                      fuera del espacio de búsqueda.
      positivas.
                                                 → Implementación directa: uso del
      Restringir a matrices con todos los          valor absoluto.
      elementos no negativos.
                                                 → Se introducen redundancias en la
      Considerar las distancias de                 representación.
      cuadrado negativo como infinitas.


 Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera               19/05/2010     10 / 26
Definición del algoritmo
Optimización de la función de distancia




    Problema: no todas las matrices reales dan lugar a distancias válidas.

                    “Si M · M T no es definida positiva el cuadrado
                           de la distancia puede ser negativo”.

Soluciones:

 × Restringir a matrices definidas
      positivas.
                                                 → Se relajan algunas propiedades de
      Restringir a matrices con todos los              las funciones de distancia.
      elementos no negativos.
      Considerar las distancias de
      cuadrado negativo como infinitas.


 Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera                19/05/2010   10 / 26
Implementación
Características de la aplicación

       Uso de un fichero de configuración.

              Parámetros propios del método.
              Parámetros de las técnicas de optimización.

       Uso de distintas técnicas de optimización para la misma ejecución.

       Evaluación del clasificador: validación cruzada.

       Posibilidad de calcular y obtener los centros y la matriz con todos
       los datos.

       Datos de salida: porcentaje de aciertos y tiempo de ejecución.

       Implementación en Java.

       Disponible en http://www.lab.inf.uc3m.es/~christian/kmes.
 Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera    19/05/2010   11 / 26
Implementación
Estructura de la aplicación




 Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera   19/05/2010   12 / 26
Implementación
Funcionamiento




Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera   19/05/2010   13 / 26
Implementación
Funcionamiento


                                  Salida del programa




Christian Felipe Álvarez (UC3M)      Proyecto Fin de Carrera   19/05/2010   14 / 26
Experimentación
Objetivos y estructura

Objetivos de la experimentación:

      Comprobar y explicar el funcionamiento.

      Detectar ventajas e inconvenientes del método.

¿En qué consiste?

      Diseño de cinco dominios sintéticos.

      Ejecución de pruebas.
             Distintos parámetros.
             Optimización con EE-(1+1), EE-Múltiples y CMA-ES.

      Interpretación de los resultados.
Christian Felipe Álvarez (UC3M)      Proyecto Fin de Carrera     19/05/2010   15 / 26
Experimentación
Dominio 1: nubes alineadas



Dominio sencillo, muestra la necesidad
de ponderar la distancia.                              Uso de un centro por clase.

                                               Resultados:
                                                               Diagonales   Simétricas
                                                  Euclídea        50 %        50 %
                                                 CMA-ES          100 %        100 %
                                                 EE-(1+1)        100 %        100 %
                                                   EE-M          100 %        100 %


                                                       Mayor tiempo para matrices
                                                       simétricas.



 Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera              19/05/2010   16 / 26
Experimentación
Dominio 1: nubes alineadas



Dominio sencillo, muestra la necesidad
de ponderar la distancia.                              Uso de un centro por clase.

                                               Resultados:
                                                               Diagonales   Simétricas
                                                  Euclídea        50 %        50 %
                                                 CMA-ES          100 %        100 %
                                                 EE-(1+1)        100 %        100 %
                                                   EE-M          100 %        100 %


                                                       Mayor tiempo para matrices
                                                       simétricas.



 Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera              19/05/2010   16 / 26
Experimentación
Dominio 1: nubes alineadas




Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera   19/05/2010   17 / 26
Experimentación
Dominio 2: nubes reflejo


Dominio que muestra la necesidad de            Resultados:
ajustar ciertos parámetros.                            Utilizando una matriz por centro:
   - Número de centros.                                      Centros   Euclídea   GED opt.
   - Matriz por clase o por centro.                             1       60 %        75 %
                                                                2      60,33 %     100 %
                                                                3       92 %       100 %
                                                                4       100 %      100 %

                                                       Utilizando una matriz por clase y
                                                       dos centros:
                                                               60 % de aciertos con la
                                                               distancia Euclídea.
                                                               80,66 % con la GED
                                                               optimizada.

 Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera                  19/05/2010   18 / 26
Experimentación
Dominio 2: nubes reflejo


Dominio que muestra la necesidad de            Resultados:
ajustar ciertos parámetros.                            Utilizando una matriz por centro:
   - Número de centros.                                      Centros   Euclídea   GED opt.
   - Matriz por clase o por centro.                             1       60 %        75 %
                                                                2      60,33 %     100 %
                                                                3       92 %       100 %
                                                                4       100 %      100 %

                                                       Utilizando una matriz por clase y
                                                       dos centros:
                                                               60 % de aciertos con la
                                                               distancia Euclídea.
                                                               80,66 % con la GED
                                                               optimizada.

 Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera                  19/05/2010   18 / 26
Experimentación
Dominio 3: nubes rotadas



Dominio basado en el primero, aplicando                Uso de un centro por clase
una rotación de 45o .
                                               Resultados:
                                                               Diagonales    Simétricas
                                                  Euclídea        50 %         50 %
                                                 CMA-ES         98,75 %        100 %
                                                 EE-(1+1)        100 %         100 %
                                                   EE-M           99 %         100 %


                                                 → Mayor tiempo con las diagonales.
                                                       75 % de aciertos con matrices
                                                       diagonales y positivas.



 Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera               19/05/2010    19 / 26
Experimentación
Dominio 3: nubes rotadas



Dominio basado en el primero, aplicando                Uso de un centro por clase
una rotación de 45o .
                                               Resultados:
                                                               Diagonales    Simétricas
                                                  Euclídea        50 %         50 %
                                                 CMA-ES         98,75 %        100 %
                                                 EE-(1+1)        100 %         100 %
                                                   EE-M           99 %         100 %


                                                 → Mayor tiempo con las diagonales.
                                                       75 % de aciertos con matrices
                                                       diagonales y positivas.



 Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera               19/05/2010    19 / 26
Experimentación
Dominio 4: elipses



Dominio más realista basado en nubes
reflejo.                                                Uso de dos centros por clase.

                                               Resultados:
                                                               Diagonales   Simétricas
                                                  Euclídea      73,69 %      73,69 %
                                                 CMA-ES         99,62 %      97,57 %
                                                 EE-(1+1)       98,13 %      95,52 %
                                                   EE-M         96,64 %      95,70 %


                                                 → Tiempo mucho mayor utilizando
                                                   distancias simétricas.



 Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera              19/05/2010   20 / 26
Experimentación
Dominio 4: elipses



Dominio más realista basado en nubes
reflejo.                                                Uso de dos centros por clase.

                                               Resultados:
                                                               Diagonales   Simétricas
                                                  Euclídea      73,69 %      73,69 %
                                                 CMA-ES         99,62 %      97,57 %
                                                 EE-(1+1)       98,13 %      95,52 %
                                                   EE-M         96,64 %      95,70 %


                                                 → Tiempo mucho mayor utilizando
                                                   distancias simétricas.



 Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera              19/05/2010   20 / 26
Experimentación
Dominio 5: atributos aleatorios



Dominio para comprobar si se pueden
discriminar atributos irrelevantes.                       Resultados:
                                                                No se logra superar el 52 % de
      Cuatro atributos: x1 , x2 , x3 , x4 .                     aciertos de la distancia
                                                                Euclídea.
      x1 y x2 ∈ [0, 1].
                                                    → Los centros se sitúan
      x3 y x4 ∈ [0, 100].
                                                      inicialmente mediante distancia
      Si x1 > x2 de clase 0,                          Euclídea.
      si no de clase 1.                             → Los atributos x3 y x4 son mucho
      x3 y x4 son irrelevantes.                       más significativos.




 Christian Felipe Álvarez (UC3M)      Proyecto Fin de Carrera                19/05/2010   21 / 26
Experimentación
Dominio 5: atributos aleatorios



Dominio para comprobar si se pueden
discriminar atributos irrelevantes.                       Resultados:
                                                                No se logra superar el 52 % de
      Cuatro atributos: x1 , x2 , x3 , x4 .                     aciertos de la distancia
                                                                Euclídea.
      x1 y x2 ∈ [0, 1].
                                                    → Los centros se sitúan
      x3 y x4 ∈ [0, 100].
                                                      inicialmente mediante distancia
      Si x1 > x2 de clase 0,                          Euclídea.
      si no de clase 1.                             → Los atributos x3 y x4 son mucho
      x3 y x4 son irrelevantes.                       más significativos.




 Christian Felipe Álvarez (UC3M)      Proyecto Fin de Carrera                19/05/2010   21 / 26
Experimentación
Dominio 5: atributos aleatorios



Dominio para comprobar si se pueden
discriminar atributos irrelevantes.                       Resultados:
                                                                No se logra superar el 52 % de
      Cuatro atributos: x1 , x2 , x3 , x4 .                     aciertos de la distancia
                                                                Euclídea.
      x1 y x2 ∈ [0, 1].
                                                    → Los centros se sitúan
      x3 y x4 ∈ [0, 100].
                                                      inicialmente mediante distancia
      Si x1 > x2 de clase 0,                          Euclídea.
      si no de clase 1.                             → Los atributos x3 y x4 son mucho
      x3 y x4 son irrelevantes.                       más significativos.




 Christian Felipe Álvarez (UC3M)      Proyecto Fin de Carrera                19/05/2010   21 / 26
Variante propuesta
Características



                  “ Volver a ubicar los centros para cada matriz y
               favorecer las matrices con valores cercanos a cero”

       Volver a situar los centros con K-Medias.
         → Penalización si K-Medias no converge en 1000 iteraciones.
         → Uso de matrices positivas para evitar esto en parte.
       Nuevos parámetros en la función de fitness.
         → Se tiene en cuenta el número de ceros en el cromosoma.
         → Se tiene en cuenta el valor absoluto.
       Nuevo operador genético.
         → En cada iteración se pone un valor del cromosoma a cero con cierta
           probabilidad.


 Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera        19/05/2010   22 / 26
Variante propuesta
Resultados

      Resultados representativos del CMA-ES.
                  Dominio           Fitness centros fijos      Fitness K-Medias
              Nubes alineadas              100 %                    100 %
                Nubes reflejo               100 %                    82 %
               Nubes rotadas               100 %                    75 %
                   Elipses                99,52 %                  88,99 %
             Atributos aleatorios           50 %                   97,00 %

      En el dominio atributos aleatorios:
             Se alcanzan resultados próximos al 100 % de aciertos.
             Con el nuevo operador genético se converge muy rápidamente.
      En el resto de dominios:
             Aumenta mucho el tiempo de cómputo.
             Se necesitan más iteraciones.
Christian Felipe Álvarez (UC3M)     Proyecto Fin de Carrera             19/05/2010   23 / 26
Conclusiones


      El diseño de dominios y la experimentación han permitido comprender
      y evaluar el método propuesto.

      El algoritmo propuesto está limitado por la disposición de los centros,
      influídos por los atributos más significativos.

      Hemos propuesto una variante que solventa el problema pero que
      precisa más tiempo de ejecución y que se respeten las propiedades de
      las funciones de distancia.

      Se han apreciado diferencias entre las estrategias evolutivas empleadas.

      Relajar algunas restricciones de las funciones de distancia nos ha
      hecho encontrar propiedades interesantes.


Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera      19/05/2010   24 / 26
Líneas futuras




      Experimentación con dominios reales.

      Tratamiento o restricción de las “distancias negativas”.

      Codificación de los centros en el cromosoma.

      Uso de otros método de clasificación basados en prototipos y otras
      técnicas para optimizar las distancias.




Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera        19/05/2010   25 / 26
Turno de preguntas




                            Gracias por su atención




Christian Felipe Álvarez (UC3M)   Proyecto Fin de Carrera   19/05/2010   26 / 26

Contenu connexe

En vedette

En vedette (20)

Eoi. flor ceci-maca-geri-meli
Eoi. flor ceci-maca-geri-meliEoi. flor ceci-maca-geri-meli
Eoi. flor ceci-maca-geri-meli
 
Proyecto Sexualidad y Salud - La Adolescencia.
Proyecto Sexualidad y Salud - La Adolescencia.Proyecto Sexualidad y Salud - La Adolescencia.
Proyecto Sexualidad y Salud - La Adolescencia.
 
Geronimo.doc
Geronimo.docGeronimo.doc
Geronimo.doc
 
Ventajas y desventajas tics
Ventajas y desventajas ticsVentajas y desventajas tics
Ventajas y desventajas tics
 
Inventamos un conto2
Inventamos un conto2Inventamos un conto2
Inventamos un conto2
 
Klassische Artikulationsschemata
Klassische ArtikulationsschemataKlassische Artikulationsschemata
Klassische Artikulationsschemata
 
Planificació de treball
Planificació de treballPlanificació de treball
Planificació de treball
 
Presentacion de cuatrimotos
Presentacion de cuatrimotosPresentacion de cuatrimotos
Presentacion de cuatrimotos
 
Finanzierungsmöglichkeiten von IT-Unternehmen durch die Hausbank
Finanzierungsmöglichkeiten von IT-Unternehmen durch die HausbankFinanzierungsmöglichkeiten von IT-Unternehmen durch die Hausbank
Finanzierungsmöglichkeiten von IT-Unternehmen durch die Hausbank
 
Tp de las tic
Tp de las ticTp de las tic
Tp de las tic
 
Los simbolos patrios
Los simbolos patriosLos simbolos patrios
Los simbolos patrios
 
Radio y televisión
Radio y televisiónRadio y televisión
Radio y televisión
 
Presentacion grupo 1.5.
Presentacion  grupo 1.5.Presentacion  grupo 1.5.
Presentacion grupo 1.5.
 
Aufgabenformate zur Análisis
Aufgabenformate zur AnálisisAufgabenformate zur Análisis
Aufgabenformate zur Análisis
 
Unternehmensfinanzierung mit Banken
Unternehmensfinanzierung mit BankenUnternehmensfinanzierung mit Banken
Unternehmensfinanzierung mit Banken
 
Curso computación2010 2011
Curso computación2010 2011Curso computación2010 2011
Curso computación2010 2011
 
Trabajo práctico n 18
Trabajo práctico n 18Trabajo práctico n 18
Trabajo práctico n 18
 
Electroestimuladores
ElectroestimuladoresElectroestimuladores
Electroestimuladores
 
Elliderazgo
ElliderazgoElliderazgo
Elliderazgo
 
Segunda parte n°8
Segunda parte n°8Segunda parte n°8
Segunda parte n°8
 

Similaire à Evolución de distancias para clasificadores basados en prototipos

Optimización de sistemas y funciones
Optimización de sistemas y funcionesOptimización de sistemas y funciones
Optimización de sistemas y funcionesjosealexanderlopez
 
RESOLUCIÓN EXACTA DEL MODELO DEL MÁXIMO PROMEDIO PARA EL PROBLEMA DE LA DISPE...
RESOLUCIÓN EXACTA DEL MODELO DEL MÁXIMO PROMEDIO PARA EL PROBLEMA DE LA DISPE...RESOLUCIÓN EXACTA DEL MODELO DEL MÁXIMO PROMEDIO PARA EL PROBLEMA DE LA DISPE...
RESOLUCIÓN EXACTA DEL MODELO DEL MÁXIMO PROMEDIO PARA EL PROBLEMA DE LA DISPE...Fernandoss2
 
Unidad1 Teoría de Errores
Unidad1 Teoría de ErroresUnidad1 Teoría de Errores
Unidad1 Teoría de Erroreslimber heredia
 
Unidad 1.teoria de errores
Unidad 1.teoria de erroresUnidad 1.teoria de errores
Unidad 1.teoria de erroresLuis Gala Nevew
 
Universidad_Autonoma_de_Queretaro_IMPLEM.pdf
Universidad_Autonoma_de_Queretaro_IMPLEM.pdfUniversidad_Autonoma_de_Queretaro_IMPLEM.pdf
Universidad_Autonoma_de_Queretaro_IMPLEM.pdfarturoruizlopez1
 
Teoria de errores Electronica
Teoria de errores ElectronicaTeoria de errores Electronica
Teoria de errores ElectronicaTensor
 
4. aplicaciones del triangulo
4. aplicaciones del triangulo4. aplicaciones del triangulo
4. aplicaciones del trianguloCristhian Sarango
 
Metodo de asigancion milagros
Metodo de asigancion milagrosMetodo de asigancion milagros
Metodo de asigancion milagrosmilagros mercado
 
Secuencia Didactica Fisica
Secuencia Didactica FisicaSecuencia Didactica Fisica
Secuencia Didactica Fisicaissaak
 
Investigación de operaciones I y II.pptx
Investigación de operaciones I y II.pptxInvestigación de operaciones I y II.pptx
Investigación de operaciones I y II.pptxluisfernando570687
 
ANÁLISIS DIMENSIONALhgjghghngbgufdhjhkyfkhg
ANÁLISIS DIMENSIONALhgjghghngbgufdhjhkyfkhgANÁLISIS DIMENSIONALhgjghghngbgufdhjhkyfkhg
ANÁLISIS DIMENSIONALhgjghghngbgufdhjhkyfkhgFoxy963
 
Clustering.ppt
Clustering.pptClustering.ppt
Clustering.pptnicoals2
 
Medidas tendencia-central
Medidas tendencia-centralMedidas tendencia-central
Medidas tendencia-centralCarlos Franco
 
Introduccion a programacion lineal u de manizales
Introduccion a programacion lineal   u de manizalesIntroduccion a programacion lineal   u de manizales
Introduccion a programacion lineal u de manizales'Rsn Sndvl
 

Similaire à Evolución de distancias para clasificadores basados en prototipos (20)

Optimización de sistemas y funciones
Optimización de sistemas y funcionesOptimización de sistemas y funciones
Optimización de sistemas y funciones
 
RESOLUCIÓN EXACTA DEL MODELO DEL MÁXIMO PROMEDIO PARA EL PROBLEMA DE LA DISPE...
RESOLUCIÓN EXACTA DEL MODELO DEL MÁXIMO PROMEDIO PARA EL PROBLEMA DE LA DISPE...RESOLUCIÓN EXACTA DEL MODELO DEL MÁXIMO PROMEDIO PARA EL PROBLEMA DE LA DISPE...
RESOLUCIÓN EXACTA DEL MODELO DEL MÁXIMO PROMEDIO PARA EL PROBLEMA DE LA DISPE...
 
Unidad1 Teoría de Errores
Unidad1 Teoría de ErroresUnidad1 Teoría de Errores
Unidad1 Teoría de Errores
 
Unidad 1.teoria de errores
Unidad 1.teoria de erroresUnidad 1.teoria de errores
Unidad 1.teoria de errores
 
Universidad_Autonoma_de_Queretaro_IMPLEM.pdf
Universidad_Autonoma_de_Queretaro_IMPLEM.pdfUniversidad_Autonoma_de_Queretaro_IMPLEM.pdf
Universidad_Autonoma_de_Queretaro_IMPLEM.pdf
 
Presentación 7.pptx
Presentación 7.pptxPresentación 7.pptx
Presentación 7.pptx
 
Teoria de errores Electronica
Teoria de errores ElectronicaTeoria de errores Electronica
Teoria de errores Electronica
 
Optimización. Métodos numéricos
Optimización. Métodos numéricosOptimización. Métodos numéricos
Optimización. Métodos numéricos
 
4. aplicaciones del triangulo
4. aplicaciones del triangulo4. aplicaciones del triangulo
4. aplicaciones del triangulo
 
Metodo de asigancion milagros
Metodo de asigancion milagrosMetodo de asigancion milagros
Metodo de asigancion milagros
 
Secuencia Didactica Fisica
Secuencia Didactica FisicaSecuencia Didactica Fisica
Secuencia Didactica Fisica
 
Investigación de operaciones I y II.pptx
Investigación de operaciones I y II.pptxInvestigación de operaciones I y II.pptx
Investigación de operaciones I y II.pptx
 
ANÁLISIS DIMENSIONALhgjghghngbgufdhjhkyfkhg
ANÁLISIS DIMENSIONALhgjghghngbgufdhjhkyfkhgANÁLISIS DIMENSIONALhgjghghngbgufdhjhkyfkhg
ANÁLISIS DIMENSIONALhgjghghngbgufdhjhkyfkhg
 
Clustering.ppt
Clustering.pptClustering.ppt
Clustering.ppt
 
ESTRATEGIAS PARA RESOLVER PROBLEMAS DE LA PRUEBA ENLACE
ESTRATEGIAS PARA RESOLVER PROBLEMAS DE LA PRUEBA ENLACEESTRATEGIAS PARA RESOLVER PROBLEMAS DE LA PRUEBA ENLACE
ESTRATEGIAS PARA RESOLVER PROBLEMAS DE LA PRUEBA ENLACE
 
Estrategias para resolver problemas de la prueba enlace
Estrategias para resolver problemas de la prueba enlaceEstrategias para resolver problemas de la prueba enlace
Estrategias para resolver problemas de la prueba enlace
 
Wiris sistemas
Wiris sistemasWiris sistemas
Wiris sistemas
 
Medidas tendencia-central
Medidas tendencia-centralMedidas tendencia-central
Medidas tendencia-central
 
A01213521 diagramas
A01213521 diagramasA01213521 diagramas
A01213521 diagramas
 
Introduccion a programacion lineal u de manizales
Introduccion a programacion lineal   u de manizalesIntroduccion a programacion lineal   u de manizales
Introduccion a programacion lineal u de manizales
 

Evolución de distancias para clasificadores basados en prototipos

  • 1. Evolución de distancias para clasificadores basados en prototipos Christian Felipe Álvarez Ingeniería en Informática 19 de mayo de 2010 Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 1 / 26
  • 2. Índice 1 Introducción Objetivos Fundamentos 2 Definición del método Clasificación Optimización de la función de distancia 3 Implementación 4 Experimentación 5 Variante al método propuesto 6 Conclusiones y líneas futuras Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 2 / 26
  • 3. Objetivos Realizar un estudio sobre la optimización de funciones de distancia mediante algoritmos de inspiración biológica en clasificadores basados en prototipos. Definición del método de clasificación. Optimización de la función de distancia. Integración de la optimización de la distancia en el método de clasificación. Implementación del algoritmo definido. Experimentación y análisis de los resultados. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 3 / 26
  • 4. Fundamentos K-Medias Funciones de distancia Estrategias Evolutivas Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 4 / 26
  • 5. Fundamentos d (x, y ) = (x − y )M · M T (x − y )T K-Medias Funciones de distancia 1 0 1 0 M · MT = M · MT = 0 1 0 10 Estrategias Evolutivas 1 1 M · MT = 1 2 2 2 Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 4 / 26
  • 6. Fundamentos Son técnicas de computación evolutiva en las que se optimizan valores reales. K-Medias Estrategias Evolutivas (1+1) Funciones de distancia Estrategias Evolutivas con poblaciones Estrategias Evolutivas CMA-ES (Covarianze Matrix Adaptation Evolution Strategy ) Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 4 / 26
  • 7. Definición del algoritmo El método de clasificación Clasificación según el centro más cercano 1 Se fija el número de centros por clase: k. 2 Se distribuyen los centros de cada clase mediante K-Medias. 3 Para determinar la clase de los datos nuevos: Se calcula la distancia hasta todos los centros. Se establece su clase como la del centro más cercano. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 5 / 26
  • 8. Definición del algoritmo El método de clasificación Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
  • 9. Definición del algoritmo El método de clasificación Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
  • 10. Definición del algoritmo El método de clasificación Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
  • 11. Definición del algoritmo El método de clasificación Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
  • 12. Definición del algoritmo El método de clasificación Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
  • 13. Definición del algoritmo El método de clasificación Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
  • 14. Definición del algoritmo El método de clasificación Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
  • 15. Definición del algoritmo El método de clasificación Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
  • 16. Definición del algoritmo Optimización de la función de distancia Optimización de la función de Distancia Euclídea Generalizada d (x, y ) = (x − y )M · M T (x − y )T Objetivo: maximizar la tasa de aciertos en clasificación Uso de estrategias evolutivas ⇒ codificación + cálculo del fitness Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 7 / 26
  • 17. Definición del algoritmo Optimización de la función de distancia Codificación del problema: consideraciones. Optimización de la matriz M · M T , no de M. Número de funciones de distancia: Una matriz por clase. Una matriz por centro. Forma de las matrices: Matrices diagonales. Matrices simétricas (M · M T siempre lo es). Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 8 / 26
  • 18. Definición del algoritmo Optimización de la función de distancia Fitness = “Número de fallos en la clasificación” Codificación de m matrices en el cromosoma: C = c1 c2 · · · cm   m1,1 m1,2 · · · m1,n  m2,1 m2,2 · · · m2,n  Matrices diagonales ci ↔ Mi =  . . .     . . .. .  . . . . Matrices simétricas mn,1 mn,2 · · · mn,n Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 9 / 26
  • 19. Definición del algoritmo Optimización de la función de distancia Fitness = “Número de fallos en la clasificación” Codificación de m matrices en el cromosoma: C = c1 c2 · · · cm   m1,1 m1,2 · · · m1,n  m2,1 m2,2 · · · m2,n  Matrices diagonales ci ↔ M i =  . . .    . . .. .   . . . . Matrices simétricas mn,1 mn,2 · · · mn,n Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 9 / 26
  • 20. Definición del algoritmo Optimización de la función de distancia Problema: no todas las matrices reales dan lugar a distancias válidas. “Si M · M T no es definida positiva el cuadrado de la distancia puede ser negativo”. Soluciones: × Restringir a matrices definidas positivas. → Es necesario realizar operaciones Restringir a matrices con todos los demasiado costosas. elementos no negativos. Considerar las distancias de cuadrado negativo como infinitas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 10 / 26
  • 21. Definición del algoritmo Optimización de la función de distancia Problema: no todas las matrices reales dan lugar a distancias válidas. “Si M · M T no es definida positiva el cuadrado de la distancia puede ser negativo”. Soluciones: → Quedan matrices definidas positivas × Restringir a matrices definidas fuera del espacio de búsqueda. positivas. → Implementación directa: uso del Restringir a matrices con todos los valor absoluto. elementos no negativos. → Se introducen redundancias en la Considerar las distancias de representación. cuadrado negativo como infinitas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 10 / 26
  • 22. Definición del algoritmo Optimización de la función de distancia Problema: no todas las matrices reales dan lugar a distancias válidas. “Si M · M T no es definida positiva el cuadrado de la distancia puede ser negativo”. Soluciones: × Restringir a matrices definidas positivas. → Se relajan algunas propiedades de Restringir a matrices con todos los las funciones de distancia. elementos no negativos. Considerar las distancias de cuadrado negativo como infinitas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 10 / 26
  • 23. Implementación Características de la aplicación Uso de un fichero de configuración. Parámetros propios del método. Parámetros de las técnicas de optimización. Uso de distintas técnicas de optimización para la misma ejecución. Evaluación del clasificador: validación cruzada. Posibilidad de calcular y obtener los centros y la matriz con todos los datos. Datos de salida: porcentaje de aciertos y tiempo de ejecución. Implementación en Java. Disponible en http://www.lab.inf.uc3m.es/~christian/kmes. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 11 / 26
  • 24. Implementación Estructura de la aplicación Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 12 / 26
  • 25. Implementación Funcionamiento Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 13 / 26
  • 26. Implementación Funcionamiento Salida del programa Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 14 / 26
  • 27. Experimentación Objetivos y estructura Objetivos de la experimentación: Comprobar y explicar el funcionamiento. Detectar ventajas e inconvenientes del método. ¿En qué consiste? Diseño de cinco dominios sintéticos. Ejecución de pruebas. Distintos parámetros. Optimización con EE-(1+1), EE-Múltiples y CMA-ES. Interpretación de los resultados. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 15 / 26
  • 28. Experimentación Dominio 1: nubes alineadas Dominio sencillo, muestra la necesidad de ponderar la distancia. Uso de un centro por clase. Resultados: Diagonales Simétricas Euclídea 50 % 50 % CMA-ES 100 % 100 % EE-(1+1) 100 % 100 % EE-M 100 % 100 % Mayor tiempo para matrices simétricas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 16 / 26
  • 29. Experimentación Dominio 1: nubes alineadas Dominio sencillo, muestra la necesidad de ponderar la distancia. Uso de un centro por clase. Resultados: Diagonales Simétricas Euclídea 50 % 50 % CMA-ES 100 % 100 % EE-(1+1) 100 % 100 % EE-M 100 % 100 % Mayor tiempo para matrices simétricas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 16 / 26
  • 30. Experimentación Dominio 1: nubes alineadas Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 17 / 26
  • 31. Experimentación Dominio 2: nubes reflejo Dominio que muestra la necesidad de Resultados: ajustar ciertos parámetros. Utilizando una matriz por centro: - Número de centros. Centros Euclídea GED opt. - Matriz por clase o por centro. 1 60 % 75 % 2 60,33 % 100 % 3 92 % 100 % 4 100 % 100 % Utilizando una matriz por clase y dos centros: 60 % de aciertos con la distancia Euclídea. 80,66 % con la GED optimizada. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 18 / 26
  • 32. Experimentación Dominio 2: nubes reflejo Dominio que muestra la necesidad de Resultados: ajustar ciertos parámetros. Utilizando una matriz por centro: - Número de centros. Centros Euclídea GED opt. - Matriz por clase o por centro. 1 60 % 75 % 2 60,33 % 100 % 3 92 % 100 % 4 100 % 100 % Utilizando una matriz por clase y dos centros: 60 % de aciertos con la distancia Euclídea. 80,66 % con la GED optimizada. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 18 / 26
  • 33. Experimentación Dominio 3: nubes rotadas Dominio basado en el primero, aplicando Uso de un centro por clase una rotación de 45o . Resultados: Diagonales Simétricas Euclídea 50 % 50 % CMA-ES 98,75 % 100 % EE-(1+1) 100 % 100 % EE-M 99 % 100 % → Mayor tiempo con las diagonales. 75 % de aciertos con matrices diagonales y positivas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 19 / 26
  • 34. Experimentación Dominio 3: nubes rotadas Dominio basado en el primero, aplicando Uso de un centro por clase una rotación de 45o . Resultados: Diagonales Simétricas Euclídea 50 % 50 % CMA-ES 98,75 % 100 % EE-(1+1) 100 % 100 % EE-M 99 % 100 % → Mayor tiempo con las diagonales. 75 % de aciertos con matrices diagonales y positivas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 19 / 26
  • 35. Experimentación Dominio 4: elipses Dominio más realista basado en nubes reflejo. Uso de dos centros por clase. Resultados: Diagonales Simétricas Euclídea 73,69 % 73,69 % CMA-ES 99,62 % 97,57 % EE-(1+1) 98,13 % 95,52 % EE-M 96,64 % 95,70 % → Tiempo mucho mayor utilizando distancias simétricas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 20 / 26
  • 36. Experimentación Dominio 4: elipses Dominio más realista basado en nubes reflejo. Uso de dos centros por clase. Resultados: Diagonales Simétricas Euclídea 73,69 % 73,69 % CMA-ES 99,62 % 97,57 % EE-(1+1) 98,13 % 95,52 % EE-M 96,64 % 95,70 % → Tiempo mucho mayor utilizando distancias simétricas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 20 / 26
  • 37. Experimentación Dominio 5: atributos aleatorios Dominio para comprobar si se pueden discriminar atributos irrelevantes. Resultados: No se logra superar el 52 % de Cuatro atributos: x1 , x2 , x3 , x4 . aciertos de la distancia Euclídea. x1 y x2 ∈ [0, 1]. → Los centros se sitúan x3 y x4 ∈ [0, 100]. inicialmente mediante distancia Si x1 > x2 de clase 0, Euclídea. si no de clase 1. → Los atributos x3 y x4 son mucho x3 y x4 son irrelevantes. más significativos. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 21 / 26
  • 38. Experimentación Dominio 5: atributos aleatorios Dominio para comprobar si se pueden discriminar atributos irrelevantes. Resultados: No se logra superar el 52 % de Cuatro atributos: x1 , x2 , x3 , x4 . aciertos de la distancia Euclídea. x1 y x2 ∈ [0, 1]. → Los centros se sitúan x3 y x4 ∈ [0, 100]. inicialmente mediante distancia Si x1 > x2 de clase 0, Euclídea. si no de clase 1. → Los atributos x3 y x4 son mucho x3 y x4 son irrelevantes. más significativos. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 21 / 26
  • 39. Experimentación Dominio 5: atributos aleatorios Dominio para comprobar si se pueden discriminar atributos irrelevantes. Resultados: No se logra superar el 52 % de Cuatro atributos: x1 , x2 , x3 , x4 . aciertos de la distancia Euclídea. x1 y x2 ∈ [0, 1]. → Los centros se sitúan x3 y x4 ∈ [0, 100]. inicialmente mediante distancia Si x1 > x2 de clase 0, Euclídea. si no de clase 1. → Los atributos x3 y x4 son mucho x3 y x4 son irrelevantes. más significativos. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 21 / 26
  • 40. Variante propuesta Características “ Volver a ubicar los centros para cada matriz y favorecer las matrices con valores cercanos a cero” Volver a situar los centros con K-Medias. → Penalización si K-Medias no converge en 1000 iteraciones. → Uso de matrices positivas para evitar esto en parte. Nuevos parámetros en la función de fitness. → Se tiene en cuenta el número de ceros en el cromosoma. → Se tiene en cuenta el valor absoluto. Nuevo operador genético. → En cada iteración se pone un valor del cromosoma a cero con cierta probabilidad. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 22 / 26
  • 41. Variante propuesta Resultados Resultados representativos del CMA-ES. Dominio Fitness centros fijos Fitness K-Medias Nubes alineadas 100 % 100 % Nubes reflejo 100 % 82 % Nubes rotadas 100 % 75 % Elipses 99,52 % 88,99 % Atributos aleatorios 50 % 97,00 % En el dominio atributos aleatorios: Se alcanzan resultados próximos al 100 % de aciertos. Con el nuevo operador genético se converge muy rápidamente. En el resto de dominios: Aumenta mucho el tiempo de cómputo. Se necesitan más iteraciones. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 23 / 26
  • 42. Conclusiones El diseño de dominios y la experimentación han permitido comprender y evaluar el método propuesto. El algoritmo propuesto está limitado por la disposición de los centros, influídos por los atributos más significativos. Hemos propuesto una variante que solventa el problema pero que precisa más tiempo de ejecución y que se respeten las propiedades de las funciones de distancia. Se han apreciado diferencias entre las estrategias evolutivas empleadas. Relajar algunas restricciones de las funciones de distancia nos ha hecho encontrar propiedades interesantes. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 24 / 26
  • 43. Líneas futuras Experimentación con dominios reales. Tratamiento o restricción de las “distancias negativas”. Codificación de los centros en el cromosoma. Uso de otros método de clasificación basados en prototipos y otras técnicas para optimizar las distancias. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 25 / 26
  • 44. Turno de preguntas Gracias por su atención Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 26 / 26