SlideShare une entreprise Scribd logo
1  sur  105
Télécharger pour lire hors ligne
Aproximaciones a S3 VM multiclase
M´ster en tecnolog´ del lenguaje en la web
 a                ıas


       Arkaitz Zubiaga Mendialdua

                   UNED


        29 de septiembre de 2008

     Director: V´
                ıctor Fresno Fern´ndez
                                 a
Clasificaci´n autom´tica de textos
                                  o       a


´
Indice
1    Clasificaci´n autom´tica de textos
               o       a
2    Motivaci´n
             o
3    ¿Por qu´ SVM?
            e
4    SVM
5    SVM multiclase
6    S3 VM
7    S3 VM multiclase
8    Alternativas para S3 VM multiclase
9    Experimentaci´n
                  o
10   Resultados
11   Conclusiones y trabajo futuro
12   Referencias y trabajo futuro

Arkaitz Zubiaga Mendialdua (UNED)        Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   2 / 43
Clasificaci´n autom´tica de textos
                                  o       a


¿Qu´ es?
   e

       Se dispone de una colecci´n de documentos:
                                o

                                                D = {d1 , ..., d|D| }




Arkaitz Zubiaga Mendialdua (UNED)        Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   3 / 43
Clasificaci´n autom´tica de textos
                                  o       a


¿Qu´ es?
   e

       Se dispone de una colecci´n de documentos:
                                o

                                                D = {d1 , ..., d|D| }


       Y una serie de categor´ predefinidas:
                             ıas

                                                C = {c1 , ..., c|C | }




Arkaitz Zubiaga Mendialdua (UNED)        Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   3 / 43
Clasificaci´n autom´tica de textos
                                  o       a


¿Qu´ es?
   e

       Se dispone de una colecci´n de documentos:
                                o

                                                D = {d1 , ..., d|D| }


       Y una serie de categor´ predefinidas:
                             ıas

                                                C = {c1 , ..., c|C | }


       La clasificaci´n se define como:
                    o

                                                  dj , ci ∈ D × C


Arkaitz Zubiaga Mendialdua (UNED)        Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   3 / 43
Clasificaci´n autom´tica de textos
                                  o       a


Caracter´
        ısticas




       Aprendizaje autom´tico
                        a
              Aprendizaje supervisado
              Aprendizaje semisupervisado




Arkaitz Zubiaga Mendialdua (UNED)        Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   4 / 43
Clasificaci´n autom´tica de textos
                                  o       a


Caracter´
        ısticas




       Aprendizaje autom´tico
                        a
              Aprendizaje supervisado
              Aprendizaje semisupervisado
       Taxonom´
              ıa
              Binaria
              Multiclase




Arkaitz Zubiaga Mendialdua (UNED)        Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   4 / 43
Motivaci´n
                                                o


´
Indice
1    Clasificaci´n autom´tica de textos
               o       a
2    Motivaci´n
             o
3    ¿Por qu´ SVM?
            e
4    SVM
5    SVM multiclase
6    S3 VM
7    S3 VM multiclase
8    Alternativas para S3 VM multiclase
9    Experimentaci´n
                  o
10   Resultados
11   Conclusiones y trabajo futuro
12   Referencias y trabajo futuro

Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   5 / 43
Motivaci´n
                                                o


Motivaci´n
        o



       Muchos estudios para clasificaci´n de texto plano (noticias), pero
                                      o
       menos sobre p´ginas web.
                    a




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   6 / 43
Motivaci´n
                                                o


Motivaci´n
        o



       Muchos estudios para clasificaci´n de texto plano (noticias), pero
                                      o
       menos sobre p´ginas web.
                     a
       Problema t´
                 ıpico de clasificaci´n de p´ginas web
                                    o      a
              Semisupervisado: pocos documentos etiquetados respecto a la
              colecci´n a clasificar.
                     o
              Multiclase: taxonom´ mayor que 2.
                                   ıa




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   6 / 43
Motivaci´n
                                                o


Motivaci´n
        o



       Muchos estudios para clasificaci´n de texto plano (noticias), pero
                                      o
       menos sobre p´ginas web.
                     a
       Problema t´
                 ıpico de clasificaci´n de p´ginas web
                                    o      a
              Semisupervisado: pocos documentos etiquetados respecto a la
              colecci´n a clasificar.
                     o
              Multiclase: taxonom´ mayor que 2.
                                   ıa
       T´cnica de clasificaci´n escogida: SVM.
        e                   o




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   6 / 43
Motivaci´n
                                                o


Motivaci´n
        o



       Muchos estudios para clasificaci´n de texto plano (noticias), pero
                                      o
       menos sobre p´ginas web.
                     a
       Problema t´
                 ıpico de clasificaci´n de p´ginas web
                                    o      a
              Semisupervisado: pocos documentos etiquetados respecto a la
              colecci´n a clasificar.
                     o
              Multiclase: taxonom´ mayor que 2.
                                   ıa
       T´cnica de clasificaci´n escogida: SVM.
        e                   o
              Problema: Poco trabajo para SVM semisupervisado multiclase




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   6 / 43
Motivaci´n
                                                o


Motivaci´n
        o



       Muchos estudios para clasificaci´n de texto plano (noticias), pero
                                      o
       menos sobre p´ginas web.
                     a
       Problema t´
                 ıpico de clasificaci´n de p´ginas web
                                    o      a
              Semisupervisado: pocos documentos etiquetados respecto a la
              colecci´n a clasificar.
                     o
              Multiclase: taxonom´ mayor que 2.
                                   ıa
       T´cnica de clasificaci´n escogida: SVM.
        e                   o
              Problema: Poco trabajo para SVM semisupervisado multiclase
              Necesidad de nuevas propuestas para resolver el problema planteado




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   6 / 43
¿Por qu´ SVM?
                                           e


´
Indice
1    Clasificaci´n autom´tica de textos
               o       a
2    Motivaci´n
             o
3    ¿Por qu´ SVM?
            e
4    SVM
5    SVM multiclase
6    S3 VM
7    S3 VM multiclase
8    Alternativas para S3 VM multiclase
9    Experimentaci´n
                  o
10   Resultados
11   Conclusiones y trabajo futuro
12   Referencias y trabajo futuro

Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   7 / 43
¿Por qu´ SVM?
                                           e


¿Por qu´ SVM?
       e




       Muchos estudios recientes: Bolelli et al. (2007); Bordes et al. (2007);
       Sun et al. (2007); Wang et al. (2007a,b); Zien et al. (2007);
       Heymann et al. (2008)).
       Mejores resultados que otras t´cnicas para clasificaci´n de textos.
                                     e                      o
       La utilizaci´n de un kernel facilita la tarea de clasificaci´n para zonas
                   o                                              o
       disjuntas.




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   8 / 43
¿Por qu´ SVM?
                                           e


Comparativa con otras t´cnicas
                       e




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   9 / 43
¿Por qu´ SVM?
                                           e


Comparativa con otras t´cnicas
                       e




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   10 / 43
¿Por qu´ SVM?
                                           e


Comparativa con otras t´cnicas
                       e




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   11 / 43
SVM


´
Indice
1    Clasificaci´n autom´tica de textos
               o       a
2    Motivaci´n
             o
3    ¿Por qu´ SVM?
            e
4    SVM
5    SVM multiclase
6    S3 VM
7    S3 VM multiclase
8    Alternativas para S3 VM multiclase
9    Experimentaci´n
                  o
10   Resultados
11   Conclusiones y trabajo futuro
12   Referencias y trabajo futuro

Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   12 / 43
SVM


SVM




       Modelo espacio vectorial




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   13 / 43
SVM


SVM




       Modelo espacio vectorial
       B´squeda de hiperplano de separaci´n
        u                                o
              Maximizaci´n de margen
                        o




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   13 / 43
SVM


SVM

       Modelo espacio vectorial
       B´squeda de hiperplano de separaci´n
        u                                o
              Maximizaci´n de margen
                        o




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   13 / 43
SVM


SVM

       Modelo espacio vectorial
       B´squeda de hiperplano de separaci´n
        u                                o
              Maximizaci´n de margen
                        o




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   13 / 43
SVM


SVM

       Funci´n de optimizaci´n: f (x) = ω · x + b
            o               o




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   14 / 43
SVM


SVM

       Funci´n de optimizaci´n: f (x) = ω · x + b
            o               o




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   14 / 43
SVM


SVM

       Funci´n de optimizaci´n: f (x) = ω · x + b
            o               o




       Problema: Dificil de computar.
Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   14 / 43
SVM


SVM



       Se utiliza funci´n equivalente:
                       o
                                                                n
                                       1
                                    min ||ω||2 + C ·                ξid
                                       2
                                                              i=1

                         Sujeto a:     yi (ω · xi + b) ≥ 1 − ξi , ξi ≥ 0




Arkaitz Zubiaga Mendialdua (UNED)    Aproximaciones a S3 VM multiclase    29 de septiembre de 2008   15 / 43
SVM


SVM



       Se utiliza funci´n equivalente:
                       o
                                                                n
                                       1
                                    min ||ω||2 + C ·                ξid
                                       2
                                                              i=1

                         Sujeto a:     yi (ω · xi + b) ≥ 1 − ξi , ξi ≥ 0


       Utilizaci´n de funci´n de kernel para casos no lineales.
                o          o




Arkaitz Zubiaga Mendialdua (UNED)    Aproximaciones a S3 VM multiclase    29 de septiembre de 2008   15 / 43
SVM


SVM



       Se utiliza funci´n equivalente:
                       o
                                                                n
                                       1
                                    min ||ω||2 + C ·                ξid
                                       2
                                                              i=1

                         Sujeto a:     yi (ω · xi + b) ≥ 1 − ξi , ξi ≥ 0


       Utilizaci´n de funci´n de kernel para casos no lineales.
                o          o
       ´
       Unicamente resuelve problemas binarios y supervisados.




Arkaitz Zubiaga Mendialdua (UNED)    Aproximaciones a S3 VM multiclase    29 de septiembre de 2008   15 / 43
SVM multiclase


´
Indice
1    Clasificaci´n autom´tica de textos
               o       a
2    Motivaci´n
             o
3    ¿Por qu´ SVM?
            e
4    SVM
5    SVM multiclase
6    S3 VM
7    S3 VM multiclase
8    Alternativas para S3 VM multiclase
9    Experimentaci´n
                  o
10   Resultados
11   Conclusiones y trabajo futuro
12   Referencias y trabajo futuro

Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   16 / 43
SVM multiclase


SVM multiclase




       Aproximaciones a SVM multiclase:
              Directa.




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   17 / 43
SVM multiclase


SVM multiclase




       Aproximaciones a SVM multiclase:
              Directa.
              Combinaci´n de binarios.
                       o
                     One-against-one.
                     One-against-all.




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   17 / 43
SVM multiclase


SVM multiclase




       Aproximaciones a SVM multiclase:
              Directa.
              Combinaci´n de binarios.
                       o
                     One-against-one.
                     One-against-all.
       Se ha trabajado con colecciones supervisadas, pero apenas con
       semisupervisadas.




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   17 / 43
SVM multiclase


SVM multiclase: Aproximaci´n directa
                          o




       La funci´n de optimizaci´n tiene en cuenta todos los hiperplanos.
               o               o




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   18 / 43
SVM multiclase


SVM multiclase: Aproximaci´n directa
                          o




       La funci´n de optimizaci´n tiene en cuenta todos los hiperplanos.
               o               o
                                         n                         l
                                    1
                              m´
                               ın             ||wm ||2 + C                  ξim
                                    2
                                        m=1                      i=1 m=yi

Sujeto a:
                     wyi · xi + byi ≥ wm · xi + bm + 2 − ξim , ξim ≥ 0




Arkaitz Zubiaga Mendialdua (UNED)       Aproximaciones a S3 VM multiclase     29 de septiembre de 2008   18 / 43
SVM multiclase


SVM multiclase: One-against-one




                       k·(k−1)
       Construye          2         clasificadores binarios




Arkaitz Zubiaga Mendialdua (UNED)       Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   19 / 43
SVM multiclase


SVM multiclase: One-against-one


                       k·(k−1)
       Construye          2         clasificadores binarios




Arkaitz Zubiaga Mendialdua (UNED)       Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   19 / 43
SVM multiclase


SVM multiclase: One-against-one


                       k·(k−1)
       Construye          2         clasificadores binarios




Arkaitz Zubiaga Mendialdua (UNED)       Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   19 / 43
SVM multiclase


SVM multiclase: One-against-one


                       k·(k−1)
       Construye          2         clasificadores binarios




Arkaitz Zubiaga Mendialdua (UNED)       Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   19 / 43
SVM multiclase


SVM multiclase: One-against-one


                       k·(k−1)
       Construye          2         clasificadores binarios




Arkaitz Zubiaga Mendialdua (UNED)       Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   19 / 43
SVM multiclase


SVM multiclase: One-against-one


                       k·(k−1)
       Construye          2         clasificadores binarios




Arkaitz Zubiaga Mendialdua (UNED)       Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   19 / 43
SVM multiclase


SVM multiclase: One-against-one


                       k·(k−1)
       Construye          2         clasificadores binarios




Arkaitz Zubiaga Mendialdua (UNED)       Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   19 / 43
SVM multiclase


SVM multiclase: One-against-one


                       k·(k−1)
       Construye          2         clasificadores binarios




Arkaitz Zubiaga Mendialdua (UNED)       Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   19 / 43
SVM multiclase


SVM multiclase: One-against-one


                       k·(k−1)
       Construye          2         clasificadores binarios




Arkaitz Zubiaga Mendialdua (UNED)       Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   19 / 43
SVM multiclase


SVM multiclase: One-against-one

                       k·(k−1)
       Construye          2         clasificadores binarios




             T
       sign(ωij · x + bij ) −→ Sumar un voto a clase positiva entre i y j
       La clase con m´s votos es la que el sistema predice.
                     a


Arkaitz Zubiaga Mendialdua (UNED)       Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   19 / 43
SVM multiclase


SVM multiclase: One-against-all




       Construye k clasificadores binarios




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   20 / 43
SVM multiclase


SVM multiclase: One-against-all



       Construye k clasificadores binarios




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   20 / 43
SVM multiclase


SVM multiclase: One-against-all



       Construye k clasificadores binarios




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   20 / 43
SVM multiclase


SVM multiclase: One-against-all



       Construye k clasificadores binarios




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   20 / 43
SVM multiclase


SVM multiclase: One-against-all



       Construye k clasificadores binarios




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   20 / 43
SVM multiclase


SVM multiclase: One-against-all



       Construye k clasificadores binarios




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   20 / 43
SVM multiclase


SVM multiclase: One-against-all



       Construye k clasificadores binarios




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   20 / 43
SVM multiclase


SVM multiclase: One-against-all


       Construye k clasificadores binarios




                                    ˆ
                                    Ci = arg m´x (ωi · x + bi )
                                              a
                                               i=1,...,k




Arkaitz Zubiaga Mendialdua (UNED)      Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   20 / 43
S3 VM


´
Indice
1    Clasificaci´n autom´tica de textos
               o       a
2    Motivaci´n
             o
3    ¿Por qu´ SVM?
            e
4    SVM
5    SVM multiclase
6    S3 VM
7    S3 VM multiclase
8    Alternativas para S3 VM multiclase
9    Experimentaci´n
                  o
10   Resultados
11   Conclusiones y trabajo futuro
12   Referencias y trabajo futuro

Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   21 / 43
S3 VM


SVM semisupervisado (S3 VM)


       Utilizaci´n de documentos no etiquetados en fase de aprendizaje.
                o




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   22 / 43
S3 VM


SVM semisupervisado (S3 VM)


       Utilizaci´n de documentos no etiquetados en fase de aprendizaje.
                o
       Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n:
           n        e                          o               o




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   22 / 43
S3 VM


SVM semisupervisado (S3 VM)


       Utilizaci´n de documentos no etiquetados en fase de aprendizaje.
                o
       Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n:
           n        e                          o               o
                                                            l
                                    1
                             m´
                              ın      · ||ω||2 + C ·            ξid
                                    2
                                                          i=1




Arkaitz Zubiaga Mendialdua (UNED)      Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   22 / 43
S3 VM


SVM semisupervisado (S3 VM)


       Utilizaci´n de documentos no etiquetados en fase de aprendizaje.
                o
       Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n:
           n        e                          o               o
                                                            l                 u
                                    1                                                 d
                             m´
                              ın      · ||ω||2 + C ·            ξid + C ∗ ·         ξj∗
                                    2
                                                          i=1                 j=1




Arkaitz Zubiaga Mendialdua (UNED)      Aproximaciones a S3 VM multiclase      29 de septiembre de 2008   22 / 43
S3 VM


SVM semisupervisado (S3 VM)


       Utilizaci´n de documentos no etiquetados en fase de aprendizaje.
                o
       Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n:
           n        e                          o               o
                                                            l                 u
                                    1                                                 d
                             m´
                              ın      · ||ω||2 + C ·            ξid + C ∗ ·         ξj∗
                                    2
                                                          i=1                 j=1


       Problema: se representa mediante una funci´n no convexa.
                                                 o




Arkaitz Zubiaga Mendialdua (UNED)      Aproximaciones a S3 VM multiclase      29 de septiembre de 2008   22 / 43
S3 VM


SVM semisupervisado (S3 VM)


       Utilizaci´n de documentos no etiquetados en fase de aprendizaje.
                o
       Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n:
           n        e                          o               o
                                                            l                 u
                                    1                                                 d
                             m´
                              ın      · ||ω||2 + C ·            ξid + C ∗ ·         ξj∗
                                    2
                                                          i=1                 j=1


       Problema: se representa mediante una funci´n no convexa.
                                                 o
       Soluciones de optimizaci´n convexa.
                               o




Arkaitz Zubiaga Mendialdua (UNED)      Aproximaciones a S3 VM multiclase      29 de septiembre de 2008   22 / 43
S3 VM


SVM semisupervisado (S3 VM)


       Utilizaci´n de documentos no etiquetados en fase de aprendizaje.
                o
       Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n:
           n        e                          o               o
                                                            l                 u
                                    1                                                 d
                             m´
                              ın      · ||ω||2 + C ·            ξid + C ∗ ·         ξj∗
                                    2
                                                          i=1                 j=1


       Problema: se representa mediante una funci´n no convexa.
                                                 o
       Soluciones de optimizaci´n convexa.
                               o
       Utilizado sobre taxonom´ binarias, pero apenas en entornos
                              ıas
       multiclase.



Arkaitz Zubiaga Mendialdua (UNED)      Aproximaciones a S3 VM multiclase      29 de septiembre de 2008   22 / 43
S3 VM


SVM vs S3 VM




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   23 / 43
S3 VM


SVM vs S3 VM




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   23 / 43
S3 VM


SVM vs S3 VM




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   23 / 43
S3 VM


SVM vs S3 VM




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   23 / 43
S3 VM


SVM vs S3 VM




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   23 / 43
S3 VM multiclase


´
Indice
1    Clasificaci´n autom´tica de textos
               o       a
2    Motivaci´n
             o
3    ¿Por qu´ SVM?
            e
4    SVM
5    SVM multiclase
6    S3 VM
7    S3 VM multiclase
8    Alternativas para S3 VM multiclase
9    Experimentaci´n
                  o
10   Resultados
11   Conclusiones y trabajo futuro
12   Referencias y trabajo futuro

Arkaitz Zubiaga Mendialdua (UNED)    Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   24 / 43
S3 VM multiclase


S3 VM multiclase



       ´
       Unica referencia hasta el momento (Yajima y Kuo, 2006):




Arkaitz Zubiaga Mendialdua (UNED)    Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   25 / 43
S3 VM multiclase


S3 VM multiclase



       ´
       Unica referencia hasta el momento (Yajima y Kuo, 2006):
                        h                           l
                 1            iT    −1 i                                     y
            m´
             ın(             β K      β +C                   m´x(0, 1 − (βj j − βji ))2 )
                                                              a
                 2
                       i=1                        j=1 i=yj

donde β representa el producto entre un vector de variables y una matriz
de kernel definidas por el autor.




Arkaitz Zubiaga Mendialdua (UNED)     Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   25 / 43
S3 VM multiclase


S3 VM multiclase



       ´
       Unica referencia hasta el momento (Yajima y Kuo, 2006):
                        h                           l
                 1            iT    −1 i                                     y
            m´
             ın(             β K      β +C                   m´x(0, 1 − (βj j − βji ))2 )
                                                              a
                 2
                       i=1                        j=1 i=yj

donde β representa el producto entre un vector de variables y una matriz
de kernel definidas por el autor.
       Su optimizaci´n puede resultar costosa, por lo que conviene estudiar
                    o
       nuevas aproximaciones.




Arkaitz Zubiaga Mendialdua (UNED)     Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   25 / 43
Alternativas para S3 VM multiclase


´
Indice
1    Clasificaci´n autom´tica de textos
               o       a
2    Motivaci´n
             o
3    ¿Por qu´ SVM?
            e
4    SVM
5    SVM multiclase
6    S3 VM
7    S3 VM multiclase
8    Alternativas para S3 VM multiclase
9    Experimentaci´n
                  o
10   Resultados
11   Conclusiones y trabajo futuro
12   Referencias y trabajo futuro

Arkaitz Zubiaga Mendialdua (UNED)         Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   26 / 43
Alternativas para S3 VM multiclase


Alternativas para S3 VM multiclase




       One-against-all-S3 VM: No aplicado sobre semisupervisado.
       One-against-one-S3 VM: No aplicado sobre semisupervisado.
              ¿Posible existencia de ruido al no poder seleccionar los debidos
              documentos no etiquetados?
       Nuevas propuestas:
              All-against-all-S3 VM.
              2-steps-SVM.




Arkaitz Zubiaga Mendialdua (UNED)         Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   27 / 43
Alternativas para S3 VM multiclase


Alternativas para S3 VM multiclase: all-against-all-S3 VM

       Construye 2k−1 − 1 clasificadores binarios.
       Para un ejemplo con 4 clases:
              1 vs 2-3-4
              1-2 vs 3-4
              1-3 vs 2-4
              1-4 vs 2-3
              1-2-3 vs 4
              1-2-4 vs 3
              1-3-4 vs 2
              T
       sign(ωij · x + bij ) −→ Sumar margen resultante a clases del lado
       positivo.
       El sistema presenta como predicci´n aquella clase con mayor
                                        o
       puntuaci´n.
                o


Arkaitz Zubiaga Mendialdua (UNED)         Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   28 / 43
Alternativas para S3 VM multiclase


Alternativas para S3 VM multiclase: 2-steps-SVM

       Se aplican 2 pasos de aprendizaje supervisado multiclase:




Arkaitz Zubiaga Mendialdua (UNED)         Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   29 / 43
Alternativas para S3 VM multiclase


Alternativas para S3 VM multiclase: 2-steps-SVM

       Se aplican 2 pasos de aprendizaje supervisado multiclase:
          1   Aprendizaje sobre colecci´n de entrenamiento: se aprende con los
                                       o
              documentos etiquetados, prediciendo los no etiquetados.
                     1
                     2
                     1
                     ...
                     3
                     0
                     0
                     ...
                     0




Arkaitz Zubiaga Mendialdua (UNED)            Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   29 / 43
Alternativas para S3 VM multiclase


Alternativas para S3 VM multiclase: 2-steps-SVM

       Se aplican 2 pasos de aprendizaje supervisado multiclase:
          1   Aprendizaje sobre colecci´n de entrenamiento: se aprende con los
                                       o
              documentos etiquetados, prediciendo los no etiquetados.
                     1 −→     1
                     2 −→     2
                     1 −→     1
                     ...
                     3 −→     3
                     0 −→     3
                     0 −→     2
                     ...
                     0 −→     1




Arkaitz Zubiaga Mendialdua (UNED)         Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   29 / 43
Alternativas para S3 VM multiclase


Alternativas para S3 VM multiclase: 2-steps-SVM

       Se aplican 2 pasos de aprendizaje supervisado multiclase:
          1   Aprendizaje sobre colecci´n de entrenamiento: se aprende con los
                                       o
              documentos etiquetados, prediciendo los no etiquetados.
                     1 −→     1
                     2 −→     2
                     1 −→     1
                     ...
                     3 −→     3
                     0 −→     3
                     0 −→     2
                     ...
                     0 −→     1
          2   Clasificaci´n de la colecci´n de test: con la colecci´n de entrenamiento
                        o               o                         o
              etiquetada, se basa el aprendizaje en ella, clasificando la colecci´n de
                                                                                o
              test.


Arkaitz Zubiaga Mendialdua (UNED)         Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   29 / 43
Experimentaci´n
                                                 o


´
Indice
1    Clasificaci´n autom´tica de textos
               o       a
2    Motivaci´n
             o
3    ¿Por qu´ SVM?
            e
4    SVM
5    SVM multiclase
6    S3 VM
7    S3 VM multiclase
8    Alternativas para S3 VM multiclase
9    Experimentaci´n
                  o
10   Resultados
11   Conclusiones y trabajo futuro
12   Referencias y trabajo futuro

Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   30 / 43
Experimentaci´n
                                                 o


Experimentaci´n: colecciones
             o



       Colecciones utilizadas:
              BankSearch: 10.000 documentos web / 10 categor´ (4.000
                                                            ıas
              entrenamiento).




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   31 / 43
Experimentaci´n
                                                 o


Experimentaci´n: colecciones
             o



       Colecciones utilizadas:
              BankSearch: 10.000 documentos web / 10 categor´ (4.000
                                                            ıas
              entrenamiento).
              WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento).
                                                      ıas




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   31 / 43
Experimentaci´n
                                                 o


Experimentaci´n: colecciones
             o



       Colecciones utilizadas:
              BankSearch: 10.000 documentos web / 10 categor´ (4.000
                                                             ıas
              entrenamiento).
              WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento).
                                                      ıas
              Yahoo! Science: 788 documentos web / 6 categor´ (200
                                                            ıas
              entrenamiento).




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   31 / 43
Experimentaci´n
                                                 o


Experimentaci´n: colecciones
             o



       Colecciones utilizadas:
              BankSearch: 10.000 documentos web / 10 categor´ (4.000
                                                             ıas
              entrenamiento).
              WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento).
                                                      ıas
              Yahoo! Science: 788 documentos web / 6 categor´ (200
                                                            ıas
              entrenamiento).
       Versiones con diferentes fracciones etiquetadas / no etiquetadas.




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   31 / 43
Experimentaci´n
                                                 o


Experimentaci´n: colecciones
             o



       Colecciones utilizadas:
              BankSearch: 10.000 documentos web / 10 categor´ (4.000
                                                             ıas
              entrenamiento).
              WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento).
                                                      ıas
              Yahoo! Science: 788 documentos web / 6 categor´ (200
                                                            ıas
              entrenamiento).
       Versiones con diferentes fracciones etiquetadas / no etiquetadas.
              9 ejecuciones para cada una de las versiones.




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   31 / 43
Experimentaci´n
                                                 o


Experimentaci´n: colecciones
             o



       Colecciones utilizadas:
              BankSearch: 10.000 documentos web / 10 categor´ (4.000
                                                             ıas
              entrenamiento).
              WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento).
                                                      ıas
              Yahoo! Science: 788 documentos web / 6 categor´ (200
                                                            ıas
              entrenamiento).
       Versiones con diferentes fracciones etiquetadas / no etiquetadas.
              9 ejecuciones para cada una de las versiones.
       Representaci´n: tf-idf.
                   o




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   31 / 43
Experimentaci´n
                                                 o


Experimentaci´n: implementaci´n
             o               o




       Software utilizado:
              SVM-light (http://svmlight.joachims.org)
              SVM-multiclass




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   32 / 43
Experimentaci´n
                                                 o


Experimentaci´n: implementaci´n
             o               o




       Software utilizado:
              SVM-light (http://svmlight.joachims.org)
              SVM-multiclass
       2-steps-SVM =⇒ 1 step-SVM
              Ignorar documentos no etiquetados, ¿empeora los resultados?




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   32 / 43
Experimentaci´n
                                                 o


Experimentaci´n: evaluaci´n
             o           o




       Acierto (accuracy): % del n´mero de predicciones correctas sobre el
                                  u
       total de documentos testeados.




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   33 / 43
Resultados


´
Indice
1    Clasificaci´n autom´tica de textos
               o       a
2    Motivaci´n
             o
3    ¿Por qu´ SVM?
            e
4    SVM
5    SVM multiclase
6    S3 VM
7    S3 VM multiclase
8    Alternativas para S3 VM multiclase
9    Experimentaci´n
                  o
10   Resultados
11   Conclusiones y trabajo futuro
12   Referencias y trabajo futuro

Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   34 / 43
Resultados


Resultados: BankSearch




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   35 / 43
Resultados


Resultados: WebKB




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   36 / 43
Resultados


Resultados: Yahoo! Science




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   37 / 43
Resultados


Resultados




       Mejores resultados para combinaci´n de supervisados multiclase:
                                        o
       2-steps-SVM y 1-step-SVM.




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   38 / 43
Resultados


Resultados




       Mejores resultados para combinaci´n de supervisados multiclase:
                                        o
       2-steps-SVM y 1-step-SVM.
       De las combinaciones binarias, destaca all-against-all-S3 VM, mientras
       que one-against-one-S3 VM demuestra que el ruido previsto existe.




Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   38 / 43
Resultados


Resultados




       Mejores resultados para combinaci´n de supervisados multiclase:
                                        o
       2-steps-SVM y 1-step-SVM.
       De las combinaciones binarias, destaca all-against-all-S3 VM, mientras
       que one-against-one-S3 VM demuestra que el ruido previsto existe.
       1-step-SVM muestra resultados similares que 2-steps-SVM, excepto
       en WebKB, que gana; esa colecci´n es m´s homogenea.
                                      o        a


Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   38 / 43
Resultados


Resultados




       Mejores resultados para combinaci´n de supervisados multiclase:
                                        o
       2-steps-SVM y 1-step-SVM.
       De las combinaciones binarias, destaca all-against-all-S3 VM, mientras
       que one-against-one-S3 VM demuestra que el ruido previsto existe.
       1-step-SVM muestra resultados similares que 2-steps-SVM, excepto
       en WebKB, que gana; esa colecci´n es m´s homogenea.
                                      o        a
       Se mantiene el ranking de los algoritmos.
Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   38 / 43
Conclusiones y trabajo futuro


´
Indice
1    Clasificaci´n autom´tica de textos
               o       a
2    Motivaci´n
             o
3    ¿Por qu´ SVM?
            e
4    SVM
5    SVM multiclase
6    S3 VM
7    S3 VM multiclase
8    Alternativas para S3 VM multiclase
9    Experimentaci´n
                  o
10   Resultados
11   Conclusiones y trabajo futuro
12   Referencias y trabajo futuro

Arkaitz Zubiaga Mendialdua (UNED)        Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   39 / 43
Conclusiones y trabajo futuro


Conclusiones

       Se han comparado aproximaciones a S3 VM multiclase para
       clasificaci´n de p´ginas web:
                 o      a
              Trasladando one-against-one y one-against-all al entorno
              semisupervisado.
              Presentando los m´todos 2-steps-SVM y all-against-all-S3 VM.
                               e
       Se ha evaluado la aportaci´n de los documentos no etiquetados en el
                                 o
       aprendizaje.




Arkaitz Zubiaga Mendialdua (UNED)        Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   40 / 43
Conclusiones y trabajo futuro


Conclusiones

       Se han comparado aproximaciones a S3 VM multiclase para
       clasificaci´n de p´ginas web:
                 o      a
              Trasladando one-against-one y one-against-all al entorno
              semisupervisado.
              Presentando los m´todos 2-steps-SVM y all-against-all-S3 VM.
                               e
       Se ha evaluado la aportaci´n de los documentos no etiquetados en el
                                 o
       aprendizaje.
       Los mejores resultados han sido para las combinaciones de
       clasificadores supervisados multiclase.




Arkaitz Zubiaga Mendialdua (UNED)        Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   40 / 43
Conclusiones y trabajo futuro


Conclusiones

       Se han comparado aproximaciones a S3 VM multiclase para
       clasificaci´n de p´ginas web:
                 o      a
              Trasladando one-against-one y one-against-all al entorno
              semisupervisado.
              Presentando los m´todos 2-steps-SVM y all-against-all-S3 VM.
                               e
       Se ha evaluado la aportaci´n de los documentos no etiquetados en el
                                 o
       aprendizaje.
       Los mejores resultados han sido para las combinaciones de
       clasificadores supervisados multiclase.
       La utilizaci´n de documentos no etiquetados no ha aportado mucho.
                   o
              Esta aportaci´n ha sido algo mayor para colecciones homogeneas.
                           o




Arkaitz Zubiaga Mendialdua (UNED)        Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   40 / 43
Conclusiones y trabajo futuro


Conclusiones

       Se han comparado aproximaciones a S3 VM multiclase para
       clasificaci´n de p´ginas web:
                 o      a
              Trasladando one-against-one y one-against-all al entorno
              semisupervisado.
              Presentando los m´todos 2-steps-SVM y all-against-all-S3 VM.
                               e
       Se ha evaluado la aportaci´n de los documentos no etiquetados en el
                                 o
       aprendizaje.
       Los mejores resultados han sido para las combinaciones de
       clasificadores supervisados multiclase.
       La utilizaci´n de documentos no etiquetados no ha aportado mucho.
                   o
              Esta aportaci´n ha sido algo mayor para colecciones homogeneas.
                           o
       Entre las combinaciones de semisupervisados binarios,
       all-against-all-S3 VM ha mostrado una gran efectividad, aunque su
       eficiencia debe mejorar.

Arkaitz Zubiaga Mendialdua (UNED)        Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   40 / 43
Conclusiones y trabajo futuro


Trabajo futuro




       A˜adir el m´todo S3 VM multiclase directo al estudio.
        n         e




Arkaitz Zubiaga Mendialdua (UNED)        Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   41 / 43
Conclusiones y trabajo futuro


Trabajo futuro




       A˜adir el m´todo S3 VM multiclase directo al estudio.
        n         e
       Aplicaci´n de diferentes m´todos de representaci´n, aprovechando las
               o                   e                     o
       caracter´
               ısticas propias de las p´ginas web (etiquetado HTML, etc.).
                                       a




Arkaitz Zubiaga Mendialdua (UNED)        Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   41 / 43
Conclusiones y trabajo futuro


Trabajo futuro




       A˜adir el m´todo S3 VM multiclase directo al estudio.
        n         e
       Aplicaci´n de diferentes m´todos de representaci´n, aprovechando las
               o                   e                     o
       caracter´
               ısticas propias de las p´ginas web (etiquetado HTML, etc.).
                                       a
       Optimizar el rendimiento de la t´cnica all-against-all-S3 VM.
                                       e




Arkaitz Zubiaga Mendialdua (UNED)        Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   41 / 43
Referencias


´
Indice
1    Clasificaci´n autom´tica de textos
               o       a
2    Motivaci´n
             o
3    ¿Por qu´ SVM?
            e
4    SVM
5    SVM multiclase
6    S3 VM
7    S3 VM multiclase
8    Alternativas para S3 VM multiclase
9    Experimentaci´n
                  o
10   Resultados
11   Conclusiones y trabajo futuro
12   Referencias y trabajo futuro

Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   42 / 43
Referencias


Referencias

       T. Joachims. 2002. Learning to Classify Text using Support Vector
       Machines. Kluwer/Springer.
       X. Qi y B.D. Davison. 2007. Web Page Classification: Features and
       Algorithms. Informe T´cnico LU-CSE-07-010.
                            e
       F. Sebastiani. 2002. Machine Learning in Automated Text
       Categorization. ACM Computing Surveys, pp. 1-47.
       J. Weston y C. Watkins. 1999. Multi-class Support Vector Machines.
       Proceedings of ESAAN, the European Symposium on Artificial Neural
       Networks.
       Y. Yajima y T.-F. Kuo. 2006. Optimization Approaches for
       Semi-Supervised Multiclass Classification. Proceedings of ICDMW’06,
       the 6th International Conference on Data Mining.


Arkaitz Zubiaga Mendialdua (UNED)   Aproximaciones a S3 VM multiclase   29 de septiembre de 2008   43 / 43

Contenu connexe

Plus de azubiaga

Exploiting context for rumour detection in social media
Exploiting context for rumour detection in social mediaExploiting context for rumour detection in social media
Exploiting context for rumour detection in social mediaazubiaga
 
Crowdsourcing the Annotation of Rumourous Conversations in Social Media
Crowdsourcing the Annotation of Rumourous Conversations in Social MediaCrowdsourcing the Annotation of Rumourous Conversations in Social Media
Crowdsourcing the Annotation of Rumourous Conversations in Social Mediaazubiaga
 
Microposts2015 - Social Spam Detection on Twitter
Microposts2015 - Social Spam Detection on TwitterMicroposts2015 - Social Spam Detection on Twitter
Microposts2015 - Social Spam Detection on Twitterazubiaga
 
Curating and Contextualizing Twitter Stories to Assist with Social Newsgathering
Curating and Contextualizing Twitter Stories to Assist with Social NewsgatheringCurating and Contextualizing Twitter Stories to Assist with Social Newsgathering
Curating and Contextualizing Twitter Stories to Assist with Social Newsgatheringazubiaga
 
Mining Twitter for Real-Time Trend and Information Discovery
Mining Twitter for Real-Time Trend and Information DiscoveryMining Twitter for Real-Time Trend and Information Discovery
Mining Twitter for Real-Time Trend and Information Discoveryazubiaga
 
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...azubiaga
 
Harnessing Folksonomies for Resource Classification
Harnessing Folksonomies for Resource ClassificationHarnessing Folksonomies for Resource Classification
Harnessing Folksonomies for Resource Classificationazubiaga
 
Clasificación de Páginas Web con Anotaciones Sociales
Clasificación de Páginas Web con Anotaciones SocialesClasificación de Páginas Web con Anotaciones Sociales
Clasificación de Páginas Web con Anotaciones Socialesazubiaga
 
Content-based Clustering for Tag Cloud Visualization
Content-based Clustering for Tag Cloud VisualizationContent-based Clustering for Tag Cloud Visualization
Content-based Clustering for Tag Cloud Visualizationazubiaga
 
Getting the Most Out of Social Annotations for Web Page Classification
Getting the Most Out of Social Annotations for Web Page ClassificationGetting the Most Out of Social Annotations for Web Page Classification
Getting the Most Out of Social Annotations for Web Page Classificationazubiaga
 
Enhancing Navigation on Wikipedia with Social Tags
Enhancing Navigation on Wikipedia with Social TagsEnhancing Navigation on Wikipedia with Social Tags
Enhancing Navigation on Wikipedia with Social Tagsazubiaga
 
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?azubiaga
 
Etiketa-lainoen ikuskera hobetzeko multzokatzea
Etiketa-lainoen ikuskera hobetzeko multzokatzeaEtiketa-lainoen ikuskera hobetzeko multzokatzea
Etiketa-lainoen ikuskera hobetzeko multzokatzeaazubiaga
 
Tags vs Shelves: From Social Tagging to Social Classification
Tags vs Shelves: From Social Tagging to Social ClassificationTags vs Shelves: From Social Tagging to Social Classification
Tags vs Shelves: From Social Tagging to Social Classificationazubiaga
 

Plus de azubiaga (14)

Exploiting context for rumour detection in social media
Exploiting context for rumour detection in social mediaExploiting context for rumour detection in social media
Exploiting context for rumour detection in social media
 
Crowdsourcing the Annotation of Rumourous Conversations in Social Media
Crowdsourcing the Annotation of Rumourous Conversations in Social MediaCrowdsourcing the Annotation of Rumourous Conversations in Social Media
Crowdsourcing the Annotation of Rumourous Conversations in Social Media
 
Microposts2015 - Social Spam Detection on Twitter
Microposts2015 - Social Spam Detection on TwitterMicroposts2015 - Social Spam Detection on Twitter
Microposts2015 - Social Spam Detection on Twitter
 
Curating and Contextualizing Twitter Stories to Assist with Social Newsgathering
Curating and Contextualizing Twitter Stories to Assist with Social NewsgatheringCurating and Contextualizing Twitter Stories to Assist with Social Newsgathering
Curating and Contextualizing Twitter Stories to Assist with Social Newsgathering
 
Mining Twitter for Real-Time Trend and Information Discovery
Mining Twitter for Real-Time Trend and Information DiscoveryMining Twitter for Real-Time Trend and Information Discovery
Mining Twitter for Real-Time Trend and Information Discovery
 
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...
 
Harnessing Folksonomies for Resource Classification
Harnessing Folksonomies for Resource ClassificationHarnessing Folksonomies for Resource Classification
Harnessing Folksonomies for Resource Classification
 
Clasificación de Páginas Web con Anotaciones Sociales
Clasificación de Páginas Web con Anotaciones SocialesClasificación de Páginas Web con Anotaciones Sociales
Clasificación de Páginas Web con Anotaciones Sociales
 
Content-based Clustering for Tag Cloud Visualization
Content-based Clustering for Tag Cloud VisualizationContent-based Clustering for Tag Cloud Visualization
Content-based Clustering for Tag Cloud Visualization
 
Getting the Most Out of Social Annotations for Web Page Classification
Getting the Most Out of Social Annotations for Web Page ClassificationGetting the Most Out of Social Annotations for Web Page Classification
Getting the Most Out of Social Annotations for Web Page Classification
 
Enhancing Navigation on Wikipedia with Social Tags
Enhancing Navigation on Wikipedia with Social TagsEnhancing Navigation on Wikipedia with Social Tags
Enhancing Navigation on Wikipedia with Social Tags
 
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?
 
Etiketa-lainoen ikuskera hobetzeko multzokatzea
Etiketa-lainoen ikuskera hobetzeko multzokatzeaEtiketa-lainoen ikuskera hobetzeko multzokatzea
Etiketa-lainoen ikuskera hobetzeko multzokatzea
 
Tags vs Shelves: From Social Tagging to Social Classification
Tags vs Shelves: From Social Tagging to Social ClassificationTags vs Shelves: From Social Tagging to Social Classification
Tags vs Shelves: From Social Tagging to Social Classification
 

Dernier

La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesEdomar AR
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxGESTECPERUSAC
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzzAlexandergo5
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúCEFERINO DELGADO FLORES
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptJavierHerrera662252
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificialcynserafini89
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel tallerValentinaTabares11
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 

Dernier (20)

La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, Aplicaciones
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptx
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzz
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificial
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel taller
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 

Master thesis presentation

  • 1. Aproximaciones a S3 VM multiclase M´ster en tecnolog´ del lenguaje en la web a ıas Arkaitz Zubiaga Mendialdua UNED 29 de septiembre de 2008 Director: V´ ıctor Fresno Fern´ndez a
  • 2. Clasificaci´n autom´tica de textos o a ´ Indice 1 Clasificaci´n autom´tica de textos o a 2 Motivaci´n o 3 ¿Por qu´ SVM? e 4 SVM 5 SVM multiclase 6 S3 VM 7 S3 VM multiclase 8 Alternativas para S3 VM multiclase 9 Experimentaci´n o 10 Resultados 11 Conclusiones y trabajo futuro 12 Referencias y trabajo futuro Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 2 / 43
  • 3. Clasificaci´n autom´tica de textos o a ¿Qu´ es? e Se dispone de una colecci´n de documentos: o D = {d1 , ..., d|D| } Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 3 / 43
  • 4. Clasificaci´n autom´tica de textos o a ¿Qu´ es? e Se dispone de una colecci´n de documentos: o D = {d1 , ..., d|D| } Y una serie de categor´ predefinidas: ıas C = {c1 , ..., c|C | } Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 3 / 43
  • 5. Clasificaci´n autom´tica de textos o a ¿Qu´ es? e Se dispone de una colecci´n de documentos: o D = {d1 , ..., d|D| } Y una serie de categor´ predefinidas: ıas C = {c1 , ..., c|C | } La clasificaci´n se define como: o dj , ci ∈ D × C Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 3 / 43
  • 6. Clasificaci´n autom´tica de textos o a Caracter´ ısticas Aprendizaje autom´tico a Aprendizaje supervisado Aprendizaje semisupervisado Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 4 / 43
  • 7. Clasificaci´n autom´tica de textos o a Caracter´ ısticas Aprendizaje autom´tico a Aprendizaje supervisado Aprendizaje semisupervisado Taxonom´ ıa Binaria Multiclase Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 4 / 43
  • 8. Motivaci´n o ´ Indice 1 Clasificaci´n autom´tica de textos o a 2 Motivaci´n o 3 ¿Por qu´ SVM? e 4 SVM 5 SVM multiclase 6 S3 VM 7 S3 VM multiclase 8 Alternativas para S3 VM multiclase 9 Experimentaci´n o 10 Resultados 11 Conclusiones y trabajo futuro 12 Referencias y trabajo futuro Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 5 / 43
  • 9. Motivaci´n o Motivaci´n o Muchos estudios para clasificaci´n de texto plano (noticias), pero o menos sobre p´ginas web. a Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 6 / 43
  • 10. Motivaci´n o Motivaci´n o Muchos estudios para clasificaci´n de texto plano (noticias), pero o menos sobre p´ginas web. a Problema t´ ıpico de clasificaci´n de p´ginas web o a Semisupervisado: pocos documentos etiquetados respecto a la colecci´n a clasificar. o Multiclase: taxonom´ mayor que 2. ıa Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 6 / 43
  • 11. Motivaci´n o Motivaci´n o Muchos estudios para clasificaci´n de texto plano (noticias), pero o menos sobre p´ginas web. a Problema t´ ıpico de clasificaci´n de p´ginas web o a Semisupervisado: pocos documentos etiquetados respecto a la colecci´n a clasificar. o Multiclase: taxonom´ mayor que 2. ıa T´cnica de clasificaci´n escogida: SVM. e o Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 6 / 43
  • 12. Motivaci´n o Motivaci´n o Muchos estudios para clasificaci´n de texto plano (noticias), pero o menos sobre p´ginas web. a Problema t´ ıpico de clasificaci´n de p´ginas web o a Semisupervisado: pocos documentos etiquetados respecto a la colecci´n a clasificar. o Multiclase: taxonom´ mayor que 2. ıa T´cnica de clasificaci´n escogida: SVM. e o Problema: Poco trabajo para SVM semisupervisado multiclase Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 6 / 43
  • 13. Motivaci´n o Motivaci´n o Muchos estudios para clasificaci´n de texto plano (noticias), pero o menos sobre p´ginas web. a Problema t´ ıpico de clasificaci´n de p´ginas web o a Semisupervisado: pocos documentos etiquetados respecto a la colecci´n a clasificar. o Multiclase: taxonom´ mayor que 2. ıa T´cnica de clasificaci´n escogida: SVM. e o Problema: Poco trabajo para SVM semisupervisado multiclase Necesidad de nuevas propuestas para resolver el problema planteado Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 6 / 43
  • 14. ¿Por qu´ SVM? e ´ Indice 1 Clasificaci´n autom´tica de textos o a 2 Motivaci´n o 3 ¿Por qu´ SVM? e 4 SVM 5 SVM multiclase 6 S3 VM 7 S3 VM multiclase 8 Alternativas para S3 VM multiclase 9 Experimentaci´n o 10 Resultados 11 Conclusiones y trabajo futuro 12 Referencias y trabajo futuro Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 7 / 43
  • 15. ¿Por qu´ SVM? e ¿Por qu´ SVM? e Muchos estudios recientes: Bolelli et al. (2007); Bordes et al. (2007); Sun et al. (2007); Wang et al. (2007a,b); Zien et al. (2007); Heymann et al. (2008)). Mejores resultados que otras t´cnicas para clasificaci´n de textos. e o La utilizaci´n de un kernel facilita la tarea de clasificaci´n para zonas o o disjuntas. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 8 / 43
  • 16. ¿Por qu´ SVM? e Comparativa con otras t´cnicas e Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 9 / 43
  • 17. ¿Por qu´ SVM? e Comparativa con otras t´cnicas e Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 10 / 43
  • 18. ¿Por qu´ SVM? e Comparativa con otras t´cnicas e Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 11 / 43
  • 19. SVM ´ Indice 1 Clasificaci´n autom´tica de textos o a 2 Motivaci´n o 3 ¿Por qu´ SVM? e 4 SVM 5 SVM multiclase 6 S3 VM 7 S3 VM multiclase 8 Alternativas para S3 VM multiclase 9 Experimentaci´n o 10 Resultados 11 Conclusiones y trabajo futuro 12 Referencias y trabajo futuro Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 12 / 43
  • 20. SVM SVM Modelo espacio vectorial Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 13 / 43
  • 21. SVM SVM Modelo espacio vectorial B´squeda de hiperplano de separaci´n u o Maximizaci´n de margen o Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 13 / 43
  • 22. SVM SVM Modelo espacio vectorial B´squeda de hiperplano de separaci´n u o Maximizaci´n de margen o Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 13 / 43
  • 23. SVM SVM Modelo espacio vectorial B´squeda de hiperplano de separaci´n u o Maximizaci´n de margen o Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 13 / 43
  • 24. SVM SVM Funci´n de optimizaci´n: f (x) = ω · x + b o o Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 14 / 43
  • 25. SVM SVM Funci´n de optimizaci´n: f (x) = ω · x + b o o Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 14 / 43
  • 26. SVM SVM Funci´n de optimizaci´n: f (x) = ω · x + b o o Problema: Dificil de computar. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 14 / 43
  • 27. SVM SVM Se utiliza funci´n equivalente: o n 1 min ||ω||2 + C · ξid 2 i=1 Sujeto a: yi (ω · xi + b) ≥ 1 − ξi , ξi ≥ 0 Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 15 / 43
  • 28. SVM SVM Se utiliza funci´n equivalente: o n 1 min ||ω||2 + C · ξid 2 i=1 Sujeto a: yi (ω · xi + b) ≥ 1 − ξi , ξi ≥ 0 Utilizaci´n de funci´n de kernel para casos no lineales. o o Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 15 / 43
  • 29. SVM SVM Se utiliza funci´n equivalente: o n 1 min ||ω||2 + C · ξid 2 i=1 Sujeto a: yi (ω · xi + b) ≥ 1 − ξi , ξi ≥ 0 Utilizaci´n de funci´n de kernel para casos no lineales. o o ´ Unicamente resuelve problemas binarios y supervisados. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 15 / 43
  • 30. SVM multiclase ´ Indice 1 Clasificaci´n autom´tica de textos o a 2 Motivaci´n o 3 ¿Por qu´ SVM? e 4 SVM 5 SVM multiclase 6 S3 VM 7 S3 VM multiclase 8 Alternativas para S3 VM multiclase 9 Experimentaci´n o 10 Resultados 11 Conclusiones y trabajo futuro 12 Referencias y trabajo futuro Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 16 / 43
  • 31. SVM multiclase SVM multiclase Aproximaciones a SVM multiclase: Directa. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 17 / 43
  • 32. SVM multiclase SVM multiclase Aproximaciones a SVM multiclase: Directa. Combinaci´n de binarios. o One-against-one. One-against-all. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 17 / 43
  • 33. SVM multiclase SVM multiclase Aproximaciones a SVM multiclase: Directa. Combinaci´n de binarios. o One-against-one. One-against-all. Se ha trabajado con colecciones supervisadas, pero apenas con semisupervisadas. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 17 / 43
  • 34. SVM multiclase SVM multiclase: Aproximaci´n directa o La funci´n de optimizaci´n tiene en cuenta todos los hiperplanos. o o Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 18 / 43
  • 35. SVM multiclase SVM multiclase: Aproximaci´n directa o La funci´n de optimizaci´n tiene en cuenta todos los hiperplanos. o o n l 1 m´ ın ||wm ||2 + C ξim 2 m=1 i=1 m=yi Sujeto a: wyi · xi + byi ≥ wm · xi + bm + 2 − ξim , ξim ≥ 0 Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 18 / 43
  • 36. SVM multiclase SVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binarios Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • 37. SVM multiclase SVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binarios Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • 38. SVM multiclase SVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binarios Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • 39. SVM multiclase SVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binarios Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • 40. SVM multiclase SVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binarios Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • 41. SVM multiclase SVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binarios Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • 42. SVM multiclase SVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binarios Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • 43. SVM multiclase SVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binarios Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • 44. SVM multiclase SVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binarios Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • 45. SVM multiclase SVM multiclase: One-against-one k·(k−1) Construye 2 clasificadores binarios T sign(ωij · x + bij ) −→ Sumar un voto a clase positiva entre i y j La clase con m´s votos es la que el sistema predice. a Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
  • 46. SVM multiclase SVM multiclase: One-against-all Construye k clasificadores binarios Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
  • 47. SVM multiclase SVM multiclase: One-against-all Construye k clasificadores binarios Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
  • 48. SVM multiclase SVM multiclase: One-against-all Construye k clasificadores binarios Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
  • 49. SVM multiclase SVM multiclase: One-against-all Construye k clasificadores binarios Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
  • 50. SVM multiclase SVM multiclase: One-against-all Construye k clasificadores binarios Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
  • 51. SVM multiclase SVM multiclase: One-against-all Construye k clasificadores binarios Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
  • 52. SVM multiclase SVM multiclase: One-against-all Construye k clasificadores binarios Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
  • 53. SVM multiclase SVM multiclase: One-against-all Construye k clasificadores binarios ˆ Ci = arg m´x (ωi · x + bi ) a i=1,...,k Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
  • 54. S3 VM ´ Indice 1 Clasificaci´n autom´tica de textos o a 2 Motivaci´n o 3 ¿Por qu´ SVM? e 4 SVM 5 SVM multiclase 6 S3 VM 7 S3 VM multiclase 8 Alternativas para S3 VM multiclase 9 Experimentaci´n o 10 Resultados 11 Conclusiones y trabajo futuro 12 Referencias y trabajo futuro Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 21 / 43
  • 55. S3 VM SVM semisupervisado (S3 VM) Utilizaci´n de documentos no etiquetados en fase de aprendizaje. o Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
  • 56. S3 VM SVM semisupervisado (S3 VM) Utilizaci´n de documentos no etiquetados en fase de aprendizaje. o Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n: n e o o Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
  • 57. S3 VM SVM semisupervisado (S3 VM) Utilizaci´n de documentos no etiquetados en fase de aprendizaje. o Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n: n e o o l 1 m´ ın · ||ω||2 + C · ξid 2 i=1 Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
  • 58. S3 VM SVM semisupervisado (S3 VM) Utilizaci´n de documentos no etiquetados en fase de aprendizaje. o Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n: n e o o l u 1 d m´ ın · ||ω||2 + C · ξid + C ∗ · ξj∗ 2 i=1 j=1 Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
  • 59. S3 VM SVM semisupervisado (S3 VM) Utilizaci´n de documentos no etiquetados en fase de aprendizaje. o Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n: n e o o l u 1 d m´ ın · ||ω||2 + C · ξid + C ∗ · ξj∗ 2 i=1 j=1 Problema: se representa mediante una funci´n no convexa. o Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
  • 60. S3 VM SVM semisupervisado (S3 VM) Utilizaci´n de documentos no etiquetados en fase de aprendizaje. o Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n: n e o o l u 1 d m´ ın · ||ω||2 + C · ξid + C ∗ · ξj∗ 2 i=1 j=1 Problema: se representa mediante una funci´n no convexa. o Soluciones de optimizaci´n convexa. o Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
  • 61. S3 VM SVM semisupervisado (S3 VM) Utilizaci´n de documentos no etiquetados en fase de aprendizaje. o Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n: n e o o l u 1 d m´ ın · ||ω||2 + C · ξid + C ∗ · ξj∗ 2 i=1 j=1 Problema: se representa mediante una funci´n no convexa. o Soluciones de optimizaci´n convexa. o Utilizado sobre taxonom´ binarias, pero apenas en entornos ıas multiclase. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
  • 62. S3 VM SVM vs S3 VM Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 23 / 43
  • 63. S3 VM SVM vs S3 VM Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 23 / 43
  • 64. S3 VM SVM vs S3 VM Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 23 / 43
  • 65. S3 VM SVM vs S3 VM Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 23 / 43
  • 66. S3 VM SVM vs S3 VM Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 23 / 43
  • 67. S3 VM multiclase ´ Indice 1 Clasificaci´n autom´tica de textos o a 2 Motivaci´n o 3 ¿Por qu´ SVM? e 4 SVM 5 SVM multiclase 6 S3 VM 7 S3 VM multiclase 8 Alternativas para S3 VM multiclase 9 Experimentaci´n o 10 Resultados 11 Conclusiones y trabajo futuro 12 Referencias y trabajo futuro Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 24 / 43
  • 68. S3 VM multiclase S3 VM multiclase ´ Unica referencia hasta el momento (Yajima y Kuo, 2006): Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 25 / 43
  • 69. S3 VM multiclase S3 VM multiclase ´ Unica referencia hasta el momento (Yajima y Kuo, 2006): h l 1 iT −1 i y m´ ın( β K β +C m´x(0, 1 − (βj j − βji ))2 ) a 2 i=1 j=1 i=yj donde β representa el producto entre un vector de variables y una matriz de kernel definidas por el autor. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 25 / 43
  • 70. S3 VM multiclase S3 VM multiclase ´ Unica referencia hasta el momento (Yajima y Kuo, 2006): h l 1 iT −1 i y m´ ın( β K β +C m´x(0, 1 − (βj j − βji ))2 ) a 2 i=1 j=1 i=yj donde β representa el producto entre un vector de variables y una matriz de kernel definidas por el autor. Su optimizaci´n puede resultar costosa, por lo que conviene estudiar o nuevas aproximaciones. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 25 / 43
  • 71. Alternativas para S3 VM multiclase ´ Indice 1 Clasificaci´n autom´tica de textos o a 2 Motivaci´n o 3 ¿Por qu´ SVM? e 4 SVM 5 SVM multiclase 6 S3 VM 7 S3 VM multiclase 8 Alternativas para S3 VM multiclase 9 Experimentaci´n o 10 Resultados 11 Conclusiones y trabajo futuro 12 Referencias y trabajo futuro Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 26 / 43
  • 72. Alternativas para S3 VM multiclase Alternativas para S3 VM multiclase One-against-all-S3 VM: No aplicado sobre semisupervisado. One-against-one-S3 VM: No aplicado sobre semisupervisado. ¿Posible existencia de ruido al no poder seleccionar los debidos documentos no etiquetados? Nuevas propuestas: All-against-all-S3 VM. 2-steps-SVM. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 27 / 43
  • 73. Alternativas para S3 VM multiclase Alternativas para S3 VM multiclase: all-against-all-S3 VM Construye 2k−1 − 1 clasificadores binarios. Para un ejemplo con 4 clases: 1 vs 2-3-4 1-2 vs 3-4 1-3 vs 2-4 1-4 vs 2-3 1-2-3 vs 4 1-2-4 vs 3 1-3-4 vs 2 T sign(ωij · x + bij ) −→ Sumar margen resultante a clases del lado positivo. El sistema presenta como predicci´n aquella clase con mayor o puntuaci´n. o Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 28 / 43
  • 74. Alternativas para S3 VM multiclase Alternativas para S3 VM multiclase: 2-steps-SVM Se aplican 2 pasos de aprendizaje supervisado multiclase: Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 29 / 43
  • 75. Alternativas para S3 VM multiclase Alternativas para S3 VM multiclase: 2-steps-SVM Se aplican 2 pasos de aprendizaje supervisado multiclase: 1 Aprendizaje sobre colecci´n de entrenamiento: se aprende con los o documentos etiquetados, prediciendo los no etiquetados. 1 2 1 ... 3 0 0 ... 0 Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 29 / 43
  • 76. Alternativas para S3 VM multiclase Alternativas para S3 VM multiclase: 2-steps-SVM Se aplican 2 pasos de aprendizaje supervisado multiclase: 1 Aprendizaje sobre colecci´n de entrenamiento: se aprende con los o documentos etiquetados, prediciendo los no etiquetados. 1 −→ 1 2 −→ 2 1 −→ 1 ... 3 −→ 3 0 −→ 3 0 −→ 2 ... 0 −→ 1 Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 29 / 43
  • 77. Alternativas para S3 VM multiclase Alternativas para S3 VM multiclase: 2-steps-SVM Se aplican 2 pasos de aprendizaje supervisado multiclase: 1 Aprendizaje sobre colecci´n de entrenamiento: se aprende con los o documentos etiquetados, prediciendo los no etiquetados. 1 −→ 1 2 −→ 2 1 −→ 1 ... 3 −→ 3 0 −→ 3 0 −→ 2 ... 0 −→ 1 2 Clasificaci´n de la colecci´n de test: con la colecci´n de entrenamiento o o o etiquetada, se basa el aprendizaje en ella, clasificando la colecci´n de o test. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 29 / 43
  • 78. Experimentaci´n o ´ Indice 1 Clasificaci´n autom´tica de textos o a 2 Motivaci´n o 3 ¿Por qu´ SVM? e 4 SVM 5 SVM multiclase 6 S3 VM 7 S3 VM multiclase 8 Alternativas para S3 VM multiclase 9 Experimentaci´n o 10 Resultados 11 Conclusiones y trabajo futuro 12 Referencias y trabajo futuro Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 30 / 43
  • 79. Experimentaci´n o Experimentaci´n: colecciones o Colecciones utilizadas: BankSearch: 10.000 documentos web / 10 categor´ (4.000 ıas entrenamiento). Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
  • 80. Experimentaci´n o Experimentaci´n: colecciones o Colecciones utilizadas: BankSearch: 10.000 documentos web / 10 categor´ (4.000 ıas entrenamiento). WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento). ıas Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
  • 81. Experimentaci´n o Experimentaci´n: colecciones o Colecciones utilizadas: BankSearch: 10.000 documentos web / 10 categor´ (4.000 ıas entrenamiento). WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento). ıas Yahoo! Science: 788 documentos web / 6 categor´ (200 ıas entrenamiento). Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
  • 82. Experimentaci´n o Experimentaci´n: colecciones o Colecciones utilizadas: BankSearch: 10.000 documentos web / 10 categor´ (4.000 ıas entrenamiento). WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento). ıas Yahoo! Science: 788 documentos web / 6 categor´ (200 ıas entrenamiento). Versiones con diferentes fracciones etiquetadas / no etiquetadas. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
  • 83. Experimentaci´n o Experimentaci´n: colecciones o Colecciones utilizadas: BankSearch: 10.000 documentos web / 10 categor´ (4.000 ıas entrenamiento). WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento). ıas Yahoo! Science: 788 documentos web / 6 categor´ (200 ıas entrenamiento). Versiones con diferentes fracciones etiquetadas / no etiquetadas. 9 ejecuciones para cada una de las versiones. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
  • 84. Experimentaci´n o Experimentaci´n: colecciones o Colecciones utilizadas: BankSearch: 10.000 documentos web / 10 categor´ (4.000 ıas entrenamiento). WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento). ıas Yahoo! Science: 788 documentos web / 6 categor´ (200 ıas entrenamiento). Versiones con diferentes fracciones etiquetadas / no etiquetadas. 9 ejecuciones para cada una de las versiones. Representaci´n: tf-idf. o Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
  • 85. Experimentaci´n o Experimentaci´n: implementaci´n o o Software utilizado: SVM-light (http://svmlight.joachims.org) SVM-multiclass Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 32 / 43
  • 86. Experimentaci´n o Experimentaci´n: implementaci´n o o Software utilizado: SVM-light (http://svmlight.joachims.org) SVM-multiclass 2-steps-SVM =⇒ 1 step-SVM Ignorar documentos no etiquetados, ¿empeora los resultados? Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 32 / 43
  • 87. Experimentaci´n o Experimentaci´n: evaluaci´n o o Acierto (accuracy): % del n´mero de predicciones correctas sobre el u total de documentos testeados. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 33 / 43
  • 88. Resultados ´ Indice 1 Clasificaci´n autom´tica de textos o a 2 Motivaci´n o 3 ¿Por qu´ SVM? e 4 SVM 5 SVM multiclase 6 S3 VM 7 S3 VM multiclase 8 Alternativas para S3 VM multiclase 9 Experimentaci´n o 10 Resultados 11 Conclusiones y trabajo futuro 12 Referencias y trabajo futuro Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 34 / 43
  • 89. Resultados Resultados: BankSearch Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 35 / 43
  • 90. Resultados Resultados: WebKB Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 36 / 43
  • 91. Resultados Resultados: Yahoo! Science Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 37 / 43
  • 92. Resultados Resultados Mejores resultados para combinaci´n de supervisados multiclase: o 2-steps-SVM y 1-step-SVM. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 38 / 43
  • 93. Resultados Resultados Mejores resultados para combinaci´n de supervisados multiclase: o 2-steps-SVM y 1-step-SVM. De las combinaciones binarias, destaca all-against-all-S3 VM, mientras que one-against-one-S3 VM demuestra que el ruido previsto existe. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 38 / 43
  • 94. Resultados Resultados Mejores resultados para combinaci´n de supervisados multiclase: o 2-steps-SVM y 1-step-SVM. De las combinaciones binarias, destaca all-against-all-S3 VM, mientras que one-against-one-S3 VM demuestra que el ruido previsto existe. 1-step-SVM muestra resultados similares que 2-steps-SVM, excepto en WebKB, que gana; esa colecci´n es m´s homogenea. o a Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 38 / 43
  • 95. Resultados Resultados Mejores resultados para combinaci´n de supervisados multiclase: o 2-steps-SVM y 1-step-SVM. De las combinaciones binarias, destaca all-against-all-S3 VM, mientras que one-against-one-S3 VM demuestra que el ruido previsto existe. 1-step-SVM muestra resultados similares que 2-steps-SVM, excepto en WebKB, que gana; esa colecci´n es m´s homogenea. o a Se mantiene el ranking de los algoritmos. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 38 / 43
  • 96. Conclusiones y trabajo futuro ´ Indice 1 Clasificaci´n autom´tica de textos o a 2 Motivaci´n o 3 ¿Por qu´ SVM? e 4 SVM 5 SVM multiclase 6 S3 VM 7 S3 VM multiclase 8 Alternativas para S3 VM multiclase 9 Experimentaci´n o 10 Resultados 11 Conclusiones y trabajo futuro 12 Referencias y trabajo futuro Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 39 / 43
  • 97. Conclusiones y trabajo futuro Conclusiones Se han comparado aproximaciones a S3 VM multiclase para clasificaci´n de p´ginas web: o a Trasladando one-against-one y one-against-all al entorno semisupervisado. Presentando los m´todos 2-steps-SVM y all-against-all-S3 VM. e Se ha evaluado la aportaci´n de los documentos no etiquetados en el o aprendizaje. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 40 / 43
  • 98. Conclusiones y trabajo futuro Conclusiones Se han comparado aproximaciones a S3 VM multiclase para clasificaci´n de p´ginas web: o a Trasladando one-against-one y one-against-all al entorno semisupervisado. Presentando los m´todos 2-steps-SVM y all-against-all-S3 VM. e Se ha evaluado la aportaci´n de los documentos no etiquetados en el o aprendizaje. Los mejores resultados han sido para las combinaciones de clasificadores supervisados multiclase. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 40 / 43
  • 99. Conclusiones y trabajo futuro Conclusiones Se han comparado aproximaciones a S3 VM multiclase para clasificaci´n de p´ginas web: o a Trasladando one-against-one y one-against-all al entorno semisupervisado. Presentando los m´todos 2-steps-SVM y all-against-all-S3 VM. e Se ha evaluado la aportaci´n de los documentos no etiquetados en el o aprendizaje. Los mejores resultados han sido para las combinaciones de clasificadores supervisados multiclase. La utilizaci´n de documentos no etiquetados no ha aportado mucho. o Esta aportaci´n ha sido algo mayor para colecciones homogeneas. o Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 40 / 43
  • 100. Conclusiones y trabajo futuro Conclusiones Se han comparado aproximaciones a S3 VM multiclase para clasificaci´n de p´ginas web: o a Trasladando one-against-one y one-against-all al entorno semisupervisado. Presentando los m´todos 2-steps-SVM y all-against-all-S3 VM. e Se ha evaluado la aportaci´n de los documentos no etiquetados en el o aprendizaje. Los mejores resultados han sido para las combinaciones de clasificadores supervisados multiclase. La utilizaci´n de documentos no etiquetados no ha aportado mucho. o Esta aportaci´n ha sido algo mayor para colecciones homogeneas. o Entre las combinaciones de semisupervisados binarios, all-against-all-S3 VM ha mostrado una gran efectividad, aunque su eficiencia debe mejorar. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 40 / 43
  • 101. Conclusiones y trabajo futuro Trabajo futuro A˜adir el m´todo S3 VM multiclase directo al estudio. n e Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 41 / 43
  • 102. Conclusiones y trabajo futuro Trabajo futuro A˜adir el m´todo S3 VM multiclase directo al estudio. n e Aplicaci´n de diferentes m´todos de representaci´n, aprovechando las o e o caracter´ ısticas propias de las p´ginas web (etiquetado HTML, etc.). a Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 41 / 43
  • 103. Conclusiones y trabajo futuro Trabajo futuro A˜adir el m´todo S3 VM multiclase directo al estudio. n e Aplicaci´n de diferentes m´todos de representaci´n, aprovechando las o e o caracter´ ısticas propias de las p´ginas web (etiquetado HTML, etc.). a Optimizar el rendimiento de la t´cnica all-against-all-S3 VM. e Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 41 / 43
  • 104. Referencias ´ Indice 1 Clasificaci´n autom´tica de textos o a 2 Motivaci´n o 3 ¿Por qu´ SVM? e 4 SVM 5 SVM multiclase 6 S3 VM 7 S3 VM multiclase 8 Alternativas para S3 VM multiclase 9 Experimentaci´n o 10 Resultados 11 Conclusiones y trabajo futuro 12 Referencias y trabajo futuro Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 42 / 43
  • 105. Referencias Referencias T. Joachims. 2002. Learning to Classify Text using Support Vector Machines. Kluwer/Springer. X. Qi y B.D. Davison. 2007. Web Page Classification: Features and Algorithms. Informe T´cnico LU-CSE-07-010. e F. Sebastiani. 2002. Machine Learning in Automated Text Categorization. ACM Computing Surveys, pp. 1-47. J. Weston y C. Watkins. 1999. Multi-class Support Vector Machines. Proceedings of ESAAN, the European Symposium on Artificial Neural Networks. Y. Yajima y T.-F. Kuo. 2006. Optimization Approaches for Semi-Supervised Multiclass Classification. Proceedings of ICDMW’06, the 6th International Conference on Data Mining. Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 43 / 43