Este documento trata sobre clasificación automática de textos mediante máquinas de vectores de soporte (SVM). Explica la motivación para usar SVM en clasificación de páginas web, ya que es una técnica que ha obtenido buenos resultados. También describe brevemente SVM binario y sus limitaciones para problemas multiclase y semisupervisados, que son comunes en clasificación de páginas web. El objetivo es proponer nuevos enfoques para SVM multiclase semisupervisado que resuelvan este problema.
tics en la vida cotidiana prepa en linea modulo 1.pptx
Master thesis presentation
1. Aproximaciones a S3 VM multiclase
M´ster en tecnolog´ del lenguaje en la web
a ıas
Arkaitz Zubiaga Mendialdua
UNED
29 de septiembre de 2008
Director: V´
ıctor Fresno Fern´ndez
a
2. Clasificaci´n autom´tica de textos
o a
´
Indice
1 Clasificaci´n autom´tica de textos
o a
2 Motivaci´n
o
3 ¿Por qu´ SVM?
e
4 SVM
5 SVM multiclase
6 S3 VM
7 S3 VM multiclase
8 Alternativas para S3 VM multiclase
9 Experimentaci´n
o
10 Resultados
11 Conclusiones y trabajo futuro
12 Referencias y trabajo futuro
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 2 / 43
3. Clasificaci´n autom´tica de textos
o a
¿Qu´ es?
e
Se dispone de una colecci´n de documentos:
o
D = {d1 , ..., d|D| }
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 3 / 43
4. Clasificaci´n autom´tica de textos
o a
¿Qu´ es?
e
Se dispone de una colecci´n de documentos:
o
D = {d1 , ..., d|D| }
Y una serie de categor´ predefinidas:
ıas
C = {c1 , ..., c|C | }
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 3 / 43
5. Clasificaci´n autom´tica de textos
o a
¿Qu´ es?
e
Se dispone de una colecci´n de documentos:
o
D = {d1 , ..., d|D| }
Y una serie de categor´ predefinidas:
ıas
C = {c1 , ..., c|C | }
La clasificaci´n se define como:
o
dj , ci ∈ D × C
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 3 / 43
6. Clasificaci´n autom´tica de textos
o a
Caracter´
ısticas
Aprendizaje autom´tico
a
Aprendizaje supervisado
Aprendizaje semisupervisado
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 4 / 43
7. Clasificaci´n autom´tica de textos
o a
Caracter´
ısticas
Aprendizaje autom´tico
a
Aprendizaje supervisado
Aprendizaje semisupervisado
Taxonom´
ıa
Binaria
Multiclase
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 4 / 43
8. Motivaci´n
o
´
Indice
1 Clasificaci´n autom´tica de textos
o a
2 Motivaci´n
o
3 ¿Por qu´ SVM?
e
4 SVM
5 SVM multiclase
6 S3 VM
7 S3 VM multiclase
8 Alternativas para S3 VM multiclase
9 Experimentaci´n
o
10 Resultados
11 Conclusiones y trabajo futuro
12 Referencias y trabajo futuro
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 5 / 43
9. Motivaci´n
o
Motivaci´n
o
Muchos estudios para clasificaci´n de texto plano (noticias), pero
o
menos sobre p´ginas web.
a
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 6 / 43
10. Motivaci´n
o
Motivaci´n
o
Muchos estudios para clasificaci´n de texto plano (noticias), pero
o
menos sobre p´ginas web.
a
Problema t´
ıpico de clasificaci´n de p´ginas web
o a
Semisupervisado: pocos documentos etiquetados respecto a la
colecci´n a clasificar.
o
Multiclase: taxonom´ mayor que 2.
ıa
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 6 / 43
11. Motivaci´n
o
Motivaci´n
o
Muchos estudios para clasificaci´n de texto plano (noticias), pero
o
menos sobre p´ginas web.
a
Problema t´
ıpico de clasificaci´n de p´ginas web
o a
Semisupervisado: pocos documentos etiquetados respecto a la
colecci´n a clasificar.
o
Multiclase: taxonom´ mayor que 2.
ıa
T´cnica de clasificaci´n escogida: SVM.
e o
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 6 / 43
12. Motivaci´n
o
Motivaci´n
o
Muchos estudios para clasificaci´n de texto plano (noticias), pero
o
menos sobre p´ginas web.
a
Problema t´
ıpico de clasificaci´n de p´ginas web
o a
Semisupervisado: pocos documentos etiquetados respecto a la
colecci´n a clasificar.
o
Multiclase: taxonom´ mayor que 2.
ıa
T´cnica de clasificaci´n escogida: SVM.
e o
Problema: Poco trabajo para SVM semisupervisado multiclase
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 6 / 43
13. Motivaci´n
o
Motivaci´n
o
Muchos estudios para clasificaci´n de texto plano (noticias), pero
o
menos sobre p´ginas web.
a
Problema t´
ıpico de clasificaci´n de p´ginas web
o a
Semisupervisado: pocos documentos etiquetados respecto a la
colecci´n a clasificar.
o
Multiclase: taxonom´ mayor que 2.
ıa
T´cnica de clasificaci´n escogida: SVM.
e o
Problema: Poco trabajo para SVM semisupervisado multiclase
Necesidad de nuevas propuestas para resolver el problema planteado
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 6 / 43
14. ¿Por qu´ SVM?
e
´
Indice
1 Clasificaci´n autom´tica de textos
o a
2 Motivaci´n
o
3 ¿Por qu´ SVM?
e
4 SVM
5 SVM multiclase
6 S3 VM
7 S3 VM multiclase
8 Alternativas para S3 VM multiclase
9 Experimentaci´n
o
10 Resultados
11 Conclusiones y trabajo futuro
12 Referencias y trabajo futuro
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 7 / 43
15. ¿Por qu´ SVM?
e
¿Por qu´ SVM?
e
Muchos estudios recientes: Bolelli et al. (2007); Bordes et al. (2007);
Sun et al. (2007); Wang et al. (2007a,b); Zien et al. (2007);
Heymann et al. (2008)).
Mejores resultados que otras t´cnicas para clasificaci´n de textos.
e o
La utilizaci´n de un kernel facilita la tarea de clasificaci´n para zonas
o o
disjuntas.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 8 / 43
16. ¿Por qu´ SVM?
e
Comparativa con otras t´cnicas
e
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 9 / 43
17. ¿Por qu´ SVM?
e
Comparativa con otras t´cnicas
e
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 10 / 43
18. ¿Por qu´ SVM?
e
Comparativa con otras t´cnicas
e
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 11 / 43
19. SVM
´
Indice
1 Clasificaci´n autom´tica de textos
o a
2 Motivaci´n
o
3 ¿Por qu´ SVM?
e
4 SVM
5 SVM multiclase
6 S3 VM
7 S3 VM multiclase
8 Alternativas para S3 VM multiclase
9 Experimentaci´n
o
10 Resultados
11 Conclusiones y trabajo futuro
12 Referencias y trabajo futuro
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 12 / 43
20. SVM
SVM
Modelo espacio vectorial
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 13 / 43
21. SVM
SVM
Modelo espacio vectorial
B´squeda de hiperplano de separaci´n
u o
Maximizaci´n de margen
o
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 13 / 43
22. SVM
SVM
Modelo espacio vectorial
B´squeda de hiperplano de separaci´n
u o
Maximizaci´n de margen
o
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 13 / 43
23. SVM
SVM
Modelo espacio vectorial
B´squeda de hiperplano de separaci´n
u o
Maximizaci´n de margen
o
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 13 / 43
24. SVM
SVM
Funci´n de optimizaci´n: f (x) = ω · x + b
o o
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 14 / 43
25. SVM
SVM
Funci´n de optimizaci´n: f (x) = ω · x + b
o o
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 14 / 43
26. SVM
SVM
Funci´n de optimizaci´n: f (x) = ω · x + b
o o
Problema: Dificil de computar.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 14 / 43
27. SVM
SVM
Se utiliza funci´n equivalente:
o
n
1
min ||ω||2 + C · ξid
2
i=1
Sujeto a: yi (ω · xi + b) ≥ 1 − ξi , ξi ≥ 0
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 15 / 43
28. SVM
SVM
Se utiliza funci´n equivalente:
o
n
1
min ||ω||2 + C · ξid
2
i=1
Sujeto a: yi (ω · xi + b) ≥ 1 − ξi , ξi ≥ 0
Utilizaci´n de funci´n de kernel para casos no lineales.
o o
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 15 / 43
29. SVM
SVM
Se utiliza funci´n equivalente:
o
n
1
min ||ω||2 + C · ξid
2
i=1
Sujeto a: yi (ω · xi + b) ≥ 1 − ξi , ξi ≥ 0
Utilizaci´n de funci´n de kernel para casos no lineales.
o o
´
Unicamente resuelve problemas binarios y supervisados.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 15 / 43
30. SVM multiclase
´
Indice
1 Clasificaci´n autom´tica de textos
o a
2 Motivaci´n
o
3 ¿Por qu´ SVM?
e
4 SVM
5 SVM multiclase
6 S3 VM
7 S3 VM multiclase
8 Alternativas para S3 VM multiclase
9 Experimentaci´n
o
10 Resultados
11 Conclusiones y trabajo futuro
12 Referencias y trabajo futuro
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 16 / 43
31. SVM multiclase
SVM multiclase
Aproximaciones a SVM multiclase:
Directa.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 17 / 43
32. SVM multiclase
SVM multiclase
Aproximaciones a SVM multiclase:
Directa.
Combinaci´n de binarios.
o
One-against-one.
One-against-all.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 17 / 43
33. SVM multiclase
SVM multiclase
Aproximaciones a SVM multiclase:
Directa.
Combinaci´n de binarios.
o
One-against-one.
One-against-all.
Se ha trabajado con colecciones supervisadas, pero apenas con
semisupervisadas.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 17 / 43
34. SVM multiclase
SVM multiclase: Aproximaci´n directa
o
La funci´n de optimizaci´n tiene en cuenta todos los hiperplanos.
o o
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 18 / 43
35. SVM multiclase
SVM multiclase: Aproximaci´n directa
o
La funci´n de optimizaci´n tiene en cuenta todos los hiperplanos.
o o
n l
1
m´
ın ||wm ||2 + C ξim
2
m=1 i=1 m=yi
Sujeto a:
wyi · xi + byi ≥ wm · xi + bm + 2 − ξim , ξim ≥ 0
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 18 / 43
36. SVM multiclase
SVM multiclase: One-against-one
k·(k−1)
Construye 2 clasificadores binarios
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
37. SVM multiclase
SVM multiclase: One-against-one
k·(k−1)
Construye 2 clasificadores binarios
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
38. SVM multiclase
SVM multiclase: One-against-one
k·(k−1)
Construye 2 clasificadores binarios
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
39. SVM multiclase
SVM multiclase: One-against-one
k·(k−1)
Construye 2 clasificadores binarios
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
40. SVM multiclase
SVM multiclase: One-against-one
k·(k−1)
Construye 2 clasificadores binarios
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
41. SVM multiclase
SVM multiclase: One-against-one
k·(k−1)
Construye 2 clasificadores binarios
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
42. SVM multiclase
SVM multiclase: One-against-one
k·(k−1)
Construye 2 clasificadores binarios
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
43. SVM multiclase
SVM multiclase: One-against-one
k·(k−1)
Construye 2 clasificadores binarios
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
44. SVM multiclase
SVM multiclase: One-against-one
k·(k−1)
Construye 2 clasificadores binarios
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
45. SVM multiclase
SVM multiclase: One-against-one
k·(k−1)
Construye 2 clasificadores binarios
T
sign(ωij · x + bij ) −→ Sumar un voto a clase positiva entre i y j
La clase con m´s votos es la que el sistema predice.
a
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 19 / 43
46. SVM multiclase
SVM multiclase: One-against-all
Construye k clasificadores binarios
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
47. SVM multiclase
SVM multiclase: One-against-all
Construye k clasificadores binarios
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
48. SVM multiclase
SVM multiclase: One-against-all
Construye k clasificadores binarios
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
49. SVM multiclase
SVM multiclase: One-against-all
Construye k clasificadores binarios
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
50. SVM multiclase
SVM multiclase: One-against-all
Construye k clasificadores binarios
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
51. SVM multiclase
SVM multiclase: One-against-all
Construye k clasificadores binarios
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
52. SVM multiclase
SVM multiclase: One-against-all
Construye k clasificadores binarios
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
53. SVM multiclase
SVM multiclase: One-against-all
Construye k clasificadores binarios
ˆ
Ci = arg m´x (ωi · x + bi )
a
i=1,...,k
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 20 / 43
54. S3 VM
´
Indice
1 Clasificaci´n autom´tica de textos
o a
2 Motivaci´n
o
3 ¿Por qu´ SVM?
e
4 SVM
5 SVM multiclase
6 S3 VM
7 S3 VM multiclase
8 Alternativas para S3 VM multiclase
9 Experimentaci´n
o
10 Resultados
11 Conclusiones y trabajo futuro
12 Referencias y trabajo futuro
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 21 / 43
55. S3 VM
SVM semisupervisado (S3 VM)
Utilizaci´n de documentos no etiquetados en fase de aprendizaje.
o
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
56. S3 VM
SVM semisupervisado (S3 VM)
Utilizaci´n de documentos no etiquetados en fase de aprendizaje.
o
Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n:
n e o o
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
57. S3 VM
SVM semisupervisado (S3 VM)
Utilizaci´n de documentos no etiquetados en fase de aprendizaje.
o
Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n:
n e o o
l
1
m´
ın · ||ω||2 + C · ξid
2
i=1
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
58. S3 VM
SVM semisupervisado (S3 VM)
Utilizaci´n de documentos no etiquetados en fase de aprendizaje.
o
Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n:
n e o o
l u
1 d
m´
ın · ||ω||2 + C · ξid + C ∗ · ξj∗
2
i=1 j=1
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
59. S3 VM
SVM semisupervisado (S3 VM)
Utilizaci´n de documentos no etiquetados en fase de aprendizaje.
o
Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n:
n e o o
l u
1 d
m´
ın · ||ω||2 + C · ξid + C ∗ · ξj∗
2
i=1 j=1
Problema: se representa mediante una funci´n no convexa.
o
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
60. S3 VM
SVM semisupervisado (S3 VM)
Utilizaci´n de documentos no etiquetados en fase de aprendizaje.
o
Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n:
n e o o
l u
1 d
m´
ın · ||ω||2 + C · ξid + C ∗ · ξj∗
2
i=1 j=1
Problema: se representa mediante una funci´n no convexa.
o
Soluciones de optimizaci´n convexa.
o
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
61. S3 VM
SVM semisupervisado (S3 VM)
Utilizaci´n de documentos no etiquetados en fase de aprendizaje.
o
Se a˜ade un t´rmino adicional a la funci´n de optimizaci´n:
n e o o
l u
1 d
m´
ın · ||ω||2 + C · ξid + C ∗ · ξj∗
2
i=1 j=1
Problema: se representa mediante una funci´n no convexa.
o
Soluciones de optimizaci´n convexa.
o
Utilizado sobre taxonom´ binarias, pero apenas en entornos
ıas
multiclase.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 22 / 43
62. S3 VM
SVM vs S3 VM
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 23 / 43
63. S3 VM
SVM vs S3 VM
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 23 / 43
64. S3 VM
SVM vs S3 VM
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 23 / 43
65. S3 VM
SVM vs S3 VM
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 23 / 43
66. S3 VM
SVM vs S3 VM
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 23 / 43
67. S3 VM multiclase
´
Indice
1 Clasificaci´n autom´tica de textos
o a
2 Motivaci´n
o
3 ¿Por qu´ SVM?
e
4 SVM
5 SVM multiclase
6 S3 VM
7 S3 VM multiclase
8 Alternativas para S3 VM multiclase
9 Experimentaci´n
o
10 Resultados
11 Conclusiones y trabajo futuro
12 Referencias y trabajo futuro
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 24 / 43
68. S3 VM multiclase
S3 VM multiclase
´
Unica referencia hasta el momento (Yajima y Kuo, 2006):
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 25 / 43
69. S3 VM multiclase
S3 VM multiclase
´
Unica referencia hasta el momento (Yajima y Kuo, 2006):
h l
1 iT −1 i y
m´
ın( β K β +C m´x(0, 1 − (βj j − βji ))2 )
a
2
i=1 j=1 i=yj
donde β representa el producto entre un vector de variables y una matriz
de kernel definidas por el autor.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 25 / 43
70. S3 VM multiclase
S3 VM multiclase
´
Unica referencia hasta el momento (Yajima y Kuo, 2006):
h l
1 iT −1 i y
m´
ın( β K β +C m´x(0, 1 − (βj j − βji ))2 )
a
2
i=1 j=1 i=yj
donde β representa el producto entre un vector de variables y una matriz
de kernel definidas por el autor.
Su optimizaci´n puede resultar costosa, por lo que conviene estudiar
o
nuevas aproximaciones.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 25 / 43
71. Alternativas para S3 VM multiclase
´
Indice
1 Clasificaci´n autom´tica de textos
o a
2 Motivaci´n
o
3 ¿Por qu´ SVM?
e
4 SVM
5 SVM multiclase
6 S3 VM
7 S3 VM multiclase
8 Alternativas para S3 VM multiclase
9 Experimentaci´n
o
10 Resultados
11 Conclusiones y trabajo futuro
12 Referencias y trabajo futuro
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 26 / 43
72. Alternativas para S3 VM multiclase
Alternativas para S3 VM multiclase
One-against-all-S3 VM: No aplicado sobre semisupervisado.
One-against-one-S3 VM: No aplicado sobre semisupervisado.
¿Posible existencia de ruido al no poder seleccionar los debidos
documentos no etiquetados?
Nuevas propuestas:
All-against-all-S3 VM.
2-steps-SVM.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 27 / 43
73. Alternativas para S3 VM multiclase
Alternativas para S3 VM multiclase: all-against-all-S3 VM
Construye 2k−1 − 1 clasificadores binarios.
Para un ejemplo con 4 clases:
1 vs 2-3-4
1-2 vs 3-4
1-3 vs 2-4
1-4 vs 2-3
1-2-3 vs 4
1-2-4 vs 3
1-3-4 vs 2
T
sign(ωij · x + bij ) −→ Sumar margen resultante a clases del lado
positivo.
El sistema presenta como predicci´n aquella clase con mayor
o
puntuaci´n.
o
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 28 / 43
74. Alternativas para S3 VM multiclase
Alternativas para S3 VM multiclase: 2-steps-SVM
Se aplican 2 pasos de aprendizaje supervisado multiclase:
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 29 / 43
75. Alternativas para S3 VM multiclase
Alternativas para S3 VM multiclase: 2-steps-SVM
Se aplican 2 pasos de aprendizaje supervisado multiclase:
1 Aprendizaje sobre colecci´n de entrenamiento: se aprende con los
o
documentos etiquetados, prediciendo los no etiquetados.
1
2
1
...
3
0
0
...
0
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 29 / 43
76. Alternativas para S3 VM multiclase
Alternativas para S3 VM multiclase: 2-steps-SVM
Se aplican 2 pasos de aprendizaje supervisado multiclase:
1 Aprendizaje sobre colecci´n de entrenamiento: se aprende con los
o
documentos etiquetados, prediciendo los no etiquetados.
1 −→ 1
2 −→ 2
1 −→ 1
...
3 −→ 3
0 −→ 3
0 −→ 2
...
0 −→ 1
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 29 / 43
77. Alternativas para S3 VM multiclase
Alternativas para S3 VM multiclase: 2-steps-SVM
Se aplican 2 pasos de aprendizaje supervisado multiclase:
1 Aprendizaje sobre colecci´n de entrenamiento: se aprende con los
o
documentos etiquetados, prediciendo los no etiquetados.
1 −→ 1
2 −→ 2
1 −→ 1
...
3 −→ 3
0 −→ 3
0 −→ 2
...
0 −→ 1
2 Clasificaci´n de la colecci´n de test: con la colecci´n de entrenamiento
o o o
etiquetada, se basa el aprendizaje en ella, clasificando la colecci´n de
o
test.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 29 / 43
78. Experimentaci´n
o
´
Indice
1 Clasificaci´n autom´tica de textos
o a
2 Motivaci´n
o
3 ¿Por qu´ SVM?
e
4 SVM
5 SVM multiclase
6 S3 VM
7 S3 VM multiclase
8 Alternativas para S3 VM multiclase
9 Experimentaci´n
o
10 Resultados
11 Conclusiones y trabajo futuro
12 Referencias y trabajo futuro
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 30 / 43
79. Experimentaci´n
o
Experimentaci´n: colecciones
o
Colecciones utilizadas:
BankSearch: 10.000 documentos web / 10 categor´ (4.000
ıas
entrenamiento).
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
80. Experimentaci´n
o
Experimentaci´n: colecciones
o
Colecciones utilizadas:
BankSearch: 10.000 documentos web / 10 categor´ (4.000
ıas
entrenamiento).
WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento).
ıas
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
81. Experimentaci´n
o
Experimentaci´n: colecciones
o
Colecciones utilizadas:
BankSearch: 10.000 documentos web / 10 categor´ (4.000
ıas
entrenamiento).
WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento).
ıas
Yahoo! Science: 788 documentos web / 6 categor´ (200
ıas
entrenamiento).
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
82. Experimentaci´n
o
Experimentaci´n: colecciones
o
Colecciones utilizadas:
BankSearch: 10.000 documentos web / 10 categor´ (4.000
ıas
entrenamiento).
WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento).
ıas
Yahoo! Science: 788 documentos web / 6 categor´ (200
ıas
entrenamiento).
Versiones con diferentes fracciones etiquetadas / no etiquetadas.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
83. Experimentaci´n
o
Experimentaci´n: colecciones
o
Colecciones utilizadas:
BankSearch: 10.000 documentos web / 10 categor´ (4.000
ıas
entrenamiento).
WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento).
ıas
Yahoo! Science: 788 documentos web / 6 categor´ (200
ıas
entrenamiento).
Versiones con diferentes fracciones etiquetadas / no etiquetadas.
9 ejecuciones para cada una de las versiones.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
84. Experimentaci´n
o
Experimentaci´n: colecciones
o
Colecciones utilizadas:
BankSearch: 10.000 documentos web / 10 categor´ (4.000
ıas
entrenamiento).
WebKB: 4.518 documentos web / 6 categor´ (2.000 entrenamiento).
ıas
Yahoo! Science: 788 documentos web / 6 categor´ (200
ıas
entrenamiento).
Versiones con diferentes fracciones etiquetadas / no etiquetadas.
9 ejecuciones para cada una de las versiones.
Representaci´n: tf-idf.
o
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 31 / 43
85. Experimentaci´n
o
Experimentaci´n: implementaci´n
o o
Software utilizado:
SVM-light (http://svmlight.joachims.org)
SVM-multiclass
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 32 / 43
86. Experimentaci´n
o
Experimentaci´n: implementaci´n
o o
Software utilizado:
SVM-light (http://svmlight.joachims.org)
SVM-multiclass
2-steps-SVM =⇒ 1 step-SVM
Ignorar documentos no etiquetados, ¿empeora los resultados?
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 32 / 43
87. Experimentaci´n
o
Experimentaci´n: evaluaci´n
o o
Acierto (accuracy): % del n´mero de predicciones correctas sobre el
u
total de documentos testeados.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 33 / 43
88. Resultados
´
Indice
1 Clasificaci´n autom´tica de textos
o a
2 Motivaci´n
o
3 ¿Por qu´ SVM?
e
4 SVM
5 SVM multiclase
6 S3 VM
7 S3 VM multiclase
8 Alternativas para S3 VM multiclase
9 Experimentaci´n
o
10 Resultados
11 Conclusiones y trabajo futuro
12 Referencias y trabajo futuro
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 34 / 43
92. Resultados
Resultados
Mejores resultados para combinaci´n de supervisados multiclase:
o
2-steps-SVM y 1-step-SVM.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 38 / 43
93. Resultados
Resultados
Mejores resultados para combinaci´n de supervisados multiclase:
o
2-steps-SVM y 1-step-SVM.
De las combinaciones binarias, destaca all-against-all-S3 VM, mientras
que one-against-one-S3 VM demuestra que el ruido previsto existe.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 38 / 43
94. Resultados
Resultados
Mejores resultados para combinaci´n de supervisados multiclase:
o
2-steps-SVM y 1-step-SVM.
De las combinaciones binarias, destaca all-against-all-S3 VM, mientras
que one-against-one-S3 VM demuestra que el ruido previsto existe.
1-step-SVM muestra resultados similares que 2-steps-SVM, excepto
en WebKB, que gana; esa colecci´n es m´s homogenea.
o a
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 38 / 43
95. Resultados
Resultados
Mejores resultados para combinaci´n de supervisados multiclase:
o
2-steps-SVM y 1-step-SVM.
De las combinaciones binarias, destaca all-against-all-S3 VM, mientras
que one-against-one-S3 VM demuestra que el ruido previsto existe.
1-step-SVM muestra resultados similares que 2-steps-SVM, excepto
en WebKB, que gana; esa colecci´n es m´s homogenea.
o a
Se mantiene el ranking de los algoritmos.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 38 / 43
96. Conclusiones y trabajo futuro
´
Indice
1 Clasificaci´n autom´tica de textos
o a
2 Motivaci´n
o
3 ¿Por qu´ SVM?
e
4 SVM
5 SVM multiclase
6 S3 VM
7 S3 VM multiclase
8 Alternativas para S3 VM multiclase
9 Experimentaci´n
o
10 Resultados
11 Conclusiones y trabajo futuro
12 Referencias y trabajo futuro
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 39 / 43
97. Conclusiones y trabajo futuro
Conclusiones
Se han comparado aproximaciones a S3 VM multiclase para
clasificaci´n de p´ginas web:
o a
Trasladando one-against-one y one-against-all al entorno
semisupervisado.
Presentando los m´todos 2-steps-SVM y all-against-all-S3 VM.
e
Se ha evaluado la aportaci´n de los documentos no etiquetados en el
o
aprendizaje.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 40 / 43
98. Conclusiones y trabajo futuro
Conclusiones
Se han comparado aproximaciones a S3 VM multiclase para
clasificaci´n de p´ginas web:
o a
Trasladando one-against-one y one-against-all al entorno
semisupervisado.
Presentando los m´todos 2-steps-SVM y all-against-all-S3 VM.
e
Se ha evaluado la aportaci´n de los documentos no etiquetados en el
o
aprendizaje.
Los mejores resultados han sido para las combinaciones de
clasificadores supervisados multiclase.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 40 / 43
99. Conclusiones y trabajo futuro
Conclusiones
Se han comparado aproximaciones a S3 VM multiclase para
clasificaci´n de p´ginas web:
o a
Trasladando one-against-one y one-against-all al entorno
semisupervisado.
Presentando los m´todos 2-steps-SVM y all-against-all-S3 VM.
e
Se ha evaluado la aportaci´n de los documentos no etiquetados en el
o
aprendizaje.
Los mejores resultados han sido para las combinaciones de
clasificadores supervisados multiclase.
La utilizaci´n de documentos no etiquetados no ha aportado mucho.
o
Esta aportaci´n ha sido algo mayor para colecciones homogeneas.
o
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 40 / 43
100. Conclusiones y trabajo futuro
Conclusiones
Se han comparado aproximaciones a S3 VM multiclase para
clasificaci´n de p´ginas web:
o a
Trasladando one-against-one y one-against-all al entorno
semisupervisado.
Presentando los m´todos 2-steps-SVM y all-against-all-S3 VM.
e
Se ha evaluado la aportaci´n de los documentos no etiquetados en el
o
aprendizaje.
Los mejores resultados han sido para las combinaciones de
clasificadores supervisados multiclase.
La utilizaci´n de documentos no etiquetados no ha aportado mucho.
o
Esta aportaci´n ha sido algo mayor para colecciones homogeneas.
o
Entre las combinaciones de semisupervisados binarios,
all-against-all-S3 VM ha mostrado una gran efectividad, aunque su
eficiencia debe mejorar.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 40 / 43
101. Conclusiones y trabajo futuro
Trabajo futuro
A˜adir el m´todo S3 VM multiclase directo al estudio.
n e
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 41 / 43
102. Conclusiones y trabajo futuro
Trabajo futuro
A˜adir el m´todo S3 VM multiclase directo al estudio.
n e
Aplicaci´n de diferentes m´todos de representaci´n, aprovechando las
o e o
caracter´
ısticas propias de las p´ginas web (etiquetado HTML, etc.).
a
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 41 / 43
103. Conclusiones y trabajo futuro
Trabajo futuro
A˜adir el m´todo S3 VM multiclase directo al estudio.
n e
Aplicaci´n de diferentes m´todos de representaci´n, aprovechando las
o e o
caracter´
ısticas propias de las p´ginas web (etiquetado HTML, etc.).
a
Optimizar el rendimiento de la t´cnica all-against-all-S3 VM.
e
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 41 / 43
104. Referencias
´
Indice
1 Clasificaci´n autom´tica de textos
o a
2 Motivaci´n
o
3 ¿Por qu´ SVM?
e
4 SVM
5 SVM multiclase
6 S3 VM
7 S3 VM multiclase
8 Alternativas para S3 VM multiclase
9 Experimentaci´n
o
10 Resultados
11 Conclusiones y trabajo futuro
12 Referencias y trabajo futuro
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 42 / 43
105. Referencias
Referencias
T. Joachims. 2002. Learning to Classify Text using Support Vector
Machines. Kluwer/Springer.
X. Qi y B.D. Davison. 2007. Web Page Classification: Features and
Algorithms. Informe T´cnico LU-CSE-07-010.
e
F. Sebastiani. 2002. Machine Learning in Automated Text
Categorization. ACM Computing Surveys, pp. 1-47.
J. Weston y C. Watkins. 1999. Multi-class Support Vector Machines.
Proceedings of ESAAN, the European Symposium on Artificial Neural
Networks.
Y. Yajima y T.-F. Kuo. 2006. Optimization Approaches for
Semi-Supervised Multiclass Classification. Proceedings of ICDMW’06,
the 6th International Conference on Data Mining.
Arkaitz Zubiaga Mendialdua (UNED) Aproximaciones a S3 VM multiclase 29 de septiembre de 2008 43 / 43