1. Etiketa-lainoen Ikuskera Hobetzeko Multzokatzea
Informatikari Euskaldunen Bilkura ’09
Arkaitz Zubiaga
Alberto P. Garc´ıa-Plaza
V´
ıctor Fresno
Raquel Mart´ ınez
NLP & IR Group @ UNED
2009ko maiatzaren 7a
2. Sarrera
Aurkibidea
1 Sarrera
2 Datuak Eskuratzea
3 Proposatutako Metodoa
4 Emaitzak
5 Ondorioak
6 Etorkizunerako Ildoak
7 Eskerrak
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 2 / 26
6. Sarrera
Etiketa-lainoa
Antolaketa eza.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 5 / 26
7. Sarrera
Etiketa-lainoa
Antolaketa eza.
3 etiketa mota ezberdindu ohi dira:
Gaiari lotutako etiketak: programming.
Etiketa subjektiboak: interesting.
Etiketa pertsonalak: toread.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 5 / 26
8. Sarrera
Motibazioa
Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberako
multzokatzea. Ondorioz:
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 6 / 26
9. Sarrera
Motibazioa
Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberako
multzokatzea. Ondorioz:
Ikuskera eta bilaketa erraztea.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 6 / 26
10. Sarrera
Motibazioa
Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberako
multzokatzea. Ondorioz:
Ikuskera eta bilaketa erraztea.
Modu errazean lotuta dauden etiketetara harpidetzea.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 6 / 26
11. Sarrera
Motibazioa
Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberako
multzokatzea. Ondorioz:
Ikuskera eta bilaketa erraztea.
Modu errazean lotuta dauden etiketetara harpidetzea.
Aurreko lan batzuek etiketak batera agertzearen arabera egin dute
hau.
Edukia kontuan hartu nahi dugu guk.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 6 / 26
12. Datuak Eskuratzea
Aurkibidea
1 Sarrera
2 Datuak Eskuratzea
3 Proposatutako Metodoa
4 Emaitzak
5 Ondorioak
6 Etorkizunerako Ildoak
7 Eskerrak
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 7 / 26
13. Datuak Eskuratzea
Datuak eskuratzea
Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,
etiketa-lainoa).
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26
14. Datuak Eskuratzea
Datuak eskuratzea
Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,
etiketa-lainoa).
Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,
html eta pdf).
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26
15. Datuak Eskuratzea
Datuak eskuratzea
Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,
etiketa-lainoa).
Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,
html eta pdf).
Datuak jaistea:
Dokumentu bakoitzaren etiketa-informazioa.
Web dokumentuen edukia jaistea.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26
16. Datuak Eskuratzea
Datuak eskuratzea
Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,
etiketa-lainoa).
Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,
html eta pdf).
Datuak jaistea:
Dokumentu bakoitzaren etiketa-informazioa.
Web dokumentuen edukia jaistea.
Iragazpena: Ingelesezko dokumentuak, eta etiketa informaziodunak.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26
17. Datuak Eskuratzea
Datuak eskuratzea
Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,
etiketa-lainoa).
Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,
html eta pdf).
Datuak jaistea:
Dokumentu bakoitzaren etiketa-informazioa.
Web dokumentuen edukia jaistea.
Iragazpena: Ingelesezko dokumentuak, eta etiketa informaziodunak.
Emaitza: 144.574 dokumentu (balantzatu gabea).
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26
18. Proposatutako Metodoa
Aurkibidea
1 Sarrera
2 Datuak Eskuratzea
3 Proposatutako Metodoa
4 Emaitzak
5 Ondorioak
6 Etorkizunerako Ildoak
7 Eskerrak
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 9 / 26
19. Proposatutako Metodoa
Adierazpena
Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7
gutxienez
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
20. Proposatutako Metodoa
Adierazpena
Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7
gutxienez
Etiketa bakoitzeko dokumentuak bakarrean batzea.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
21. Proposatutako Metodoa
Adierazpena
Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7
gutxienez
Etiketa bakoitzeko dokumentuak bakarrean batzea.
Hitz hutsak.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
22. Proposatutako Metodoa
Adierazpena
Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7
gutxienez
Etiketa bakoitzeko dokumentuak bakarrean batzea.
Hitz hutsak.
Stemming.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
23. Proposatutako Metodoa
Adierazpena
Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7
gutxienez
Etiketa bakoitzeko dokumentuak bakarrean batzea.
Hitz hutsak.
Stemming.
TF-IDF (DF bidez moztuz).
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
24. Proposatutako Metodoa
Adierazpena
Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7
gutxienez
Etiketa bakoitzeko dokumentuak bakarrean batzea.
Hitz hutsak.
Stemming.
TF-IDF (DF bidez moztuz).
1 bektore/etiketa.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
27. Proposatutako Metodoa
Terminologia erauztea
Multzo bakoitzeko dokumentuak bateratu.
Multzo bakoitzeko terminologia erauzi.
Esanguratsua multzoan, baina ez gainontzekoetan.
Lengoaia-ereduak (KLD, Kullback-Leibler Divergence).
Emaitza: Multzo bakoitzeko termino esanguratsuak.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 13 / 26
28. Emaitzak
Aurkibidea
1 Sarrera
2 Datuak Eskuratzea
3 Proposatutako Metodoa
4 Emaitzak
5 Ondorioak
6 Etorkizunerako Ildoak
7 Eskerrak
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 14 / 26
29. Emaitzak
Emaitzak
Mapa osoa ikusteko: http://nlp.uned.es/social-tagging/
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 15 / 26
35. Ondorioak
Aurkibidea
1 Sarrera
2 Datuak Eskuratzea
3 Proposatutako Metodoa
4 Emaitzak
5 Ondorioak
6 Etorkizunerako Ildoak
7 Eskerrak
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 21 / 26
36. Ondorioak
Ondorioak
Etiketen multzokatzea eta dagozkien termino esanguratsuenen
erauzketa aztertu ditugu.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
37. Ondorioak
Ondorioak
Etiketen multzokatzea eta dagozkien termino esanguratsuenen
erauzketa aztertu ditugu.
Datu-sorta eskuratu dugu.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
38. Ondorioak
Ondorioak
Etiketen multzokatzea eta dagozkien termino esanguratsuenen
erauzketa aztertu ditugu.
Datu-sorta eskuratu dugu.
Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
39. Ondorioak
Ondorioak
Etiketen multzokatzea eta dagozkien termino esanguratsuenen
erauzketa aztertu ditugu.
Datu-sorta eskuratu dugu.
Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.
Mapak emaitza interesgarriak erakusten ditu, erabiltzaileen
etiketatzearen zentzuzkotasuna azalduz.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
40. Ondorioak
Ondorioak
Etiketen multzokatzea eta dagozkien termino esanguratsuenen
erauzketa aztertu ditugu.
Datu-sorta eskuratu dugu.
Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.
Mapak emaitza interesgarriak erakusten ditu, erabiltzaileen
etiketatzearen zentzuzkotasuna azalduz.
Komunitateak aurkitzea ahalbidetzen du.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
41. Ondorioak
Ondorioak
Etiketen multzokatzea eta dagozkien termino esanguratsuenen
erauzketa aztertu ditugu.
Datu-sorta eskuratu dugu.
Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.
Mapak emaitza interesgarriak erakusten ditu, erabiltzaileen
etiketatzearen zentzuzkotasuna azalduz.
Komunitateak aurkitzea ahalbidetzen du.
Etiketa-lainoaren ikuskera errazten da, nabigazioa eta harpidetza
hobetuz.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
42. Etorkizunerako Ildoak
Aurkibidea
1 Sarrera
2 Datuak Eskuratzea
3 Proposatutako Metodoa
4 Emaitzak
5 Ondorioak
6 Etorkizunerako Ildoak
7 Eskerrak
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 23 / 26
43. Etorkizunerako Ildoak
Etorkizunerako Ildoak
Gure metodoa etiketak batera agertzearen araberakoekin alderatu.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 24 / 26
44. Etorkizunerako Ildoak
Etorkizunerako Ildoak
Gure metodoa etiketak batera agertzearen araberakoekin alderatu.
Etiketen analisi semantikoa (zein esanahi du kasu bakoitzean?).
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 24 / 26
45. Etorkizunerako Ildoak
Etorkizunerako Ildoak
Gure metodoa etiketak batera agertzearen araberakoekin alderatu.
Etiketen analisi semantikoa (zein esanahi du kasu bakoitzean?).
Ingurune eleanitzetara egokitu.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 24 / 26
46. Eskerrak
Aurkibidea
1 Sarrera
2 Datuak Eskuratzea
3 Proposatutako Metodoa
4 Emaitzak
5 Ondorioak
6 Etorkizunerako Ildoak
7 Eskerrak
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 25 / 26
47. Eskerrak
Eskerrak
Mila esker! Galderarik?
http://blog.zubiaga.org
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 26 / 26