SlideShare une entreprise Scribd logo
1  sur  47
Télécharger pour lire hors ligne
Etiketa-lainoen Ikuskera Hobetzeko Multzokatzea
         Informatikari Euskaldunen Bilkura ’09


                  Arkaitz Zubiaga
               Alberto P. Garc´ıa-Plaza
                    V´
                     ıctor Fresno
                  Raquel Mart´  ınez

                 NLP & IR Group @ UNED


                2009ko maiatzaren 7a
Sarrera


Aurkibidea

1     Sarrera

2     Datuak Eskuratzea

3     Proposatutako Metodoa

4     Emaitzak

5     Ondorioak

6     Etorkizunerako Ildoak

7     Eskerrak


    Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   2 / 26
Sarrera


Etiketatze sinplea




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   3 / 26
Sarrera


Elkarlanean etiketatzea




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   4 / 26
Sarrera


Etiketa-lainoa




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   5 / 26
Sarrera


Etiketa-lainoa




     Antolaketa eza.




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   5 / 26
Sarrera


Etiketa-lainoa




     Antolaketa eza.
     3 etiketa mota ezberdindu ohi dira:
             Gaiari lotutako etiketak: programming.
             Etiketa subjektiboak: interesting.
             Etiketa pertsonalak: toread.

 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   5 / 26
Sarrera


Motibazioa




     Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberako
     multzokatzea. Ondorioz:




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   6 / 26
Sarrera


Motibazioa




     Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberako
     multzokatzea. Ondorioz:
             Ikuskera eta bilaketa erraztea.




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   6 / 26
Sarrera


Motibazioa




     Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberako
     multzokatzea. Ondorioz:
             Ikuskera eta bilaketa erraztea.
             Modu errazean lotuta dauden etiketetara harpidetzea.




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   6 / 26
Sarrera


Motibazioa




     Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberako
     multzokatzea. Ondorioz:
             Ikuskera eta bilaketa erraztea.
             Modu errazean lotuta dauden etiketetara harpidetzea.
     Aurreko lan batzuek etiketak batera agertzearen arabera egin dute
     hau.
             Edukia kontuan hartu nahi dugu guk.


 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   6 / 26
Datuak Eskuratzea


Aurkibidea

1     Sarrera

2     Datuak Eskuratzea

3     Proposatutako Metodoa

4     Emaitzak

5     Ondorioak

6     Etorkizunerako Ildoak

7     Eskerrak


    Arkaitz Zubiaga et al. (UNED)    Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   7 / 26
Datuak Eskuratzea


Datuak eskuratzea



     Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,
     etiketa-lainoa).




 Arkaitz Zubiaga et al. (UNED)    Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   8 / 26
Datuak Eskuratzea


Datuak eskuratzea



     Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,
     etiketa-lainoa).
     Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,
     html eta pdf).




 Arkaitz Zubiaga et al. (UNED)    Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   8 / 26
Datuak Eskuratzea


Datuak eskuratzea



     Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,
     etiketa-lainoa).
     Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,
     html eta pdf).
     Datuak jaistea:
             Dokumentu bakoitzaren etiketa-informazioa.
             Web dokumentuen edukia jaistea.




 Arkaitz Zubiaga et al. (UNED)    Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   8 / 26
Datuak Eskuratzea


Datuak eskuratzea



     Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,
     etiketa-lainoa).
     Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,
     html eta pdf).
     Datuak jaistea:
             Dokumentu bakoitzaren etiketa-informazioa.
             Web dokumentuen edukia jaistea.
     Iragazpena: Ingelesezko dokumentuak, eta etiketa informaziodunak.




 Arkaitz Zubiaga et al. (UNED)    Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   8 / 26
Datuak Eskuratzea


Datuak eskuratzea



     Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,
     etiketa-lainoa).
     Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,
     html eta pdf).
     Datuak jaistea:
             Dokumentu bakoitzaren etiketa-informazioa.
             Web dokumentuen edukia jaistea.
     Iragazpena: Ingelesezko dokumentuak, eta etiketa informaziodunak.
     Emaitza: 144.574 dokumentu (balantzatu gabea).




 Arkaitz Zubiaga et al. (UNED)    Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   8 / 26
Proposatutako Metodoa


Aurkibidea

1     Sarrera

2     Datuak Eskuratzea

3     Proposatutako Metodoa

4     Emaitzak

5     Ondorioak

6     Etorkizunerako Ildoak

7     Eskerrak


    Arkaitz Zubiaga et al. (UNED)        Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   9 / 26
Proposatutako Metodoa


Adierazpena



     Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7
     gutxienez




 Arkaitz Zubiaga et al. (UNED)        Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   10 / 26
Proposatutako Metodoa


Adierazpena



     Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7
     gutxienez
     Etiketa bakoitzeko dokumentuak bakarrean batzea.




 Arkaitz Zubiaga et al. (UNED)        Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   10 / 26
Proposatutako Metodoa


Adierazpena



     Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7
     gutxienez
     Etiketa bakoitzeko dokumentuak bakarrean batzea.
     Hitz hutsak.




 Arkaitz Zubiaga et al. (UNED)        Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   10 / 26
Proposatutako Metodoa


Adierazpena



     Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7
     gutxienez
     Etiketa bakoitzeko dokumentuak bakarrean batzea.
     Hitz hutsak.
     Stemming.




 Arkaitz Zubiaga et al. (UNED)        Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   10 / 26
Proposatutako Metodoa


Adierazpena



     Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7
     gutxienez
     Etiketa bakoitzeko dokumentuak bakarrean batzea.
     Hitz hutsak.
     Stemming.
     TF-IDF (DF bidez moztuz).




 Arkaitz Zubiaga et al. (UNED)        Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   10 / 26
Proposatutako Metodoa


Adierazpena



     Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7
     gutxienez
     Etiketa bakoitzeko dokumentuak bakarrean batzea.
     Hitz hutsak.
     Stemming.
     TF-IDF (DF bidez moztuz).
     1 bektore/etiketa.




 Arkaitz Zubiaga et al. (UNED)        Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   10 / 26
Proposatutako Metodoa


Multzokatzea (SOM)




 Arkaitz Zubiaga et al. (UNED)        Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   11 / 26
Proposatutako Metodoa


Multzokatzearen konfigurazioa




     12x12ko mapa: 144 multzo.
     17.518 dimentsiotako bektoreak.
     Ikasketa-tasa: 0,1.
     Mugakidetasuna: 12.
     Iterazioak: 50.000.




 Arkaitz Zubiaga et al. (UNED)        Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   12 / 26
Proposatutako Metodoa


Terminologia erauztea




     Multzo bakoitzeko dokumentuak bateratu.
     Multzo bakoitzeko terminologia erauzi.
             Esanguratsua multzoan, baina ez gainontzekoetan.
             Lengoaia-ereduak (KLD, Kullback-Leibler Divergence).
     Emaitza: Multzo bakoitzeko termino esanguratsuak.




 Arkaitz Zubiaga et al. (UNED)        Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   13 / 26
Emaitzak


Aurkibidea

1     Sarrera

2     Datuak Eskuratzea

3     Proposatutako Metodoa

4     Emaitzak

5     Ondorioak

6     Etorkizunerako Ildoak

7     Eskerrak


    Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   14 / 26
Emaitzak


Emaitzak




Mapa osoa ikusteko: http://nlp.uned.es/social-tagging/
 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   15 / 26
Emaitzak


Emaitzak: Informatika




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   16 / 26
Emaitzak


Emaitzak: Diseinua




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   17 / 26
Emaitzak


Emaitzak: Sukaldaritza




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   18 / 26
Emaitzak


Emaitzak: Koherentzia




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   19 / 26
Emaitzak


Emaitzak: Terminologia




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   20 / 26
Ondorioak


Aurkibidea

1     Sarrera

2     Datuak Eskuratzea

3     Proposatutako Metodoa

4     Emaitzak

5     Ondorioak

6     Etorkizunerako Ildoak

7     Eskerrak


    Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   21 / 26
Ondorioak


Ondorioak



     Etiketen multzokatzea eta dagozkien termino esanguratsuenen
     erauzketa aztertu ditugu.




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   22 / 26
Ondorioak


Ondorioak



     Etiketen multzokatzea eta dagozkien termino esanguratsuenen
     erauzketa aztertu ditugu.
     Datu-sorta eskuratu dugu.




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   22 / 26
Ondorioak


Ondorioak



     Etiketen multzokatzea eta dagozkien termino esanguratsuenen
     erauzketa aztertu ditugu.
     Datu-sorta eskuratu dugu.
     Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   22 / 26
Ondorioak


Ondorioak



     Etiketen multzokatzea eta dagozkien termino esanguratsuenen
     erauzketa aztertu ditugu.
     Datu-sorta eskuratu dugu.
     Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.
     Mapak emaitza interesgarriak erakusten ditu, erabiltzaileen
     etiketatzearen zentzuzkotasuna azalduz.




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   22 / 26
Ondorioak


Ondorioak



     Etiketen multzokatzea eta dagozkien termino esanguratsuenen
     erauzketa aztertu ditugu.
     Datu-sorta eskuratu dugu.
     Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.
     Mapak emaitza interesgarriak erakusten ditu, erabiltzaileen
     etiketatzearen zentzuzkotasuna azalduz.
     Komunitateak aurkitzea ahalbidetzen du.




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   22 / 26
Ondorioak


Ondorioak



     Etiketen multzokatzea eta dagozkien termino esanguratsuenen
     erauzketa aztertu ditugu.
     Datu-sorta eskuratu dugu.
     Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.
     Mapak emaitza interesgarriak erakusten ditu, erabiltzaileen
     etiketatzearen zentzuzkotasuna azalduz.
     Komunitateak aurkitzea ahalbidetzen du.
     Etiketa-lainoaren ikuskera errazten da, nabigazioa eta harpidetza
     hobetuz.




 Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   22 / 26
Etorkizunerako Ildoak


Aurkibidea

1     Sarrera

2     Datuak Eskuratzea

3     Proposatutako Metodoa

4     Emaitzak

5     Ondorioak

6     Etorkizunerako Ildoak

7     Eskerrak


    Arkaitz Zubiaga et al. (UNED)      Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   23 / 26
Etorkizunerako Ildoak


Etorkizunerako Ildoak




     Gure metodoa etiketak batera agertzearen araberakoekin alderatu.




 Arkaitz Zubiaga et al. (UNED)      Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   24 / 26
Etorkizunerako Ildoak


Etorkizunerako Ildoak




     Gure metodoa etiketak batera agertzearen araberakoekin alderatu.
     Etiketen analisi semantikoa (zein esanahi du kasu bakoitzean?).




 Arkaitz Zubiaga et al. (UNED)      Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   24 / 26
Etorkizunerako Ildoak


Etorkizunerako Ildoak




     Gure metodoa etiketak batera agertzearen araberakoekin alderatu.
     Etiketen analisi semantikoa (zein esanahi du kasu bakoitzean?).
     Ingurune eleanitzetara egokitu.




 Arkaitz Zubiaga et al. (UNED)      Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   24 / 26
Eskerrak


Aurkibidea

1     Sarrera

2     Datuak Eskuratzea

3     Proposatutako Metodoa

4     Emaitzak

5     Ondorioak

6     Etorkizunerako Ildoak

7     Eskerrak


    Arkaitz Zubiaga et al. (UNED)   Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   25 / 26
Eskerrak


Eskerrak




                         Mila esker! Galderarik?
                                 http://blog.zubiaga.org




 Arkaitz Zubiaga et al. (UNED)     Etiketa-lainoen Multzokatzea (IEB ’09)   2009ko maiatzaren 7a   26 / 26

Contenu connexe

Plus de azubiaga

Exploiting context for rumour detection in social media
Exploiting context for rumour detection in social mediaExploiting context for rumour detection in social media
Exploiting context for rumour detection in social mediaazubiaga
 
Crowdsourcing the Annotation of Rumourous Conversations in Social Media
Crowdsourcing the Annotation of Rumourous Conversations in Social MediaCrowdsourcing the Annotation of Rumourous Conversations in Social Media
Crowdsourcing the Annotation of Rumourous Conversations in Social Mediaazubiaga
 
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...azubiaga
 
Clasificación de Páginas Web con Anotaciones Sociales
Clasificación de Páginas Web con Anotaciones SocialesClasificación de Páginas Web con Anotaciones Sociales
Clasificación de Páginas Web con Anotaciones Socialesazubiaga
 
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?azubiaga
 
Master thesis presentation
Master thesis presentationMaster thesis presentation
Master thesis presentationazubiaga
 

Plus de azubiaga (6)

Exploiting context for rumour detection in social media
Exploiting context for rumour detection in social mediaExploiting context for rumour detection in social media
Exploiting context for rumour detection in social media
 
Crowdsourcing the Annotation of Rumourous Conversations in Social Media
Crowdsourcing the Annotation of Rumourous Conversations in Social MediaCrowdsourcing the Annotation of Rumourous Conversations in Social Media
Crowdsourcing the Annotation of Rumourous Conversations in Social Media
 
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...
Newspaper Editors vs the Crowd: On the Appropriateness of Front Page News Sel...
 
Clasificación de Páginas Web con Anotaciones Sociales
Clasificación de Páginas Web con Anotaciones SocialesClasificación de Páginas Web con Anotaciones Sociales
Clasificación de Páginas Web con Anotaciones Sociales
 
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?
Is Unlabeled Data Suitable for Multiclass SVM-based Web Page Classification?
 
Master thesis presentation
Master thesis presentationMaster thesis presentation
Master thesis presentation
 

Etiketa-lainoen ikuskera hobetzeko multzokatzea

  • 1. Etiketa-lainoen Ikuskera Hobetzeko Multzokatzea Informatikari Euskaldunen Bilkura ’09 Arkaitz Zubiaga Alberto P. Garc´ıa-Plaza V´ ıctor Fresno Raquel Mart´ ınez NLP & IR Group @ UNED 2009ko maiatzaren 7a
  • 2. Sarrera Aurkibidea 1 Sarrera 2 Datuak Eskuratzea 3 Proposatutako Metodoa 4 Emaitzak 5 Ondorioak 6 Etorkizunerako Ildoak 7 Eskerrak Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 2 / 26
  • 3. Sarrera Etiketatze sinplea Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 3 / 26
  • 4. Sarrera Elkarlanean etiketatzea Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 4 / 26
  • 5. Sarrera Etiketa-lainoa Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 5 / 26
  • 6. Sarrera Etiketa-lainoa Antolaketa eza. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 5 / 26
  • 7. Sarrera Etiketa-lainoa Antolaketa eza. 3 etiketa mota ezberdindu ohi dira: Gaiari lotutako etiketak: programming. Etiketa subjektiboak: interesting. Etiketa pertsonalak: toread. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 5 / 26
  • 8. Sarrera Motibazioa Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberako multzokatzea. Ondorioz: Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 6 / 26
  • 9. Sarrera Motibazioa Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberako multzokatzea. Ondorioz: Ikuskera eta bilaketa erraztea. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 6 / 26
  • 10. Sarrera Motibazioa Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberako multzokatzea. Ondorioz: Ikuskera eta bilaketa erraztea. Modu errazean lotuta dauden etiketetara harpidetzea. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 6 / 26
  • 11. Sarrera Motibazioa Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberako multzokatzea. Ondorioz: Ikuskera eta bilaketa erraztea. Modu errazean lotuta dauden etiketetara harpidetzea. Aurreko lan batzuek etiketak batera agertzearen arabera egin dute hau. Edukia kontuan hartu nahi dugu guk. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 6 / 26
  • 12. Datuak Eskuratzea Aurkibidea 1 Sarrera 2 Datuak Eskuratzea 3 Proposatutako Metodoa 4 Emaitzak 5 Ondorioak 6 Etorkizunerako Ildoak 7 Eskerrak Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 7 / 26
  • 13. Datuak Eskuratzea Datuak eskuratzea Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140, etiketa-lainoa). Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26
  • 14. Datuak Eskuratzea Datuak eskuratzea Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140, etiketa-lainoa). Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok., html eta pdf). Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26
  • 15. Datuak Eskuratzea Datuak eskuratzea Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140, etiketa-lainoa). Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok., html eta pdf). Datuak jaistea: Dokumentu bakoitzaren etiketa-informazioa. Web dokumentuen edukia jaistea. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26
  • 16. Datuak Eskuratzea Datuak eskuratzea Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140, etiketa-lainoa). Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok., html eta pdf). Datuak jaistea: Dokumentu bakoitzaren etiketa-informazioa. Web dokumentuen edukia jaistea. Iragazpena: Ingelesezko dokumentuak, eta etiketa informaziodunak. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26
  • 17. Datuak Eskuratzea Datuak eskuratzea Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140, etiketa-lainoa). Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok., html eta pdf). Datuak jaistea: Dokumentu bakoitzaren etiketa-informazioa. Web dokumentuen edukia jaistea. Iragazpena: Ingelesezko dokumentuak, eta etiketa informaziodunak. Emaitza: 144.574 dokumentu (balantzatu gabea). Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26
  • 18. Proposatutako Metodoa Aurkibidea 1 Sarrera 2 Datuak Eskuratzea 3 Proposatutako Metodoa 4 Emaitzak 5 Ondorioak 6 Etorkizunerako Ildoak 7 Eskerrak Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 9 / 26
  • 19. Proposatutako Metodoa Adierazpena Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7 gutxienez Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
  • 20. Proposatutako Metodoa Adierazpena Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7 gutxienez Etiketa bakoitzeko dokumentuak bakarrean batzea. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
  • 21. Proposatutako Metodoa Adierazpena Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7 gutxienez Etiketa bakoitzeko dokumentuak bakarrean batzea. Hitz hutsak. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
  • 22. Proposatutako Metodoa Adierazpena Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7 gutxienez Etiketa bakoitzeko dokumentuak bakarrean batzea. Hitz hutsak. Stemming. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
  • 23. Proposatutako Metodoa Adierazpena Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7 gutxienez Etiketa bakoitzeko dokumentuak bakarrean batzea. Hitz hutsak. Stemming. TF-IDF (DF bidez moztuz). Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
  • 24. Proposatutako Metodoa Adierazpena Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7 gutxienez Etiketa bakoitzeko dokumentuak bakarrean batzea. Hitz hutsak. Stemming. TF-IDF (DF bidez moztuz). 1 bektore/etiketa. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
  • 25. Proposatutako Metodoa Multzokatzea (SOM) Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 11 / 26
  • 26. Proposatutako Metodoa Multzokatzearen konfigurazioa 12x12ko mapa: 144 multzo. 17.518 dimentsiotako bektoreak. Ikasketa-tasa: 0,1. Mugakidetasuna: 12. Iterazioak: 50.000. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 12 / 26
  • 27. Proposatutako Metodoa Terminologia erauztea Multzo bakoitzeko dokumentuak bateratu. Multzo bakoitzeko terminologia erauzi. Esanguratsua multzoan, baina ez gainontzekoetan. Lengoaia-ereduak (KLD, Kullback-Leibler Divergence). Emaitza: Multzo bakoitzeko termino esanguratsuak. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 13 / 26
  • 28. Emaitzak Aurkibidea 1 Sarrera 2 Datuak Eskuratzea 3 Proposatutako Metodoa 4 Emaitzak 5 Ondorioak 6 Etorkizunerako Ildoak 7 Eskerrak Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 14 / 26
  • 29. Emaitzak Emaitzak Mapa osoa ikusteko: http://nlp.uned.es/social-tagging/ Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 15 / 26
  • 30. Emaitzak Emaitzak: Informatika Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 16 / 26
  • 31. Emaitzak Emaitzak: Diseinua Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 17 / 26
  • 32. Emaitzak Emaitzak: Sukaldaritza Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 18 / 26
  • 33. Emaitzak Emaitzak: Koherentzia Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 19 / 26
  • 34. Emaitzak Emaitzak: Terminologia Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 20 / 26
  • 35. Ondorioak Aurkibidea 1 Sarrera 2 Datuak Eskuratzea 3 Proposatutako Metodoa 4 Emaitzak 5 Ondorioak 6 Etorkizunerako Ildoak 7 Eskerrak Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 21 / 26
  • 36. Ondorioak Ondorioak Etiketen multzokatzea eta dagozkien termino esanguratsuenen erauzketa aztertu ditugu. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
  • 37. Ondorioak Ondorioak Etiketen multzokatzea eta dagozkien termino esanguratsuenen erauzketa aztertu ditugu. Datu-sorta eskuratu dugu. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
  • 38. Ondorioak Ondorioak Etiketen multzokatzea eta dagozkien termino esanguratsuenen erauzketa aztertu ditugu. Datu-sorta eskuratu dugu. Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
  • 39. Ondorioak Ondorioak Etiketen multzokatzea eta dagozkien termino esanguratsuenen erauzketa aztertu ditugu. Datu-sorta eskuratu dugu. Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu. Mapak emaitza interesgarriak erakusten ditu, erabiltzaileen etiketatzearen zentzuzkotasuna azalduz. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
  • 40. Ondorioak Ondorioak Etiketen multzokatzea eta dagozkien termino esanguratsuenen erauzketa aztertu ditugu. Datu-sorta eskuratu dugu. Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu. Mapak emaitza interesgarriak erakusten ditu, erabiltzaileen etiketatzearen zentzuzkotasuna azalduz. Komunitateak aurkitzea ahalbidetzen du. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
  • 41. Ondorioak Ondorioak Etiketen multzokatzea eta dagozkien termino esanguratsuenen erauzketa aztertu ditugu. Datu-sorta eskuratu dugu. Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu. Mapak emaitza interesgarriak erakusten ditu, erabiltzaileen etiketatzearen zentzuzkotasuna azalduz. Komunitateak aurkitzea ahalbidetzen du. Etiketa-lainoaren ikuskera errazten da, nabigazioa eta harpidetza hobetuz. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
  • 42. Etorkizunerako Ildoak Aurkibidea 1 Sarrera 2 Datuak Eskuratzea 3 Proposatutako Metodoa 4 Emaitzak 5 Ondorioak 6 Etorkizunerako Ildoak 7 Eskerrak Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 23 / 26
  • 43. Etorkizunerako Ildoak Etorkizunerako Ildoak Gure metodoa etiketak batera agertzearen araberakoekin alderatu. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 24 / 26
  • 44. Etorkizunerako Ildoak Etorkizunerako Ildoak Gure metodoa etiketak batera agertzearen araberakoekin alderatu. Etiketen analisi semantikoa (zein esanahi du kasu bakoitzean?). Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 24 / 26
  • 45. Etorkizunerako Ildoak Etorkizunerako Ildoak Gure metodoa etiketak batera agertzearen araberakoekin alderatu. Etiketen analisi semantikoa (zein esanahi du kasu bakoitzean?). Ingurune eleanitzetara egokitu. Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 24 / 26
  • 46. Eskerrak Aurkibidea 1 Sarrera 2 Datuak Eskuratzea 3 Proposatutako Metodoa 4 Emaitzak 5 Ondorioak 6 Etorkizunerako Ildoak 7 Eskerrak Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 25 / 26
  • 47. Eskerrak Eskerrak Mila esker! Galderarik? http://blog.zubiaga.org Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 26 / 26