Presentazione di Prelaurea.
ITA: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici
ENG: Automatic recommendation techniques for submission of scientific papers
Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici
1. Tecniche di raccomandazione automatica per la
sottomissione di articoli scientifici
Corso di Laurea Magistrale in Ingegneria Informatica
Laureando
Giulio Piccinin
Relatore Correlatori
prof. Alberto Bartoli prof. Eric Medvet
dott. Andrea De Lorenzo
Universit`a degli Studi di Trieste
Dipartimento di Ingegneria e Architettura
Anno Accademico 2012/2013
2. Raccomandazione di conferenze
Indice
1 Raccomandazione di conferenze
2 Tecniche di raccomandazione
Variante Cavnar-Trenkle
Variante Two-steps-LDA
Variante LDA+clustering
3 Valutazione sperimentale
4 Conclusioni
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 2 / 25
3. Raccomandazione di conferenze
Problema
Aspetto primario della ricerca scientifica: pubblicazione di articoli
Scelta della sede di pubblicazione
reputazione
settore d’interesse
conferenza/rivista/. . .
luogo e data
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 3 / 25
4. Raccomandazione di conferenze
Problema affrontato
Scelta delle conferenze che trattano argomenti corrispondenti a quelli
dell’articolo
ricevere review di qualit`a
far conoscere e apprezzare il lavoro
ottenere citazioni
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 4 / 25
5. Raccomandazione di conferenze
Motivazioni
La scelta delle conferenze pu`o essere molto difficile
1) Conferenze scientifiche estremamente numerose
es.: pi`u di 2000 conferenze solo di Computer Science
da molto specifiche a generalistiche
2) Virtualmente impossibile per il ricercatore conoscerle tutte
da molto specifiche a generalistiche
es.: quando ricercatore esplora un nuovo settore
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 5 / 25
6. Raccomandazione di conferenze
Soluzione
Sistema di raccomandazione di conferenze ad articoli scientifici
corrispondenza tra argomenti
solo titolo, abstract e keyword
utilizzo nelle prime fasi di sviluppo dell’articolo
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 6 / 25
7. Raccomandazione di conferenze
Stato dell’arte (1)
Raccomandazione -definizione generale-
Selezione di N item d’interesse per un particolare utente
suggerimento di video simili su YouTube
inserimento di link sponsorizzati su Google, Bing, ecc. . .
. . .
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 7 / 25
8. Raccomandazione di conferenze
Stato dell’arte (2)
La raccomandazione di conferenze ha pochi rappresentanti in letteratura,
tutti recenti (2012)
Distingue:
a) input: informazioni pi`u dettagliate (full text, autori, ecc. . . )
b) strumento applicabile avanti nello sviluppo dell’articolo
c) dataset
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 8 / 25
9. Raccomandazione di conferenze
Risultati
1) 3 varianti di raccomandazione automatica di conferenze
input: titolo, abstract e keyword dell’articolo
elaborazione: strumenti matematici e statistici della linguistica
computazionale
output: N raccomandazioni
2) Definizione delle baseline per le prestazioni
3) Valutazione delle prestazioni su dataset
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 9 / 25
10. Tecniche di raccomandazione
Indice
1 Raccomandazione di conferenze
2 Tecniche di raccomandazione
Variante Cavnar-Trenkle
Variante Two-steps-LDA
Variante LDA+clustering
3 Valutazione sperimentale
4 Conclusioni
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 10 / 25
11. Tecniche di raccomandazione
Machine Learning
3 varianti della raccomandazione
1. Cavnar-Trenkle
2. Two-steps-LDA
3. LDA+clustering
definite e sperimentate personalmente
ognuna in 2 fasi
learning, chiamata learning phase
testing, chiamata recommending phase
pre-processing sul dataset
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 11 / 25
12. Tecniche di raccomandazione
Il dataset
1) Pre-processing sul dataset
concatenazione di titolo, abstract e keyword
altre operazioni (stemming, rimozione stopword, ecc. . . )
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 12 / 25
13. Tecniche di raccomandazione
Il dataset
1) Pre-processing sul dataset
concatenazione di titolo, abstract e keyword
altre operazioni (stemming, rimozione stopword, ecc. . . )
2) Il risultato `e un dataset di articoli
Articolo Conferenza
flow model joint action recognit ident mainten propos
framework perform action recognit ident mainten
multipl target simultan instead establish track use
appear model perform action [. . . ]
CVPR
stochast model load balanc schedul cloud comput
cluster cloud comput servic becom ubiquit start serv
primari sourc comput power enterpris person comput
applic consid stochast model cloud [. . . ]
INFOCOM
. . . . . .
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 12 / 25
14. Tecniche di raccomandazione Variante Cavnar-Trenkle
Cavnar-Trenkle
Learning phase
Si genera il profilo degli n-grammi per ogni conferenza:
profilo = lista ordinata dei 300 n-grammi pi`u frequenti
sulla base dei profili dei suoi articoli
Recommending phase
Si raccomandano N conferenze al nuovo articolo a:
i) calcolo del profilo di a
ii) selezione delle N conferenze alla minor distanza
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 13 / 25
15. Tecniche di raccomandazione Variante Two-steps-LDA
Two-steps-LDA - base matematica
Modello dei topic Latent Dirichlet Allocation (LDA)
Topic
Argomento o tema trattato in un testo, discorso, conversazione
LDA associa ad ogni articolo un vettore
rappresenta le proporzioni dei k topic nell’articolo
corrisponde ad un punto in uno spazio k-dimensionale
topic ≡ dimensione
Motivazione
Classificare articoli in base a dimensione principale (main topic e subtopic)
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 14 / 25
16. Tecniche di raccomandazione Variante Two-steps-LDA
Two-steps-LDA - implementazione
Learning phase
Si caratterizza ogni conferenza con un main topic e un
subtopic:
i) LDA sul dataset → main topic
ii) LDA sugli articoli con stesso main topic → subtopic
Recommending phase
Si raccomandano N conferenze al nuovo articolo a:
i) calcolo di main topic e subtopic di a
ii) sottoinsieme delle conferenze con stessi main topic e
subtopic
iii) selezione delle N conferenze pi`u vicine
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 15 / 25
17. Tecniche di raccomandazione Variante LDA+clustering
LDA+clustering - base matematica
Clustering k-means
partiziona punti in kc
cluster
ogni punto `e un articolo
in coordinate LDA
0 0.2
0.2
0.4
0.4
0.6
0.6
0.8
0.8
1
1
Topic 1
Topic 2
Cluster 1
Cluster 2
Conferenza A
Conferenza B
Conferenza C
Motivazione
Conferenze rappresentate in pi`u cluster
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 16 / 25
18. Tecniche di raccomandazione Variante LDA+clustering
LDA+clustering - implementazione
Learning phase
Si caratterizza ogni conferenza con un punto “medio”:
i) LDA sul dataset
ii) si partizionano i punti in kc cluster
iii) LDA in ogni cluster
Recommending phase
Si raccomandano N conferenze al nuovo articolo a:
i) LDA + clustering + LDA
ii) selezione delle N conferenze pi`u vicine
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 17 / 25
19. Valutazione sperimentale
Indice
1 Raccomandazione di conferenze
2 Tecniche di raccomandazione
Variante Cavnar-Trenkle
Variante Two-steps-LDA
Variante LDA+clustering
3 Valutazione sperimentale
4 Conclusioni
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 18 / 25
20. Valutazione sperimentale
Il dataset
Dataset prelevato da Microsoft
Academic Search
solo domain Computer
Science
prelevate 60000
pubblicazioni di 300
conferenze
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 19 / 25
21. Valutazione sperimentale
Il dataset
Dataset prelevato da Microsoft
Academic Search
solo domain Computer
Science
prelevate 60000
pubblicazioni di 300
conferenze
Ogni conferenza `e associata a
max 3 subdomain su 24
Subdomain
1 Algorithms & Theory
2 Security & Privacy
3 Hardware & Architecture
4 Software Engineering
5 Artificial Intelligence
6 Machine Learning & Pattern Recognition
7 Data Mining
8 Information Retrieval
9 Natural Language & Speech
10 Graphics
11 Computer Vision
12 Human-Computer Interaction
13 Multimedia
14 Networks & Communications
15 World Wide Web
16 Distributed & Parallel Computing
17 Operating Systems
18 Databases
19 Real-Time & Embedded Systems
20 Simulation
21 Bioinformatics & Computational Biology
22 Scientific Computing
23 Computer Education
24 Programming Languages
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 19 / 25
22. Valutazione sperimentale
Indice di prestazioni
Indice di prestazioni standard dei sistemi di raccomandazione:
accuracy@N =
# raccomandazioni corrette
# raccomandazioni
· 100%
2 varianti:
venue-accuracy@N
almeno una delle N raccomandazioni corrisponde alla
conferenza dell’articolo
subdomain-accuracy@N
almeno una delle N raccomandazioni appartiene ad almeno
un subdomain che coincide con un subdomain della
conferenza dell’articolo
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 20 / 25
23. Valutazione sperimentale
Baseline
Stato dell’arte → baseline non confrontabili
Accuracy nel caso di raccomandazione casuale (N = 3):
a) venue-accuracy@N = 1%
b) subdomain-accuracy@N = 14.3%
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 21 / 25
24. Valutazione sperimentale
Valutazione e prestazioni delle tecniche
Metodologia di valutazione: 2-fold cross-validation.
Prestazioni (N = 3, 5, 10):
venue-acc.@N (%) subdomain-acc.@N (%)
Metodo N =3 N =5 N =10 N =3 N =5 N =10
Cavnar-Trenkle 26.8 34.0 45.6 54.1 61.1 70.9
Two-step-LDA 3.4 3.8 4.0 9.9 10.1 10.2
LDA+clustering 16.1 21.7 33.2 47.3 56.5 68.9
Baseline 1.0 1.7 3.3 14.3 22.6 40.1
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 22 / 25
25. Conclusioni
Indice
1 Raccomandazione di conferenze
2 Tecniche di raccomandazione
Variante Cavnar-Trenkle
Variante Two-steps-LDA
Variante LDA+clustering
3 Valutazione sperimentale
4 Conclusioni
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 23 / 25
26. Conclusioni
Conclusioni
1) Sviluppate e valutate tre varianti di raccomandazione di conferenze ad
articoli, partendo da titolo, asbstract e keyword
2) Composto un dataset di 60000 articoli da Microsoft Academic Search
3) Definita una baseline per le prestazioni
Sviluppi futuri:
Valutazione delle raccomandazioni su dataset differenti
Web-application
. . .
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 24 / 25