Ampia panoramica sui sistemi di raccomandazione, tenuta dal professore Alfredo Pulvirenti dell'Universita' di Catania durante l'evento "Recommendation Systems: Talks & Workshop" organizzato da Big Data for You il 25 febbraio 2017.
Argomenti:
1. Cosa sono i sistemi di raccomandazione
2. Sistemi Content Based
3. Collaborative Filtering
4. Graph Based
5. Progetto scientifico: predizione di annotazioni su articoli di biomedicina
4. Introduzione
• Un sistema di raccomandazione è una classe di
applicazioni (comunemente web-based) che
predicono le risposte degli uten8 sulla base delle
loro preferenze.
• Due esempi:
• Suggerire ar8coli ai leBori dei quo8diani on-line;
• Offrire ai clien8 dei si8 di e-commerce suggerimen8 su cosa potrebbe essere
di loro interesse.
6. Le metodologie
• Diverse tecnologie ma due gruppi
principali:
• Content-based systems: esaminare le proprietà degli
ar8coli per raccomandarne nuovi.
• Collabora5ve filtering systems: usare misure di similarità
tra uten8 e/o prodoR per raccomandare nuovi prodoR
(oggeR simili o di proprietà di uten8 simili).
7. Diversi campi di applicazione:
Raccomandazione prodotti: Amazon o
simili;
Raccomandazione film: Netflix o
YouTube;
Notizie: quotidiani o blog.
9. Esempio
Matrix
Alien
StarWars
Casablanca
Titanic
Joe 1 1 1 0 0
Jim 3 0 3 0 0
John 4 4 4 0 0
Jack 0 5 5 0 0
Jill 0 0 3 4 4
Jenny 0 0 0 5 5
Jane 3 0 0 2 2
• La matrice rappresenta il rating che l’utente da al film visto
usando la scala 1-5, con 5 rating più alto.
• Zero indica che l’utente non ha valutato il film.
Potremmo disegnare un sistema per prendere
le proprietà dei film e predire le preferenze degli
utenti anche se non hanno visto il film.
13. Come oBenere le valutazioni (ra8ng)
• Costruire una u8lity matrix è un task complicato, due
approcci per scoprire il valore che un utente da ad un
prodoBo:
• Esplicito:
• Chiedere di valutare un item (es. YouTube).
• Implicito:
• Apprendere dalle azioni dell’utente.
16. Raccomandazioni Content-based
• Idea principale: gli oggeR raccomanda8
all’utente U sono simili agli oggeR valuta8
posi8vamente da U.
• Il sistema focalizza sulle proprietà degli
ogge>.
• La similarità tra due oggeR è determinata misurando la
similarità delle loro proprietà.
18. Il profilo degli oggeR
• Per ogni oggeBo si crea un profilo;
• Un Profilo è un insieme di feature che rappresentano
caraBeris8che importan8.
• I Documen5 sono una classe di oggeR per i quali non è
semplice definire quali debbano essere le feature.
• Usare le parole più importan5 di un documento.
• Come scegliamo le parole importan8?
• Tipica euris8ca TF.IDF (Term Frequency 5mes Inverse Doc Frequency)
27. CF: Approccio comune
• Definiamo la similarità sij tra gli oggeR i e j
• Selezioniamo k nearest neighbor N(i; x)
• OggeR più simili a i, valuta8 dall’utente x
• S8miamo il ra8ng rxi pesato con la media:
Stima baseline per rxi
¡ μ = media generale di tuR i film
¡ bx = deviazione del ra8ng dalla media
dell’utente x = (avg. ra1ng utente x) – μ
¡ bi = deviazione del ra8ng per l’oggeBo i
∑
∑
∈
∈
=
);(
);(
xiNj ij
xiNj xjij
xi
s
rs
r
∑
∑
∈
∈
−⋅
+=
);(
);(
)(
xiNj ij
xiNj xjxjij
xixi
s
brs
br
𝒃↓𝒙𝒊 = 𝝁+ 𝒃↓𝒙 + 𝒃↓𝒊
29. Dimensionality Reduc8on
• Possibile soluzione per il problema dovuto alla
“sparsità” della matrice?
• Dimensionality Reduc5on
• Latent Seman5c Indexing (LSI)
• Tecnica algoritmica sviluppata tra la fine degli anni ‘80 primi anni ‘90
• Risolve problemi di sinonima, “sparsità” e scalabilità per grandi
dataset
• Riduce la dimensionalità e caBura le relazioni laten8
• Si può mappare facilmente nel Collabora5ve
Filtering!
32. Neklix Challenge
• Compe8zione per iden8ficare il migliore algoritmo di CF per predire
ra8ng degli uten8 per I film, sulla base di ra8ng preceden8.
• Prize: USD $1,000,000
• Compe8zione iniziata nel 2006
• Un team ha vinto la compe8zione nel 2009 (ha baButo l’algoritmo usato
da Neklix migliorando le prestazioni del 10.06%)
• Dataset:
• ~480,000 uten8 e ~18,000 film; solo ~100 milioni di ra8ng
• U8lity matrix sparsa al 99%! (Circa 8.5 miliardi di ra5ng potenziali)
37. #3 Query
Matrix
Alien
StarWars
Casablanca
Titanic
Joe 1 1 1 0 0
Jim 3 3 3 0 0
John 4 4 4 0 0
Jack 5 5 5 0 0
Jill 0 0 0 4 4
Jenny 0 0 0 5 5
Jane 0 0 0 2 2
Matrice di rango 2 relativa ai rating degli
utenti ai film.
Due concetti (categorie) :
• Fantascienza
• Film romantici
38. EffeBuare raccomandazioni
• Usa la Cosine Similarity
• Grazie alla SVD, possiamo effeBuare delle
predizioni con un semplice prodoBo scalare.
• Dato un utente e la lista dei ra8ng dei film che ha visto e a
zero quelli che non ha visto (p) :
• Mappiamo i ra5ng corren5 dell’utente dallo spazio originale a quello
delle categorie (mol5plichiamo per V, matrice film-categorie):
𝑝 = 𝑝× 𝑉
• Calcoliamo la raccomandazione usando nuovamente la matrice V:
𝑝 = 𝑝 × 𝑉↑𝑇
44. Metodi Graph-based
• Simile al Collabora8ve Filtering ma usa un grafo bipar5to per
immagazzinare le informazioni.
• Le raccomandazioni sono oBenute a par8re dalla struBura della rete
bipar8ta.
• Due classi di iden8tà: Uten5 (U) e Ogge> (O).
• Definiamo il grafo bipar8to come segue:
• G(U, O, E, W)
• E = {eij : ui likes oj)
• W : E → ℜ
• “E” insieme degli archi e “W” è una funzione che rappresenta il degree di
preferenza che un utente ha per il par8colare oggeBo.
48. NBI
• Idea base dell’algoritmo: flusso delle risorse sulla
rete bipar8ta:
• agli oggeR viene assegnata una quan8tà iniziale di risorse;
• in un processo a due fasi le risorse sono trasferite dagli oggeR agli
uten8 e successivamente trasferi8 indietro agli oggeR;
• questo processo, con una fase di normalizzazione consente di
oBenere degli score per le coppie uten8 - oggeR.
49. NBI
• Il calcolo dei pesi avviene
a B r a v e r s o l a s e g u e n t e
equazione:
• Dove Γ(i, j) è definita come :
• Γ(i, j)=D(oj) per NBI
• Γ(i, j)=D(oi) per HeatS
• D(t) degree del nodo “t” nella
rete bipar8ta.
50. Raccomandazioni con NBI
• Il peso “wij” della proiezione corrisponde a quante risorse
vengono trasferite dall’oggeBo “j” all’oggeBo “i”, o quanto
piacerà l’oggeBo “j” ad un utente a cui piace l’oggeBo “i”.
• Data la matrice di adiacenza “A” del grafo bipar8to e la
matrice “W”, la matrice di raccomandazione “R” per tuR gli
uten8 può essere calcolata in un unico step:
𝑅= 𝑊× 𝐴
52. Metodi ibridi
• Usare in combinazione diversi metodi di
raccomandazione
• Supponiamo di avere i metodi “X” e “Y” che danno
rispeRvamente gli score “xa” e “ya”. Lo score di un
modello ibrido può essere oBenuto come:
• λ∈[0;1]
56. Mo8vazioni
• Problema:
An8cipare l’informazione di cui l’utente ha bisogno (ma
non lo sa!!).
Definizione:
Dato un insieme di termini che l’utente ha oBenuto per un
ar8colo, interrogando un search engine, vogliamo
raccomandare un insieme piccolo, significa5vo e differente,
di termini rilevan= per l’ar8colo ma non contenu8 in esso.
64. A case study: “MicroRNA”
# Paper Source
Terms
Predicted
Terms
Correlation p-Value
1 Circulating u2 small nuclear rna fragments as a novel diagnostic
tool for patients with epithelial ovarian cancer.
4 5 0,90 < 0,01
2 Tumor-suppressive microrna-449a induces growth arrest and
senescence by targeting e2f3 in human lung cancer cells.
5 6 0,80 < 0,01
65. A case study: “MicroRNA”
Source Terms Novel Terms
microrna
u2 spliceosomal rna
small nuclear rna
ovarian cancer
Correlation Citation
mRNA 0,90 -
ncRNA 1,00 -
parp inhibitor 0,91 The emerging role of parp inhibitors in the treatment of epithelial ovarian
cancer.
muc1 0,98 Expression of muc1 and muc2 mucins in epithelial ovarian tumours.
xiap 0,93 Expression and clinical significance of xiap and caspase-3 protien
in primary epithelia ovarian cancer.
# Paper Source
Terms
Predicted
Terms
Correlation p-Value
1 Circulating u2 small nuclear rna fragments as a novel diagnostic
tool for patients with epithelial ovarian cancer.
4 5 0,90 < 0,01
66. A case study: “MicroRNA”
Source Terms Novel Terms
guangzhou
senescence
e2f3
mir-449
microrna
Correlation Citation
ezh2 1,00 Validation of the histone methyltransferase ezh2 as a therapeutic target
for various types of human cancer and as a prognostic marker
pdgfb 0,80 Pdgf receptors as targets in tumor treatment.
col4a1 1,00 -
ctgf 1,00 Connective tissue growth factor and its role in lung adenocarcinoma
invasion and metastasis.
sox4 1,00 -
mcl1 1,00 Mcl-1 regulates survival and sensitivity to diverse apoptotic stimuli in
human non-small cell lung cancer cells.
# Paper Source
Terms
Predicted
Terms
Correlation p-Value
2 Tumor-suppressive microrna-449a induces growth arrest and
senescence by targeting e2f3 in human lung cancer cells.
5 6 0,80 < 0,01
70. Bibliografia e ringraziamen8
• Alcuni contenu8 sono riadaBa8 da Mining Massive Data: hBp://www.mmds.org/
• Metodi Graph-based:
• Zhou, T., Ren, J., Medo, M., and Zhang, Y. (2007). Bipar5te network projec5on and personal recommenda5on. Physical
Review E, 76(4), 046115–22.
• Zhou, T., Kuscsik, Z., Liu, J.-G., Medo, M., Wakeling, J. R., and Zhang, Y.-C. (2010). Solving the apparent diversity-accuracy
dilemma of recommender systems. Proceedings of the Na8onal Academy of Sciences, 107(10), 4511–4515.
• Algoritmo DT-Hybrid:
• Alaimo S, Pulviren8 A, Giugno R, Ferro A. Drug–target interac5on predic5on through domain-tuned network-
based inference. Bioinforma8cs 2013 29: 2004-2008.
• Alaimo S, Giugno R, Pulviren8 A. "ncPred: ncRNA-Disease Associa8on Predic8on through Tripar8te
Network-Based Inference." Fron1ers in bioengineering and biotechnology 2 (2014).
• TAGME
• Ferragina, P., Scaiella, U. (2012). Fast and Accurate Annota5on of Short Texts with Wikipedia
Pages. IEEE So…ware 29(1): 70-75. Also appeared in Procs ACM CIKM (2010, pp. 1625-1628).
• BioTAGME
• Alaimo S, Ferragina P, Ferro A, Giugno R, Pulviren8 A. An algorithm for the predic5on of
annota5ons on Pubmed (submided)