Suggestion Contextuelle Composite CORIA 2015

Suggestion Contextuelle Composite
Thibaut THONET
1
Romain DEVEAUD
2
Iadh OUNIS
3
Craig MACDONALD
3
1
IRIT, Toulouse, France
2
Yellow Pages Group, Montréal, Canada
3
University of Glasgow, Glasgow, Royaume-Uni
18 mars 2015
Suggestion Contextuelle Composite

Motivations
Découverte d’une nouvelle ville
Images tirées de Google Map et Foursquare, février 2014.
Suggestion Contextuelle Composite 2 / 15

Motivations
Envie de se divertir dans des lieux d’activités situés à proximité

Motivations
Chaque utilisateur a des goûts uniques

Motivations
Nécessité de personnaliser les lieux suggérés

Problématique
Similaire à la problématique proposée dans TREC Contextual Suggestion [1]
Données à disposition :
Villes
Proﬁls d’utilisateurs (notes d’intérêt sur
un échantillon de lieux d’activités)
Objectif : proposer pour chaque paire utilisateur/ville une liste personnalisée de
suggestions de lieux d’activités situés dans la ville
[1] Dean-Hall, A., Thomas, P., Clarke, C. L. A., Simone, N., Kamps, J., & Voorhees, E. (2013). Overview of the TREC 2013 Contextual Suggestion Track.
Proc. of TREC ’13 (pp. 1–13).

Travaux existants
Les systèmes existants suggèrent uniquement des lieux d’activités similaires aux
lieux appréciés par l’utilisateur =⇒ absence de diversité dans les suggestions
Cependant la diversiﬁcation a montré son importance :
En RI ad-hoc [2]
Dans les systèmes de recommandation [3]
[2] Clarke, C. L. A., Kolla, M., Cormack, G. V., Vechtomova, O., Ashkan, A., Büttcher, S., & MacKinnon, I. (2008). Novelty and Diversity in Information Retrieval
Evaluation. Proc. of SIGIR ’08 (pp. 659–666).
[3] Vargas, S., & Castells, P. (2013). Exploiting the Diversity of User Preferences for Recommendation. Proc. of OAIR ’13 (pp. 129–136).

Notre Modèle
Intuition
Regrouper les suggestions en grappes thématiquement cohésives
1 grappe = 1 thème (p. ex. musées d’art, bars, restaurants chinois)
Choix parmi plusieurs grappes =⇒ diversiﬁcation des thèmes

Notre Modèle
Distance thématique
Distance thématique entre lieux d’activités basée sur une taxonomie de catégories
(root)
Food
Chinese Restaurant
Cantonese Restaurant
Fast Food
Arts & Entertainment
Museum
History MuseumArt Museum
Aquarium
tdist("Wo Hop", "New York Aquarium")
= ?

Notre Modèle
(root)
Food
Chinese Restaurant
Fast Food
Museum
Aquarium
tdist("Wo Hop", "New York Aquarium")
= | "Fast Food" → "Food" → "(root)" → "Arts & Entertainment" → "Aquarium" |
= 4

Notre Modèle
(root)
Food
Chinese Restaurant
Fast Food
Museum
Aquarium
Distance entre deux lieux d’activités v ∈ V et w ∈ V de catégories Cv et Cw
tdist(v, w) = min
cv ∈Cv
cw ∈Cw
|shortest_path(cv , cw )|

Notre Modèle
Critères de qualité des grappes
Classement des grappes =⇒ score d’une grappe basé sur quels critères ?
Popularité globale [4]
Popularité globale d’un lieu d’activités v ∈ V
opop(v) =
pop(v)
maxw∈V pop(w)
Popularité globale d’une grappe b = {v1, . . . , vn}
opop(b) = v∈b opop(v)
|b|
[4] Deveaud, R., Albakour, M.-D., Macdonald, C., & Ounis, I. (2014). On the Importance of Venue-Dependent Features for Learning to Rank Contextual
Suggestions. Proc. of CIKM ’14 (pp. 1827-1830).

Notre Modèle
Cohésion thématique
Similarité thématique entre deux lieux d’activités v ∈ V et w ∈ V
tsim(v, w) =
1
1 + tdist(v, w)
Cohésion thématique d’une grappe b = {v1, . . . , vn}
tcoh(b) =
v,w∈b tsim(v, w)
|b|2

Notre Modèle
Appréciation estimée
Appréciation estimée d’un utilisateur u ∈ U pour un lieu d’activités v ∈ V
eappu(v) =
w∈RVu
ratingu(w) · tsim(v, w)
w∈RVu
tsim(v, w)
Appréciation estimée d’un utilisateur u ∈ U pour une grappe b = {v1, . . . , vn}
eappu(b) = v∈b eappu(v)
|b|

Notre Modèle
Appréciation estimée
Score d’une grappe b pour un utilisateur u ∈ U
scoreu(b) = opop(b)Copop
· tcoh(b)Ctcoh
· eappu(b)Ceapp

Notre Modèle
Formation des grappes
Choix des grappes optimales = problème NP-difﬁcile [5]
Heuristique de formation des grappes adaptées de la RI Composite [5, 6]
1 Production d’un grand nombre de grappes, une par une (Bundles One-By-One)
[5] Amer-Yahia, S., Bonchi, F., Castillo, C., Feuerstein, E., Mendez-Diaz, I., & Zabala, P. (2014). Composite Retrieval of Diverse and Complementary Bundles.
IEEE Transactions on Knowledge and Data Engineering, 26(11) (pp. 2662–2675).
[6] Bota, H., Zhou, K., Jose, J. M., & Lalmas, M. (2014). Composite Retrieval of Heterogeneous Web Search. Proc. of WWW ’14 (pp. 119–130).

Notre Modèle
Formation des grappes
Choix des grappes optimales = problème NP-difﬁcile [5]
Heuristique de formation des grappes adaptées de la RI Composite [5, 6]
1 Production d’un grand nombre de grappes, une par une (Bundles One-By-One)
2 Sélection des meilleures grappes et extraction des lieux d’activités les plus populaires
[5] Amer-Yahia, S., Bonchi, F., Castillo, C., Feuerstein, E., Mendez-Diaz, I., & Zabala, P. (2014). Composite Retrieval of Diverse and Complementary Bundles.
IEEE Transactions on Knowledge and Data Engineering, 26(11) (pp. 2662–2675).
[6] Bota, H., Zhou, K., Jose, J. M., & Lalmas, M. (2014). Composite Retrieval of Heterogeneous Web Search. Proc. of WWW ’14 (pp. 119–130).

Expérimentations
Cadre
Expérimentations sur la collection de TREC Contextual Suggestion 2013
Optimisation des paramètres
Analyse de l’impact de la diversité, personnalisation et popularité
Participation à TREC Contextual Suggestion 2014
Utilisation de Foursquare pour constituer les suggestions de lieux d’activités
Lieux d’activités associés à des catégories thématiques organisées en taxonomie
Pré-ﬁltrage des lieux d’activités en fonction des villes données

Expérimentations
Métriques
Évaluation de la pertinence par les métriques officielles de TREC [1]
Précision à 5 (P@5)
Mean Reciprocal Rank (MRR)
Time-Biased Gain (TBG)
Définition d’une métrique de diversité inspirée de [7]
Intralist Diversity (ILD) d’une liste l de lieux d’activités :
ILD(l) =
v, w∈l 1 − tsim(v, w)
|l|2
Mean Intralist Diversity (MILD) d’un ensemble L de listes de lieux d’activités :
MILD(L) = l∈L ILD(l)
|L|
[1] Dean-Hall, A., Thomas, P., Clarke, C. L. A., Simone, N., Kamps, J., & Voorhees, E. (2013). Overview of the TREC 2013 Contextual Suggestion Track.
Proc. of TREC ’13 (pp. 1–13).
[7] Ziegler, C.-N., McNee, S. M., Konstan, J. A., & Lausen, G. (2005). Improving Recommendation Lists Through Topic Diversification. Proc. of WWW ’05 (pp.
22–32).

Expérimentations
Comparaison des différentes versions du système suivant plusieurs métriques
1 version = 1 jeu de paramètres
λ : poids de tsim par rapport à eapp lors de l’agrégation de lieux autour des pivots
Copop, Ctcoh, Ceapp : poids de opop, tcoh et eapp dans le score d’une grappe
β : nombre de lieux par grappe
Fusion des classements suivant chaque critère avec Borda Count [8]
Optimisation des paramètres λ, Copop, Ctcoh, Ceapp et β
Version λ Copop Ctcoh Ceapp β P@5 MRR MILD Points
1 0,5 1 1 1 5 0,3139 0,5463 0,5384
2 0 1 1 1 5 0,2906 0,4944 0,5347
3 1 1 1 1 5 0,3229 0,5422 0,5271
4 2/3 1 1 1 5 0,3139 0,5466 0,5375
5 1/3 1 1 1 5 0,3193 0,5451 0,5361
[8] Montague, M., & Aslam, J. A. (2002). Condorcet Fusion for Improved Retrieval. Proc. of CIKM ’02 (pp. 538–548).

Expérimentations
1 0,5 1 1 1 5 0,3139(2)
0,5463 0,5384
2 0 1 1 1 5 0,2906(1)
0,4944 0,5347
3 1 1 1 1 5 0,3229(5)
0,5422 0,5271
4 2/3 1 1 1 5 0,3139(3)
0,5466 0,5375
5 1/3 1 1 1 5 0,3193(4)
0,5451 0,5361

Expérimentations
1 0,5 1 1 1 5 0,3139(2)
0,5463(4)
0,5384(5)
2 0 1 1 1 5 0,2906(1)
0,4944(1)
0,5347(2)
3 1 1 1 1 5 0,3229(5)
0,5422(2)
0,5271(1)
4 2/3 1 1 1 5 0,3139(3)
0,5466(5)
0,5375(4)
5 1/3 1 1 1 5 0,3193(4)
0,5451(3)
0,5361(3)

Expérimentations
1 0,5 1 1 1 5 0,3139(2)
0,5463(4)
0,5384(5)
2 + 4 + 5 = 11
2 0 1 1 1 5 0,2906(1)
0,4944(1)
0,5347(2)
1 + 1 + 2 = 4
3 1 1 1 1 5 0,3229(5)
0,5422(2)
0,5271(1)
5 + 2 + 1 = 8
4 2/3 1 1 1 5 0,3139(3)
0,5466(5)
0,5375(4)
3 + 5 + 4 = 12
5 1/3 1 1 1 5 0,3193(4)
0,5451(3)
0,5361(3)
4 + 3 + 3 = 10

Expérimentations
Impact de la diversité, personnalisation et popularité
div + perso + pop 2/3 5 1 10 7 0,3139(5)
0,5635(7)
0,5602(5)
17
div + perso 2/3 0 1 10 7 0,1336(2)
0,2741(2)
0,5780(6)
10
div + pop 1 5 1 0 7 0,3148(6)
0,5466(6)
0,5549(4)
16
perso + pop - 5 - 10 1 0,3157(7)
0,5152(5)
0,5341(2)
14
div 1 0 1 0 7 0,1309(1)
0,2428(1)
0,5960(7)
9
perso - 0 - 10 1 0,1605(3)
0,3074(3)
0,4720(1)
7
pop - 5 - 0 1 0,3094(4)
0,5113(4)
0,5350(3)
11
Meilleures performances obtenues en combinant diversité, personnalisation et
popularité
Importance de la popularité des suggestions [4]
Comparaison de div + perso + pop avec perso + pop
MILD : +6%
MRR : +9%
P@5 : -2%
=⇒ Diversiﬁcation des suggestions sans détérioration de la pertinence

Expérimentations
Participation à TREC CS 2014
25 systèmes soumis utilisant l’Open Web
Système λ Copop Ctcoh Ceapp β P@5 (rang) TBG (rang) MRR (rang)
UDInfoCS2014_2 - - - - - 0,5585 (1) 2,7021 (1) 0,7482 (1)
RAMARUN2 - - - - - 0,5017 (2) 2,3718 (2) 0,6846 (2)
BJUTa - - - - - 0,5010 (3) 2,2209 (4) 0,6677 (4)
BJUTb - - - - - 0,4983 (4) 2,1949 (5) 0,6626 (6)
uogTrBunSumF 2/3 1 1 10 5 0,4943 (5) 2,1526 (7) 0,6704 (3)
Notre système (uogTrBunSumF) a respectivement obtenu les rangs de 5ème
,
7ème
et 3ème
sur 25 en P@5, TBG et MRR
Faible différence en P@5 pour les systèmes classés de la 2ème
à la 5ème
position
=⇒ Notre système renvoie des suggestions de pertinence comparable aux meilleurs
systèmes de suggestion contextuelle existants

Conclusions & Perspectives
Proposition d’un modèle de suggestion contextuelle regroupant les suggestions
en grappes thématiquement cohésives afin de diversifier les lieux d’activités
Expérimentations sur les collections TREC CS 2013 et 2014
Importance de la popularité des suggestions
Possibilité de diversifier les suggestions sans dégrader leur pertinence
Performances comparables aux meilleurs systèmes de suggestion contextuelle
Travaux futurs
Active Learning pour améliorer la personnalisation et apprendre les paramètres
Évaluation auprès d’utilisateurs réels pour comparer un système de suggestion
contextuelle classique avec un système de suggestion contextuelle composite

Questions
Questions ?
@tthonet
thibaut.thonet@irit.fr
@rdeveaud
romain.deveaud@pj.ca
@iadh
iadh.ounis@glasgow.ac.uk
@craig_macdonald
craig.macdonald@glasgow.ac.uk
Code source de notre système disponible sur https://github.com/tthonet/composite-contextual-suggestion

Bonus !
Complexité
Paramètres :
|V| : nombre de lieux situés dans une ville donnée (≈ 1000)
c : nombre de grappes candidates à produire (≈ 50)
β : nombre de lieux d’activités par grappe (≈ 5)
k : nombre de suggestions à renvoyer (≈ 5)
Complexité :
Création de la liste de pivots : c × β × |V|
Agrégation des lieux autour des pivots : c × β × |V| − c×β
2
Sélection des meilleures grappes : k × c
k β |V| =⇒ C = O c × β × 2 × |V| − c×β
2

Bonus !
λ Copop Ctcoh Ceapp β P@5 MRR MILD Points
0,5 1 1 1 5 0,3139(2)
0,5463(4)
0,5384(5)
11
0 1 1 1 5 0,2906(1)
0,4944(1)
0,5347(2)
4
1 1 1 1 5 0,3229(5)
0,5422(2)
0,5271(1)
8
2/3 1 1 1 5 0,3139(3)
0,5466(5)
0,5375(4)
12
1/3 1 1 1 5 0,3193(4)
0,5451(3)
0,5361(3)
10
0,5 1 1 1 5 0,3139(3)
0,5463(1)
0,5384(1)
5
0,5 5 1 1 5 0,3121(2)
0,5535(3)
0,5458(3)
8
0,5 10 1 1 5 0,3103(1)
0,5510(2)
0,5455(2)
5
0,5 1 1 1 5 0,3139(3)
0,5463(3)
0,5384(3)
9
0,5 1 5 1 5 0,2924(2)
0,5436(2)
0,5169(1)
5
0,5 1 10 1 5 0,2709(1)
0,5298(1)
0,5208(2)
4
0,5 1 1 1 5 0,3139(1)
0,5463(1)
0,5384(1)
3
0,5 1 1 5 5 0,3184(2)
0,5676(3)
0,5391(2)
7
0,5 1 1 10 5 0,3247(3)
0,5612(2)
0,5404(3)
8
0,5 1 1 1 5 0,3139(8)
0,5463(3)
0,5384(3)
14
0,5 1 1 1 1 0,3103(6)
0,5114(1)
0,5346(2)
9
0,5 1 1 1 3 0,3130(7)
0,5558(6)
0,5348(1)
14
0,5 1 1 1 7 0,3067(5)
0,5617(8)
0,5502(4)
17
0,5 1 1 1 8 0,3067(4)
0,5564(7)
0,5578(5)
16
0,5 1 1 1 9 0,3067(3)
0,5535(5)
0,5588(6)
14
0,5 1 1 1 10 0,2933(2)
0,5519(4)
0,5644(7)
13
0,5 1 1 1 12 0,2924(1)
0,5463(2)
0,5725(8)
11
2/3 5 1 10 7 0,3139 0,5635 0,5602 -

Suggestion Contextuelle Composite CORIA 2015

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Suggestion Contextuelle Composite CORIA 2015