Voici une présentation que j'ai donnée à PeCUSI (Prise en compte de l'utilisateur dans les systèmes d'information), INFORSID, en 2007.
Elle présente les résultats d'une étude de la personnalisation en recherche d'information sur des données structurées.
Cloud Elephants and Witches: A Big Data Tale from Mendeley
Etude de la pertinence de critères de recherche en recherche d'informations sur des données structurées
1. étude de la pertinence de critères de
recherche en recherche d'informations sur
des données structurées
Kris JACK et Florence DUCLAYE
France Télécom Recherche & Développement
PeCUSI (Prise en compte de l'utilisateur dans les systèmes d'information)
INFORSID'07
22/05/07
recherche & développement
2. sommaire
1. problématique
2. contexte de l'étude
3. FTSem : un système de recherche d'informations
personnalisées
4. étude 1 : La pertinence relative des caractéristiques
5. étude 2 : étude à l'évaluation de FTSem personnalisé
6. conclusions
recherche & développement Groupe France Télécom
3. 1
problématique
recherche & développement Groupe France Télécom
4. problématique
problématique trouver une émission de télévision parmi un
contexte grand nombre de programmes proposés est
FTSem difficile
étude 1 les méthodes de recherches classiques (ex :
étude 2 feuilleter un programme télé ou zapper)
conclusions peuvent être laborieuses
prendre beaucoup de temps
le téléspectateur ne trouvera pas forcément
l'émission la plus appropriée
solution possiblela personnalisation
recherche & développement Groupe France Télécom
5. problème abordé
problématique pour choisir une émission, le téléspectateur va
contexte se baser sur plusieurs caractéristiques parmi
FTSem lesquelles : le genre, le réalisateur, etc.
étude 1 lors de la recherche d'une émission, deux
étude 2 personnes peuvent donner à ces
conclusions caractéristiques différentes valeurs
ex : une personne trouvera le réalisateur plus
pertinent, tandis qu'une autre personne trouvera que
c'est le genre
est-il possible pour un système de recherche
d'informations de prendre en compte la
pertinence relative de la caractéristique?
recherche & développement Groupe France Télécom
7. profil utilisateur
problématique un système d'information est normalement personnalisé
contexte en créant un profil utilisateur pour chaque personne
lors d'une recherche le système consulte ce profil afin
FTSem
de personnaliser ses réponses
étude 1 différentes manières de le créer et de le mettre à jour :
étude 2 en entrant des données explicitement (Gaush et al., 2003)
conclusions par apprentissage automatique (DeLuca et al., 2005)
en sauvegardant les opinions (Yu et al., 2004)
en dialoguant (Krulwich, 1997)
de nombreuses informations peuvent être enregistrées
les données personnelles, le style cognitif ou d'apprentissage, les
données concernant le but, l'expérience du système et du domaine
recherche & développement Groupe France Télécom
8. préférences
problématique les préférences “are multiple, heterogeneous,
contexte changing (and) even contradictory” (Vallet et
FTSem al., 2006)
étude 1 différentes classification existent :
étude 2 qualitative vs. quantitative (Chomicki, 2003)
persistante vs. éphémère (Sugiyama et al., 2004)
conclusions dure vs. douce (Berners-Lee et al., 2001)
indépendante vs. prioritaire (Siberski et al., 2006)
présente vs. positive vs. négative (Koutrika et al., 2005)
présente vs. absente (Koutrika et al., 2005)
exacte vs. élastique (Koutrika et al., 2005)
bruyante vs. pertinente (Vallet et al., 2006)
les préférences sont dépendantes du
contexte (Vallet et al., 2006)
recherche & développement Groupe France Télécom
9. 3
FTSem : un système de recherche d'informations
personnalisées
recherche & développement Groupe France Télécom
10. introduction de FTSem
problématique FTSem est un système sémantique de
contexte recherche d’information qui opère sur des
FTSem données structurées
intro lors d’une requête FTSem cherche le résultat
requête le plus pertinent dans sa base de données
dist. pert. il contient un profil pour chaque utilisateur
apprentis. le profil utilisateur est consulté afin de trouver
étude 1 le résultat le plus pertinent
étude 2
conclusions Profil de Jack Acteur principal Genre
Niveau de pertinence Très pertinent Pertinent
Aime Arnold Schwarzenegger Action
N’aime pas Woody Allen Comédie
recherche & développement Groupe France Télécom
11. la requête
problématique l’utilisateur effectue une requête [*, *, *, *]
contexte
FTSem le système compare la requête a chaque
intro donnée en utilisant le profil utilisateur
requête
dist. pert. afin de trouver la distance entre une requête
apprentis.
et une réponse nous devons d’abord trouver
étude 1 la distance pertinente entre leurs propres
étude 2 éléments
conclusions
recherche & développement Groupe France Télécom
12. distance pertinente
problématique sachant que la pertinence d’une
contexte caractéristique est marquée sur une échelle à
FTSem 3 niveaux,
intro très pertinent (r = 1), pertinent (r = 2) ou pas pertinent
(r = 3).
requête
dist. pert.
la distance pertinente entre * et un paramètre,
dépend de l’intérêt de l’utilisateur pour ce
apprentis.
paramètre (goût, pertinence)
étude 1
étude 2
conclusions Profil de Jack Acteur principal Genre
Niveau de pertinence Très pertinent Pertinent
Aime Arnold Schwarzenegger Action
N’aime pas Woody Allen Comédie
recherche & développement Groupe France Télécom
13. distance pertinente
r=1 aime n'aime pas r=1
1 6 très pertinent (r = 1)
r=2 r=2 pertinent (r = 2)
r=3 r=3 pas pertinent (r = 3)
2 5
3 4
distance pertinente entre * et Arnold Schwarzenegger pour Jack = 1
distance pertinente entre * et Woody Allen pour Jack = 6
distance pertinente entre * et Action pour Jack = 2
distance pertinente entre * et Comédie pour Jack = 5
Profil de Jack Acteur principal Genre
Niveau de pertinence Très pertinent Pertinent
Aime Arnold Schwarzenegger Action
N’aime pas Woody Allen Comédie
recherche & développement Groupe France Télécom
14. distance pertinente
r=1 aime n'aime pas r=1
6 très pertinent (r = 1)
r=2 r=2 pertinent (r = 2)
r=3 r=3 pas pertinent (r = 3)
2 5
3 4
distance pertinente entre * et Arnold Schwarzenegger pour Jack = 1
distance pertinente entre * et Woody Allen pour Jack = 6
distance pertinente entre * et Action pour Jack = 2
distance pertinente entre * et Comédie pour Jack = 5
Profil de Jack Acteur principal Genre
Niveau de pertinence Très pertinent Pertinent
Aime Arnold Schwarzenegger Action
N’aime pas Woody Allen Comédie
recherche & développement Groupe France Télécom
15. distance pertinente
r=1 aime n'aime pas r=1
6 très pertinent (r = 1)
r=2 r=2 pertinent (r = 2)
r=3 r=3 pas pertinent (r = 3)
2 5
3 4
distance pertinente entre * et Arnold Schwarzenegger pour Jack = 1
distance pertinente entre * et Woody Allen pour Jack = 6
distance pertinente entre * et Action pour Jack = 2
distance pertinente entre * et Comédie pour Jack = 5
Profil de Jack Acteur principal Genre
Niveau de pertinence Très pertinent Pertinent
Aime Arnold Schwarzenegger Action
N’aime pas Woody Allen Comédie
recherche & développement Groupe France Télécom
16. distance pertinente
problématique la distance entre la requête et la réponse est la
contexte somme des distances pertinentes entre chacun
FTSem des éléments
intro
donc une requête, r, dans laquelle chaque
paramètre est, *, et chaque donnée, i = {f1, f2…fn},
requête
a pour distance totale entre ses éléments :
dist. pert.
total_distance(r, i) =
apprentis.
étude 1 ∑ relevant_distance(α ,distance(*, f ))
j j
plus un paramètre apprécié est pertinent plus la
1≤ j<n
étude 2
distance est petite
conclusions
plus un paramètre non aimé est pertinent plus la
distance est grande
recherche & développement Groupe France Télécom
17. apprentissage de valeurs
pertinentes
problématique le système peut apprendre des valeurs
contexte pertinentes grâce a une liste ordonnée de
FTSem données et les goûts de l'utilisateur
intro
requête
dist. pert.
apprentis.
étude 1
étude 2
conclusions
recherche & développement Groupe France Télécom
18. apprentissage de valeurs pertinentes
ordre titre acteur principal genre
1 The Terminator Arnold Schwarzenegger action
2 Predator Arnold Schwarzenegger action
3 Terminator Time Arnold Schwarzenegger comedie
4 Kindergarten Cop Arnold Schwarzenegger comedie
5 Lone Terminator Woody Allen action
6 Rampant Sage Woody Allen action
7 Help a Terminator Woody Allen comedie
8 The Blues Woody Allen comedie
profil de Jack title acteur principal genre
niveau de pertinence
aime *Terminator* Arnold Schwarzenegger action
n'aimes pas *Love* Woody Allen comedie
recherche & développement Groupe France Télécom
19. apprentissage de valeurs pertinentes
ordre titre acteur principal genre
1 The Terminator Arnold Schwarzenegger action
2 Predator Arnold Schwarzenegger action
3 Terminator Time Arnold Schwarzenegger comedie
4 Kindergarten Cop A comedie
profil de Jack title acteur principal genre
niveau de pertinence plus pertinent
aime *Terminator* Arnold Schwarzenegger action
n'aimes pas *Love* Woody Allen comedie
recherche & développement Groupe France Télécom
20. apprentissage de valeurs pertinentes
ordre titre acteur principal genre
1 The Terminator Arnold Schwarzenegger action
2 Predator Arnold Schwarzenegger action
3 Terminator Time Arnold Schwarzenegger comedie
4 Kindergarten Cop Arnold Schwarzenegger comedie
5 Lone Terminator Woody Allen action
6 Rampant Sage Woody Allen action
7 Help a Terminator Woody Allen comedie
8 The Blues Woody Allen comedie
profil de Jack title acteur principal genre
niveau de pertinence plus pertinent pertinent
aime *Terminator* Arnold Schwarzenegger action
n'aimes pas *Love* Woody Allen comedie
recherche & développement Groupe France Télécom
21. apprentissage de valeurs pertinentes
ordre titre acteur principal genre
1 The Terminator Arnold Schwarzenegger action
2 Predator Arnold Schwarzenegger action
3 Terminator Time Arnold Schwarzenegger comedie
4 Kindergarten Cop Arnold Schwarzenegger comedie
5 Lone Terminator Woody Allen action
6 Rampant Sage Woody Allen action
7 Help a Terminator Woody Allen comedie
8 The Blues Woody Allen comedie
profil de Jack title acteur principal genre
niveau de pertinence moin pertinent plus pertinent pertinent
aime *Terminator* Arnold Schwarzenegger action
n'aimes pas *Love* Woody Allen comedie
recherche & développement Groupe France Télécom
22. 4
étude 1 : pertinence relative des caractéristiques
recherche & développement Groupe France Télécom
23. pertinence relative des
caractéristiques
problématique personnaliser FTSem n'est utile que si les
contexte utilisateurs ont des opinions différentes sur
FTSem ces même caractéristiques
étude 1 une étude a été effectuée auprès d'individus
étude 2 afin de découvrir s'il y a une vraie variété
conclusions d’opinions dans ce domaine
31 participants ont été recrutés
chacun a reçu un questionnaire
• 26 caractéristiques de film (ex: titre, chaîne, etc.)
nous avons demandé a chaque participant d’indiquer
le niveau de pertinence de chaque caractéristique
pour sélectionner le film qu'il souhaite regarder à la
télévision (pas pertinent, pertinent ou très pertinent).
recherche & développement Groupe France Télécom
24. pertinence relative des
caractéristiques
problématique résultats
contexte les 31 participants ont répondu (N= 31)
FTSem chaque caractéristique a reçu une note en
étude 1 fonction de sa pertinence (pas pertinent = 0,
étude 2 pertinent = 1, très pertinent = 2)
conclusions
recherche & développement Groupe France Télécom
25. pertinence relative des
caractéristiques
la pertinence générale est calculée (la majorité indique la même valeur)
Relevance Scores f Film Ch
or aracteristics
60
very relevant
50
40
relevant
30
20
10
not relevant
0
Characteristics
recherche & développement Groupe France Télécom
26. pertinence relative des
caractéristiques
problématique les classements sont-ils différents pour
contexte chaque participant?
FTSem 51% de la pertinence classée par les participants
étude 1 est la même que la pertinence générale
étude 2 par conséquent si un système considère les
conclusions caractéristiques avec la même pertinence
pour tous les utilisateurs, au mieux, il pourra
prédire correctement 51% des opinions de
l’utilisateur
les résultats confirment que la perception de
la pertinence des caractéristiques par les
utilisateurs varie considérablement lors de la
recherche d’un film
recherche & développement Groupe France Télécom
27. 5
étude 2 : étude de l'évaluation de FTSem
personnalisé
recherche & développement Groupe France Télécom
28. étude de l'évaluation de
FTSem personnalisé
problématique puisque les opinions des individus sur la
contexte pertinence des caractéristiques diffèrent nous
FTSem avons testé notre système pour voir s’il
étude 1 pouvait les exploiter
étude 2 une étude a été conduite :
conclusions 24 participants ont été recrutés
les participants ont complété un questionnaire sur
ordinateur
• questionnaire portant sur 4 caractéristiques de films
(genre, chaîne, réalisateur et acteurs)
recherche & développement Groupe France Télécom
29. données de l'utilisateur
problématique utilisateur
contexte
FTSem
questionnaire
étude 1
étude 2
conclusions
recherche & développement Groupe France Télécom
30. données de l'utilisateur
problématique utilisateur
contexte
FTSem
questionnaire
étude 1
étude 2
conclusions 3 listes de films profil utilisateur
(explicite)
exemples aimes pertinence des
et n'aimes pas caractéristiques
(explicite)
recherche & développement Groupe France Télécom
31. données de l'utilisateur
problématique utilisateur
contexte
FTSem
questionnaire
étude 1
étude 2
conclusions 3 listes de films profil utilisateur
(explicite)
3 listes de films
(ordonnées) exemples aimes pertinence des
et n'aimes pas caractéristiques
(explicite)
recherche & développement Groupe France Télécom
32. données de l'utilisateur
problématique utilisateur
contexte
FTSem
questionnaire
étude 1
étude 2
conclusions 3 listes de films profil utilisateur
(explicite)
3 listes de films
(ordonnées) exemples aimes pertinence des
et n'aimes pas caractéristiques
(explicite)
3 listes de films
(ordonnées et
appréciées)
recherche & développement Groupe France Télécom
33. étude de l'évaluation de
FTSem personnalisé
problématique étude réalisée :
contexte FTSem personnalisé a été testé pour déterminer
FTSem dans quelle mesure il permettait de prédire l'ordre
des descriptions de films produites par les
étude 1 participants
étude 2 les valeurs du profil relatives à la pertinence ont été
conclusions fixées à l'aide de 2 méthodes :
• d'après des notations fournies explicitement par le
participant
• apprises en utilisant les listes ordonnées
recherche & développement Groupe France Télécom
34. données du système
problématique utilisateur
contexte
FTSem
questionnaire
étude 1
étude 2
conclusions 3 listes de films profil utilisateur
(explicite)
3 listes de films
(ordonnées) exemples aimes pertinence des
et n'aimes pas caractéristiques
(explicite)
3 listes de films
(ordonnées et
appréciées)
recherche & développement Groupe France Télécom
35. données du système
problématique
contexte profil utilisateur
(explicite)
FTSem
étude 1
étude 2 exemples aimes pertinence des
conclusions et n'aimes pas caractéristiques
(explicite)
pertinence des
3 listes de films
système caractéristiques
(ordonnées)
(appris)
recherche & développement Groupe France Télécom
36. étude à l'évaluation de
FTSem personnalisé
problématique résultats :
contexte 22 participants sur 24 ont répondu à tout le
FTSem questionnaire (N=22)
étude 1 l'ordre des films qu'un participant ne veut pas
étude 2 voir est ignoré car il n'est pas significatif
conclusions principaux tests :
• test de différents systèmes de scoring
• comparaison de la pertinence donnée
explicitement par les participants avec la
pertinence apprise
recherche & développement Groupe France Télécom
37. tests du système
problématique pertinence des
contexte caractéristiques
(explicite)
FTSem
3 listes de films
étude 1 (ordonnées par
exemples aimes
étude 2 et n'aimes pas utilisateur)
conclusions
système
3 listes de films
(pas ordonnées)
pertinence des
caractéristiques
(appris)
recherche & développement Groupe France Télécom
38. tests du système
3 système
de
scorings
problématique pertinence des
contexte caractéristiques
(explicite)
FTSem
3 listes de films
étude 1 (ordonnées par
exemples aimes
étude 2 et n'aimes pas utilisateur)
conclusions
système
3 listes de films 3 listes de films
(pas ordonnées) (ordonnées par
système)
pertinence des
caractéristiques
(appris)
recherche & développement Groupe France Télécom
39. tests du système
problématique pertinence des
contexte caractéristiques
(explicite)
FTSem
3 listes de films
étude 1 (ordonnées par
exemples aimes
étude 2 et n'aimes pas utilisateur)
conclusions
système
3 listes de films 3 listes de films
(pas ordonnées) (ordonnées par
système)
pertinence des
caractéristiques
(appris)
3 système
d'apprentissage
s
recherche & développement Groupe France Télécom
40. comparaison de systèmes de
scoring
problématique résultats des test des systèmes de scoring (pour
contexte les pertinences données explicitement):
scoring à 3 pas (pas pert., pert., très pert.)
FTSem scoring à 4 pas (classement de 1 à 4)
étude 1 scoring à 12 pas (combinaison des deux précédents)
étude 2 Comparison of Scoring Systems for Perceived Relevance
conclusions
100%
90%
80%
70%
60% 3-Scale
50% 4-Scale
40% Combined Scale
30%
20%
10%
0%
1 (66) 2 (52) 3 (41) 4 (40) 5 (33) 6 (27)
Number of Results (Given in Number of Trials)
recherche & développement Groupe France Télécom
41. comparaison de résultats
d'apprentissages
problématique résultats de la comparaison entre pertinence
contexte donnée explicitement et pertinence apprise :
FTSem le système apprend le score de pertinence d'un
participant à partir d'une ou deux listes et prédit la
étude 1
troisième
étude 2
Learned Relevance Vs. Perceived Relevance
conclusions
100%
80%
P erceived Relevance
60% Learned from List 1
40% Learned from List 2
Learned from Lists 1 & 2
20%
0%
1 2 3 4
Number of Results
recherche & développement Groupe France Télécom
42. profil A acteur chaîne réalisateur genre
pertinence 5.5 11 0.5 3
aime Keanu Reeves M6 Steven Spielberg Fantastique
n'aime pas Woody Allen France 3 Abel Ferrara Erotique
profil B acteur chaîne réalisateur genre
pertinence 2.5 11 3 5.5
aime Brad Pitt France 2 Tim Burton Sci-fi
n'aime pas Tom Cruise TF1 James Cameron Romance
six films ordonnés par participant A
Ordre acteur chaîne réalisateur genre Score A Score B
Donnée
1 Keanu Reeves M6 Steven Spielberg Fantastique 20 22
2 Keanu Reeves France 3 Steven Spielberg Fantastique 21 23
3 Woody Allen M6 Steven Spielberg Fantastique 32 40
4 Woody Allen France 3 Steven Spielberg Fantastique 33 41
9 Keanu Reeves M6 Steven Spielberg Erotique 37 34
10 Keanu Reeves France 3 Steven Spielberg Erotique 38 35
recherche & développement Groupe France Télécom
43. profil A acteur chaîne réalisateur genre
pertinence 5.5 11 0.5 3
aime Keanu Reeves M6 Steven Spielberg Fantastique
n'aime pas Woody Allen France 3 Abel Ferrara Erotique
profil B acteur chaîne réalisateur genre
pertinence 2.5 11 3 5.5
aime Brad Pitt France 2 Tim Burton Sci-fi
n'aime pas Tom Cruise TF1 James Cameron Romance
six films ordonnés par participant B
Ordre acteur chaîne réalisateur genre Score A Score B
Donnée
1 Brad Pitt France 2 Tim Burton Sci-fi 20 22
2 Brad Pitt France 2 Tim Burton Fantastique 37 34
3 Brad Pitt TF1 Tim Burton Sci-fi 21 23
4 Brad Pitt TF1 Tim Burton Fantastique 38 35
5 Tom Cruise France 2 Tim Burton Sci-fi 32 40
6 Tom Cruise TF1 Tim Burton Sci-fi 33 41
recherche & développement Groupe France Télécom
44. étude à l'évaluation de
FTSem personnalisé
problématique le FTSem personnalisé peut-il exploiter la
contexte pertinence des caractéristiques pour
FTSem améliorer ses résultats ?
étude 1 oui. l'ordre des films peut être amélioré en
étude 2 prenant en compte la pertinence des
conclusions caractéristiques :
plus la granularité de l'échelle est fine, plus les
résultats sont bons
plus il y a de données apprises, plus les résultats
sont bons
l'apprentissage de la pertinence des caractéristiques
permet de meilleurs résultats que l'utilisation d'une
pertinence des caractéristiques fournies
explicitement
recherche & développement Groupe France Télécom
45. 6
conclusions
recherche & développement Groupe France Télécom
46. conclusions
problématique les individus considèrent que les
contexte caractéristiques ont des degrés de pertinence
FTSem différents.
étude 1 un système peut le prendre en compte et
étude 2 ainsi améliorer sa réponse à la requête
conclusions la connaissance de la pertinence des
caractéristiques pour un utilisateur donné
peut permettre au système de personnaliser
ses réponses pour cet utilisateur
recherche & développement Groupe France Télécom
47. Fin
Merci de votre attention.
recherche & développement Groupe France Télécom