étude de la pertinence de critères de
recherche en recherche d'informations sur
des données structurées
Kris JACK et Florence DUCLAYE
France Télécom Recherche & Développement

PeCUSI (Prise en compte de l'utilisateur dans les systèmes d'information)
INFORSID'07
22/05/07




                               recherche & développement
sommaire

1.   problématique
2.   contexte de l'étude
3.   FTSem : un système de recherche d'informations
     personnalisées
4.   étude 1 : La pertinence relative des caractéristiques
5.   étude 2 : étude à l'évaluation de FTSem personnalisé
6.   conclusions




                          recherche & développement   Groupe France Télécom
1
problématique




                recherche & développement   Groupe France Télécom
problématique

problématique       trouver une émission de télévision parmi un
contexte             grand nombre de programmes proposés est
FTSem                difficile
étude 1             les méthodes de recherches classiques (ex :
étude 2              feuilleter un programme télé ou zapper)
conclusions             peuvent être laborieuses
                        prendre beaucoup de temps
                    le téléspectateur ne trouvera pas forcément
                     l'émission la plus appropriée

                    solution possiblela personnalisation



                           recherche & développement   Groupe France Télécom
problème abordé

problématique       pour choisir une émission, le téléspectateur va
contexte             se baser sur plusieurs caractéristiques parmi
FTSem                lesquelles : le genre, le réalisateur, etc.
étude 1             lors de la recherche d'une émission, deux
étude 2              personnes peuvent donner à ces
conclusions          caractéristiques différentes valeurs
                        ex : une personne trouvera le réalisateur plus
                         pertinent, tandis qu'une autre personne trouvera que
                         c'est le genre


                  est-il possible pour un système de recherche
                     d'informations de prendre en compte la
                     pertinence relative de la caractéristique?


                            recherche & développement             Groupe France Télécom
2
contexte de l'étude




                      recherche & développement   Groupe France Télécom
profil utilisateur

problématique       un système d'information est normalement personnalisé
contexte             en créant un profil utilisateur pour chaque personne
                    lors d'une recherche le système consulte ce profil afin
FTSem
                     de personnaliser ses réponses
étude 1             différentes manières de le créer et de le mettre à jour :
étude 2                 en entrant des données explicitement (Gaush et al., 2003)
conclusions             par apprentissage automatique (DeLuca et al., 2005)
                        en sauvegardant les opinions (Yu et al., 2004)
                        en dialoguant (Krulwich, 1997)
                    de nombreuses informations peuvent être enregistrées
                        les données personnelles, le style cognitif ou d'apprentissage, les
                         données concernant le but, l'expérience du système et du domaine




                             recherche & développement                      Groupe France Télécom
préférences

problématique       les préférences “are multiple, heterogeneous,
contexte             changing (and) even contradictory” (Vallet et
FTSem                al., 2006)
étude 1             différentes classification existent :
étude 2                 qualitative vs. quantitative (Chomicki, 2003)
                        persistante vs. éphémère (Sugiyama et al., 2004)
conclusions             dure vs. douce (Berners-Lee et al., 2001)
                        indépendante vs. prioritaire (Siberski et al., 2006)
                        présente vs. positive vs. négative (Koutrika et al., 2005)
                        présente vs. absente (Koutrika et al., 2005)
                        exacte vs. élastique (Koutrika et al., 2005)
                        bruyante vs. pertinente (Vallet et al., 2006)
                    les préférences sont dépendantes du
                     contexte (Vallet et al., 2006)


                            recherche & développement                    Groupe France Télécom
3
FTSem : un système de recherche d'informations
 personnalisées




                   recherche & développement   Groupe France Télécom
introduction de FTSem

problématique         FTSem est un système sémantique de
contexte               recherche d’information qui opère sur des
FTSem                  données structurées
    intro             lors d’une requête FTSem cherche le résultat
    requête            le plus pertinent dans sa base de données
    dist. pert.       il contient un profil pour chaque utilisateur
    apprentis.        le profil utilisateur est consulté afin de trouver
étude 1                le résultat le plus pertinent
étude 2
conclusions        Profil de Jack                   Acteur principal         Genre
                   Niveau de pertinence             Très pertinent           Pertinent
                   Aime                             Arnold Schwarzenegger    Action
                   N’aime pas                       Woody Allen              Comédie

                             recherche & développement                 Groupe France Télécom
la requête

problématique         l’utilisateur effectue une requête [*, *, *, *]
contexte
FTSem                 le système compare la requête a chaque
    intro              donnée en utilisant le profil utilisateur
    requête
    dist. pert.       afin de trouver la distance entre une requête
    apprentis.
                       et une réponse nous devons d’abord trouver
étude 1                la distance pertinente entre leurs propres
étude 2                éléments
conclusions




                             recherche & développement        Groupe France Télécom
distance pertinente

problématique         sachant que la pertinence d’une
contexte               caractéristique est marquée sur une échelle à
FTSem                  3 niveaux,
    intro                 très pertinent (r = 1), pertinent (r = 2) ou pas pertinent
                           (r = 3).
    requête
    dist. pert.
                      la distance pertinente entre * et un paramètre,
                       dépend de l’intérêt de l’utilisateur pour ce
    apprentis.
                       paramètre (goût, pertinence)
étude 1
étude 2
conclusions        Profil de Jack                    Acteur principal         Genre
                   Niveau de pertinence              Très pertinent           Pertinent
                   Aime                              Arnold Schwarzenegger    Action
                   N’aime pas                        Woody Allen              Comédie

                              recherche & développement                 Groupe France Télécom
distance pertinente
                    r=1         aime         n'aime pas          r=1
                1                                                      6      très pertinent (r = 1)
                        r=2                            r=2                         pertinent (r = 2)
                              r=3                r=3                          pas pertinent (r = 3)
                    2                                            5

                                3                  4

distance pertinente entre * et Arnold Schwarzenegger pour Jack = 1
distance pertinente entre * et Woody Allen pour Jack = 6
distance pertinente entre * et Action pour Jack = 2
distance pertinente entre * et Comédie pour Jack = 5

      Profil de Jack                Acteur principal                       Genre
      Niveau de pertinence          Très pertinent                         Pertinent
      Aime                          Arnold Schwarzenegger                  Action
      N’aime pas                    Woody Allen                            Comédie

                                     recherche & développement                         Groupe France Télécom
distance pertinente
                    r=1         aime         n'aime pas          r=1
                                                                       6      très pertinent (r = 1)
                        r=2                            r=2                         pertinent (r = 2)
                              r=3                r=3                          pas pertinent (r = 3)
                    2                                            5

                                3                  4

distance pertinente entre * et Arnold Schwarzenegger pour Jack = 1
distance pertinente entre * et Woody Allen pour Jack = 6
distance pertinente entre * et Action pour Jack = 2
distance pertinente entre * et Comédie pour Jack = 5

      Profil de Jack                Acteur principal                       Genre
      Niveau de pertinence          Très pertinent                         Pertinent
      Aime                          Arnold Schwarzenegger                  Action
      N’aime pas                    Woody Allen                            Comédie

                                     recherche & développement                         Groupe France Télécom
distance pertinente
                    r=1         aime         n'aime pas          r=1
                                                                       6      très pertinent (r = 1)
                        r=2                            r=2                         pertinent (r = 2)
                              r=3                r=3                          pas pertinent (r = 3)
                    2                                            5

                                3                  4

distance pertinente entre * et Arnold Schwarzenegger pour Jack = 1
distance pertinente entre * et Woody Allen pour Jack = 6
distance pertinente entre * et Action pour Jack = 2
distance pertinente entre * et Comédie pour Jack = 5

      Profil de Jack                Acteur principal                       Genre
      Niveau de pertinence          Très pertinent                         Pertinent
      Aime                          Arnold Schwarzenegger                  Action
      N’aime pas                    Woody Allen                            Comédie

                                     recherche & développement                         Groupe France Télécom
distance pertinente

problématique         la distance entre la requête et la réponse est la
contexte               somme des distances pertinentes entre chacun
FTSem                  des éléments
    intro
                      donc une requête, r, dans laquelle chaque
                       paramètre est, *, et chaque donnée, i = {f1, f2…fn},
    requête
                       a pour distance totale entre ses éléments :
    dist. pert.
                       total_distance(r, i) =
    apprentis.
étude 1                                                  ∑ relevant_distance(α ,distance(*, f ))
                                                                                 j                    j

                      plus un paramètre apprécié est pertinent plus la
                                           1≤ j<n
étude 2
                       distance est petite
conclusions
                      plus un paramètre non aimé est pertinent plus la
                       distance est grande



                             recherche & développement                        Groupe France Télécom
apprentissage de valeurs
                  pertinentes
problématique         le système peut apprendre des valeurs
contexte               pertinentes grâce a une liste ordonnée de
FTSem                  données et les goûts de l'utilisateur
    intro
    requête
    dist. pert.
    apprentis.
étude 1
étude 2
conclusions




                            recherche & développement   Groupe France Télécom
apprentissage de valeurs pertinentes

         ordre   titre                      acteur principal             genre
         1       The Terminator             Arnold Schwarzenegger        action
         2       Predator                   Arnold Schwarzenegger        action
         3       Terminator Time            Arnold Schwarzenegger        comedie
         4       Kindergarten Cop           Arnold Schwarzenegger        comedie
         5       Lone Terminator            Woody Allen                  action
         6       Rampant Sage               Woody Allen                  action
         7       Help a Terminator          Woody Allen                  comedie
         8       The Blues                  Woody Allen                  comedie


profil de Jack               title                    acteur principal             genre
niveau de pertinence

aime                         *Terminator*             Arnold Schwarzenegger        action
n'aimes pas                  *Love*                   Woody Allen                  comedie


                                      recherche & développement                    Groupe France Télécom
apprentissage de valeurs pertinentes

         ordre   titre                     acteur principal             genre
         1       The Terminator            Arnold Schwarzenegger        action
         2       Predator                  Arnold Schwarzenegger        action
         3       Terminator Time           Arnold Schwarzenegger        comedie
         4       Kindergarten Cop          A                            comedie




profil de Jack              title                    acteur principal             genre
niveau de pertinence                                 plus pertinent

aime                        *Terminator*             Arnold Schwarzenegger        action
n'aimes pas                 *Love*                   Woody Allen                  comedie


                                     recherche & développement                    Groupe France Télécom
apprentissage de valeurs pertinentes

         ordre   titre                      acteur principal             genre
         1       The Terminator             Arnold Schwarzenegger        action
         2       Predator                   Arnold Schwarzenegger        action
         3       Terminator Time            Arnold Schwarzenegger        comedie
         4       Kindergarten Cop           Arnold Schwarzenegger        comedie
         5       Lone Terminator            Woody Allen                  action
         6       Rampant Sage               Woody Allen                  action
         7       Help a Terminator          Woody Allen                  comedie
         8       The Blues                  Woody Allen                  comedie


profil de Jack               title                    acteur principal             genre
niveau de pertinence                                  plus pertinent               pertinent

aime                         *Terminator*             Arnold Schwarzenegger        action
n'aimes pas                  *Love*                   Woody Allen                  comedie


                                      recherche & développement                     Groupe France Télécom
apprentissage de valeurs pertinentes

         ordre   titre                      acteur principal             genre
         1       The Terminator             Arnold Schwarzenegger        action
         2       Predator                   Arnold Schwarzenegger        action
         3       Terminator Time            Arnold Schwarzenegger        comedie
         4       Kindergarten Cop           Arnold Schwarzenegger        comedie
         5       Lone Terminator            Woody Allen                  action
         6       Rampant Sage               Woody Allen                  action
         7       Help a Terminator          Woody Allen                  comedie
         8       The Blues                  Woody Allen                  comedie


profil de Jack               title                    acteur principal             genre
niveau de pertinence         moin pertinent           plus pertinent               pertinent

aime                         *Terminator*             Arnold Schwarzenegger        action
n'aimes pas                  *Love*                   Woody Allen                  comedie


                                      recherche & développement                     Groupe France Télécom
4
étude 1 : pertinence relative des caractéristiques




                     recherche & développement   Groupe France Télécom
pertinence relative des
                caractéristiques
problématique       personnaliser FTSem n'est utile que si les
contexte             utilisateurs ont des opinions différentes sur
FTSem                ces même caractéristiques
étude 1             une étude a été effectuée auprès d'individus
étude 2              afin de découvrir s'il y a une vraie variété
conclusions          d’opinions dans ce domaine
                        31 participants ont été recrutés
                        chacun a reçu un questionnaire
                         •    26 caractéristiques de film (ex: titre, chaîne, etc.)
                        nous avons demandé a chaque participant d’indiquer
                         le niveau de pertinence de chaque caractéristique
                         pour sélectionner le film qu'il souhaite regarder à la
                         télévision (pas pertinent, pertinent ou très pertinent).




                             recherche & développement                     Groupe France Télécom
pertinence relative des
                caractéristiques
problématique       résultats
contexte                les 31 participants ont répondu (N= 31)
FTSem                   chaque caractéristique a reçu une note en
étude 1                  fonction de sa pertinence (pas pertinent = 0,
étude 2                  pertinent = 1, très pertinent = 2)
conclusions




                           recherche & développement          Groupe France Télécom
pertinence relative des
caractéristiques
   la pertinence générale est calculée (la majorité indique la même valeur)

                            Relevance Scores f Film Ch
                                              or      aracteristics

       60
            very relevant
       50

       40
                                              relevant
       30

       20

       10
                                                                   not relevant
        0




                                              Characteristics


                                       recherche & développement             Groupe France Télécom
pertinence relative des
                caractéristiques
problématique       les classements sont-ils différents pour
contexte             chaque participant?
FTSem                   51% de la pertinence classée par les participants
étude 1                  est la même que la pertinence générale
étude 2             par conséquent si un système considère les
conclusions          caractéristiques avec la même pertinence
                     pour tous les utilisateurs, au mieux, il pourra
                     prédire correctement 51% des opinions de
                     l’utilisateur
                    les résultats confirment que la perception de
                     la pertinence des caractéristiques par les
                     utilisateurs varie considérablement lors de la
                     recherche d’un film


                           recherche & développement           Groupe France Télécom
5
étude 2 : étude de l'évaluation de FTSem
  personnalisé




                    recherche & développement   Groupe France Télécom
étude de l'évaluation de
                FTSem personnalisé
problématique       puisque les opinions des individus sur la
contexte             pertinence des caractéristiques diffèrent nous
FTSem                avons testé notre système pour voir s’il
étude 1              pouvait les exploiter
étude 2             une étude a été conduite :
conclusions             24 participants ont été recrutés
                        les participants ont complété un questionnaire sur
                         ordinateur
                         •    questionnaire portant sur 4 caractéristiques de films
                              (genre, chaîne, réalisateur et acteurs)




                             recherche & développement                   Groupe France Télécom
données de l'utilisateur

problématique                                      utilisateur
contexte
FTSem
                                                  questionnaire
étude 1
étude 2
conclusions




                      recherche & développement                   Groupe France Télécom
données de l'utilisateur

problématique                                      utilisateur
contexte
FTSem
                                                  questionnaire
étude 1
étude 2
conclusions                   3 listes de films                  profil utilisateur
                                                                    (explicite)



                                                  exemples aimes                pertinence des
                                                   et n'aimes pas               caractéristiques
                                                                                   (explicite)




                      recherche & développement                                Groupe France Télécom
données de l'utilisateur

problématique                                       utilisateur
contexte
FTSem
                                                   questionnaire
étude 1
étude 2
conclusions                    3 listes de films                  profil utilisateur
                                                                     (explicite)


                     3 listes de films
                       (ordonnées)                 exemples aimes                pertinence des
                                                    et n'aimes pas               caractéristiques
                                                                                    (explicite)




                       recherche & développement                                Groupe France Télécom
données de l'utilisateur

problématique                                             utilisateur
contexte
FTSem
                                                         questionnaire
étude 1
étude 2
conclusions                           3 listes de films                 profil utilisateur
                                                                           (explicite)


                          3 listes de films
                            (ordonnées)                  exemples aimes                pertinence des
                                                          et n'aimes pas               caractéristiques
                                                                                          (explicite)

                  3 listes de films
                   (ordonnées et
                    appréciées)


                             recherche & développement                                Groupe France Télécom
étude de l'évaluation de
                FTSem personnalisé
problématique       étude réalisée :
contexte                FTSem personnalisé a été testé pour déterminer
FTSem                    dans quelle mesure il permettait de prédire l'ordre
                         des descriptions de films produites par les
étude 1                  participants
étude 2                 les valeurs du profil relatives à la pertinence ont été
conclusions              fixées à l'aide de 2 méthodes :
                         •    d'après des notations fournies explicitement par le
                              participant
                         •    apprises en utilisant les listes ordonnées




                             recherche & développement                   Groupe France Télécom
données du système

problématique                                             utilisateur
contexte
FTSem
                                                         questionnaire
étude 1
étude 2
conclusions                           3 listes de films                 profil utilisateur
                                                                           (explicite)


                          3 listes de films
                            (ordonnées)                  exemples aimes                pertinence des
                                                          et n'aimes pas               caractéristiques
                                                                                          (explicite)

                  3 listes de films
                   (ordonnées et
                    appréciées)


                             recherche & développement                                Groupe France Télécom
données du système

problématique
contexte                                         profil utilisateur
                                                    (explicite)
FTSem
étude 1
étude 2                        exemples aimes                  pertinence des
conclusions                     et n'aimes pas                 caractéristiques
                                                                  (explicite)



                                                                            pertinence des
                  3 listes de films
                                                         système            caractéristiques
                    (ordonnées)
                                                                                (appris)




                             recherche & développement                            Groupe France Télécom
étude à l'évaluation de
                FTSem personnalisé
problématique       résultats :
contexte                22 participants sur 24 ont répondu à tout le
FTSem                    questionnaire (N=22)
étude 1                 l'ordre des films qu'un participant ne veut pas
étude 2                  voir est ignoré car il n'est pas significatif
conclusions             principaux tests :
                         •    test de différents systèmes de scoring
                         •    comparaison de la pertinence donnée
                              explicitement par les participants avec la
                              pertinence apprise




                             recherche & développement              Groupe France Télécom
tests du système

problématique                             pertinence des
contexte                                  caractéristiques
                                             (explicite)
FTSem
                                                                      3 listes de films
étude 1                                                               (ordonnées par
                exemples aimes
étude 2          et n'aimes pas                                          utilisateur)

conclusions
                                                            système

                 3 listes de films
                (pas ordonnées)


                                          pertinence des
                                          caractéristiques
                                              (appris)



                                recherche & développement             Groupe France Télécom
tests du système
                                                                      3 système
                                                                          de
                                                                       scorings
problématique                             pertinence des
contexte                                  caractéristiques
                                             (explicite)
FTSem
                                                                             3 listes de films
étude 1                                                                      (ordonnées par
                exemples aimes
étude 2          et n'aimes pas                                                 utilisateur)

conclusions
                                                            système

                 3 listes de films                                           3 listes de films
                (pas ordonnées)                                              (ordonnées par
                                                                                 système)

                                          pertinence des
                                          caractéristiques
                                              (appris)



                                recherche & développement                    Groupe France Télécom
tests du système

problématique                             pertinence des
contexte                                  caractéristiques
                                             (explicite)
FTSem
                                                                              3 listes de films
étude 1                                                                       (ordonnées par
                exemples aimes
étude 2          et n'aimes pas                                                  utilisateur)

conclusions
                                                            système

                 3 listes de films                                            3 listes de films
                (pas ordonnées)                                               (ordonnées par
                                                                                  système)

                                          pertinence des
                                          caractéristiques
                                              (appris)
                                                                         3 système
                                                                      d'apprentissage
                                                                             s

                                recherche & développement                     Groupe France Télécom
comparaison de systèmes de
                scoring
problématique         résultats des test des systèmes de scoring (pour
contexte               les pertinences données explicitement):
                           scoring à 3 pas (pas pert., pert., très pert.)
FTSem                      scoring à 4 pas (classement de 1 à 4)
étude 1                    scoring à 12 pas (combinaison des deux précédents)
étude 2                     Comparison of Scoring Systems for Perceived Relevance

conclusions
                     100%
                     90%
                     80%
                     70%
                     60%                                                                     3-Scale
                     50%                                                                     4-Scale
                     40%                                                                     Combined Scale
                     30%
                     20%
                     10%
                      0%
                            1 (66)    2 (52)     3 (41)    4 (40)   5 (33)   6 (27)
                                 Number of Results (Given in Number of Trials)


                               recherche & développement                              Groupe France Télécom
comparaison de résultats
                d'apprentissages
problématique        résultats de la comparaison entre pertinence
contexte              donnée explicitement et pertinence apprise :
FTSem                     le système apprend le score de pertinence d'un
                           participant à partir d'une ou deux listes et prédit la
étude 1
                           troisième
étude 2
                           Learned Relevance Vs. Perceived Relevance
conclusions
                 100%

                     80%
                                                                   P erceived Relevance
                     60%                                           Learned from List 1
                     40%                                           Learned from List 2
                                                                   Learned from Lists 1 & 2
                     20%

                     0%
                              1            2              3   4
                                     Number of Results


                              recherche & développement                Groupe France Télécom
profil A                   acteur               chaîne                    réalisateur               genre
pertinence                 5.5                  11                        0.5                       3
aime                       Keanu Reeves         M6                        Steven Spielberg          Fantastique
n'aime pas                 Woody Allen          France 3                  Abel Ferrara              Erotique

profil B                    acteur             chaîne                    réalisateur                 genre
pertinence                  2.5                11                        3                           5.5
aime                        Brad Pitt          France 2                  Tim Burton                  Sci-fi
n'aime pas                  Tom Cruise         TF1                       James Cameron               Romance


six films ordonnés par participant A
Ordre        acteur              chaîne       réalisateur               genre            Score A         Score B
Donnée
1            Keanu Reeves        M6           Steven Spielberg          Fantastique      20              22
2            Keanu Reeves        France 3     Steven Spielberg          Fantastique      21              23
3            Woody Allen         M6           Steven Spielberg          Fantastique      32              40
4            Woody Allen         France 3     Steven Spielberg          Fantastique      33              41
9            Keanu Reeves        M6           Steven Spielberg          Erotique         37              34
10           Keanu Reeves        France 3     Steven Spielberg          Erotique         38              35



                                            recherche & développement                              Groupe France Télécom
profil A                  acteur               chaîne                    réalisateur               genre
pertinence                5.5                  11                        0.5                       3
aime                      Keanu Reeves         M6                        Steven Spielberg          Fantastique
n'aime pas                Woody Allen          France 3                  Abel Ferrara              Erotique

profil B                   acteur             chaîne                     réalisateur                genre
pertinence                 2.5                11                         3                          5.5
aime                       Brad Pitt          France 2                   Tim Burton                 Sci-fi
n'aime pas                 Tom Cruise         TF1                        James Cameron              Romance


six films ordonnés par participant B
Ordre        acteur             chaîne       réalisateur               genre            Score A         Score B
Donnée
1            Brad Pitt          France 2     Tim Burton                Sci-fi           20              22
2            Brad Pitt          France 2     Tim Burton                Fantastique      37              34
3            Brad Pitt          TF1          Tim Burton                Sci-fi           21              23
4            Brad Pitt          TF1          Tim Burton                Fantastique      38              35
5            Tom Cruise         France 2     Tim Burton                Sci-fi           32              40
6            Tom Cruise         TF1          Tim Burton                Sci-fi           33              41



                                           recherche & développement                              Groupe France Télécom
étude à l'évaluation de
                FTSem personnalisé
problématique       le FTSem personnalisé peut-il exploiter la
contexte             pertinence des caractéristiques pour
FTSem                améliorer ses résultats ?
étude 1             oui. l'ordre des films peut être amélioré en
étude 2              prenant en compte la pertinence des
conclusions          caractéristiques :
                        plus la granularité de l'échelle est fine, plus les
                         résultats sont bons
                        plus il y a de données apprises, plus les résultats
                         sont bons
                        l'apprentissage de la pertinence des caractéristiques
                         permet de meilleurs résultats que l'utilisation d'une
                         pertinence des caractéristiques fournies
                         explicitement


                           recherche & développement              Groupe France Télécom
6
conclusions




              recherche & développement   Groupe France Télécom
conclusions

problématique       les individus considèrent que les
contexte             caractéristiques ont des degrés de pertinence
FTSem                différents.
étude 1             un système peut le prendre en compte et
étude 2              ainsi améliorer sa réponse à la requête
conclusions         la connaissance de la pertinence des
                     caractéristiques pour un utilisateur donné
                     peut permettre au système de personnaliser
                     ses réponses pour cet utilisateur




                          recherche & développement     Groupe France Télécom
Fin

   Merci de votre attention.




                            recherche & développement   Groupe France Télécom

Etude de la pertinence de critères de recherche en recherche d'informations sur des données structurées

  • 1.
    étude de lapertinence de critères de recherche en recherche d'informations sur des données structurées Kris JACK et Florence DUCLAYE France Télécom Recherche & Développement PeCUSI (Prise en compte de l'utilisateur dans les systèmes d'information) INFORSID'07 22/05/07 recherche & développement
  • 2.
    sommaire 1. problématique 2. contexte de l'étude 3. FTSem : un système de recherche d'informations personnalisées 4. étude 1 : La pertinence relative des caractéristiques 5. étude 2 : étude à l'évaluation de FTSem personnalisé 6. conclusions recherche & développement Groupe France Télécom
  • 3.
    1 problématique recherche & développement Groupe France Télécom
  • 4.
    problématique problématique  trouver une émission de télévision parmi un contexte grand nombre de programmes proposés est FTSem difficile étude 1  les méthodes de recherches classiques (ex : étude 2 feuilleter un programme télé ou zapper) conclusions  peuvent être laborieuses  prendre beaucoup de temps  le téléspectateur ne trouvera pas forcément l'émission la plus appropriée  solution possiblela personnalisation recherche & développement Groupe France Télécom
  • 5.
    problème abordé problématique  pour choisir une émission, le téléspectateur va contexte se baser sur plusieurs caractéristiques parmi FTSem lesquelles : le genre, le réalisateur, etc. étude 1  lors de la recherche d'une émission, deux étude 2 personnes peuvent donner à ces conclusions caractéristiques différentes valeurs  ex : une personne trouvera le réalisateur plus pertinent, tandis qu'une autre personne trouvera que c'est le genre  est-il possible pour un système de recherche d'informations de prendre en compte la pertinence relative de la caractéristique? recherche & développement Groupe France Télécom
  • 6.
    2 contexte de l'étude recherche & développement Groupe France Télécom
  • 7.
    profil utilisateur problématique  un système d'information est normalement personnalisé contexte en créant un profil utilisateur pour chaque personne  lors d'une recherche le système consulte ce profil afin FTSem de personnaliser ses réponses étude 1  différentes manières de le créer et de le mettre à jour : étude 2  en entrant des données explicitement (Gaush et al., 2003) conclusions  par apprentissage automatique (DeLuca et al., 2005)  en sauvegardant les opinions (Yu et al., 2004)  en dialoguant (Krulwich, 1997)  de nombreuses informations peuvent être enregistrées  les données personnelles, le style cognitif ou d'apprentissage, les données concernant le but, l'expérience du système et du domaine recherche & développement Groupe France Télécom
  • 8.
    préférences problématique  les préférences “are multiple, heterogeneous, contexte changing (and) even contradictory” (Vallet et FTSem al., 2006) étude 1  différentes classification existent : étude 2  qualitative vs. quantitative (Chomicki, 2003)  persistante vs. éphémère (Sugiyama et al., 2004) conclusions  dure vs. douce (Berners-Lee et al., 2001)  indépendante vs. prioritaire (Siberski et al., 2006)  présente vs. positive vs. négative (Koutrika et al., 2005)  présente vs. absente (Koutrika et al., 2005)  exacte vs. élastique (Koutrika et al., 2005)  bruyante vs. pertinente (Vallet et al., 2006)  les préférences sont dépendantes du contexte (Vallet et al., 2006) recherche & développement Groupe France Télécom
  • 9.
    3 FTSem : unsystème de recherche d'informations personnalisées recherche & développement Groupe France Télécom
  • 10.
    introduction de FTSem problématique  FTSem est un système sémantique de contexte recherche d’information qui opère sur des FTSem données structurées intro  lors d’une requête FTSem cherche le résultat requête le plus pertinent dans sa base de données dist. pert.  il contient un profil pour chaque utilisateur apprentis.  le profil utilisateur est consulté afin de trouver étude 1 le résultat le plus pertinent étude 2 conclusions Profil de Jack Acteur principal Genre Niveau de pertinence Très pertinent Pertinent Aime Arnold Schwarzenegger Action N’aime pas Woody Allen Comédie recherche & développement Groupe France Télécom
  • 11.
    la requête problématique  l’utilisateur effectue une requête [*, *, *, *] contexte FTSem  le système compare la requête a chaque intro donnée en utilisant le profil utilisateur requête dist. pert.  afin de trouver la distance entre une requête apprentis. et une réponse nous devons d’abord trouver étude 1 la distance pertinente entre leurs propres étude 2 éléments conclusions recherche & développement Groupe France Télécom
  • 12.
    distance pertinente problématique  sachant que la pertinence d’une contexte caractéristique est marquée sur une échelle à FTSem 3 niveaux, intro  très pertinent (r = 1), pertinent (r = 2) ou pas pertinent (r = 3). requête dist. pert.  la distance pertinente entre * et un paramètre, dépend de l’intérêt de l’utilisateur pour ce apprentis. paramètre (goût, pertinence) étude 1 étude 2 conclusions Profil de Jack Acteur principal Genre Niveau de pertinence Très pertinent Pertinent Aime Arnold Schwarzenegger Action N’aime pas Woody Allen Comédie recherche & développement Groupe France Télécom
  • 13.
    distance pertinente r=1 aime n'aime pas r=1 1 6 très pertinent (r = 1) r=2 r=2 pertinent (r = 2) r=3 r=3 pas pertinent (r = 3) 2 5 3 4 distance pertinente entre * et Arnold Schwarzenegger pour Jack = 1 distance pertinente entre * et Woody Allen pour Jack = 6 distance pertinente entre * et Action pour Jack = 2 distance pertinente entre * et Comédie pour Jack = 5 Profil de Jack Acteur principal Genre Niveau de pertinence Très pertinent Pertinent Aime Arnold Schwarzenegger Action N’aime pas Woody Allen Comédie recherche & développement Groupe France Télécom
  • 14.
    distance pertinente r=1 aime n'aime pas r=1 6 très pertinent (r = 1) r=2 r=2 pertinent (r = 2) r=3 r=3 pas pertinent (r = 3) 2 5 3 4 distance pertinente entre * et Arnold Schwarzenegger pour Jack = 1 distance pertinente entre * et Woody Allen pour Jack = 6 distance pertinente entre * et Action pour Jack = 2 distance pertinente entre * et Comédie pour Jack = 5 Profil de Jack Acteur principal Genre Niveau de pertinence Très pertinent Pertinent Aime Arnold Schwarzenegger Action N’aime pas Woody Allen Comédie recherche & développement Groupe France Télécom
  • 15.
    distance pertinente r=1 aime n'aime pas r=1 6 très pertinent (r = 1) r=2 r=2 pertinent (r = 2) r=3 r=3 pas pertinent (r = 3) 2 5 3 4 distance pertinente entre * et Arnold Schwarzenegger pour Jack = 1 distance pertinente entre * et Woody Allen pour Jack = 6 distance pertinente entre * et Action pour Jack = 2 distance pertinente entre * et Comédie pour Jack = 5 Profil de Jack Acteur principal Genre Niveau de pertinence Très pertinent Pertinent Aime Arnold Schwarzenegger Action N’aime pas Woody Allen Comédie recherche & développement Groupe France Télécom
  • 16.
    distance pertinente problématique  la distance entre la requête et la réponse est la contexte somme des distances pertinentes entre chacun FTSem des éléments intro  donc une requête, r, dans laquelle chaque paramètre est, *, et chaque donnée, i = {f1, f2…fn}, requête a pour distance totale entre ses éléments : dist. pert. total_distance(r, i) = apprentis. étude 1 ∑ relevant_distance(α ,distance(*, f )) j j  plus un paramètre apprécié est pertinent plus la 1≤ j<n étude 2 distance est petite conclusions  plus un paramètre non aimé est pertinent plus la distance est grande recherche & développement Groupe France Télécom
  • 17.
    apprentissage de valeurs pertinentes problématique  le système peut apprendre des valeurs contexte pertinentes grâce a une liste ordonnée de FTSem données et les goûts de l'utilisateur intro requête dist. pert. apprentis. étude 1 étude 2 conclusions recherche & développement Groupe France Télécom
  • 18.
    apprentissage de valeurspertinentes ordre titre acteur principal genre 1 The Terminator Arnold Schwarzenegger action 2 Predator Arnold Schwarzenegger action 3 Terminator Time Arnold Schwarzenegger comedie 4 Kindergarten Cop Arnold Schwarzenegger comedie 5 Lone Terminator Woody Allen action 6 Rampant Sage Woody Allen action 7 Help a Terminator Woody Allen comedie 8 The Blues Woody Allen comedie profil de Jack title acteur principal genre niveau de pertinence aime *Terminator* Arnold Schwarzenegger action n'aimes pas *Love* Woody Allen comedie recherche & développement Groupe France Télécom
  • 19.
    apprentissage de valeurspertinentes ordre titre acteur principal genre 1 The Terminator Arnold Schwarzenegger action 2 Predator Arnold Schwarzenegger action 3 Terminator Time Arnold Schwarzenegger comedie 4 Kindergarten Cop A comedie profil de Jack title acteur principal genre niveau de pertinence plus pertinent aime *Terminator* Arnold Schwarzenegger action n'aimes pas *Love* Woody Allen comedie recherche & développement Groupe France Télécom
  • 20.
    apprentissage de valeurspertinentes ordre titre acteur principal genre 1 The Terminator Arnold Schwarzenegger action 2 Predator Arnold Schwarzenegger action 3 Terminator Time Arnold Schwarzenegger comedie 4 Kindergarten Cop Arnold Schwarzenegger comedie 5 Lone Terminator Woody Allen action 6 Rampant Sage Woody Allen action 7 Help a Terminator Woody Allen comedie 8 The Blues Woody Allen comedie profil de Jack title acteur principal genre niveau de pertinence plus pertinent pertinent aime *Terminator* Arnold Schwarzenegger action n'aimes pas *Love* Woody Allen comedie recherche & développement Groupe France Télécom
  • 21.
    apprentissage de valeurspertinentes ordre titre acteur principal genre 1 The Terminator Arnold Schwarzenegger action 2 Predator Arnold Schwarzenegger action 3 Terminator Time Arnold Schwarzenegger comedie 4 Kindergarten Cop Arnold Schwarzenegger comedie 5 Lone Terminator Woody Allen action 6 Rampant Sage Woody Allen action 7 Help a Terminator Woody Allen comedie 8 The Blues Woody Allen comedie profil de Jack title acteur principal genre niveau de pertinence moin pertinent plus pertinent pertinent aime *Terminator* Arnold Schwarzenegger action n'aimes pas *Love* Woody Allen comedie recherche & développement Groupe France Télécom
  • 22.
    4 étude 1 :pertinence relative des caractéristiques recherche & développement Groupe France Télécom
  • 23.
    pertinence relative des caractéristiques problématique  personnaliser FTSem n'est utile que si les contexte utilisateurs ont des opinions différentes sur FTSem ces même caractéristiques étude 1  une étude a été effectuée auprès d'individus étude 2 afin de découvrir s'il y a une vraie variété conclusions d’opinions dans ce domaine  31 participants ont été recrutés  chacun a reçu un questionnaire • 26 caractéristiques de film (ex: titre, chaîne, etc.)  nous avons demandé a chaque participant d’indiquer le niveau de pertinence de chaque caractéristique pour sélectionner le film qu'il souhaite regarder à la télévision (pas pertinent, pertinent ou très pertinent). recherche & développement Groupe France Télécom
  • 24.
    pertinence relative des caractéristiques problématique  résultats contexte  les 31 participants ont répondu (N= 31) FTSem  chaque caractéristique a reçu une note en étude 1 fonction de sa pertinence (pas pertinent = 0, étude 2 pertinent = 1, très pertinent = 2) conclusions recherche & développement Groupe France Télécom
  • 25.
    pertinence relative des caractéristiques  la pertinence générale est calculée (la majorité indique la même valeur) Relevance Scores f Film Ch or aracteristics 60 very relevant 50 40 relevant 30 20 10 not relevant 0 Characteristics recherche & développement Groupe France Télécom
  • 26.
    pertinence relative des caractéristiques problématique  les classements sont-ils différents pour contexte chaque participant? FTSem  51% de la pertinence classée par les participants étude 1 est la même que la pertinence générale étude 2  par conséquent si un système considère les conclusions caractéristiques avec la même pertinence pour tous les utilisateurs, au mieux, il pourra prédire correctement 51% des opinions de l’utilisateur  les résultats confirment que la perception de la pertinence des caractéristiques par les utilisateurs varie considérablement lors de la recherche d’un film recherche & développement Groupe France Télécom
  • 27.
    5 étude 2 :étude de l'évaluation de FTSem personnalisé recherche & développement Groupe France Télécom
  • 28.
    étude de l'évaluationde FTSem personnalisé problématique  puisque les opinions des individus sur la contexte pertinence des caractéristiques diffèrent nous FTSem avons testé notre système pour voir s’il étude 1 pouvait les exploiter étude 2  une étude a été conduite : conclusions  24 participants ont été recrutés  les participants ont complété un questionnaire sur ordinateur • questionnaire portant sur 4 caractéristiques de films (genre, chaîne, réalisateur et acteurs) recherche & développement Groupe France Télécom
  • 29.
    données de l'utilisateur problématique utilisateur contexte FTSem questionnaire étude 1 étude 2 conclusions recherche & développement Groupe France Télécom
  • 30.
    données de l'utilisateur problématique utilisateur contexte FTSem questionnaire étude 1 étude 2 conclusions 3 listes de films profil utilisateur (explicite) exemples aimes pertinence des et n'aimes pas caractéristiques (explicite) recherche & développement Groupe France Télécom
  • 31.
    données de l'utilisateur problématique utilisateur contexte FTSem questionnaire étude 1 étude 2 conclusions 3 listes de films profil utilisateur (explicite) 3 listes de films (ordonnées) exemples aimes pertinence des et n'aimes pas caractéristiques (explicite) recherche & développement Groupe France Télécom
  • 32.
    données de l'utilisateur problématique utilisateur contexte FTSem questionnaire étude 1 étude 2 conclusions 3 listes de films profil utilisateur (explicite) 3 listes de films (ordonnées) exemples aimes pertinence des et n'aimes pas caractéristiques (explicite) 3 listes de films (ordonnées et appréciées) recherche & développement Groupe France Télécom
  • 33.
    étude de l'évaluationde FTSem personnalisé problématique  étude réalisée : contexte  FTSem personnalisé a été testé pour déterminer FTSem dans quelle mesure il permettait de prédire l'ordre des descriptions de films produites par les étude 1 participants étude 2  les valeurs du profil relatives à la pertinence ont été conclusions fixées à l'aide de 2 méthodes : • d'après des notations fournies explicitement par le participant • apprises en utilisant les listes ordonnées recherche & développement Groupe France Télécom
  • 34.
    données du système problématique utilisateur contexte FTSem questionnaire étude 1 étude 2 conclusions 3 listes de films profil utilisateur (explicite) 3 listes de films (ordonnées) exemples aimes pertinence des et n'aimes pas caractéristiques (explicite) 3 listes de films (ordonnées et appréciées) recherche & développement Groupe France Télécom
  • 35.
    données du système problématique contexte profil utilisateur (explicite) FTSem étude 1 étude 2 exemples aimes pertinence des conclusions et n'aimes pas caractéristiques (explicite) pertinence des 3 listes de films système caractéristiques (ordonnées) (appris) recherche & développement Groupe France Télécom
  • 36.
    étude à l'évaluationde FTSem personnalisé problématique  résultats : contexte  22 participants sur 24 ont répondu à tout le FTSem questionnaire (N=22) étude 1  l'ordre des films qu'un participant ne veut pas étude 2 voir est ignoré car il n'est pas significatif conclusions  principaux tests : • test de différents systèmes de scoring • comparaison de la pertinence donnée explicitement par les participants avec la pertinence apprise recherche & développement Groupe France Télécom
  • 37.
    tests du système problématique pertinence des contexte caractéristiques (explicite) FTSem 3 listes de films étude 1 (ordonnées par exemples aimes étude 2 et n'aimes pas utilisateur) conclusions système 3 listes de films (pas ordonnées) pertinence des caractéristiques (appris) recherche & développement Groupe France Télécom
  • 38.
    tests du système 3 système de scorings problématique pertinence des contexte caractéristiques (explicite) FTSem 3 listes de films étude 1 (ordonnées par exemples aimes étude 2 et n'aimes pas utilisateur) conclusions système 3 listes de films 3 listes de films (pas ordonnées) (ordonnées par système) pertinence des caractéristiques (appris) recherche & développement Groupe France Télécom
  • 39.
    tests du système problématique pertinence des contexte caractéristiques (explicite) FTSem 3 listes de films étude 1 (ordonnées par exemples aimes étude 2 et n'aimes pas utilisateur) conclusions système 3 listes de films 3 listes de films (pas ordonnées) (ordonnées par système) pertinence des caractéristiques (appris) 3 système d'apprentissage s recherche & développement Groupe France Télécom
  • 40.
    comparaison de systèmesde scoring problématique  résultats des test des systèmes de scoring (pour contexte les pertinences données explicitement):  scoring à 3 pas (pas pert., pert., très pert.) FTSem  scoring à 4 pas (classement de 1 à 4) étude 1  scoring à 12 pas (combinaison des deux précédents) étude 2 Comparison of Scoring Systems for Perceived Relevance conclusions 100% 90% 80% 70% 60% 3-Scale 50% 4-Scale 40% Combined Scale 30% 20% 10% 0% 1 (66) 2 (52) 3 (41) 4 (40) 5 (33) 6 (27) Number of Results (Given in Number of Trials) recherche & développement Groupe France Télécom
  • 41.
    comparaison de résultats d'apprentissages problématique  résultats de la comparaison entre pertinence contexte donnée explicitement et pertinence apprise : FTSem  le système apprend le score de pertinence d'un participant à partir d'une ou deux listes et prédit la étude 1 troisième étude 2 Learned Relevance Vs. Perceived Relevance conclusions 100% 80% P erceived Relevance 60% Learned from List 1 40% Learned from List 2 Learned from Lists 1 & 2 20% 0% 1 2 3 4 Number of Results recherche & développement Groupe France Télécom
  • 42.
    profil A acteur chaîne réalisateur genre pertinence 5.5 11 0.5 3 aime Keanu Reeves M6 Steven Spielberg Fantastique n'aime pas Woody Allen France 3 Abel Ferrara Erotique profil B acteur chaîne réalisateur genre pertinence 2.5 11 3 5.5 aime Brad Pitt France 2 Tim Burton Sci-fi n'aime pas Tom Cruise TF1 James Cameron Romance six films ordonnés par participant A Ordre acteur chaîne réalisateur genre Score A Score B Donnée 1 Keanu Reeves M6 Steven Spielberg Fantastique 20 22 2 Keanu Reeves France 3 Steven Spielberg Fantastique 21 23 3 Woody Allen M6 Steven Spielberg Fantastique 32 40 4 Woody Allen France 3 Steven Spielberg Fantastique 33 41 9 Keanu Reeves M6 Steven Spielberg Erotique 37 34 10 Keanu Reeves France 3 Steven Spielberg Erotique 38 35 recherche & développement Groupe France Télécom
  • 43.
    profil A acteur chaîne réalisateur genre pertinence 5.5 11 0.5 3 aime Keanu Reeves M6 Steven Spielberg Fantastique n'aime pas Woody Allen France 3 Abel Ferrara Erotique profil B acteur chaîne réalisateur genre pertinence 2.5 11 3 5.5 aime Brad Pitt France 2 Tim Burton Sci-fi n'aime pas Tom Cruise TF1 James Cameron Romance six films ordonnés par participant B Ordre acteur chaîne réalisateur genre Score A Score B Donnée 1 Brad Pitt France 2 Tim Burton Sci-fi 20 22 2 Brad Pitt France 2 Tim Burton Fantastique 37 34 3 Brad Pitt TF1 Tim Burton Sci-fi 21 23 4 Brad Pitt TF1 Tim Burton Fantastique 38 35 5 Tom Cruise France 2 Tim Burton Sci-fi 32 40 6 Tom Cruise TF1 Tim Burton Sci-fi 33 41 recherche & développement Groupe France Télécom
  • 44.
    étude à l'évaluationde FTSem personnalisé problématique  le FTSem personnalisé peut-il exploiter la contexte pertinence des caractéristiques pour FTSem améliorer ses résultats ? étude 1  oui. l'ordre des films peut être amélioré en étude 2 prenant en compte la pertinence des conclusions caractéristiques :  plus la granularité de l'échelle est fine, plus les résultats sont bons  plus il y a de données apprises, plus les résultats sont bons  l'apprentissage de la pertinence des caractéristiques permet de meilleurs résultats que l'utilisation d'une pertinence des caractéristiques fournies explicitement recherche & développement Groupe France Télécom
  • 45.
    6 conclusions recherche & développement Groupe France Télécom
  • 46.
    conclusions problématique  les individus considèrent que les contexte caractéristiques ont des degrés de pertinence FTSem différents. étude 1  un système peut le prendre en compte et étude 2 ainsi améliorer sa réponse à la requête conclusions  la connaissance de la pertinence des caractéristiques pour un utilisateur donné peut permettre au système de personnaliser ses réponses pour cet utilisateur recherche & développement Groupe France Télécom
  • 47.
    Fin  Merci de votre attention. recherche & développement Groupe France Télécom