´       `
UNIVERSITE DE GENEVE                           ´
                                      UNIVERSITE JOSEPH FOURIER




  Un mod`le de recherche d’information
           e
 orient´ pr´cision fond´ sur les dimensions
       e e             e
                 de domaine
                                 `
                               THESE
                       en co-tutelle pr´sent´e par
                                       e    e


                       Sa¨ RADHOUANI
                         ıd

                       pour l’obtention des titres
Docteur `s sciences ´conomiques et sociales (Universit´ de Gen`ve)
        e           e                                 e       e
                   Mention : Syst`mes d’Information
                                 e
        Docteur en informatique (Universit´ Joseph Fourier)
                                          e


Composition du jury :
           Monsieur Mohand BOUGHANEM, Universit´ de Toulouse
                                               e
           Madame Sylvie CALABRETTO, INSA Lyon
          Messieurs Jean-Pierre CHEVALLET, IPAL Singapour, co-directeur de th`se
                                                                             e
                    Yves CHIARAMELLA, Universit´ de Grenoble, co-directeur de th`se
                                                  e                             e
                    Gilles FALQUET, Universit´ de Gen`ve, co-directeur de th`se
                                             e       e                      e
                    Dimitri KONSTANTAS, Universit´ de Gen`ve, pr´sident du jury
                                                   e        e      e

                             Th`se No 671
                               e
                             Gen`ve, 2008
                                 e
La Facult´ des sciences ´conomiques et sociales, sur pr´avis du jury, a autoris´
            e              e                              e                       e
l’impression de la pr´sente th`se, sans entendre, par l`, ´mettre aucune opinion sur
                     e         e                       a e
les propositions qui s’y trouvent ´nonc´es et qui n’engagent que la responsabilit´ de
                                  e     e                                        e
leur auteur.



                                                           Gen`ve, le 18 juillet 2008
                                                              e




                                                                           Le doyen
                                                                 Bernard MORARD




  Impression d’apr`s le manuscrit de l’auteur.
                  e
c Sa¨ Radhouani 2008. Tous droits r´serv´s.
    ıd                               e    e

                                          i
Remerciements
    C’est un grand plaisir pour moi de remercier toutes les personnes qui ont permis
` ce travail d’ˆtre ce qu’il est.
a              e


   Je remercie tout d’abord M. Dimitri Konstantas qui m’a fait l’honneur de pr´sider
                                                                              e
le jury de cette th`se.
                   e

   Je tiens ensuite ` remercier Mme Sylvie Calabretto ainsi que M. Mohand Bou-
                    a
ghanem pour avoir accept´ de rapporter mon travail de th`se, ainsi que pour l’int´rˆt
                          e                             e                        ee
qu’ils ont manifest´ ` son ´gard.
                   ea      e


   Je tiens ` adresser mes plus vifs remerciements ` M. Yves Chiaramella de m’avoir
            a                                      a
encadr´ pendant mon travail de th`se. Il a su me transmettre sa passion pour le do-
      e                             e
maine de la Recherche d’Information et je lui en suis profond´ment reconnaissant.
                                                             e


    Je voudrais ´galement remercier M. Jean-Pierre Chevallet d’avoir accept´ de co-
                e                                                             e
diriger mon travail de th`se malgr´ les milliers de kilom`tres qui nous s´paraient. Sa
                         e        e                      e               e
patience et ses nombreuses remarques tr`s pertinentes m’ont ´t´ des plus pr´cieuses
                                         e                      ee            e
durant ce travail.


    Durant ma th`se, j’ai eu la toute grande chance de connaˆ et de travailler avec
                 e                                          ıtre
M. Gilles Falquet, un directeur de th`se exceptionnel tant pour ses comp´tences
                                        e                                     e
scientifiques que pour ses qualit´s humaines. Sans sa patience, sa disponibilit´ et son
                                 e                                            e
appui de tous les instants, cette th`se n’aurait probablement jamais vu le jour. Je
                                    e
lui en suis donc tr`s profond´ment reconnaissant.
                   e         e


   Je remercie les membres du laboratoire IPAL-I2R, en particulier Dr. Joo-Hwee
Lim, pour leurs conseils et leurs soutiens tout au long de mon stage ` Singapour.
                                                                     a


   Je remercie aussi les membres de l’´quipe MRIM pour leurs remarques et leurs
                                        e
questions pertinentes lors des r´unions de travail.
                                e


   Un grand merci ` tous les membres du groupe ISI pour les moments agr´ables
                  a                                                    e


                                          ii
que l’on a toujours partag´s : les moments sympathiques pass´s ` “La Petite Italie”,
                          e                                 e a
les pauses th´, les branches Cailler, les ´coles de printemps, et tellement d’autres
              e                            e
choses dont je ne peux faire la liste. Merci tout particuli`rement ` Claire-Lise pour
                                                           e       a
sa disponibilit´, son ´coute, et son soutien permanent. Merci ` Jean-Pierre pour les
               e      e                                        a
corrections multiples de mon manuscrit, et les discussions sur l’histoire et la physique
(dont les fameux trous noirs). Un grand merci ` Jacques pour ses conseils et sa colla-
                                               a
boration qui m’ont ´t´ d’une grande utilit´ pendant mon travail et me seront d’une
                      ee                    e
grande utilit´ dans toute ma vie. Merci ` Mathieu pour les longues discussions que
             e                            a
l’on a eues sur la logique descriptive. Merci aussi ` Claudine, Gabriela, Jean-Claude,
                                                    a
Kaveh, Luka, Mustapha et Patrick pour toutes sortes de raisons qu’il serait trop long
d’´num´rer ici.
  e    e


   Je remercie ´galement Evelyne Kohl, Marie-France Culebras et C´line Marleix-
               e                                                        e
Bardeau pour leur soutien administratif, ainsi que Daniel Agulleiro et Nicolas Mayen-
court, Ing´nieurs syst`me du CUI, pour leur disponibilit´ permanente.
          e           e                                 e


    Je tiens ` adresser mes plus sinc`res remerciements ` toute la famille Falquet en
             a                       e                  a
t´moignage de ma profonde reconnaissance pour son hospitalit´, son encouragement
 e                                                             e
et son soutien permanent tout au long de mon s´jour ` Gen`ve.
                                                  e   a      e


   Je remercie mon oncle Mustapha Kouki en reconnaissance de son interminable
encouragement et de ses pr´cieux conseils.
                          e

   Je remercie ´galement mon instituteur M. Othman Bouzidi, a qui je dois tout ce
               e                                            `
que je suis.


   Je tiens ` remercier mon cousin Badra pour son soutien pendant mon s´jour en
            a                                                          e
France.


   Mes sinc`res remerciements ` Jonas pour sa compr´hension, son soutien, et sa
            e                  a                   e
patience en partageant mes p´riodes difficiles.
                            e


  Je tiens ` remercier toute ma famille pour son encouragement constant ; avec une
           a
mention sp´ciale ` mes parents en t´moignage de ma profonde reconnaissance pour
          e      a                 e
leur patience et tous les sacrifices qu’ils ont consentis ` mon ´gard. Un grand merci
                                                         a     e

                                          iii
` Radhouane, Haykel, Marouane et l’adorable Amira pour leur soutien, encourage-
a
ment, et tellement de merveilleuses choses.

   J’adresse mes sinc`res remerciements ` Takoua qui a su me r´conforter et soute-
                     e                  a                     e
nir pendant la derni`re ligne droite de ma th`se.
                    e                        e


   Je remercie enfin tous mes amis (Isaac, Michael, Ramzi, Rim, . . .) et tous ceux
que j’aime et qui m’aiment.




                                         iv
R´sum´
    e   e
    Nous nous int´ressons ` un contexte de Recherche d’Information (RI) dans des mi-
                 e         a
lieux professionnels, o` les besoins d’information sont formul´s ` travers des requˆtes
                       u                                      e a                  e
pr´cises. Notre travail consiste ` d´finir un mod`le de RI capable de r´soudre ce type
  e                              a e            e                     e
de requˆtes.
        e


   Notre approche est fond´e sur les dimensions de domaine. Celles-ci sont d´finies `
                            e                                                 e      a
travers des ressources externes, et utilis´es pour produire une repr´sentation pr´cise
                                          e                         e            e
du contenu s´mantique des documents et des requˆtes.
            e                                  e


    Nous d´finissons notre mod`le en utilisant la logique de descripton (LD). Nous
           e                  e
profitons de l’algorithme de calcul de subsomption offert par la LD afin de d´finir
                                                                             e
la fonction de correspondance mettant en œuvre la pertinence syst`me. A travers
                                                                    e
cet algorithme, la LD offre une capacit´ de raisonnement qui permet de d´duire
                                        e                                   e
des connaissances implicites ` partir de celles repr´sent´es explicitement dans la
                             a                      e    e
ressource externe, et permet ainsi de retrouver des documents pertinents pour une
requˆte mˆme s’ils ne partagent pas les mˆmes concepts que cette derni`re.
     e    e                               e                           e


    Afin de tester la faisabilit´ de notre approche, une s´rie d’exp´riences a ´t´ ef-
                               e                          e        e          ee
fectu´e sur la collection ImageCLEFmed-2005. Ces exp´riences nous ont permis de
     e                                                  e
savoir jusqu’` quel point notre mod`le peut ˆtre appliqu´, et quelles sont les limites
             a                       e      e           e
formelles et techniques qui lui sont li´es.
                                       e


   Afin d’´valuer l’apport de l’usage des dimensions en termes de performance
          e
de recherche, nous avons men´ une deuxi`me s´rie d’exp´riences sur la collection
                             e          e    e        e
ImageCLEFmed-2005. Les r´sultats obtenus nous ont permis de conclure que la
                           e
prise en compte des dimensions est un moyen efficace pour la r´solution des requˆtes
                                                            e                 e
pr´cises.
  e


   Mots cl´s : Recherche d’Information, requˆtes pr´cises, recherche multi-dimensions
            e                                 e      e
(multi-facettes), dimensions de domaine, ressources externes, indexation s´mantique,
                                                                          e
Logique de description.




                                          v
Abstract
   We are interested in a context of Information Retrieval (IR) in professional envi-
ronments, where information needs are expressed through precise queries. Our goal
is to define an IR model capable to solve such queries.


    Our approach is based on domain dimensions. These are defined through external
resources, and used to produce a precise representation of the semantic content of
documents and queries.


   We define our model using the description logic (DL). We take advantage of the
algorithm for computing subsomption offered by the LD, in order to define the mat-
ching function implementing the system’s relevance. Through this algorithm, the DL
has a capacity of reasoning which can deduce implicit knowledge from those expli-
citly represented in the external resource, and thus find relevant documents for a
query even if they do not share the same concepts with this query.


   In order to test the feasibility of our approach, a series of experiments was carried
out on the ImageCLEFmed-2005 collection. These experiences have enabled us to
know the extent to which our model can be applied, and what are the formal and
technical limits associated with it.


   In order to evaluate the contribution of the use of dimensions in terms of retrieval
performance, we conducted a second series of experiments on the ImageCLEFmed-
2005 collection. The obtained results have shown that taking into account dimensions
is an effective way to solve precise queries.


   Keywords : Information Retrieval, precise queries, multi-dimensional (faceted)
search, domain dimensions, external resources, semantic indexing, Description Logic.




                                           vi
Table des mati`res
              e

1 Introduction g´n´rale
                e e                                                                   1
  1.1 Pr´ambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
        e                                                                             1
  1.2 Mod`les de RI bas´s sur les mots-cl´s . . . . . . . . . . . . . . . . . .
          e             e                  e                                          2
   1.3 Mod`les de RI bas´s sur les concepts . . . . . . . . . . . . . . . . . .
           e             e                                                             4
   1.4 Vers un mod`le de RI bas´ sur les dimensions de domaine . . . . . . .
                   e             e                                                     7
   1.5 Probl´matique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
            e                                                                         10
   1.6 Plan de la th`se . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                    e                                                                 14

2 Ressources externes et dimensions de domaine                                     15
  2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
   2.2 Ressources externes & RI . . . . . . . . . . . . . . . . . . . . . . . . .     16
       2.2.1 Cr´dibilit´ des approches bas´es sur les ressources externes . .
                e      e                    e                                         17
       2.2.2 Exemple de ressource externe utilis´e en RI : WordNet . . . .
                                                  e                                   18
   2.3 Usage des ressources externes pour la repr´sentation des documents .
                                                  e                                   19
       2.3.1 La d´sambigu¨
                  e         ısation . . . . . . . . . . . . . . . . . . . . . . .     20
       2.3.2 Indexation conceptuelle/s´mantique . . . . . . . . . . . . . . .
                                       e                                              23
       2.3.3 Evaluation de la d´sambigu¨
                                e        ısation . . . . . . . . . . . . . . . .      33
   2.4 Usage des ressources externes pour l’expansion des requˆtes . . . . . .
                                                                e                     39
        2.4.1   Expansion de requˆtes bas´e sur les relations lexico-s´mantiques
                                 e       e                            e
                de WordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . .    40
       2.4.2 Utilisation de WordNet pour une expansion “guid´e” de requˆtes 43
                                                                  e           e
       2.4.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
   2.5 Dimensions & RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
        2.5.1   Le paradigme de la recherche bas´e sur les facettes . . . . . .
                                                 e                                    46
        2.5.2   Outils bas´s sur le paradigme de recherche multi-facettes . . .
                          e                                                           48
        2.5.3   Fabrication des dimensions/facettes . . . . . . . . . . . . . . .     50


                                          vii
2.5.4   Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   53
   2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    54

3 Un Mod`le de RI fond´ sur les dimensions de domaine
           e               e                                                       57
  3.1 Pr´ambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
        e
  3.2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
   3.3 Sp´cificit´s du mod`le . . . . . . . . . . . . . . . . . . . . . . . . . .
          e     e        e                                                             61
       3.3.1 Exemples typiques de besoins d’information pr´cis . . . . . . .
                                                              e                        62
       3.3.2 Vers un mod`le de RI orient´ pr´cision . . . . . . . . . . . . .
                            e                e e                                       67
   3.4 La logique descriptive . . . . . . . . . . . . . . . . . . . . . . . . . . .    68
       3.4.1 Syntaxe et s´mantique du langage ALCQ . . . . . . . . . . . .
                           e                                                           70
       3.4.2 Logique Descriptive et Recherche d’Information . . . . . . . .            72
   3.5 Mod`le de RI : notation et d´finitions . . . . . . . . . . . . . . . . . .
            e                      e                                                   73
        3.5.1   Ressource externe . . . . . . . . . . . . . . . . . . . . . . . . .    73
        3.5.2   Indexation des documents . . . . . . . . . . . . . . . . . . . .       76
        3.5.3   Formulation de la requˆte . . . . . . . . . . . . . . . . . . . .
                                       e                                               77
       3.5.4 Correspondance entre la requˆte et le document . . . . . . . .
                                            e                                          77
   3.6 Mod`le de RI orient´ pr´cision . . . . . . . . . . . . . . . . . . . . . .
            e             e e                                                          78
        3.6.1   Mod`le de document . . . . . . . . . . . . . . . . . . . . . . .
                    e                                                                  79
        3.6.2   Mod`le de requˆte . . . . . . . . . . . . . . . . . . . . . . . .
                    e          e                                                       83
        3.6.3   ´
                Evaluation des requˆtes . . . . . . . . . . . . . . . . . . . . .
                                   e                                                   95
   3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    98

4 Mise en œuvre du mod`le   e                                                      99
  4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
      ´
  4.2 Etapes n´cessaires pour la mise en œuvre du mod`le . . . . . . . . . . 100
              e                                            e
        4.2.1   E1 : Identification des ´l´ments de dimension . . . . . . . . . . 100
                                       ee
        4.2.2   E2 : Indexation pour la correspondance . . . . . . . . . . . . . 101
        4.2.3   E3 : S´lection des documents . . . . . . . . . . . . . . . . . . 101
                      e
        4.2.4   E4 : Indexation pour l’ordonnancement . . . . . . . . . . . . . 102
        4.2.5   E5 : Ordonnancement des documents . . . . . . . . . . . . . . 102
   4.3 R´alisation des ´tapes n´cessaires pour la mise en œuvre du mod`le . 102
         e             e       e                                       e
       4.3.1 R´alisation des ´tapes E2 & E3 . . . . . . . . . . . . . . . . . 103
                e             e
       4.3.2 R´alisation des ´tapes E4 & E5 . . . . . . . . . . . . . . . . . 109
               e             e
   4.4 Exp´rimentations sur la collection CLEF-2005 . . . . . . . . . . . . . 110
           e


                                          viii
4.4.1   Contexte des exp´rimentations . . . . . . . . . . . . . . . . . . 110
                               e
       4.4.2   Mise en œuvre du mod`le ` base de la logique descriptive sur
                                     e a
               la collection ImageCLEFmed-2005 . . . . . . . . . . . . . . . . 114
       4.4.3   D´finition des ´l´ments de dimensions par des mots . . . . . . 120
                 e             ee
      4.4.4 D´finition des ´l´ments de dimensions par des concepts . . . . 124
               e            ee
  4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

5 Conclusion                                                                     133
  5.1 Apport th´orique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
                e
  5.2 Apport pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
  5.3 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135




                                         ix
Table des figures

 1.1 Objectif et processus de la Recherche d’Information . . . . . . . . . .         3
 1.2 Sch´ma global de notre approche . . . . . . . . . . . . . . . . . . . .
        e                                                                           12
 1.3 Dimensions de domaine stock´es dans une ressource externe . . . . .
                                e                                                   13

 2.1 D´notation d’un concept par un ensemble de termes synonymes dans
      e
     diff´rentes langues. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
        e                                                                           17
 2.2 Enonc´ de la requˆte 122 de la collection TREC-1 . . . . . . . . . . .
            e          e                                                            41
 2.3 Interface d’acc`s multi-vues [38][39] . . . . . . . . . . . . . . . . . . .
                    e                                                               48
 2.4 Interface multi-facettes du syst`me Flamenco . . . . . . . . . . . . . .
                                     e                                              50

 3.1 Correspondance entre une requˆte et un document repr´sent´s en lo-
                                  e                      e    e
     gique descriptive. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   73
 3.2 Repr´sentation graphique du mod`le de document . . . . . . . . . . .
          e                              e                                          82
 3.3 Calcul de la correspondance entre un document doc et une requˆte q   e
     au niveau de l’indexation pour la correspondance . . . . . . . . . . .         96
 3.4 Calcul du RSV entre une requˆte et un document au niveau de l’in-
                                   e
      dexation pour l’ordonnancement . . . . . . . . . . . . . . . . . . . . .      97

 4.1 Repr´sentation graphique des ´tapes n´cessaires pour la mise en œuvre
         e                         e        e
     du mod`le . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
            e
 4.2 Exemple pour la mise en œuvre du mod`le . . . . . . . . . . . . . . . 103
                                           e
 4.3 Repr´sentation graphique du mod`le de document . . . . . . . . . . . 105
         e                          e
 4.4 Repr´sentation graphique de la T-Box . . . . . . . . . . . . . . . . . 107
         e
 4.5 Calcul de la correspondance entre un document doc et une requˆte q . 108
                                                                    e
 4.6 La hi´rarchie de subsomption fabriqu´e par le raisonneur Pellet . . . 109
          e                              e
 4.7 Calcul du RSV entre une requˆte et un document au niveau de l’in-
                                   e
     dexation pour l’ordonnancement . . . . . . . . . . . . . . . . . . . . . 110
 4.8 Exemple de requˆte de la collection ImageCLEFmed-2005 . . . . . . . 111
                      e

                                         x
4.9 Premier niveau de la structure hi´rarchique de MeSH . . . . . . . . . 113
                                     e
4.10 R´sultats exp´rimentaux de la prise en compte des ´l´ments de di-
      e            e                                      ee
     mensions d´finis par des mots . . . . . . . . . . . . . . . . . . . . . . 124
                e
4.11 Variations des performances de notre syst`me appliqu´ sur trois index
                                              e           e
     diff´rents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
        e




                                       xi
Liste des tableaux

 2.1 Pourcentage des documents corrects retrouv´s en premi`re position [32] 37
                                               e          e

 3.1 Syntaxe et s´mantique du langage ALCQ. . . . . . . . . . . . . . . .
                 e                                                                71

 4.1 Comparaison des r´sultats de notre approche avec le baseline. . . . . 122
                      e
 4.2 Comparaison des r´sultats de notre approche avec le baseline. . . . . 127
                      e
 4.3 Variations des performances de notre syst`me appliqu´ sur trois index
                                                 e            e
     diff´rents. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
        e




                                       xii
Chapitre 1

Introduction g´n´rale
              e e

1.1        Pr´ambule
             e
      Depuis l’apparition de l’informatique, les connaissances stock´es sur support
                                                                    e
num´rique n’ont cess´ de s’accumuler, et le nombre des documents qui les stockent
     e               e
s’accroˆ tr`s rapidement. Nous arrivons ainsi ` une situation parfaitement contradic-
       ıt e                                   a
toire : jamais il n’y a eu autant d’informations disponibles, mais trouver dans cette
accumulation, pr´cis´ment ce que l’on recherche, devient de plus en plus ardu.
                   e e
Devant le nombre important de documents disponibles, la recherche s´quentielle1
                                                                         e
est bien sˆ r tr`s limit´e et l’acc`s ` l’information bas´ sur une requˆte semble plus
          u e           e          e a                   e             e
efficace. Ainsi, la Recherche d’Informations (RI) devient davantage cruciale et les
Syst`mes de Recherche d’Information (SRI) deviennent une aide inestimable pour
    e
rechercher une information.


    La RI est un processus qui, ` partir d’une requˆte (expression des besoins en
                                  a                  e
information d’un utilisateur), permet de retrouver l’ensemble des documents conte-
nant l’information recherch´e. La mise en œuvre de ce processus passe par une
                              e
sp´cification d’un mod`le de RI int´grant : i ) une repr´sentation des documents ;
    e                   e              e                    e
ii ) une repr´sentation de la requˆte ; et iii ) un appariement entre le document et la
             e                    e
requˆte. Plusieurs mod`les ont ´t´ propos´s dans la litt´rature dont l’objectif com-
    e                   e       ee         e              e
mun est de satisfaire au mieux les besoins de l’utilisateur. Chacun de ces mod`les se
                                                                              e
diff´rencie par sa mani`re de repr´senter les documents et la requˆte, et de les mettre
   e                  e          e                               e
en correspondance. Ceci d´pend g´n´ralement du contexte de la recherche : la na-
                           e       e e
  1
      En explorant manuellement une collection de documents.


                                               1
ture du besoin de l’utilisateur, sa mani`re d’exprimer son besoin, ses exigences, les
                                        e
connaissances qu’il a sur le domaine2 et les documents, etc. Dans la section suivante,
nous d´taillons les principes de base de ces mod`les et pr´sentons leurs limites.
      e                                          e        e


1.2         Mod`les de RI bas´s sur les mots-cl´s
               e             e                 e
    L’objectif de la RI est de s´lectionner les documents qui traitent le mieux pos-
                                e
sible du th`me de la requˆte (cf. Figure 1.1). A notre connaissance, il n’y pas de
            e               e
consensus sur la notion de th`me en RI. Dans notre th`se, nous adoptons la d´finition
                             e                        e                     e
suivante : un th`me est une id´e, un sujet d´velopp´ dans un discours, un ´crit, un
                e              e            e       e                       e
        3
ouvrage .


       Pour atteindre l’objectif pr´cit´, les approches existantes4 en RI textuelle s’ap-
                                   e e
puyent sur des m´thodes purement statistiques bas´es sur les distributions de mots-
                 e                                 e
cl´s, pour calculer la similarit´ entre la requˆte et les documents du corpus. La
  e                             e              e
pertinence d’un document par rapport ` une requˆte est calcul´e en fonction de
                                          a          e           e
la similarit´ du vocabulaire et non pas en fonction de la similarit´ th´matique qui
            e                                                      e e
existe entre le document et la requˆte. En effet, pour qu’un document soit s´lectionn´
                                   e                                       e        e
par le syst`me, il doit partager les mˆmes mots (du moins une partie d’entre eux)
           e                           e
avec la requˆte. Dans le cas du mod`le bool´en, pour ˆtre s´lectionn´, le document
             e                       e      e          e    e        e
doit contenir tous les mots (conjonction) ou une partie des mots (disjonction) de la
requˆte. Dans le mod`le vectoriel, plus un document partage des mots avec la requˆte
     e              e                                                            e
et dans la mˆme proportion de poids, plus il est pertinent pour cette requˆte. En
             e                                                               e
r´alit´, un document peut ˆtre pertinent mˆme s’il ne partage pas les mˆmes mots
 e e                       e                 e                           e
avec la requˆte. Par exemple, un document contenant le mot “voiture” peut consti-
             e
tuer une r´ponse pertinente ` une requˆte contenant le mot “automobile”, mˆme si
           e                a         e                                   e
le mot “automobile” n’existe pas dans le document. Salton a soulign´ ce probl`me
                                                                      e         e
o` les auteurs de documents et les utilisateurs des SRI utilisent une grande vari´t´
  u                                                                               ee
de mots pour d´noter le mˆme concept [75]. Ce probl`me, qualifi´ de term mismatch
               e         e                           e           e
ou word mismatch [25][103], est dˆ au fait que l’analyse purement statistique, sur
                                    u
laquelle est bas´e la fonction de correspondance, permet seulement l’extraction des
                e
   2
     Selon le dictionnaire de l’Acad´mie fran¸aise, un domaine est tout ce qu’embrasse un art, une
                                     e        c
science, une facult´ de l’esprit, etc. (exemples : le domaine de la peinture, de la sculpture, de la
                    e
politique, etc.).
   3
     D´finition donn´e par le Centre National de Ressources Textuelles et Lexicales.
      e               e
   4
     Bas´es sur les mod`les classiques de RI.
         e              e

                                                 2
descripteurs mais pas leur signification.




          Fig. 1.1 – Objectif et processus de la Recherche d’Information

   Ainsi, nous observons un foss´ entre l’objectif de la RI et la m´thode qui la r´alise :
                                e                                  e              e
les techniques de RI existantes traitent essentiellement le signifiant, mais tr`s peu
                                                                              e
le signifi´. En effet, l’objectif de la RI est de retrouver des documents qui traitent
         e
du th`me de la requˆte, c’est-`-dire, dont le contenu s´mantique est similaire `
      e               e         a                         e                        a
celui de la requˆte. Mais en pratique, la mise en œuvre des SRI est faite de fa¸on `
                e                                                              c a
ce que ces syst`mes recherchent les documents partageant les mˆmes mots avec la
                e                                                e
requˆte. Dans ce cas, soit les mod`les de RI sous-jacents ignorent le sens des mots
     e                               e
(signifi´), soit ils supposent implicitement qu’il y a une correspondance stricte entre
       e
les mots (signifiants) et les sens (signifi´s). Cette derni`re supposition est erron´e car
                                         e               e                        e
un signifi´ peut ˆtre exprim´ par diff´rents signifiants, et un signifiant peut expri-
         e       e          e         e
mer plusieurs signifi´s diff´rents (selon le contexte). Par exemple, pour une requˆte
                    e     e                                                     e
contenant le mot “Java” (langage de programmation), le syst`me peut compl`tement
                                                           e                e
ignorer le sens du mot Java et retourner des documents qui parlent de l’ˆ de Java
                                                                        ıle
situ´e en Indon´sie.
    e           e


   Il est clair que les SRI bas´s sur les mod`les de RI classiques ont fait beaucoup de
                               e             e
progr`s pour repr´senter et comparer la requˆte et les documents. Nous avons quand
     e           e                          e

                                            3
mˆme constat´, dans les campagnes d’´valuation (TREC5 , NTCIR6 , CLEF7 , etc.),
 e          e                       e
que la plupart des syst`mes semblent avoir atteint leurs limites de performances, bien
                        e
que la marge d’am´lioration semble encore grande (selon les mesures utilis´es pour
                    e                                                         e
l’´valuation). Ceci est une indication que les optimisations de nature essentiellement
  e
statistiques des mod`les existants ont atteint leurs limites.
                    e


    Il nous apparaˆ qu’une am´lioration suppl´mentaire des performances des SRI
                     ıt          e               e
                                                8
requiert l’utilisation de connaissances externes ` celles du corpus, notamment grˆce
                                                  a                                 a
` la disponibilit´ croissante des ressources qui les stockent (dictionnaire, th´saurus,
a                 e                                                            e
ontologie, etc.). Un certain nombre de ces ressources ont rencontr´ beaucoup de
                                                                   e
succ`s dans le domaine de RI, que ce soit dans des domaines sp´cialis´s (ex. MeSH
    e                                                         e      e
et UMLS pour le domaine m´dical), ou dans un domaine g´n´raliste (ex. WordNet).
                            e                              e e
Grˆce ` l’apparition de nouvelles ressources dans des domaines de plus en plus divers
   a a
(g´ographie, g´nomique, droit, etc.), cette tendance ne cesse de s’amplifier.
  e           e


1.3         Mod`les de RI bas´s sur les concepts
               e             e
       Parmi les travaux de recherche qui ont essay´ de surmonter les limites pr´sent´es
                                                   e                            e    e
dans la section pr´c´dente, il existe une approche de RI dite “bas´e-concepts” (Conce-
                  e e                                             e
pt-Based Information Retrieval ).


    Selon les communaut´s (Intelligence Artificielle, Philosophie, Linguistique, Scien-
                          e
ce de la cognition, etc.), il existe diff´rentes d´finitions de la notion de concept [31].
                                        e        e
De fa¸on g´n´rale, un concept est un objet mental (son milieu, c’est l’esprit hu-
      c     e e
main) qui peut ˆtre d´fini comme une abstraction g´n´ralis´e ` partir de propri´t´s
               e     e                           e e     e a                  ee
communes ` des objets concrets (leur milieu, c’est la r´alit´ telle qu’on la ren-
           a                                           e e
contre). En d’autres termes, une conceptualisation est une abstraction qui consiste
` analyser la r´alit´ pour en tirer les propri´t´s pertinentes qui permettent de passer
a              e e                            ee
du particulier au g´n´ral. Un concept poss`de une extension et une compr´hension.
                    e e                       e                               e
L’extension est l’ensemble des objets qui poss`dent les propri´t´s correspondant au
                                               e                ee
concept. En d’autres termes, c’est la quantit´ de r´alit´ ` laquelle le concept se rap-
                                             e     e ea
   5
     http ://trec.nist.gov/
   6
     http ://research.nii.ac.jp/ntcir/
   7
     http ://www.clef-campaign.org/
   8
     “externes” car non pr´sentes dans les documents ` traiter, du moins sous une forme explicite
                            e                        a
et compl`te.
         e

                                               4
porte. Par exemple, le concept “Personne” a une plus grande extension que le concept
“Femme”. La compr´hension quant ` elle est l’ensemble des propri´t´s qui donnent
                      e               a                               ee
son contenu ` un concept (l’ensemble des propri´t´s qui caract´risent les objets du
             a                                      ee            e
concept). Elle varie en fonction inverse de l’extension. Par exemple, le concept “Fem-
me” a une compr´hension plus grande que le concept “Personne” (on peut ´num´rer
                 e                                                     e   e
plus de propri´t´s ` son sujet).
              ee a


   Un concept est construit par l’ˆtre humain d’une mani`re non-ambigu¨, ind´pen-
                                  e                     e              e     e
damment des langues, des supports et des formalismes de repr´sentation [18]. Mˆme
                                                             e                 e
s’il est exprim´ ` travers une forme mat´rielle (des mots), le concept n’est pas
               e a                      e
mat´riel.
     e


   En consid´rant cette d´finition, il est tr`s difficile pour une machine d’extraire
             e            e                 e
des concepts ` partir d’une source num´rique. Cependant, il est possible d’associer
             a                         e
un concept ` des ´l´ments d´crits dans des documents num´riques (textes, images,
             a    ee         e                             e
etc.). C’est pour cette raison pratique qu’en RI la notion de concept est souvent
li´e au sens des mots : un concept correspond ` une signification particuli`re d’un
  e                                            a                          e
mot (ou s´quence de mots). De son cˆt´, un terme est une paire (mot ou s´quence
          e                          oe                                   e
de mots, concept). C’est-`-dire, un terme est constitu´ d’un mot (ou s´quence de
                         a                            e                e
mots) qui sert pour d´noter un concept dans un domaine particulier. Le mot, quant
                       e
` lui, est l’unit´ du discours oral ou ´crit. Dans des langues comme le fran¸ais ou
a                e                     e                                    c
l’anglais ´crits, le mot est repr´sent´ par une s´quence de lettres entre deux blancs.
          e                      e    e          e
Pour all´ger l’´criture, nous utilisons “terme” ´galement pour d´signer le mot ou la
         e      e                                e                e
s´quence de mots correspondant ` un terme.
 e                                  a


   Une approche de RI bas´e-concepts se caract´rise par la notion d’espace concep-
                         e                    e
tuel dans lequel les documents et les requˆtes sont repr´sent´s par opposition ` l’es-
                                          e             e    e                  a
pace de mots simples utilis´s dans les mod`les classiques [3]. Les travaux pr´sent´s
                           e                e                                 e     e
dans le cadre de notre th`se se situent dans cette classe d’approches.
                         e


   Nous nous int´ressons ici ` l’am´lioration de la pr´cision en RI. A cette fin, nous
                   e          a      e                e
´tudions l’utilisation des connaissances externes pour identifier les th`mes au niveau
e                                                                      e
des documents et la requˆte. Plus pr´cis´ment, il s’agit de concevoir des mod`les de
                        e           e e                                      e
repr´sentation du contenu s´mantique des documents et des requˆtes.
    e                      e                                      e



                                          5
L’utilisation des connaissances externes a fait l’objet de plusieurs travaux souvent
orient´s vers l’am´lioration de la pr´cision (d´sambigu¨
      e            e                   e          e       ısation de termes, indexation
conceptuelle), et/ou vers l’am´lioration du rappel (expansion de requˆtes). Dans ce
                                e                                         e
contexte, elles servent ` expliciter le sens des termes dans le corpus en identifiant des
                        a
concepts et ´ventuellement des relations entre ces concepts. Ceci permet au syst`me
            e                                                                   e
de prendre en compte la s´mantique sous-jacente aux termes ; d’abord, au moment
                          e
de l’indexation, la ressource externe est utilis´e pour extraire des termes faisant
                                                 e
r´f´rence aux entit´s conceptuelles trait´es dans les documents ; ensuite, au moment
 ee                 e                    e
de l’interrogation (reformulation de requˆte et correspondance), elle sert ` identifier
                                          e                                a
les concepts des documents d´not´s par les descripteurs de la requˆte. Enfin, son
                              e e                                  e
utilisation permet d’avoir des informations suppl´mentaires sur la s´mantique as-
                                                 e                  e
soci´e aux termes issus du contenu (document et requˆte), et d’aider ainsi le SRI `
    e                                                  e                          a
interpr´ter le contenu s´mantique et ` am´liorer les performances de recherche.
       e                e            a   e


   Cette classe d’approches pr´sente plusieurs avantages. L’utilisateur peut faire
                               e
usage des connaissances pr´sentes dans la ressource externe ` partir de laquelle le
                          e                                 a
corpus a ´t´ index´. Cela peut l’aider ` augmenter sa connaissance par rapport
            ee      e                     a
` l’information qui lui est disponible dans le corpus. L’utilisateur peut ´galement
a                                                                           e
utiliser le vocabulaire contrˆl´, pr´sent dans la ressource externe et utilis´ pour la
                             oe     e                                        e
repr´sentation des documents, pour mieux exprimer son besoin. Dans ce cas, la
    e
description du besoin d’information a les mˆmes caract´ristiques que celles des do-
                                           e          e
cuments.

   Nous pouvons dire que le principal avantage des approches bas´es-concepts est
                                                                e
que l’utilisateur et le syst`me arrivent ` “parler” le mˆme langage (celui qui cor-
                            e            a              e
respond au vocabulaire de la ressource externe utilis´e). Cependant, ces approches
                                                      e
consid`rent les documents et requˆtes comme des sacs de concepts. Ainsi, les relations
      e                          e
s´mantiques qui peuvent exister entre les concepts ne sont pas toujours exploit´es.
 e                                                                                 e
Ceci peut provoquer des probl`mes comme mentionn´s dans la section pr´c´dente :
                               e                     e                     e e
un document est consid´r´ pertinent seulement s’il partage les mˆmes concepts de la
                         ee                                       e
requˆte (requˆte initiale ou ´tendue). Par exemple, pour la requˆte donne-moi les do-
    e        e               e                                  e
cuments qui parlent du politicien am´ricain qui a eu le prix Nobel de la paix en 2007,
                                     e
un document pertinent doit contenir le nom Al Gore. Ce document ne peut cepen-
dant pas ˆtre retrouv´ par un syst`me qui n’exploite pas les relations s´mantiques.
         e           e            e                                     e
Pour pouvoir r´soudre cette requˆte, un SRI a besoin de connaissances externes pour
              e                 e

                                           6
inf´rer que Al Gore est un politicien originaire des Etats Unis, etc.
   e


   Nous pensons que le principal probl`me de ces mod`les de RI est qu’ils consid`rent
                                      e             e                           e
peu la structure s´mantique des documents (requˆtes) lors de l’interpr´tation de
                  e                               e                        e
leurs contenus [4][58][68][92][96]. Nous sommes convaincus, qu’en plus de d´crire les
                                                                           e
connaissances du(des) domaine(s) pr´sent(s) dans le corpus, les ressources externes
                                       e
peuvent apporter des information utiles pour l’interpr´tation des th`mes d´velopp´s
                                                      e             e     e      e
dans les documents de ce corpus. Nos travaux vont actuellement dans ce sens.


1.4       Vers un mod`le de RI bas´ sur les dimensions
                     e            e
          de domaine
   Dans notre travail de th`se, nous nous int´ressons ` un processus de RI dont le
                           e                 e        a
contexte est pr´cis´ par le domaine d’int´rˆt de l’utilisateur.
                e e                            e e


   Nous avons vu pr´c´demment qu’un document qui partage les mˆmes descrip-
                      e e                                            e
teurs (que ce soient des mots ou des concepts) avec la requˆte n’est pas forc´ment
                                                           e                 e
pertinent pour cette requˆte. Ainsi, la question que nous nous sommes pos´e est :
                         e                                               e



      “Y a-t-il des ´l´ments, autres que les descripteurs, qu’un document doit
                    ee
            partager9 avec la requˆte pour qu’il soit consid´r´ pertinent ?”
                                  e                         e e



Dans un processus de RI, l’utilisateur souffre d’un manque d’information, mais a
une id´e des lacunes de ses connaissances et donc de son besoin en information. Une
      e
premi`re difficult´ majeure ` laquelle doit faire face un SRI est que le besoin d’infor-
      e          e          a
mation est une chose particuli`re ` l’utilisateur. Comme il est rarement int´gr´ dans
                                 e a                                        e e
le processus de RI, son besoin d’information est souvent mal interpr´t´. Pour pouvoir
                                                                    ee
satisfaire l’utilisateur, le SRI doit d’abord “comprendre” son besoin d’information.
Une premi`re question se pose alors : Q1 “comment aider le SRI ` interpr´ter ce que
            e                                                       a       e
l’utilisateur essaye de d´crire”. Autrement dit, en plus des descripteurs de la requˆte,
                         e                                                          e
y a-t-il d’autres ´l´ments qui peuvent aider le SRI ` avoir plus d’informations sur le
                  ee                                a
  9
   Ce n’est pas seulement une intersection au sens simpliste du terme : ca pourrait ˆtre une
                                                                        ¸           e
implication logique, ou une probabilit´, etc.
                                      e


                                             7
besoin de l’utilisateur ?


    Une deuxi`me difficult´ ` laquelle doit faire face un SRI est que l’utilisateur juge
             e            ea
les documents qui lui sont retourn´s par rapport ` l’interpr´tation de son besoin et
                                  e               a         e
non pas par rapport ` l’ensemble des documents du corpus susceptibles de l’int´resser
                    a                                                         e
[91]. Une deuxi`me question se pose alors : Q2 “comment int´grer l’utilisateur lors
               e                                             e
du processus d’indexation et du calcul de pertinence des documents ?”

       Pour r´pondre aux questions Q1 et Q2, nous avons choisi d’utiliser les connais-
             e
sances du domaine d’int´rˆt de l’utilisateur qui peuvent ˆtre d´crites ` travers des
                        ee                               e     e       a
ressources externes. Nous avons suppos´ que ces ressources peuvent : i ) nous ren-
                                        e
seigner sur les besoins de l’utilisateur pendant sa tˆche de recherche ; et ii ) aider le
                                                     a
SRI ` interpr´ter le contenu s´mantique du document et ` calculer la pertinence en
     a        e                 e                          a
prenant en compte la similarit´ th´matique entre le document et la requˆte10 .
                                 e e                                       e


       En pratique, nous avons analys´ plusieurs requˆtes extraites de diff´rentes collec-
                                     e               e                    e
tions des campagnes d’´valuation des SRI (ex. TREC, CLEF, etc.). A titre d’exemple,
                       e
nous pr´sentons ici deux requˆtes extraites de deux collections de la campagne CLEF-
        e                     e
2005 : la premi`re est extraite de la collection multilingue Multi-8, et la deuxi`me de
               e                                                                 e
la collection des comptes-rendus m´dicaux ImageCLEFmed.
                                  e


Requˆte 1 : “Donne-moi les documents qui parlent du g´n´ral fran¸ais responsable
    e                                                   e e        c
    de la cr´ation de la zone de s´curit´ pendant le conflit des Balkans ?”
            e                     e     e


   Pour un lecteur humain, il est clair que l’on recherche des documents qui parlent
d’une personne : g´n´ral fran¸ais. Un document pertinent, contenant le nom de la
                   e e        c
personne en question, ne contient pas forc´ment les termes “g´n´ral” et “fran¸ais”.
                                           e                    e e           c
Pour y rem´dier, une solution possible est de faire une expansion “intelligente” de
            e
la requˆte pour informer le syst`me qu’on est ` la recherche d’une personne et pas
       e                        e             a
seulement des termes “g´n´ral” et “fran¸ais”. Le fait d’identifier l’´l´ment personne
                       e e             c                            ee
dans cette requˆte n’est pas suffisant pour la r´soudre. En effet, cet ´l´ment ap-
                e                                 e                       ee
paraˆ dans un contexte particulier qui est d´crit par d’autres ´l´ments. La personne
     ıt                                     e                  ee
  10
    Nous verrons dans le chapitre de l’´tat de l’art que ces deux hypoth`ses sont inspir´es de
                                         e                              e               e
certaines id´es qui ont ´t´ d´j` d´velopp´es.
            e           e e ea e         e


                                              8
que l’on cherche a cr´´ une zone de s´curit´. Celle-ci a ´t´ cr´´e dans un lieu
                     ee              e     e             e e ee
g´ographique : les Balkans. Enfin, la cr´ation de cette zone a eu lieu suite ` un
 e                                     e                                    a
´v´nement : conflit des Balkans.
e e


    Ainsi, pour interpr´ter le besoin d’information formul´ ` travers la requˆte 1, nous
                       e                                  ea                 e
                                                 11
allons supposer qu’il est n´cessaire d’expliciter tous les ´l´ments-cl´s introduits par
                           e                               ee          e
l’utilisateur, et de disposer d’un langage de requˆte expressif pour mieux cerner ce
                                                  e
que l’utilisateur recherche.


Requˆte 2 : “Show me x-ray images with fractures of femur ”
    e


   Pour un ˆtre humain, il est clair que l’on cherche des images qui contiennent un
            e
aspect anatomie (le f´mur ) et un aspect pathologie (fracture). Ces deux ´l´ments,
                     e                                                     ee
                              12
qui sont s´mantiquement reli´s , doivent apparaˆ dans une image dont la moda-
          e                 e                    ıtre
lit´ est rayon-x. Ainsi, une image au rayon-x qui contient “une fracture du crˆne”
   e                                                                           a
ou “un f´mur sans fracture” est suppos´e non pertinente par rapport ` cette requˆte.
         e                             e                            a            e
De mˆme pour les images contenant “une fracture du f´mur ” dont la modalit´ n’est
      e                                             e                     e
pas rayon-x.


   En observant plusieurs documents (requˆtes) de diff´rents domaines13 , nous avons
                                          e          e
remarqu´ une r´gularit´ au niveau des ´l´ments qui d´crivent les th`mes d´velopp´s
       e      e       e               ee            e              e      e      e
dans les documents (requˆtes) appartenant ` un mˆme domaine. Par exemple, les
                          e                  a      e
th`mes du domaine de la politique internationale peuvent ˆtre d´velopp´s en utili-
  e                                                        e     e     e
sant des ´l´ments tels que Personne, Lieu g´ographique, Epoque, Ev´nement, etc. En
         ee                                e                       e
m´decine, un th`me peut ˆtre d´velopp´ en utilisant des ´l´ments tels que Anatomie,
  e             e        e     e       e                 ee
Pathologie, Stade de la maladie, Type de traitement, etc. Ainsi, nous appellerons ces
´l´ments les dimensions de domaine et nous les d´finissons comme suit :
ee                                                 e



  “Une dimension d’un domaine est un concept utilis´ pour exprimer des th`mes
                                                   e                     e
                                     dans ce domaine.”
 11
    Par exemple, en proc´dant par une expansion “intelligente”.
                          e
 12
    En m´decine, une fracture est une pathologie d’un os tel que le f´mur.
         e                                                           e
 13
    M´dical, politique internationale, astronomie, etc.
      e




                                               9
Le concept associ´ ` la dimension est en pratique g´n´ral, c’est-`-dire, poss`de une
                     ea                               e e           a           e
vaste extension et une compr´hension minimale. Si l’on peut construire une hi´rarchie
                             e                                                  e
des concepts du domaine, il devrait se trouver pr`s de la racine de la hi´rarchie, c’est-
                                                 e                       e
`-dire, il aurait de nombreux sous-concepts et peu ou pas de concepts super-ordonn´s.
a                                                                                     e


  L’id´e sous-jacente ` notre approche est qu’un auteur, quand il r´dige son docu-
       e               a                                           e
ment, s’int´resse ` un domaine particulier pour d´velopper un th`me. Ainsi, il fait
           e      a                              e              e
r´f´rence ` des dimensions de son domaine d’int´rˆt pour d´tailler l’id´e exprim´e
 ee       a                                       ee         e           e        e
dans son document. Pour ce faire, il fait r´f´rence aux concepts relatifs aux dimen-
                                           ee
sions choisies. Pour d´noter ces concepts dans son texte, il utilise des termes de son
                      e
domaine d’int´rˆt.
               ee


    Par exemple, pour r´diger un compte-rendu m´dical, un m´decin peut faire
                        e                        e           e
r´f´rence dans son texte aux dimensions “Pathologie” et “Anatomie”. Ensuite, il
 ee
fait r´f´rence ` des concepts relatifs ` ces dimensions, et enfin il utilise des termes
      ee       a                       a
pour d´noter ces concepts. Par exemple, il peut utiliser les termes “seins” et “can-
        e
cer”, ou “f´mur” et “fracture”, etc.
            e


   De la mˆme mani`re, un utilisateur s’int´resse ` un domaine particulier pour
          e       e                        e      a
d´crire son besoin d’information. Il fait d’abord r´f´rence ` des dimensions de son
 e                                                   ee      a
domaine d’int´rˆt. Ensuite, il fait r´f´rence ` des concepts relatifs ` ces dimensions.
              ee                     ee       a                       a
Enfin, il emploie des termes pour d´noter ces concepts dans la requˆte qui exprime
                                      e                                 e
son besoin d’information.


1.5      Probl´matique
              e
    Nous nous pla¸ons dans un contexte de recherche o` l’utilisateur d´crit un be-
                  c                                  u                e
soin pr´cis. Ce contexte est typiquement celui des milieux professionnels, o` les
         e                                                                    u
utilisateurs ont de bonnes connaissances de leur domaine d’int´rˆt, ainsi que des
                                                                ee
documents (comptes-rendus, textes de loi, etc.) qu’ils consultent r´guli`rement. Lors
                                                                    e    e
d’une tˆche de recherche, les professionnels essayent de compl´ter l’information qu’ils
       a                                                      e
ont d´j` mais qui est insuffisante. Leurs besoins dans ce cas sont pr´cis et d´crits
     ea                                                            e        e


                                           10
` travers une terminologie sp´cifique ` leurs domaines d’int´rˆt. Par exemple, un
a                            e       a                     ee
m´decin d´sirant retrouver un compte-rendu, voudrait pouvoir formuler son besoin
  e       e
d’information de la mani`re suivante :
                        e



  “Je cherche un compte-rendu sur le type de traitements ` effectuer en cas d’un
                                                         a
                         cancer du sein de stade M0 ”.

    Nous remarquons, ` partir de cet exemple, que le m´decin connaˆ bien la ter-
                       a                                  e           ıt
minologie de son domaine, et par cons´quent, que la description de son besoin est
                                      e
tr`s pr´cise. Nous remarquons ´galement qu’il se sert des dimensions de son domaine
  e    e                      e
pour d´crire son besoin : anatomie, pathologie, traitement, stade de la maladie, etc.
      e

      Les professionnels sont des utilisateurs qui s’attendent a trouver une r´ponse
                                                               `              e
pr´cise et de qualit´ ` leur requˆte, leur permettant de r´aliser leur tˆche profession-
  e                 ea            e                       e             a
nelle (´tablir un diagnostic, r´diger un article de presse, se documenter, etc.). Afin
       e                        e
de permettre au syst`me de retrouver des documents en meilleure ad´quation avec
                      e                                                e
le r´el besoin de tels utilisateurs, nous pensons qu’il est n´cessaire de prendre en
    e                                                        e
compte les dimensions du domaine d’int´rˆt de l’utilisateur. La question principale
                                          ee
que nous posons ainsi est :



   “Comment satisfaire, ` partir de l’information “brute”14 , une requˆte pr´cise
                        a                                             e     e
      formul´e par un utilisateur qui s’int´resse ` un domaine particulier ?”
            e                              e      a

      Nous d´notons par le qualificateur “pr´cise” une requˆte qui, au contraire d’une
            e                              e              e
requˆte vague, contient une terminologie tr`s sp´cialis´e. Elle pr´sente une complexit´
     e                                     e    e      e          e                   e
au niveau de sa structure s´mantique qui peut ˆtre mat´rialis´e par un ensemble de
                           e                     e         e     e
                                     15
relations s´mantiques et d’op´rateurs . Ce type de requˆte semble ˆtre adapt´ ` une
           e                  e                            e          e         ea
indexation relationnelle qui permet de prendre en compte les relations s´mantiques
                                                                        e
lors de la repr´sentation du contenu du document ` indexer.
               e                                  a


   L’objectif du travail d´crit dans notre th`se est donc de d´finir un mod`le de Re-
                          e                  e                e            e
cherche d’Information qui soit en ad´quation avec le contexte particulier dans lequel
                                     e
 14
      Sac de mots dans les documents textuels, etc.
 15
      Bool´ens, quantificateurs, etc.
          e


                                                11
nous nous situons :


   – L’utilisateur a une forte connaissance sur son domaine d’int´rˆt qui doit ˆtre
                                                                 ee            e
     repr´sent´ au sein du syst`me ;
         e     e                e


   – La formulation de la requˆte est une description pr´cise du document recherch´
                              e                         e                         e
     par l’utilisateur. Celui-ci d´crit le document qu’il souhaite retrouver en utilisant
                                  e
     une terminologie sp´cifique ` son domaine. Il peut pr´ciser ce qui est important
                          e         a                        e
     (crit`re obligatoire) ou moins important (crit`re optionnel) que ce document
          e                                           e
     contienne. Il peut ´galement utiliser des op´rateurs bool´ens, ou des quantifi-
                        e                        e            e
     cateurs pour pr´ciser le nombre d’´l´ments que le document doit contenir.
                     e                  ee




                      Fig. 1.2 – Sch´ma global de notre approche
                                    e

                                          12
Fig. 1.3 – Dimensions de domaine stock´es dans une ressource externe
                                                e

       Nous proposons d’utiliser les dimensions de domaine afin de mettre en exergue les
aspects li´s aux descriptions s´mantiques du contenu des documents (requˆtes), et
          e                     e                                            e
d’identifier ainsi les th`mes qui y sont d´velopp´s. A cette fin, un mod`le de RI fond´
                        e                e      e                     e             e
sur les dimensions est propos´. En consid´rant les exigences en termes de pr´cision
                               e            e                                  e
du syst`me, le langage de document et le langage de requˆte sur lesquels est
       e                                                     e
fond´ notre mod`le doivent ˆtre expressifs. Ils permettent d’une part, d’indexer
    e            e         e
avec pr´cision le contenu s´mantique des documents, et d’autre part, d’interpr´ter le
         e                 e                                                   e
contenu s´mantique des requˆtes pr´cises. Evidemment, notre mod`le doit permettre
           e                  e     e                               e
` l’utilisateur d’exprimer son besoin d’information pr´cis ` travers une requˆte.
a                                                     e a                    e


       La mise en œuvre de notre mod`le n´cessite d’abord de d´finir les dimensions de
                                    e    e                    e
domaine puis de les rep´rer au niveau des documents (requˆtes). Pour rep´rer ces
                         e                                    e               e
dimensions, il faut identifier les concepts qui leur sont associ´s, et donc les termes
                                                               e
qui les d´notent dans les documents (requˆtes). Ceci peut n´cessiter une ´tape de
         e                                  e                  e             e
d´sambigu¨
 e       ısation des sens des termes pr´sents dans les documents (requˆtes).
                                       e                              e


    Nous avons d´cid´ de d´finir les dimensions ` travers une ressource externe16 `
                 e e       e                   a                                 a
large couverture qui associe un ensemble de termes ` un concept. Dans la figure
                                                     a
1.2, nous pr´sentons le sch´ma global de notre approche. Disposant d’un ensemble
            e              e
  16
       S´mantique : ontologie, linguistique : th´saurus, terminologique : dictionnaire terminologique,
        e                                       e
etc.



                                                   13
de dimensions d´finies ` travers une ressource externe (figure 1.3), notre approche
               e      a
interpr`te le contenu s´mantique des documents et des requˆtes et les mets en cor-
       e               e                                  e
respondance.


1.6     Plan de la th`se
                     e
   Apr`s ce chapitre introductif exposant notre probl´matique et les id´es que nous
       e                                             e                 e
d´fendons, nous consacrons chapitre 2 ` l’´tat de l’art. Nous passons en revue
 e                                       a e
les travaux qui utilisent les ressources externes pour la repr´sentation du contenu
                                                              e
s´mantique des documents (requˆtes) lors du processus de RI. Nous ´tudions ´galement
 e                                e                                e       e
les travaux qui s’int´ressent ` la notion de dimensions de domaine.
                     e        a


   Dans le troisi`me chapitre, nous pr´sentons une d´finition formelle de notre
                 e                    e             e
mod`le de RI, et nous discutons plus particuli`rement de mani`re approfondie le
     e                                        e                e
mod`le de documents et le mod`le de requˆte. Nous montrons comment, en se basant
     e                        e         e
sur les dimensions de domaines, notre mod`le parvient ` repr´senter avec pr´cision
                                          e           a     e              e
le contenu s´mantique des documents et satisfaire ainsi des requˆtes pr´cises.
            e                                                   e      e


   Le quatri`me chapitre d´crit les ´tapes n´cessaires ` la mise en œuvre de notre
             e             e         e        e        a
mod`le dans le cadre d’application de documents textuels. Il d´crit ´galement une
    e                                                           e    e
´valuation exp´rimentale, de l’utilisation des dimensions pour la RI, bas´e sur des
e              e                                                         e
crit`res d’´valuation orient´s syst`me [23] op´r´e sur une collection de la campagne
    e      e                e      e          ee
CLEF.


   Le cinqui`me chapitre r´sume les contributions apport´es par ce travail au do-
            e              e                              e
maine de la RI et ´voque ´galement les perspectives de d´veloppement et d’optimi-
                  e      e                              e
sation du mod`le propos´.
             e         e




                                         14
Chapitre 2

Ressources externes et dimensions
de domaine

2.1         Introduction
    Dans le chapitre pr´c´dent, nous avons pr´sent´ les limites des approches de RI
                       e e                     e    e
existantes qui ne prennent pas en compte la s´mantique des documents (requˆtes).
                                                e                              e
Devant ces limites, plusieurs travaux, tentant d’incorporer l’information s´mantique
                                                                           e
dans le processus de RI, sont apparus en se basant sur la disponibilit´ de ressources
                                                                        e
externes telles que les ontologies ou les th´saurus. Dans le cas du processus d’indexa-
                                            e
tion, nous pouvons principalement identifier l’indexation conceptuelle ou l’indexation
s´mantique 1 [10][58]. Pour ce qui est du processus d’interrogation, l’accent a surtout
 e
port´ sur l’expansion de requˆtes. Les ressources externes peuvent ´galement aider
    e                          e                                       e
` la formulation du besoin de l’utilisateur ` travers une interface graphique. C’est
a                                           a
dans cette derni`re direction que Hearts [37] et Hyv¨nen [38] ont propos´ d’utiliser
                e                                    o                   e
les dimensions de domaines .


      Dans le but de comprendre comment les ressources externes ont ´t´ utilis´es pour
                                                                    ee        e
la prise en compte de la s´mantique lors du processus de RI, nous pr´sentons, dans
                          e                                           e
la suite de ce chapitre, les approches les plus repr´sentatives dans la litt´rature.
                                                     e                      e
Ainsi, nous avons ´tudi´ des travaux sur l’indexation conceptuelle/s´mantique, puis
                  e    e                                            e
des travaux sur l’expansion de requˆtes. Avant de conclure ce chapitre avec une
                                      e
synth`se des travaux existants, nous y discutons des travaux qui prennent en compte
     e
  1
      Ces deux terminologies sont utilis´es parfois par les chercheurs en RI avec quelques confusions.
                                        e


                                                  15
la notion de dimensions lors du processus de RI. Mais commen¸ons d’abord par
                                                            c
d´finir quelques notions sur les ressources externes.
 e


2.2        Ressources externes & RI
    De fa¸on g´n´rale, selon les communaut´s (Linguistique, Sciences de la cognition,
          c    e e                             e
Intelligence artificielle, Philosophie, etc.), il existe diff´rentes d´finitions des notions
                                                           e        e
que nous pr´sentons ici. Dans la suite, nous pr´sentons les d´finitions telles qu’elles
             e                                      e             e
sont utilis´es en Recherche d’Information et telles que nous les utilisons dans notre
           e
approche.


   Par ressource externe, nous entendons toute structure externe au corpus conte-
nant des concepts et des termes qui les d´notent. Cette ressource peut ´galement
                                         e                             e
contenir des relations entre les diff´rents concepts ; par extension, nous appelons
                                     e
connaissances externes toutes les informations stock´es dans la ressource externe
                                                       e
(concept, termes, relations, d´finition, etc.).
                              e


      Nous avons opt´ pour cette terminologie parce que, dans la communaut´ de RI,
                    e                                                     e
on utilise les mˆmes notations pour d´signer des ressources diff´rentes. Par exemple,
                e                      e                         e
par abus de langage, le mot “ontologie” est utilis´ pour d´signer des ressources telles
                                                   e       e
que, les th´saurus, les taxonomies, les hi´rarchies de concepts, etc. [32][51][62]. Nous
            e                             e
n’allons pas d´tailler ici les d´finitions de ces diff´rents types de ressources ; nous
              e                 e                   e
allons seulement d´crire, dans la suite du manuscrit, les caract´ristiques de celle
                    e                                             e
dont nous avons besoin pour d´finir notre mod`le de RI. Ensuite, en fonction de nos
                               e               e
besoins, nous choisissons la ressource qui nous convient le mieux, quelle que soit sa
nature.


      Les concepts correspondent g´n´ralement aux nœuds (entr´es) d’une ressource
                                  e e                        e
externe. Ces nœuds peuvent contenir des informations suppl´mentaires telles que la
                                                            e
d´finition du concept, le terme le plus couramment utilis´ pour le d´noter, les termes
 e                                                      e          e
synonymes qui le d´notent, etc.
                  e


      Par exemple, dans le m´ta-th´saurus UMLS2 , le concept correspondant au “li-
                            e     e
  2
      http ://www.nlm.nih.gov/research/umls/



                                               16
gament crois´ ant´rieur” est identifi´ par le code “C0630058”, et d´not´, dans le
            e    e                  e                             e e
domaine m´dical, par un ensemble de termes dans diff´rentes langues naturelles (cf.
            e                                      e
figure 2.1).




Fig. 2.1 – D´notation d’un concept par un ensemble de termes synonymes dans
              e
diff´rentes langues.
   e



2.2.1      Cr´dibilit´ des approches bas´es sur les ressources ex-
             e       e                  e
           ternes
   Nous sommes convaincus que les ambitions des approches bas´es sur les res-
                                                                   e
sources externes sont de plus en plus cr´dibles car le spectre d’applications et de
                                        e
domaines concern´s ne cesse de s’´largir, ce qui favorise le d´veloppement de ces
                  e                 e                          e
ressources. Parmi celles-ci, nous mentionnons particuli`rement les ontologies qui de-
                                                       e
viennent de plus en plus utiles dans une large famille de syst`mes d’information.
                                                                e
Par exemple, elles sont utilis´es pour d´crire et traiter des ressources multim´dias,
                              e         e                                       e
permettre l’int´gration de sources h´t´rog`nes d’information, piloter des traitements
               e                    ee e
automatiques de la langue naturelle, construire des solutions multilingues et inter-
culturelles, etc. Ces utilisations se retrouvent dans de nombreux domaines d’applica-
tion : Recherche d’Information, int´gration d’informations g´ographiques, commerce
                                      e                       e
´lectronique, enseignement assist´ par ordinateur, suivi m´dical informatis´, etc.
e                                e                        e                e


    Un cadre d’application particuli`rement prometteur pour le d´veloppement des
                                    e                              e
syst`mes ` base d’ontologies est celui du Web s´mantique 3 [8][15]. En effet, dans ce
    e    a                                     e
   3
    Il s’agit d’une extension du Web actuel, dans laquelle l’information se voit associ´e ` un sens
                                                                                          e a
bien d´fini, am´liorant la capacit´ des logiciels ` traiter l’information disponible sur le Web.
       e        e                e               a

                                                17
contexte, l’annotation des ressources d’information repose sur des ontologies (elles-
mˆmes disponibles et ´chang´es sur le Web). Grˆce au Web s´mantique, l’ontologie
  e                  e      e                   a             e
a trouv´ un formalisme standard ` l’´chelle mondiale et s’int`gre dans de plus en
        e                        a e                           e
plus d’applications Web, sans mˆme que les utilisateurs ne le sachent.
                               e


       De ce fait, de plus en plus d’ontologies de domaines deviennent disponibles : on-
tologie m´dicale, ontologie de la g´n´tique, ontologie de la g´om´trie, ontologie pour
           e                       e e                        e e
le bˆtiment, ontologie de syst`mes documentaires, ontologie dans le secteur automo-
    a                         e
bile, etc.4


       La croissance du nombre d’ontologies sur le Web a mˆme favoris´ le d´veloppement
                                                          e          e     e
d’outils sp´cialis´s dans la recherche de ce genre de ressources. A ce sujet, men-
           e      e
tionnons par exemple swoogle 5 (semantic Web search engine) qui est un moteur de
recherche qui permet de retrouver des ressources ontologiques disponibles sur le Web.


       Malgr´ toutes ces r´alisations, l’expansion du d´veloppement des ontologies est
            e             e                            e
loin d’ˆtre achev´e. Ainsi, les ontologies qui s’appliquaient essentiellement ` des
       e         e                                                              a
donn´es (multim´dias) sont d´sormais utilis´es pour d´crire des logiciels (ex. les
     e           e             e             e           e
services Web). Elles commencent ´galement ` ˆtre utilis´es pour d´crire l’utilisateur
                                  e         ae          e         e
en sp´cifiant par exemple son contexte d’interaction (les pr´f´rences de l’utilisateur :
     e                                                           ee
langue, goˆ ts, droits, etc. ; les caract´ristiques de son terminal : mobile, vocal, etc. ; sa
          u                              e
situation g´ographique : l’´tranger, dans une salle avec imprimante, etc. ; l’historique
            e              e
d’utilisation, etc.).


2.2.2        Exemple de ressource externe utilis´e en RI : WordNet
                                                e
   WordNet6 est une base lexicale organis´e sous forme hi´rarchique autour de la
                                         e               e
notion de synset (ensemble de synonymes). Un synset regroupe des termes (simples
ou compos´s) ayant un mˆme sens dans un contexte donn´. Par d´finition, chaque
           e             e                              e       e
synset dans lequel un terme apparaˆ repr´sente un sens diff´rent de ce terme.
                                     ıt     e                  e
Les synsets sont organis´s par des relations d´finies sur eux, qui diff`rent selon la
                        e                     e                      e
   4
     http ://ontology.buffalo.edu/, http ://www.geneontology.org/, http ://diseaseonto-
logy.sourceforge.net/, http ://ontolingua.stanford.edu/, etc.
   5
     http ://swoogle.umbc.edu/ [visit´ le 08/07/07]
                                      e
   6
     Le choix de pr´senter WordNet est motiv´ par le fait qu’il est largement utilis´e dans la plupart
                   e                         e                                      e
des approches que nous ´tudions dans notre travail, et dans la RI d’une mani`re g´n´rale.
                         e                                                      e     e e


                                                 18
cat´gorie grammaticale (Part Of Speech). Les principales relations s´mantiques is-
   e                                                                e
sues de WordNet utilis´es en RI sont les suivantes : la synonymie, la m´ronymie7 ,
                      e                                                e
et l’hyperonymie8 (is-a). Celle-ci est la plus dominante. Elle organise les synsets
dans un ensemble de hi´rarchies.
                       e


       En plus d’ˆtre gratuitement disponible, l’avantage d’utiliser WordNet est qu’il
                 e
couvre la majorit´ de la langue anglaise, ce qui la place souvent en ad´quation avec
                  e                                                    e
les donn´es trait´es en RI dans le cas g´n´ral.
        e        e                      e e


2.3         Usage des ressources externes pour la repr´se-
                                                      e
            ntation des documents
   Afin de repr´senter le contenu des textes par des concepts, l’indexation concep-
                e
tuelle se base sur des techniques de d´sambigu¨
                                      e         ısation qui servent ` identifier les
                                                                    a
concepts d´not´s par les termes dans le texte. Dans la section suivante, nous rap-
           e e
pelons quelques techniques de d´sambigu¨
                               e       ısation capable de r´aliser cette tˆche. En-
                                                           e              a
suite, nous examinons des approches qui utilisent les ressources externes pour la
repr´sentation du contenu des documents.
    e

       Nous verrons dans la suite de ce chapitre que les performances d’une approche
de RI d´pendent de plusieurs facteurs. Dans notre cas, elles peuvent d´pendre de
        e                                                                e
la qualit´ de la ressource externe utilis´e, de la qualit´ du d´sambigu¨
         e                               e               e     e       ıseur utilis´,
                                                                                   e
du mod`le de RI sous-jacent, etc. Donc, afin de bien ´valuer une approche de RI,
        e                                                e
il est int´ressant d’´valuer l’impact de chacun de ces facteurs sur ses performances.
          e          e
De cette fa¸on, nous avons la possibilit´ d’identifier ce qui a bien fonctionn´ et ce
             c                            e                                    e
qui a mal fonctionn´ lors d’une exp´rimentation de RI. C’est dans cette direction
                       e             e
que nous pr´sentons un ensemble de travaux sur l’utilisation des ressource externe
              e
et l’utilisation de d´sambigu¨
                     e       ıseur pour la RI.
   7
      La classe des m´ronymes contient respectivement les concepts constituant des parties du concept
                      e
(... is a part of this concept, ... is a member of this concept ), ou dont le concept est une partie (this
concept is a part of ... etc.). Exemple : voiture a pour m´ronymes porte, moteur.
                                                              e
    8
      La classe des Hyperonymes contient les concepts p`res pour la relation de g´n´ralisation. La
                                                             e                          e e
relation inverse est l’hyponymie (sp´cialisation).
                                          e




                                                   19
2.3.1     La d´sambigu¨
              e       ısation
   La d´sambigu¨
       e        ısation automatique des sens des mots est un probl`me qui a ´t´
                                                                    e           ee
longuement ´tudi´ : Gale, Church et Yarowsky [30] citent par exemple un travail re-
           e    e
montant ` 1950. Dans ce chapitre, nous nous concentrons seulement sur les approches
          a
les plus r´centes. Une revue plus d´taill´e de la d´sambigu¨
          e                        e     e         e       ısation est pr´sent´e par
                                                                         e    e
Krovetz [47] et Voorhees [27] et plus r´cemment une autre expos´e par Mark San-
                                       e                       e
derson [79].


    Plusieurs travaux ont ´tudi´ l’utilit´ de la d´sambigu¨
                          e    e         e        e       ısation pour la RI [32][47][77]
[78][80]. Ces efforts ont clairement montr´ que la d´sambigu¨
                                            e         e         ısation est un probl`me
                                                                                    e
plus subtil que l’on pensait. Une des premi`res tentatives d’utiliser un d´sambigu¨
                                           e                              e       ıseur
avec un syst`me de RI a ´t´ faite par Stephen Weiss [100]. En utilisant son d´sambigu¨
             e           ee                                                  e        ıs-
eur pour r´soudre les sens de cinq mots ambigus extraits ` la main de la collection
           e                                                 a
de ADI, Weiss a rapport´ une am´lioration de seulement 1% des performances de
                        e         e
recherche. Une des recherches les plus approfondies sur l’ambigu¨ e et la RI a ´t´
                                                                ıt´            ee
effectu´e par Krovetz et Croft [47] qui ont examin´ manuellement deux collections
       e                                             e
test (CACM et TIME) pour ´tudier l’ampleur de l’ambigu¨ e lexicale dans ces col-
                               e                             ıt´
lections, ainsi que son effet sur la performance de la recherche. Ils ont trouv´ que ces
                                                                              e
collections, mˆme si elles sont relativement petites et sp´cialis´es, contiennent des
              e                                            e     e
mots utilis´s dans de multiples sens ; ils ont cependant conclu que les performances
           e
de recherche ne sont pas fortement affect´es par l’ambigu¨ e des mots. En effet, les
                                        e               ıt´
documents qui partagent plusieurs mots avec la requˆte tendent ` utiliser ces mots
                                                    e           a
avec les mˆmes sens que ceux de la requˆte. Les auteurs pr´sument n´anmoins que
          e                            e                  e         e
la d´sambigu¨
     e        ısation des mots est probablement b´n´fique ` la recherche quand les
                                                    e e      a
collections contiennent des th`mes divers, et qu’il y a peu de mots en commun entre
                              e
le document et la requˆte [47].
                        e


   Selon Mark Sanderson [77], les premiers essais ` grande ´chelle d’application d’un
                                                  a        e
d´sambigu¨
 e         ıseur ` un syst`me de RI ont ´t´ r´alis´s par Voorhees [95] et Wallis [99].
                 a         e               ee e e
Voorhees a construit un d´sambigu¨
                             e        ıseur de mots bas´ sur WordNet [28][60]. Elle a
                                                       e
appliqu´ le d´sambigu¨
       e      e        ıseur aux collections de CACM, de CISI, de CRAN, de MED et
de TIME. Les tests men´s sur ces derni`res collections d´sambigu¨ ees ont eu comme
                      e               e                 e       ıs´
cons´quence paradoxale une baisse dans la performance de la RI. Wallis a employ´
    e                                                                            e
un d´sambigu¨
    e       ıseur en tant qu’´l´ment d’une exp´rience plus raffin´e dans laquelle il
                             ee               e                e


                                           20
a remplac´ les mots dans une collection de textes par le texte de leurs d´finitions
         e                                                               e
issues d’un dictionnaire. Ceci a ´t´ fait de sorte que des mots synonymes (qui ont
                                  ee
des d´finitions similaires) soient repr´sent´s par les mˆmes descripteurs, et donc que
      e                               e    e           e
les documents contenant ces mots synonymes soient repr´sent´s par les mˆmes des-
                                                          e    e            e
cripteurs. En rempla¸ant un mot par sa d´finition, un d´sambigu¨
                    c                     e            e         ıseur a ´t´ employ´
                                                                         ee         e
pour choisir la d´finition qui repr´sente le mieux le mot. Wallis a r´alis´ des essais
                 e                e                                  e e
sur les collections CACM et TIME, mais n’a trouv´ aucune am´lioration significative
                                                e          e
des performances de recherche.


   Les r´sultats de Voorhees et de Wallis sont surprenants car il semble raisonnable
        e
que la performance de RI augmente si l’ambigu¨ e est r´solue. Parmi les probl`mes
                                                ıt´    e                       e
qu’ils ont soulev´s, nous pouvons citer le manque de fiabilit´ au niveau de la perfor-
                 e                                            e
mance de leurs d´sambigu¨
                   e        ısations : par exemple, Voorhees a signal´ des probl`mes
                                                                       e           e
lors du choix du sens correct de certains des mots dans les requˆtes. De tels probl`mes
                                                                e                  e
ne permettent pas d’´tablir clairement au juste ce qui a mal fonctionn´ lors de
                       e                                                      e
l’exp´rience. Pour cette raison, plusieurs travaux sur l’´valuation des d´sambigu¨
     e                                                   e               e       ıseurs
ont ´t´ entrepris.
    ee

   L’´valuation reste un probl`me majeur de la recherche dans le domaine de la
     e                        e
d´sambigu¨
 e        ısation car jusqu’` pr´sent l’´valuation d’un d´sambigu¨
                            a e         e                e       ıseur n´cessite une
                                                                        e
v´rification manuelle de ses propositions. Comme c’est un processus tr`s long, la
 e                                                                        e
plupart des d´sambigu¨
               e       ıseurs ont ´t´ ´valu´s seulement sur une poign´e de mots.
                                    ee e       e                            e
Cependant, Yarowsky a pr´sent´ une technique compl`tement automatique pour
                             e    e                          e
l’´valuation des d´sambigu¨
  e               e        ıseurs [104] ; elle consiste ` introduire, dans une collection
                                                        a
de textes, des mots ambigus cr´´s artificiellement, appel´s des “pseudo-mots”. Cette
                              ee                        e
technique consiste ` remplacer toutes les occurrences de deux mots, par exemple
                    a
“banane” et “kalashnikov ” par un nouveau mot ambigu “banana/kalashnikov ”. Le
d´sambigu¨
 e         ıseur est alors appliqu´ ` chaque occurrence du nouveau mot. L’´valuation
                                   ea                                         e
de la pr´cision du d´sambigu¨
        e            e         ıseur est alors facilit´e car on connaˆ ` l’avance le sens
                                                      e              ıt a
correct de chaque occurrence des mots. Cependant, comme n’importe quelle simu-
lation, celle-ci a ses limites. La m´thode choisie pour former des pseudo-mots de
                                    e
diff´rents mots consiste ` faire un choix al´atoire. Par cons´quent, les divers sens
    e                      a                e               e
d’un pseudo-mot sont peu susceptibles d’ˆtre ´troitement li´s. Cela diff`re des mots
                                        e    e             e           e
ambigus r´els dont les sens peuvent dans certains cas ˆtre reli´s d’une fa¸on quel-
         e                                            e        e          c
conque. La signification de cette diff´rence est peu claire, et donc on ne peut pas
                                    e

                                           21
affirmer que l’ambigu¨ e introduite artificiellement correspond exactement ` l’am-
                   ıt´                                                  a
bigu¨ e que l’on trouve dans des situations r´elles.
    ıt´                                      e

   Bien que Yarowsky ait invent´ les pseudo-mots seulement pour l’´valuation des
                               e                                  e
d´sambigu¨
  e       ıseurs, sa m´thode semble a priori bien adapt´e ` l’´tude du rapport entre
                      e                                e a e
l’ambigu¨ e des mots et la RI [77][78]. Pour v´rifier cette id´e, Sanderson a fait
        ıt´                                     e               e
d’abord une premi`re exp´rience pour ´valuer les performances d’un SRI sur une
                     e      e               e
collection de test. Ensuite, il a introduit de l’ambigu¨ e dans la collection en utilisant
                                                       ıt´
des pseudo-mots. Ainsi, il a pu comparer les performances du SRI sur cette collection
accompagn´e d’ambigu¨ e avec les performances du syst`me obtenues sur la collection
            e           ıt´                            e
initiale. De cette mani`re, Sanderson peut changer ` volont´ la quantit´ d’ambigu¨ e
                       e                           a       e           e         ıt´
dans une collection. Ainsi, par exemple, des niveaux d’ambigu¨ e qui d´passent de
                                                                  ıt´     e
loin ceux des collections test standards peuvent ˆtre ´tudi´s. Cependant, l’avantage
                                                 e    e    e
principal d’utiliser des pseudo-mots est que la d´sambigu¨
                                                   e         ısation des pseudo-mots
peut ˆtre contrˆl´e avec pr´cision par l’exp´rimentateur. Par cons´quent, les effets
     e         oe           e               e                     e
d’un d´sambigu¨
       e       ıseur sur les performances d’un SRI, fonctionnant ` des niveaux va-
                                                                 a
riables de pr´cision, peuvent ´galement ˆtre ´tudi´s.
             e                e         e    e    e

   Suite ` ces exp´rimentations, Sanderson a montr´ que l’ambigu¨ e des mots a des
         a        e                               e             ıt´
effets mineurs sur la pr´cision de la recherche, confirmant vraisemblablement que
                         e
les strat´gies d’appariement (matching), entre la requˆte et le document, effectuent
         e                                            e
d´j` une d´sambigu¨
 ea        e         ısation implicite. C’est ` dire, quand un ensemble de mots appa-
                                              a
raissent simultan´ment dans un contexte, que la signification appropri´e de chacun
                 e                                                       e
peut ˆtre d´termin´e (mˆme si chacun de ces mots pris individuellement est ambigu).
      e    e       e      e
Nous reprenons l’exemple utilis´ par Vooheers o` , dans l’ensemble base, bat, glove,
                               e                 u
hit, la plupart des mots ont plusieurs sens. Mais pris conjointement, ces mots font
r´f´rence au jeu du Baseball. Sanderson estime que, si la d´sambigu¨
 ee                                                        e        ısation automa-
tique des mots est effectu´e avec moins de 90% de pr´cision, les r´sultats sont plus
                         e                           e            e
mauvais que si on ne d´sambigu¨
                      e         ısait pas du tout.


   Un ´tat de l’art sur cette question de d´sambigu¨
       e                                   e         ısation des mots dans le cadre
de la RI est pr´sent´ par Sanderson [79]. Les r´sultats obtenus par diff´rents cher-
               e    e                          e                       e
cheurs sont parfois contradictoires. A partir de ces exp´riences, nous pouvons tirer la
                                                        e
conclusion que, pour am´liorer les performances d’un SRI, il est n´cessaire d’utiliser
                         e                                          e
un d´sambigu¨
    e       ıseur fonctionnant avec une grande pr´cision.
                                                 e

                                           22
Sanderson [79] et Zernik [106] ont ´galement conclu que les dictionnaires ne four-
                                       e
nissent pas une bonne source de d´finitions des termes (sens) pour les d´sambigu¨
                                  e                                    e        ıseurs,
parce que leurs distinctions entre les d´finitions sont trop fines car souvent bas´es
                                         e                                         e
sur des crit`res grammaticaux plutˆt que s´mantiques. Heureusement, d’autres res-
            e                       o       e
sources externes sont devenues de plus en plus disponibles. Ces ressources repr´sentent
                                                                               e
le sens de termes ` travers les concepts qu’ils d´notent. En plus, elles offrent des
                  a                              e
connaissances en organisant les concepts dans une structure bas´e sur des relations
                                                               e
s´mantiques. Ceci offre des capacit´s non n´gligeables a la RI, mˆme si l’utilisa-
 e                                 e         e          `          e
tion des concepts exige une ´tape de d´sambigu¨
                              e         e         ısation des termes qui les d´notent
                                                                              e
dans le texte. En effet, les connaissances pr´sentes dans la ressource externe peuvent
                                            e
ˆtres utiles tant pour la d´sambigu¨
e                          e       ısation que pour la repr´sentation du contenu
                                                           e
s´mantique des textes.
 e


   Voyons maintenant les travaux les plus repr´sentatifs qui utilisent des ressources
                                              e
externes, principalement WordNet, pour repr´senter le contenu s´mantique des textes.
                                           e                   e


2.3.2       Indexation conceptuelle/s´mantique
                                     e
    Dans la litt´rature, l’indexation conceptuelle (ou l’indexation s´mantique) a ´t´
                e                                                    e            ee
pr´sent´e comme une solution pour pallier les d´fauts de l’indexation classique bas´e
  e    e                                         e                                 e
sur des mots simples. Diff´rentes m´thodes ont ´t´ propos´es. Nous pouvons les
                            e         e            ee         e
r´partir en deux cat´gories qui ne sont pas totalement disjointes :
 e                  e


- Celles qui utilisent seulement les connaissances pr´sentes dans le corpus [80][86][106] ;
                                                     e
- Celles qui utilisent les connaissances externes au corpus [64][71][83][88][89][97][98],
      utilisent WordNet [60] ; et [45][46][99] utilisent le dictionnaire LDOCE9 [67].


    Dans la suite, nous pr´sentons seulement les m´thodes les plus repr´sentatives
                           e                        e                   e
qui utilisent les connaissances externes pour la d´sambigu¨
                                                  e       ısation [4][58][95]. Nous
pr´sentons ´galement deux approches qui ´tudient l’impact de la d´sambigu¨
  e         e                             e                        e         ısation
sur les performances de la RI [32][77].
  9
      The Longman Dictionary of Contemporary English.




                                             23
Utilisation de WordNet pour la d´sambigu¨
                                e       ısation des sens de mots

   Voorhees a exploit´ les connaissances cod´es dans WordNet pour am´liorer les
                     e                      e                           e
effets que les synonymes et les homographes ont sur les SRI bas´s sur les mots. Au
                                                              e
lieu d’utiliser les mots eux-mˆmes, elle a utilis´ les concepts que ces mots d´notent.
                              e                  e                            e
Dans cette direction, elle a essay´ de voir si les synsets de WordNet peuvent ˆtre
                                  e                                               e
utilis´s comme des concepts dans un SRI ` usage non limit´ ` un domaine particu-
      e                                    a                 ea
lier. Ainsi, elle a propos´ une technique pour d´sambigu¨ les mots utilis´s lors du
                          e                     e       ıser              e
processus d’indexation automatique. La technique consiste ` s´lectionner un concept
                                                           a e
pour chaque mot ambigu apparaissant dans les textes des documents et des requˆtes.
                                                                               e
Pour ce faire, l’auteur utilise la base WordNet. Ainsi, l’approche propos´e consiste
                                                                         e
` s´lectionner un synset de WordNet comme un concept d´not´ par un mot. Dans
a e                                                        e e
WordNet, les synsets sont li´s par diff´rentes relations. Voorhees utilise l’ensemble
                            e          e
                                    10
des synsets correspondants aux noms ainsi que les relations suivantes : antonymie,
hyperonymie/hyponymie (is-a) et m´ronymie/holonomie (part-of ).
                                 e


    La technique de d´sambigu¨
                     e       ısation utilis´e dans ce travail est bas´e sur l’id´e qu’un
                                           e                         e          e
ensemble de mots, apparaissant ensemble dans un contexte, d´termine la significa-
                                                                  e
tion appropri´e pour un autre mot, en d´pit du fait que chaque mot pr´sent dans
              e                           e                                  e
texte pris individuellement est ambigu (comme montr´ plus haut dans l’exemple des
                                                     e
mots dont l’ensemble d´note le baseball ). Pour d´sambigu¨ un mot m, une tech-
                        e                        e       ıser
nique a ´t´ propos´e pour classer les synsets auxquels m appartient. Le classement
        ee         e
est effectu´ en se basant sur la valeur de cooccurrence calcul´e entre le contexte du
          e                                                  e
mot en question et un voisinage contenant les mots du synset dans la hi´rarchie de
                                                                          e
WordNet (Voorhees l’a appel´ hood ).
                           e

      Pour d´finir le voisinage d’un synset s donn´, Voorhees consid`re l’ensemble des
            e                                    e                 e
synsets et les relations d’Hyponymie dans WordNet comme un ensemble de sommets
et d’arcs dirig´s d’un graphe. Par la suite, le voisinage de s est le plus large sous-
                e
graphe connexe qui contient s et seulement les descendants d’un ancˆtre de s, et qui
                                                                   e
ne contient aucun synset ayant un descendant qui inclut une autre instance d’un
membre (mot) de s. Le synset le mieux class´ est s´lectionn´ comme ´tant le sens
                                             e      e       e         e
du mot m dans le texte. Il est possible qu’un mot ne corresponde ` aucun synset de
                                                                 a
WordNet. Dans ce cas, aucun synset n’est s´lectionn´.
                                            e       e
 10
      Dans WordNet, il y a quatre cat´gories : les noms, les verbes, les adjectifs et les adverbes.
                                     e


                                                   24
Apr`s l’´tape de d´sambigu¨
        e e           e        ısation, vient l’´tape d’indexation qui prend en compte
                                                e
le sens des mots. Voorhees a utilis´ le mod`le vectoriel ´tendu introduit par Fox [29].
                                   e        e             e
Dans ce mod`le, chaque vecteur est compos´ d’un ensemble de sous-vecteurs de
               e                                  e
diff´rents types de concept (appel´s ctypes)11 . Ainsi, un vecteur peut contenir trois
   e                             e
ctypes : les lemmes des mots qui n’apparaissent pas dans WordNet ou qui ne sont
pas des noms, les identificateurs des synsets des noms d´sambigu¨ es, et les lemmes
                                                       e       ıs´
des noms d´sambigu¨ es.
          e         ıs´


    Dans le mod`le vectoriel ´tendu, la similitude entre un document et une requˆte
                e            e                                                  e
est calcul´e comme suit :
          e



                              sim(D, Q) =              αi simi (Di , Qi )                      (2.1)
                                              ctypei




                                                                             `
    Avec simi , la fonction de similarit´ pour le ctypei, Di et Qi sont les iemes sous-
                                        e
vecteurs des vecteurs D et Q, et αi , un nombre r´el qui refl`te l’importance du ctypei
                                                  e         e
relativement aux autres ctypes.


       Pour ´valuer son approche, Voorhees a men´ des exp´rimentations sur les col-
            e                                   e        e
lections CACM [75], CISI, Cranfield 1400, MED, et TIME [41]. Elle a compar´ son e
approche avec une approche bas´e seulement sur les lemmes de tous les mots du texte.
                                e
Plusieurs tests ont ´t´ effectu´s en faisant diff´rentes combinaisons avec les ctypes
                    ee        e                e
et la valeur de α. Les r´sultats de ces exp´rimentations ont montr´ paradoxalement
                        e                  e                      e
que les performances du SRI diminuent sensiblement dans le cas de l’utilisation des
collections d´sambigu¨ ees.
             e        ıs´


       Voorhees a pu constater que les requˆtes courtes sont difficiles ` d´sambigu¨
                                           e                          a e        ıser
et que ceci est la cause majeure de la d´gradation des performances de recherche.
                                        e
Par cons´quent, elle a ´valu´ son approche en d´sambigu¨
         e              e   e                   e        ısant seulement les mots
dans les documents. En effet, au lieu de s´lectionner un seul sens pour un mot m
                                          e
  11
    Ce mod`le permet la manipulation d’autres types de concepts que ceux qui sont repr´sent´s
            e                                                                                e     e
par les descripteurs du document : les citations, les cocitations, les donn´es bibliographiques, etc.
                                                                           e
Ainsi, chaque sous-vecteur repr´sente un aspect diff´rent des documents de la collection.
                               e                     e


                                                 25
ambigu appartenant ` la requˆte, elle a ajout´ tous les identificateurs des synsets
                   a        e                e
de m au vecteur de la requˆte. Les r´sultats de cette approche ont montr´ que les
                          e         e                                     e
performances du SRI diminuent sensiblement dans la plupart des collections utilis´es.
                                                                                 e


    Dans ce travail, la qualit´ de la d´sambigu¨
                              e        e       ısation n’a pas ´t´ mesur´e empi-
                                                               ee       e
riquement. Une ´valuation subjective a ´t´ effectu´e par l’auteur qui conclut que
                e                        ee       e
l’´tiquetage avec les sens tel qu’il est r´alis´ n’est pas exact, ce qui est la cause la
  e                                       e e
plus probable de la d´gradation des performances. L’auteur mentionne ´galement une
                     e                                                   e
grande difficult´ ` d´sambigu¨ les mots dans des requˆtes courtes. Enfin, elle pense
               ea e           ıser                        e
que les relations is-a qui d´finissent une hi´rarchie g´n´ralisation/sp´cialisation ne
                             e              e         e e             e
sont pas suffisantes pour s´lectionner correctement le sens exact d’un mot ` partir
                            e                                                 a
des sens pr´sents dans WordNet.
           e

Combinaison de donn´es lexicales et s´mantiques pour la repr´sentation
                   e                 e                      e
des textes

   Pour construire une repr´sentation s´mantique de texte, Mihalcea et Moldovan
                            e            e
ajoutent des informations lexicales et s´mantiques aux documents et aux requˆtes
                                        e                                     e
durant une phase de pr´traitement dans laquelle le texte des requˆtes et des docu-
                       e                                         e
ments est d´sambigu¨ e. Le processus de d´sambigu¨
            e         ıs´                   e        ısation se base sur l’information
contextuelle, et sur l’identification des sens des mots ` partir de WordNet. Un nou-
                                                       a
veau mot est d´sambigu¨ e en tenant compte de sa relation avec les mots du corpus
               e        ıs´
qui sont d´j` d´sambigu¨ es. Ce processus it´ratif leur permet d’identifier dans le
          ea e           ıs´                  e
corpus d’origine les mots qui peuvent ˆtre d´sambigu¨ es avec une grande pr´cision.
                                      e     e        ıs´                   e


                                        e       ısation complet12 et peu pr´cis, ils
   Au lieu d’utiliser un algorithme de d´sambigu¨                          e
ont opt´ pour un algorithme semi-complet qui d´sambigu¨ environ 55% des noms
       e                                       e         ıse
et des verbes mais avec un taux de pr´cision de 92%. La sortie du d´sambigu¨
                                       e                            e      ıseur
est un texte dont les mots ont la forme suivante : Pos|Stem|POS |Offset.


    O` : Pos est la position du mot dans le texte ; Stem est le lemme du mot ; POS
      u
est la cat´gorie grammaticale du mot, et Offset est l’identifiant du synset de Word-
          e
Net dans lequel ce mot apparaˆ Au cas o` aucun sens ne serait attribu´ par le
                                ıt.         u                             e
d´sambigu¨
 e       ıseur, ou si le mot ne se trouve pas dans WordNet, le dernier champ reste
 12
      Qui d´sambigu¨ TOUT le texte.
           e       ıse


                                          26
vide. Apr`s l’ajout de ces ´tiquettes lexicales et s´mantiques, les documents sont
         e                 e                        e
index´s. L’index est cr´´ en combinant les mots simples (recherche bas´e mots), et
      e                ee                                             e
les ´tiquettes s´mantiques (recherche bas´e sens).
    e           e                        e


    Au moment de l’interrogation, chaque requˆte est d´sambigu¨ ee, ensuite elle
                                              e         e        ıs´
est adapt´e ` un format sp´cifique qui incorpore l’information s´mantique, comme
         e a              e                                    e
trouv´e dans l’index, et utilise les op´rateurs AND et OR.
     e                                 e

   Leur syst`me a ´t´ test´ sur la collection Cranfield. Celle-ci contient 1400 docu-
            e     ee      e
ments du domaine de l’a´rodynamique. Parmi les 225 requˆtes de cette collection,
                           e                                  e
les auteurs en ont choisi al´atoirement 50 et ont construit pour chacune d’entre elles
                             e
trois types de requˆtes :
                   e


1) Une requˆte contenant seulement les mots s´lectionn´s a partir de la requˆte
           e                                 e        e `                   e
     initiale lemmatis´e ;
                      e
2) Une requˆte contenant les mots cl´s de la requˆte initiale et les synsets qui lui
           e                        e            e
    sont associ´s ;
               e
3) Une requˆte contenant les mots cl´s de la requˆte initiale, les synsets qui leur
           e                        e            e
     sont associ´s, et les synsets des hyperonymes des mots cl´s.
                e                                             e


   Nous reprenons ici l’exemple pr´sent´ par les auteurs. Soit la requˆte suivante :
                                  e    e                              e


   “Has anyone investigated the effect of surface mass transfer on hypersonic vis-
cous interactions ?”


   Apr`s l’´tiquetage lexical et s´mantique, la requˆte se pr´sente comme suite :
      e e                         e                 e        e


   Has anyone investigated |VB|535831 the effect|NN|7766144
   of surface|NN|3447223 mass|NN|3923435 transfer |NN|132095
   on hypersonic|JJ viscous|JJ interactions|NN|7840572|


   Les auteurs rapportent que la s´lection des mots-cl´s (les 55%) ` d´sambigu¨
                                  e                   e             a e         ıser
(par l’algorithme semi-complet) n’est pas simple, et qu’ils utilisent pour cela huit
heuristiques [61]. Pour chaque requˆte, les trois types de requˆtes pr´cit´es sont
                                    e                             e     e e

                                         27
form´es en utilisant les op´rateurs bool´ens AND et OR. Ainsi, pour la requˆte de
    e                      e            e                                  e
type 2 par exemple, les auteurs obtiennent :

   (effect OR 7766144|NN) AND (surface OR 3447223|NN)
   AND (mass OR 3923435|NN) AND (transfer OR 132095|NN)
   AND (interaction OR 7840572|NN).


   Suite ` leurs exp´rimentations, les auteurs ont pu constater que la combinaison
         a           e
des mots-cl´s avec les synsets am´liore les performances du syst`me de RI par rapport
           e                     e                              e
` la recherche bas´e seulement sur les mots (+16% de rappel et +4% de pr´cision).
a                 e                                                     e
Nous pensons que ce r´sultat est dˆ au fait que la base WordNet ne couvre pas la
                       e           u
totalit´ du vocabulaire de la collection utilis´e. Donc, une combinaison des synsets
       e                                       e
avec les mots peut garantir une couverture de tout le vocabulaire en question. Ce
r´sultat est en accord avec d’autres r´sultats positifs obtenus par des chercheurs qui
 e                                    e
ont fait une indexation combin´e de la sorte [4].
                              e


    En utilisant les hyperonymes, les auteurs ont constat´ une am´lioration de 28%
                                                         e       e
du rappel mais une baisse de 9% de la pr´cision. Il est probable que l’augmenta-
                                           e
tion du rappel est dˆ au fait que l’expansion a permis de retrouver des documents
                      u
pertinents mais qui ne partagent pas exactement les mˆmes termes avec la requˆte.
                                                      e                         e
En revanche, la d´gradation de la pr´cision pourrait ˆtre expliqu´e par le fait que
                 e                   e               e           e
l’expansion a ´t´ faite d’une mani`re imprudente, ce qui ajoute parfois des concepts
               ee                 e
` la requˆte qui ne sont pas en rapport avec son th`me. Par cons´quent, le contenu
a        e                                          e             e
de la requˆte ´tendu devient bruit´ par rapport au contenu original, et les documents
          e e                     e
r´ponses ne sont pas forc´ment pertinents pour la requˆte originale. Nous verrons
 e                         e                             e
dans la suite des solutions possibles ` ce probl`me d’expansion imprudente [4][68].
                                      a         e



Le mod`le DocCore
      e

   Baziz consid`re que le th`me d´velopp´ dans un document (requˆte) est d´crit
               e            e     e       e                          e        e
par un ensemble de concepts. Ainsi, au lieu de repr´senter les documents (requˆtes)
                                                   e                          e
par une liste de mots cl´s, il propose de les repr´senter par des concepts. Pour ce
                            e                         e
faire, il utilise une ressource externe pour extraire, ` partir d’un texte, les termes qui
                                                       a
font r´f´rences aux concepts d´crits dans ce texte. Une ´tape de d´sambigu¨
      ee                      e                         e         e       ısation a


                                           28
´t´ propos´e afin d’associer chaque terme ` un seul concept de la ressource externe
ee        e                              a
utilis´e.
      e

       Baziz construit pour chaque document de la collection ce qu’il appelle un R´seau
                                                                                  e
S´mantique de Document. Le mod`le de repr´sentation qu’il propose, DocCore, est
 e                                 e          e
bas´ sur un processus automatis´ faisant appel ` une ressource externe pour identifier
   e                           e               a
les concepts du document et calculer les liens de proximit´ entre eux. Les arcs entre
                                                          e
les nœuds du r´seau s´mantique sont pond´r´s en fonction de la proximit´ s´mantique
              e      e                    ee                            e e
que peuvent avoir les deux nœuds correspondants. Le processus de d´sambigu¨
                                                                    e         ısation
propos´ s’accomplit en trois ´tapes :
      e                      e


    1) Extraction des concepts candidats : l’objectif de cette ´tape est d’ex-
                                                                   e
traire tous les termes du document susceptibles de repr´senter des concepts de la
                                                        e
                                                        13
ressource externe. Ces termes sont extraits en projetant le texte sur la ressource
externe. De ce fait, pour un texte donn´, seuls les mots ou groupes de mots recon-
                                       e
nus comme des entr´es dans la ressource externe sont conserv´s. De cette fa¸on, les
                     e                                        e            c
termes repr´sentant les concepts candidats sont extraits. Concernant la combinaison
            e
des mots, le terme le plus long qui d´note un concept est retenu. Une fois ces termes
                                     e
extraits du document, un poids leur est affect´ pour d´terminer leur importance dans
                                             e       e
ce document. Pour cela, Baziz a propos´ une variante du TF.IDF qui tient compte
                                      e
de la longueur du terme (en nombre de mots). Cette variante est appel´e CF.IDF et
                                                                     e
est calcul´e de la mani`re suivante :
          e            e


                                                              Length(ST )
                 cf (T ) = count(T ) +                                    .count(ST )   (2.2)
                                                              Length(T )
                                          ST ∈sub terms(T )




   o` T est un terme compos´ de n mots, Length(T) repr´sente le nombre de mots
    u                       e                         e
dans T et sub terms(T) le nombre de tous les sous-termes (qui doivent d´noter `
                                                                       e      a
leur tour des concepts de la ressource externe) d´riv´s de T : sous-termes de n-1
                                                   e e
mots, sous-termes de n-2, ... et tous les mots simple de T.

  13
       Faire un appariement entre le texte et les entr´es de la ressource externe.
                                                      e




                                                   29
Une fois les termes14 importants extraits du document, ils sont utilis´s pour
                                                                            e
construire le r´seau s´mantique de ce document. Comme chaque terme extrait peut
               e       e
avoir plusieurs sens, des mesures de similarit´ entre les diff´rents sens des termes sont
                                              e              e
calcul´es en vue de s´lectionner, pour chaque terme, le meilleur sens correspondant
      e               e
dans la ressource externe.


   2) Calcul de similarit´ entre concepts candidats : la mesure de similarit´
                            e                                                     e
entre deux nœuds repr´sente une valeur condens´e r´sultant de la comparaison de
                       e                        e e
deux sens possibles pour deux termes (donc deux concepts candidats) en utilisant la
distance entre les positions des deux concepts candidats dans la ressource externe,
ou encore les relations s´mantiques de celle-ci. Pour ce faire, Baziz emploie quatre
                         e
mesures de proximit´ s´mantique connues dans la litt´rature utilisant des structures
                   e e                               e
de r´seaux s´mantiques ou hi´rarchiques (Lch [22], Lin [50], Lesk [81] et Resnik [70]).
    e       e               e


   3) Construction du r´seau s´mantique : la derni`re ´tape de l’approche
                            e       e                    e e
concerne la construction du “meilleur” r´seau s´mantique qui repr´sente au mieux
                                        e      e                 e
le contenu du document. Pour chaque terme du document, un score C score est
calcul´ pour chacun des concepts candidats qu’il d´note. Le score d’un concept can-
      e                                           e
didat est obtenu en sommant les valeurs de similarit´ qu’il a avec les autres concepts
                                                    e
candidats (correspondant aux diff´rents sens des autres termes du document). Cela
                                 e
permet, selon l’auteur, de d´sambigu¨ les termes compte tenu du contexte du do-
                            e       ıser
cument. Les concepts candidats ayant les plus grands scores sont alors s´lectionn´s
                                                                        e        e
pour repr´senter les nœuds du “meilleur” r´seau s´mantique. Les liens (arcs) entre
         e                                e      e
ces diff´rents nœuds sont ´tiquet´s alors par les valeurs de similarit´ s´mantique
       e                  e     e                                    e e
d´j` calcul´es dans la phase 2. Enfin, les r´seaux s´mantiques des documents sont
 ea        e                               e       e
construits pour chacune des quatre mesures (Lch, Lin, Lesk et Rensik ). Lors de l’in-
dexation, les descripteurs des documents ` indexer sont alors les nœuds des r´seaux
                                         a                                   e
s´mantiques.
 e


    L’auteur ne pr´cise pas comment il proc`de pour construire les r´seaux s´mantiqu-
                  e                        e                        e       e
es des requˆtes. D’apr`s l’exemple pr´sent´, l’auteur ne fait pas de d´sambigu¨
           e           e             e    e                           e       ısation
des termes de la requˆte, mais d´tecte seulement le(s) concept(s) d´not´s par les
                        e         e                                     e e
termes les plus longs ` partir de la requˆte en utilisant WordNet.
                      a                  e
 14
      D´notant les concepts candidats.
       e



                                          30
Etant donn´ que les requˆtes sont courtes, il nous semble difficile de construire
               e            e
un r´seau s´mantique pour chacune d’entre elles. Voorhees, dans sa m´thode de
    e       e                                                           e
d´sambigu¨
 e        ısation, tient compte du contexte d’un mot pour le d´sambigu¨
                                                                e         ıser [95].
Elle a d´j` soulev´ le probl`me de la d´sambigu¨
        ea         e         e          e      ısation des requˆtes courtes. Elle a
                                                               e
constat´ qu’il est difficile de d´sambigu¨ les mots des requˆtes courtes, ainsi elle a
       e                       e       ıser                e
propos´ de d´sambigu¨ seulement les documents.
      e     e       ıser

      Baziz a ´valu´ son approche en utilisant une collection issue du projet Much-
              e    e
More15 [7]. Cette collection contient 7823 documents qui traitent du domaine m´dical
                                                                              e
et qui contiennent des r´sum´s d’articles extraits de SpringerLink. La collection
                           e    e
contient ´galement 25 topics ` partir desquels les requˆtes sont extraites. L’auteur a
         e                   a                         e
utilis´ WordNet en consid´rant ses synsets comme des concepts.
      e                  e


   Pour les requˆtes, seule la d´tection des termes et leur pond´ration avec CF.IDF
                e               e                               e
sont appliqu´es du fait de leur taille relativement r´duite.
            e                                        e


   Impact de l’indexation conceptuelle : Seuls les concepts (nœuds) des r´seaux
                                                                           e
s´mantiques construits sont utilis´s pour indexer les documents. Ces concepts sont
 e                                e
pond´r´s en utilisant la variante CF.IDF. Les r´sultats ont montr´ que cette m´thode
     ee                                        e                 e            e
ne permet pas d’am´liorer les r´sultats par rapport la m´thode classique bas´e sur
                     e           e                         e                   e
les mots cl´s. L’auteur justifie ce r´sultat par le fait que WordNet ne couvre pas
           e                         e
tout le vocabulaire utilis´ dans la collection (le taux de couverture repr´sente 87%
                          e                                               e
du vocabulaire des documents et 77% du vocabulaire utilis´ dans les requˆtes). Par
                                                             e              e
cons´quent, et afin de couvrir la totalit´ des documents/requˆtes lors de l’indexation,
    e                                   e                     e
Baziz a fait une indexation combin´e utilisant les mots cl´s et les concepts. De ce fait,
                                   e                      e
les concepts des r´seaux s´mantiques pond´r´s avec CF.IDF sont ajout´s aux mots
                  e        e                ee                            e
qui sont r´sultants de l’indexation classique. De cette mani`re, les performances du
          e                                                 e
syst`me en pr´cision ont ´t´ am´lior´es de 26%.
    e         e            ee    e e


    Impact de la pond´ration avec les C scores : Baziz a ´galement essay´ d’´valuer
                     e                                   e                 e e
l’impact de la pond´ration sur les performances de recherche. Ainsi, au lieu d’utiliser
                   e
le CF.IDF, il a utilis´ les C scores correspondant aux quatre mesures de similarit´
                      e                                                           e
 15
      http ://muchmore.dfki.de (visit´ le 15-12-2006).
                                     e



                                                 31
s´mantique utilis´es. Les documents et les requˆtes sont, dans ce cas, repr´sent´s ` la
 e               e                             e                           e    e a
fois par des concepts et des mots cl´s. Lors de l’indexation, si le concept est d´not´ par
                                    e                                            e e
un multi-mots, il est pond´r´ par le C score, sinon il est pond´r´ par le TF.IDF. Les
                            ee                                     ee
r´sultats ont montr´ que cette m´thode peut am´liorer les performances de recherche.
 e                  e             e                 e


   Tout comme Gonzalo [32], Baziz a propos´ une expansion de document en utili-
                                          e
sant les synsets de WordNet. Ainsi, chaque concept du r´seau s´mantique est ´tendu
                                                       e      e             e
par ses synonymes (les termes appartenant au mˆme synset de WordNet que lui).
                                                 e
Dans ce cas, deux pond´rations diff´rentes ont ´t´ test´es :
                        e           e          ee     e


   1) Les poids des concepts d’origine et de ceux qui sont issus de l’extension sont
calcul´s de la mˆme mani`re : les r´sultats restent globalement meilleurs compar´s
      e         e       e          e                                            e
` l’indexation.
a


   2) Les synonymes ajout´s ont un poids inf´rieur (multipli´ par 0.5) ` ceux des
                              e                   e              e          a
concepts d’origine : les r´sultats sont meilleurs compar´s ` l’indexation classique, ce
                          e                             e a
qui est est en accord avec Voorhees [96] o` un facteur α entre 0 et 1 est utilis´ pour
                                           u                                    e
pond´rer les mots ajout´s (il est report´ que la valeur optimale pour α est 0.5). Ceci
      e                 e               e
paraˆ valable aussi pour l’expansion de document [95].
     ıt


   Baziz a pu conclure que les poids utilisant les mesures de similarit´ donnent
                                                                       e
des pr´cisions meilleures que celles obtenues avec CF.IDF. Il a ´galement conclu
      e                                                           e
que, dans sa m´thode de d´sambigu¨
               e            e         ısation, le choix de la mesure de similarit´ a
                                                                                 e
un impact sur la pr´cision de la s´lection des concepts ad´quats. En particulier, la
                    e             e                         e
meilleure mesure, d’apr`s ses r´sultats, est celle de Resnik, suivie par les mesures de
                       e       e
Lin, Lch et Lesk.

Discussion

    La plupart des travaux rapport´s ici ne permettent pas une am´lioration signi-
                                   e                                 e
ficative des performances des SRI. Un des facteurs qui influencent les performances
est sans doute la qualit´ de la ressource externe utilis´e, et surtout sa couverture
                        e                               e
par rapport au vocabulaire du corpus. Dans son exp´rience, Baziz a rapport´ que
                                                     e                         e
WordNet ne couvre pas tout le vocabulaire utilis´ dans la collection (le taux de cou-
                                                e
verture repr´sente 87% du vocabulaire des documents et 77% du vocabulaire utilis´
            e                                                                   e


                                           32
dans les requˆtes) [4]. Par cons´quent, et afin de couvrir la totalit´ du vocabulaire
             e                  e                                   e
des documents/requˆtes, Baziz a fait une indexation combin´e utilisant les mots-cl´s
                     e                                         e                      e
et les concepts. C’est le seul moyen qui lui a permis d’avoir des r´sultats significatifs.
                                                                   e
Ces r´sultats sont confirm´s par Mihalcea et Moldovan, et Sch¨ tze et Pederson qui
      e                      e                                    u
ont constat´ qu’une indexation par concepts combin´e avec une indexation par mots-
            e                                       e
cl´s est plus performante qu’une indexation bas´e seulement sur les concepts [58][80].
  e                                            e


   Le deuxi`me facteur duquel d´pendent les performances est la qualit´ (pr´cision)
           e                   e                                      e    e
du d´sambigu¨
    e        ıseur. Afin de mesurer l’impact de la d´sambigu¨
                                                   e        ısation sur les perfor-
mances de recherche, il faut ´valuer le d´sambigu¨
                             e           e       ıseur utilis´ en termes de pr´cision.
                                                             e                e
Nous pr´sentons donc dans la suite, les travaux les plus repr´sentatifs qui se rap-
       e                                                        e
portent ` ce champ de recherche. Ceci nous permettra de comprendre davantage les
        a
raisons d’´checs des approches bas´es sur la d´sambigu¨
          e                       e           e       ısation des termes.



2.3.3     Evaluation de la d´sambigu¨
                            e       ısation
    L’impact de la d´sambigu¨
                      e       ısation des termes sur les performances des SRIs a fait
l’objet de plusieurs travaux de recherche. En voici deux parmi les plus repr´sentatifs.
                                                                            e

Usage d’une simulation d’ambigu¨ e ` base de pseudo-mots
                               ıt´ a

  Sanderson simule l’ambigu¨ e dans une collection de test en utilisant des pseudo-
                            ıt´
mots [104]. Un pseudo-mot de taille n a n sens diff´rents. Afin d’´viter de cr´er une
                                                  e             e           e
ambigu¨ e au niveau des pseudo-mots eux-mˆmes, un mot ne peut ˆtre membre que
       ıt´                               e                    e
d’un seul pseudo-mot [77][78].


   Dans ses exp´rimentations Sanderson a utilis´ la collection de cat´gorisation
                e                               e                    e
de texte Reuters (cr´´e par Hayes [35] et modifi´e par Lewis [49]). La principale
                    ee                         e
diff´rence entre la collection Reuters et les collections de test de RI est que Reuters
    e
ne dispose pas d’ensemble de requˆtes avec les documents pertinents correspondants.
                                  e
N´anmoins, les documents de Reuters sont balis´s par des codes de sujets assign´s
  e                                                e                                e
manuellement. Sanderson se sert de ces codes pour utiliser Reuters comme une col-
lection de test. Ainsi, il divise al´atoirement la totalit´ des documents de Reuters
                                    e                     e
en deux ensembles ´gaux : Q (l’ensemble des requˆtes) et T (l’ensemble des tests).
                   e                             e
Ensuite, l’ensemble S est d´fini comme l’ensemble de tous les codes de sujets qui ont
                           e

                                           33
´t´ assign´s ` au moins un document dans Q et un document de T. Par cons´quent,
ee        e a                                                           e
une recherche peut ˆtre effectu´e en s´lectionnant un des codes de sujets de S.
                   e          e      e

    Par exemple, pour effectuer une recherche pour le code C, Sanderson s´lectionne
                                                                        e
tous les documents dans Q qui sont ´tiquet´s par C. Ensuite, il effectue une r´injection
                                     e       e                                e
de pertinence (relevance feedback ) en utilisant les documents s´lectionn´s auparavant
                                                                e        e
pour avoir comme r´sultat le code C, plus des mots des documents s´lectionn´s. Le
                     e                                              e        e
r´sultat produit constitue une requˆte. De cette mani`re, Sanderson a la possibilit´
 e                                  e                 e                            e
de varier la taille de la requˆte en jouant sur le nombre de mots s´lectionn´s. La
                              e                                    e         e
requˆte est utilis´e pour effectuer une recherche sur les documents de l’ensemble T.
    e             e
Les documents qui sont ´tiquet´s par C sont consid´r´s pertinents pour cette requˆte.
                        e      e                   ee                            e
La liste des documents retrouv´s est examin´e pour voir ` quel rang apparaissent
                               e            e             a
les documents ´tiquet´s par C. En fonction de ce rang, des courbes rappel/pr´cision
               e     e                                                      e
sont g´n´r´es.
      e ee


    Sanderson compare les performances du SRI en effectuant d’abord des exp´riences
                                                                          e
sur la collection initiale, ensuite des exp´riences sur la mˆme collection en y intro-
                                           e                 e
duisant de l’ambigu¨ e ` l’aide des pseudo-mots. Ensuite, il ´tudie l’impact de la
                      ıt´ a                                       e
d´sambigu¨
 e         ısation des pseudo-mots, avec un d´sambigu¨
                                               e         ıseur fonctionnant ` diff´rents
                                                                            a    e
taux de pr´cision, sur les performances de la RI.
          e


   Suite ` ses exp´rimentations, Sanderson a pu conclure que quand le d´sambigu¨
          a        e                                                      e        ıseur
fonctionne ` un taux d’erreurs de 25%, les performances du SRI sont plus mauvaises
            a
que celles qui sont obtenues en utilisant la collection ambigu¨. Avec un taux d’erreurs
                                                              e
de 10%, les performances du syst`me sont similaires ` celles qui sont obtenues sur
                                   e                   a
la collection ambigu¨. Il conclut que la d´sambigu¨
                    e                     e       ısation peut ˆtre b´n´fique ` la RI
                                                               e     e e     a
quand les requˆtes sont courtes (un ou deux mots) et si le d´sambigu¨
                e                                             e         ıseur ne fait
pas beaucoup d’erreurs (moins de 10%). Ceci confirme la conclusion de Krovetz et
Croft [47] selon qui, l’ambigu¨ e des mots a des effets mineurs sur la pr´cision de la
                              ıt´                                       e
recherche.

    Le fait que l’ambigu¨ e des mots pose probl`mes au SRI seulement quand les
                        ıt´                    e
requˆtes sont courtes confirme vraisemblablement que les strat´gies de recouvrement
    e                                                        e
(matching) entre la requˆte et le document effectuent d´j` une d´sambigu¨
                         e                            ea       e         ısation im-
plicite.

                                          34
Nous pensons que la d´sambigu¨
                           e        ısation partielle est une faiblesse des exp´riences
                                                                               e
de Sanderson. Par exemple, sa d´sambigu¨
                                 e         ısation du mot spring/bank donne le mot
“bank ” ; or ce dernier mot peut ˆtre employ´ dans plus qu’un sens dans le texte de
                                 e            e
la collection.

Evaluation de l’impact d’un d´sambigu¨
                             e       ıseur bas´ sur WordNet
                                              e

   Gonzalo et ses coll`gues proposent d’´tudier le b´n´fice d’une recherche ` par-
                      e                 e           e e                    a
tir d’une collection de documents compl`tement d´sambigu¨ ee [32]. Pour ce faire,
                                        e       e       ıs´
ils ont transform´ une partie du corpus SEMCOR en une collection de test de RI.
                  e
SEMCOR, un sous-ensemble du corpus Brown, est d´sambigu¨ e manuellement avec
                                                 e        ıs´
des synsets de WordNet. La collection ainsi construite permet d’´valuer un SRI
                                                                e
ind´pendamment des outils de d´sambigu¨
   e                          e        ısation. Elle permet ´galement d’´valuer
                                                             e          e
l’impact de la d´sambigu¨
                e       ısation des termes sur les performances des SRI et ce en in-
troduisant volontairement des erreurs de d´sambigu¨
                                          e         ısation (` diff´rents taux). Ainsi,
                                                             a    e
les auteurs peuvent d´terminer jusqu’` quel taux d’erreurs le SRI donne de meilleurs
                     e               a
r´sultats.
 e


   Pour construire la collection test, les auteurs ont pris un ensemble de documents
textuels de SEMCOR. A partir de chaque document, ils ont extrait des fragments de
texte. Chaque fragment contient une portion coh´rente de texte. En tout, 117 frag-
                                                  e
ments constituent leur collection test avec en moyenne 1331 mots par fragment. Pour
chaque fragment, un r´sum´ d´crivant le contenu th´matique a ´t´ ´crit manuelle-
                       e    e e                      e           eee
ment. Afin de d´sambigu¨
                e       ıser les termes des r´sum´s, les auteurs les ont ´tiquet´s
                                             e   e                       e      e
manuellement par des synsets de WordNet. Plus pr´cis´ment, les auteurs utilisent
                                                   e e
les num´ros de sens dans WordNet pour ´tiqueter un terme. Chaque ´tiquette est
       e                                 e                           e
compos´e de la cat´gorie grammaticale (Part Of Speech ou POS), suivie du fichier
      e           e
de WordNet auquel appartient le terme, suivie du num´ro du sens dans ce fichier.
                                                     e
Ainsi, le terme “debate” du fichier 10 de WordNet ayant le sens 1 sera ´tiquet´ par
                                                                          e      e
“debate%1 :10 :1 : :”. Dans ce cas, le sens des termes est consid´r´, mais les termes
                                                                 ee
synonymes ne sont pas encore identifi´s. Pour ce faire, les auteurs substituent chaque
                                      e
sens par l’identifiant du synset qui lui est associ´. Ainsi, “debate%1 :10 :1 : :” sera
                                                  e
substitu´ par l’identifiant du synset “argument, debate” (a discussion in which rea-
        e
sons are advanced for and against some proposition or proposal ; “the argument over


                                          35
foreign aid gœs on and on”).


   Les r´sum´s ont chacun une taille moyenne de 22 mots. Ils deviennent les requˆtes
        e     e                                                                 e
pour la collection. Par cons´quent, pour chaque requˆte, il y a exactement une seule
                            e                       e
r´ponse pertinente (le fragment pour lequel le r´sum´ a ´t´ ´crit).
 e                                              e   e eee


   Dans leur ´tude exp´rimentale, les auteurs ont utilis´ le syst`me SMART [74]
               e         e                                  e        e
avec trois espaces d’indexation diff´rents : les mots initiaux des documents, les mots-
                                   e
sens (word-senses) correspondant aux termes des documents (c’est ` dire, la version
                                                                       a
des documents d´sambigu¨ es manuellement), et les synsets de WordNet correspon-
                e       ıs´
dant aux termes des documents. En se basant sur ces trois espaces d’indexation, les
auteurs ont men´ 6 exp´riences :
               e      e


1. Les documents et les requˆtes sont repr´sent´s par des mots simples ;
                            e             e    e
2. Les documents et les requˆtes sont repr´sent´s par ce que les auteurs appellent
                              e           e    e
     les mots-sens (ex. debate et argument seront substitu´s respectivement par
                                                           e
     “debate%1 :10 :1 : :” et “argument%1 :10 :3 : :)” ;
3. Les documents et les requˆtes sont repr´sent´s par les synsets de WordNet. En
                             e              e    e
     d’autres termes, les mots-sens ´quivalents seront repr´sent´s par un seul synset
                                    e                      e    e
     (ex. “debate%1 :10 :1 : :” et “argument%1 :10 :3 : :)” seront repr´sent´s par
                                                                       e    e
     l’identifiant n04616654 du synset correspondant) ;
4. Diff´rentes versions de la collection sont produites en introduisant volontairement
      e
     des erreurs de d´sambigu¨
                     e          ısation ` diff´rents taux : 5%,10%,20%,30% et 60% ;
                                        a    e
5. Pour compl´ter l’exp´rience pr´c´dente, une version de la collection a ´t´ produite
               e         e         e e                                     ee
     en utilisant tous les sens possibles (dans leurs versions mot-sens et synset) pour
     chaque terme. Ceci repr´sente une limite pour la d´sambigu¨
                               e                       e         ısation automa-
     tique : on ne doit pas d´sambigu¨ si la performance est plus mauvaise que si
                             e       ıser
     l’on consid`re tous les sens possibles ;
                e
6. Enfin, les auteurs ont produit une version non-d´sambigu¨ ee pour les requˆtes
                                                  e       ıs´               e
     (avec les deux variantes mots-sens et synsets).


   Les r´sultats ainsi obtenus (cf. tableau 2.1) repr´sentent la pr´cision pour les
        e                                            e             e
documents retourn´s en premi`re position. Ils montrent que les meilleurs r´sultats
                   e          e                                            e

                                          36
Tab. 2.1 – Pourcentage des documents corrects retrouv´s en premi`re position [32]
                                                     e          e
          Exp´rimentation
             e                                  % de documents correct re-
                                                trouv´s en premi`re position
                                                     e          e
          Indexation (Id.) avec les synsets     62.0
          Id. avec les mots-sens                53.2
          Id. avec les mots simples             48.0
          Id. avec les synsets avec 5% de       62.0
          taux d’erreurs
          Id. avec 10% de taux d’erreurs        60.8
          Id. avec 20% de taux d’erreurs        56.1
          Id. avec 30% de taux d’erreurs        54.4
          Id. avec tous les synsets possibles   52.6
          (pas de d´sambigu¨
                    e         ısation)
          Id. avec 60% de taux d’erreurs        49.1
          Id. avec les synsets avec des         48.5
          requˆtes non d´sambigu¨ ees
               e          e         ıs´
          Id. avec les mots-Sens avec des       40.9
          requˆtes non d´sambigu¨ ees
               e          e         ıs´


sont obtenus avec l’indexation par synsets o` 62% des documents pertinents ont ´t´
                                            u                                   ee
retrouv´s en premi`re position. Ceci repr´sente une am´lioration de 29% par rapport
       e          e                      e            e
au r´sultat obtenu avec l’indexation par des mots simples qui est de 48%.
    e


   De son cˆt´, l’indexation par mots-sens a permis de retourner 53.2% de docu-
            oe
ments pertinent en premi`re position, am´liorant ainsi les performances de 11% (par
                        e               e
rapport aux mots simples).


  Les r´sultats obtenus avec les synsets sont meilleurs que ceux obtenus avec les
        e
mots-sens. Ceci peut ˆtre expliqu´ par le fait que la repr´sentation par synset est
                     e           e                        e
plus riche vu qu’un synset contient les synonymes d’un mot-sens.


   Mˆme avec une indexation par les synsets et sans d´sambigu¨
     e                                                    e        ısation manuelle
(chaque terme est repr´sent´ par tous les synsets possibles qui correspondent ` ses
                        e    e                                                a
diff´rents sens), les r´sultats (52.6%) sont sup´rieurs ` ceux qui sont obtenus par
   e                  e                        e       a
la repr´sentation par mots simples (48%). Avec une m´thode aussi simpliste, une
       e                                                   e
interpr´tation possible de ce r´sultat est que la prise en compte des synonymes, qui
       e                       e
sont regroup´s dans un synset, a un impact positif dans cette situation de recherche.
            e


                                          37
En analysant l’impact de la d´sambigu¨
                                   e        ısation sur les performances du SRI, Gon-
zalo et al. ont pu conclure que, dans le cas de l’indexation par des synsets, moins de
10% d’erreurs de d´sambigu¨
                     e        ısation n’affecte pas sensiblement les performances. Et
` partir de 10% d’erreurs, les performances commencent ` se d´grader. Ces conclu-
a                                                        a     e
sions sont en accord avec celles de Sanderson [77]. N´anmoins, l’indexation par des
                                                     e
synsets donne de meilleurs r´sultats que ceux de l’indexation par mots simples et
                             e
ce jusqu’` un taux d’erreurs de 30%. De 30% ` 60%, les r´sultats ne montrent pas
         a                                     a           e
des diff´rences significatives entre l’indexation par synsets et l’indexation par mots
       e
simples. Cette conclusion n’est pas en accord avec celle de Sanderson [77] qui pr´tend
                                                                                 e
qu’il vaut mieux d´sambigu¨ avec au moins une pr´cision de 90% pour avoir des
                   e        ıser                        e
bonnes performances. Selon Gonzalo et al., la principale diff´rence entre leur travail
                                                            e
et celui de Sanderson [77] est le langage d’indexation utilis´. Tandis que Gonzalo
                                                             e
et al. utilisent des synsets qui regroupent les synonymes des mots-sens, Sanderson
utilise des pseudo-mots ambigus cr´´s artificiellement (tels que “bank /spring”). Il
                                  ee
n’est pas garanti que ces pseudo-mots se comportent comme de vrais mots ambi-
gus. D’ailleurs, par d´sambigu¨
                      e       ısation, Sanderson veut dire s´lectionner - ` partir de
                                                            e             a
l’exemple - bank ou spring qui restent eux-mˆmes des mots ambigus.
                                             e

Discussion

    Comme not´ par plusieurs chercheurs ([77], [47]), la principale difficult´ pour
                e                                                            e
am´liorer les performances de recherche est due ` l’inefficacit´ des d´sambigu¨
   e                                              a            e      e        ıseurs
utilis´s. En effet, il est judicieux de penser qu’en utilisant un d´sambigu¨
      e                                                           e       ıseur par-
fait (ayant une pr´cision de 100%), les performances de recherche seront au moins
                   e
´gales ` celles d’une indexation bas´e sur les mots-cl´s. Les ´tudes men´es jusqu’`
e      a                            e                 e       e         e         a
pr´sent ont montr´ que, pour am´liorer les performances de recherche, l’indexation
  e                e              e
ne doit pas ˆtre seulement bas´e sur les concepts mais ´galement sur les mots, et ce
            e                 e                        e
en grande partie ` cause des erreurs provoqu´es par les d´sambigu¨
                  a                          e           e        ıseurs.


   Nous pouvons constater, ` partir des travaux existants, que la prise en compte du
                           a
contenu s´mantique des documents (requˆtes) passe seulement par leur repr´sentation
         e                              e                                  e
par des concepts au lieu de simples mots. En effet, les documents (requˆtes) dans
                                                                         e
ce cas sont consid´r´s comme des sacs de concepts, et les relations s´mantiques qui
                  ee                                                 e
peuvent exister entre ces concepts ne sont pas exploit´es. C’est pourquoi les docu-
                                                      e


                                         38
ments traitant du mˆme th`me que celui de la requˆte ne pourront pas ˆtre retrouv´s
                   e     e                       e                   e           e
avec ces approches s’ils ne partagent pas les mˆmes concepts avec cette requˆte. Pour
                                               e                            e
r´soudre ce probl`me, certains travaux ont propos´ d’utiliser des ressources externes
 e                e                               e
pour enrichir la repr´sentation du contenu des requˆtes. Ces travaux sont bas´s sur
                     e                               e                         e
l’expansion de requˆtes et visent ` avoir une repr´sentation ´tendue du contenu de
                   e              a               e          e
la requˆte afin d’augmenter les chances de sa correspondance avec les documents qui
       e
lui sont pertinents. Dans la section suivante, nous pr´sentons les travaux les plus
                                                      e
repr´sentatifs qui traitent cet aspect.
     e


2.4      Usage des ressources externes pour l’expan-
         sion des requˆtes
                      e
    Les techniques d’expansion de requˆtes sont apparues depuis plus de 30 ans [76].
                                       e
En proc´dant par une expansion de requˆtes, on peut augmenter le rappel et/ou la
         e                                e
pr´cision de recherche. Les techniques d’expansion de requˆtes peuvent ˆtre r´parties
  e                                                       e            e     e
en deux cat´gories :
           e


- Expansion bas´e sur les connaissances pr´sentes dans le corpus : cette technique uti-
                 e                          e
     lise des donn´es statistiques extraites de la collection ´tudi´e (ex. co-occurrences
                   e                                          e    e
      de termes [65], th´saurus de similarit´ [68], etc.). Elle peut ˆtre ´galement bas´e
                        e                   e                        e e                e
      sur l’injection de pertinence [14][33][84][102]. L’´tape de d´sambigu¨
                                                          e          e         ısation des
      mots n’est pas indispensable pour que cette technique fonctionne. Cette ap-
      proche n’a pas rencontr´ beaucoup de succ`s ; ainsi, Peat a pu conclure que les
                             e                 e
      requˆtes ´tendues avec cette m´thode ne sont pas meilleures que les requˆtes
          e    e                    e                                           e
      d’origine, et que des requˆtes ´tendues avec des mots choisis al´atoirement
                                e    e                                    e
      donnent des r´sultats parfois meilleurs [65]. Mais avec la disponibilit´ des res-
                    e                                                        e
      sources externes, la m´thode suivante a vu le jour ;
                            e


- Expansion bas´e sur les ressources externes : [5][7][59][96] utilisent WordNet pour
                 e
     ajouter des termes qui sont s´mantiquement li´s ` ceux pr´sents dans la requˆte
                                  e                 e a          e                 e
     initiale. Cette technique demande une d´sambigu¨
                                             e          ısation des mots de la requˆte
                                                                                   e
      initiale. Elle peut ˆtre utile si la d´sambigu¨
                          e                 e       ısation s’av`re performante, notam-
                                                                e
      ment dans le cas des requˆtes courtes qui sont difficiles ` d´sambigu¨ et qui
                                   e                              a e        ıser


                                           39
exigent donc une expansion [47][78].


   Ces deux techniques peuvent ˆtre combin´es [11][62]. Par exemple, Bodner et
                                e          e
Song utilisent deux sources de connaissances diff´rentes. La premi`re refl`te les
                                                e                e      e
connaissances sp´cifiques au domaine d´crit ` travers la collection utilis´e. Il s’agit
                 e                     e    a                            e
d’une base de connaissances construite automatiquement en utilisant une m´thodee
statistique. La deuxi`me contient des connaissances universelles et est utilis´e pour
                     e                                                        e
compl´ter les lacunes de la premi`re base. Il s’agit d’une adaptation manuelle de
     e                           e
WordNet [11].


2.4.1     Expansion de requˆtes bas´e sur les relations lexico-
                           e       e
          s´mantiques de WordNet
           e
    Voorhees examine l’utilit´ de l’expansion de requˆte par l’utilisation des rela-
                             e                         e
tions lexicales-s´mantiques dans une grande collection contenant plusieurs domaines.
                 e
Elle utilise la collection TREC [34] o` chaque requˆte contient un ensemble de
                                      u            e
champs identifi´s par des balises sp´ciales. Le champ Narrative fournit une des-
                e                   e
cription d´taill´e de ce que constitue un document pertinent ; le champ Concepts
          e     e
contient des mots et des expressions qui sont li´s au th`me de la requˆte. Le champ
                                                e       e             e
Description contient une courte description de chaque requˆte g´n´ralement sous la
                                                            e    e e
forme d’une simple phrase ; le champ Topic contient un r´sum´ de la requˆte ; le
                                                          e    e            e
dernier champ d´signe le domaine auquel appartient la requˆte (cf. figure 2.2).
               e                                           e


    Elle ajoute un nouveau champ ` la requˆte : une liste de synsets de WordNet,
                                  a        e
s´lectionn´s ` la main, contenant des mots en rapport avec le sujet de la requˆte
 e        e a                                                                 e
(Topic). Le but est de s´lectionner, pour une requˆte particuli`re, les synsets qui ac-
                        e                         e            e
centuent les concepts importants du sujet. Le choix des synsets a ´t´ fait par l’auteur
                                                                  ee
en se basant sur sa propre compr´hension de la requˆte enti`re et sur le fait que les
                                    e                  e   e
synsets s´lectionn´s seront utilis´s pour l’expansion.
         e        e               e


   Par exemple, concernant la requˆte 122, le synset drug a plusieurs descendants
                                  e
dans WordNet ` travers la hi´rarchie is-a (pharmaceutical, stimulants, intoxicants,
              a             e
sedatives, etc.) mais qui ne sont pas tous reli´s au concept “cancer fighting”. Dans
                                                e
ce cas, Voorhees ajoute seulement le synset qui est en relation avec les concepts de
la requˆte, c.-`-d. le synset pharmaceutical . La liste compl`te des synsets ajout´s `
        e      a                                             e                    e a

                                          40
Fig. 2.2 – Enonc´ de la requˆte 122 de la collection TREC-1
                           e           e

la requˆte 122 est : cancer , skin cancer , and pharmaceutical .
       e


   Rien n’a ´t´ ajout´ aux requˆtes dont les concepts n’ont pas des synsets corres-
            ee       e         e
pondants dans WordNet.

   Une fois les requˆtes ´tendues par des synsets, le reste du processus est auto-
                    e    e
matique. Les champs de la requˆte originale sont d’abord index´s par le syst`me
                              e                               e             e
SMART [13]. Le processus d’expansion est lanc´ quand le champ de synsets est at-
                                             e
teint.

   Pour un synset donn´, il y a un large choix de mots ` ajouter a un vecteur de
                      e                                a         `
requˆte : on peut ajouter au choix seulement les synonymes pr´sents dans le synset,
    e                                                           e
ou bien tous les descendants pr´sents dans la hi´rarchie is-a, ou bien tous les syno-
                               e                e
nymes pr´sents dans les synsets qui ont un lien quelconque avec le synset original,
          e
etc. Le processus d’expansion est param´tr´ pour faciliter la comparaison de l’effi-
                                        e e
cacit´ d’une vari´t´ de ces sch´mas. Tous les synonymes pr´sents dans les synsets
     e           ee            e                            e
ajout´s ` la requˆte sont utilis´s lors du processus d’expansion.
     e a         e              e


    Voorhees utilise le mod`le vectoriel ´tendu pr´sent´ par Fox [29]. Chaque vecteur
                           e             e        e    e
de requˆte est compos´ de sous-vecteurs correspondant ` diff´rents types de concepts
       e                e                                a    e
(appel´s ctypes) o` ctype correspond ` une relation lexicale. Un vecteur de requˆte
      e            u                    a                                         e


                                          41
a potentiellement onze ctypes comme par exemple : un pour les mots originaux de
la requˆte, un pour les synonymes, un pour chaque type de relation pr´sent dans la
       e                                                             e
cat´gorie des noms de WordNet, etc.
    e


   Lors des exp´rimentations, l’efficacit´ du syst`me a ´t´ ´valu´e en fonction des
                 e                        e         e      eee        e
types de relations utilis´s pendant l’expansion et le poids relatif donn´ ` chaque type
                         e                                              ea
de relation (les αi dans la fonction de similarit´). Quatre types d’expansion ont ´t´
                                                 e                                ee
effectu´s :
       e


  1. Seulement par les synonymes ;
  2. Par synonymes plus tous les descendants dans la hi´rarchie is-a ;
                                                       e
  3. Par synonymes plus les parents plus tous les descendants dans la hi´rarchie
                                                                        e
     is-a ;
  4. Par synonymes plus tous les synsets li´s directement au synset donn´. La va-
                                           e                            e
     leur de α du sous-vecteur des mots originaux est plus ´lev´ que celles des α des
                                                           e e
     autres sous-vecteurs.


   Les r´sultats ont clairement montr´ qu’aucune des strat´gies d’expansion n’am´liore
        e                            e                    e                     e
de mani`re significative les performances de recherche compar´es aux requˆtes non
        e                                                       e           e
          ´
´tendues. Etant donn´ que l’expansion de requˆte telle qu’elle est utilis´e ici est
e                      e                        e                          e
une m´thode qui sert ` am´liorer le rappel, il n’est pas ´tonnant que les requˆtes
      e                 a    e                            e                     e
longues b´n´ficient moins du processus d’expansion que les requˆtes courtes. Voo-
         e e                                                      e
rhees a mentionn´ que certaines requˆtes courtes ont pu b´n´ficier du processus
                 e                    e                      e e
d’expansion. Supposant que les requˆtes courtes ont le potentiel d’ˆtre sensiblement
                                   e                               e
am´lior´e par l’expansion, Voorhees a essay´ de voir si ce potentiel peut ˆtre r´v´l´
   e e                                     e                              e     e ee
par un proc´d´ compl`tement automatique. Ainsi, elle a propos´ un algorithme d’ex-
           e e       e                                         e
pansion automatique. De nouveau, les r´sultats n’ont pas ´t´ satisfaisants.
                                      e                  ee

   Voorhees signale que les requˆtes longues sont tr`s sensibles ` l’expansion et
                                e                   e            a
provoquent des r´sultats n´gatifs. En effet, si l’expansion n’est pas contrˆl´e, elle
                 e         e                                              oe
devient “agressive” et produit un bruit dans la requˆte. Dans cette direction, Qiu
                                                     e
et Frei [68] ont r´v´l´ comment une expansion peut ˆtre utile quand la requˆte est
                  e ee                              e                      e
´tendue en choisissant soigneusement les mots ` ajouter. Contrairement aux autres
e                                             a
m´thodes, leurs requˆtes sont ´tendues en ajoutant les mots qui sont similaires au
  e                   e       e

                                          42
concept de la requˆte 16 , plutˆt que de choisir les mots qui sont similaires aux mots
                  e            o
de la requˆte. Ils proposent un mod`le d’expansion de requˆtes bas´ sur un th´saurus
          e                        e                      e       e          e
de similarit´ construit automatiquement. Ce th´saurus refl`te la connaissance du
             e                                   e           e
domaine d´crit dans la collection de documents ` partir de laquelle il est construit.
           e                                     a
Il est repr´sent´ par une matrice contenant des similarit´s mot-mot. Le principe de
           e    e                                        e
leur m´thode peut ˆtre compar´ ` la traduction d’un texte d’une langue naturelle
        e            e          ea
vers une autre : la consultation des dictionnaires pour un mot ne donne pas souvent
la r´ponse finale. Au contraire, le traducteur qui connaˆ la signification du texte
    e                                                     ıt
doit choisir le mot appropri´ ` partir d’une liste enti`re de traductions possibles.
                              e a                       e
Les exp´rimentations qu’ils ont men´es sur les collections MED, CACM et NPL
       e                           e
ont donn´ de bons r´sultats. Les performances ont ´t´ am´lior´es respectivement
         e          e                               ee     e e
de 18.31%, 22.85% et de 29.21%. Dans cette mˆme id´e d’´tendre les requˆtes d’une
                                               e     e    e                e
mani`re “contrˆl´e”, Baziz prend en compte le contexte de toute la requˆte et suppose
     e        oe                                                       e
que mˆme si chaque mot dans une requˆte est individuellement ambigu, l’ensemble
       e                               e
des mots de cette requˆte pris ensemble contribue ` exprimer une mˆme id´e (sens)
                      e                           a               e     e
[4][6].


2.4.2        Utilisation de WordNet pour une expansion “guid´e”
                                                            e
             de requˆtes
                    e
      La d´marche d’expansion de requˆte suivie par Baziz consiste d’abord ` d´tecter
          e                          e                                     a e
les termes de la requˆte qui renvoient ` des concepts d’une ressource externe, puis,
                     e                  a
de les ´tendre par des termes repr´sentant d’autres concepts proches de ceux de la
       e                            e
requˆte. Ces termes sont identifi´s grˆce aux liens s´mantiques entre concepts qu’offre
     e                          e     a             e
l’ontologie. Baziz rapporte que la d´sambigu¨
                                    e       ısation s’effectue en mˆme temps que
                                                                    e
l’expansion, en prenant en compte le contexte de la requˆte et en cherchant ` iden-
                                                        e                   a
tifier les concepts correspondant aux plus longs termes que l’on peut former ` partir
                                                                            a
des mots de la requˆte [4][6].
                     e


      Baziz a ´tudi´ trois points importants lors du processus d’expansion de requˆte :
              e    e                                                              e


i) L’apport de chaque type de relation s´mantique ;
                                        e
ii) L’impact de la pond´ration des termes ajout´s ;
                       e                       e
 16
      Qui veut dire la requˆte enti`re (selon la propre terminologie des auteurs).
                           e       e


                                                  43
iii) La quantit´ de termes ` ajouter.
               e           a


   En ´tudiant l’usage de diff´rents types de relations s´mantiques pour l’expansion
       e                      e                         e
de requˆte, Baziz a propos´ les trois m´thodes suivantes :
       e                  e            e


   1) L’expansion aveugle : chaque terme de la requˆte est ´tendu en utilisant les
                                                        e     e
diff´rentes relations s´mantiques. Le r´sultat de cette expansion est un ensemble de
   e                  e               e
concepts candidats (nœuds possibles) reli´s au terme. Une expansion aveugle consiste
                                          e
alors ` ajouter ` la requˆte initiale tous les concepts possibles pour toutes les rela-
       a        a        e
tions.


   Une autre mani`re de proc´der est de faire une s´lection des concepts qui sont li´s
                   e           e                     e                              e
aux termes de la requˆte initiale. Ainsi, Baziz a propos´ une technique qui permet de
                     e                                  e
s´lectionner le “meilleur” concept ` ajouter au moment de l’expansion. En se basant
 e                                 a
sur cette technique, il a propos´ deux m´thodes d’expansion :
                                e        e


   2) L’expansion mod´r´e : ajouter pour chaque terme de la requˆte, le meilleur
                        e e                                      e
(un seul donc) concept par type de relation. Dans ce cas, le nombre de concepts
ajout´s est ´gal au nombre de termes dans la requˆte. Cette approche traduit l’hy-
     e      e                                         e
poth`se que l’utilisateur utilise diff´rents termes pour faire allusion ` plusieurs concepts
    e                                e                                 a
diff´rents dans sa requˆte.
   e                  e

   3) L’expansion prudente : ajouter pour toute la requˆte, le meilleur (un seul
                                                       e
donc) concept (pour chaque type de relation). Cette approche traduit l’hypoth`se
                                                                               e
que mˆme si les termes de la requˆte peuvent d´crire individuellement des concepts
      e                          e            e
diff´rents, ensemble ils contribuent ` d´noter un seul concept (id´e). Cette id´e a
   e                                 a e                           e             e
´t´ d´velopp´e par Qiu et Frei qui repr´sentent le contenu de la requˆte par un seul
ee e         e                          e                             e
concept qu’ils app`llent “concept virtuel” [68]. Cependant Qiu et Frei ne consid`rent
                  e                                                             e
pas diff´rents types de relations vu qu’ils utilisent un th´saurus de similarit´ mot-mot.
       e                                                  e                   e


    Ces trois m´thodes d’expansion ont ´t´ ´valu´es pour mesurer leurs impacts sur
               e                        eee      e
les performances de recherche. Ainsi, Baziz a utilis´ la collection CLEF-2001. Il a
                                                    e
´galement utilis´ WordNet pour la d´sambigu¨
e                e                    e        ısation et l’utilisation des relations
s´mantiques. Les r´sultats pr´sent´s montrent que les trois m´thodes d’expansion
 e                e          e    e                          e


                                           44
am´liorent les performances de recherche. Les meilleurs r´sultats ont ´t´ obtenus
  e                                                      e            ee
avec l’expansion prudente (+55%). Ceci confirme la conclusion tir´e par Qiu et Frei,
                                                                e
` savoir qu’une expansion peut ˆtre utile si la requˆte est ´tendue en choisissant
a                               e                   e       e
soigneusement les mots ` ajouter [68].
                       a


   Baziz a ´galement ´tudi´ l’impact de la pond´ration des termes ajout´s ` la
           e         e    e                    e                       e a
requˆte. Les r´sultats obtenus montrent qu’une pond´ration uniforme (´gale ` 1) des
    e         e                                      e                 e    a
termes d’origine et des termes ajout´s d´grade les performances de recherche de plus
                                    e e
de 80%. Baziz a ´galement remarqu´ que les performances s’am´liorent sensiblement
                 e                  e                          e
d`s qu’il affecte aux termes ajout´s un poids inf´rieur ` celui des termes d’origine.
 e                               e              e      a
Par exemple, en affectant le poids 0.9 aux termes ajout´s, les performances ont aug-
                                                      e
ment´ de plus de 60%. Tout comme Voorhees [94], Baziz a remarqu´ l’existence d’un
     e                                                              e
poids optimal ` utiliser pour les termes ajout´s (0.5) ce qui a permis d’am´liorer les
              a                               e                            e
performances de 78%. Voorhees a trouv´ la mˆme valeur (0.5) mais il ne s’agit pas
                                         e      e
du poids des termes ajout´s mais plutˆt d’un nombre r´el qui refl`te l’importance de
                         e           o               e          e
termes ajout´s relativement aux termes d’origine.
             e


    Finalement Baziz a ´tudi´ l’impact du type de relation utilis´e lors de l’expan-
                       e    e                                    e
sion sur les performances de recherche. Ainsi, il a pu conclure que l’apport de la
relation d’holonymie, est le moins important, puis vient celui de sa relation inverse,
la m´ronymie. La relation d’hyponymie qui exprime la sp´cialisation a un meilleur
     e                                                     e
apport mais vient derri`re sa relation inverse l’hyperonymie. Cette derni`re a re-
                        e                                                e
tourn´ un r´sultat sup´rieur ` celui de la synonymie.
     e     e          e      a


    L’effet de plusieurs expansions successives d’une requˆte s’est r´v´l´ n´gatif sur la
                                                         e          e ee e
pr´cision du syst`me. En ´tudiant le nombre de termes ` ajouter ` une requˆte lors
  e              e         e                             a           a         e
de l’expansion, Baziz a conclu que le nombre de termes, ` retenir dans le processus
                                                         a
d’expansion, doit ˆtre limit´ pour ne pas engendrer un bruit trop important.
                  e         e


2.4.3     Discussion
   Nous avons montr´ que l’expansion de requˆte peut ˆtre un moyen efficace pour
                     e                        e       e
avoir une repr´sentation riche du contenu de la requˆte, et am´liorer ainsi la per-
              e                                     e          e
formance du syst`me. Le point cl´ de la r´ussite de cette m´thode r´side dans le
                 e                e       e                  e       e
choix “prudent” des concepts ` ajouter ` la requˆte initiale. En effet, une expansion
                             a         a        e


                                          45
“aveugle” ne fait que d´grader les r´sultats en ajoutant du bruit ` la description
                       e            e                             a
de la requˆte. Malgr´ l’apport des approches existantes, une limite persiste encore.
          e          e
En effet, mˆme apr`s l’expansion, la requˆte est toujours consid´r´e comme un sac
            e      e                     e                      ee
de concepts. Ceci ne favorise pas la r´solution d’une requˆte pr´cise qui dispose
                                       e                    e     e
d’une structure s´mantique complexe, et demande ainsi un traitement sp´cifique
                 e                                                          e
pour mettre en exergue tous les aspects li´s ` son contenu s´mantique. Nous sommes
                                          e a               e
convaincus que la prise en compte des dimensions de domaine est une solution pos-
sible pour satisfaire des requˆtes pr´cises. C’est pourquoi nous ´tudions, dans la
                               e      e                              e
section suivante, les travaux les plus repr´sentatifs qui s’int´ressent ` la notion de
                                           e                   e        a
dimensions et qui sont proches de notre probl´matique.
                                             e


2.5        Dimensions & RI
    A notre connaissance, les travaux qui s’int´ressent ` la notion de dimensions sont
                                               e        a
li´s principalement aux d´veloppements d’outils de navigation dans des bases de
  e                        e
documents. Ces outils sont bas´s sur le paradigme de la recherche dite “bas´e sur
                                 e                                              e
les facettes” (faceted search) [36][54][66][82][105] ou “bas´e sur les vues” (view-based
                                                            e
search) [52][53]. Dans la litt´rature, les termes “facette”, “vue”, et “dimension” sont
                              e
utilis´es pour d´signer la mˆme chose. La recherche bas´e sur les facettes est un
      e         e           e                          e
paradigme qui a ´t´ propos´ ` la fin des ann´es 1920, et qui retrouve un regain
                  ee        e a              e
d’int´rˆt (durant la conf´rence SIGIR 2006, il a ´t´ organis´ un atelier17 sur ce
      ee                  e                      ee         e
th`me). Dans la suite, nous d´crivons ce paradigme et nous examinons quelques
  e                             e
travaux qui s’inscrivent dans ce champ de recherche.


2.5.1       Le paradigme de la recherche bas´e sur les facettes
                                            e
    La recherche multi-facettes est un paradigme bas´ sur la classification ` facettes
                                                      e                    a
qui a ´t´ ´labor´e par le math´maticien et biblioth´caire S. R. Ranganathan. Celui-ci
      e ee      e             e                    e
a propos´ ce paradigme comme r´ponse au probl`me suivant : “Comment ranger les
          e                       e              e
livres dans une biblioth`que quand on sait qu’il y en a des grands et des petits, des
                         e
livres d’histoire et des romans, des auteurs qui ont ´crit les deux et des collections
                                                     e
reli´es qui traitent de tout et que l’on doit y ajouter les dossiers correspondant aux
    e
diff´rents sujets ?”
    e

 17
      SIGIR’2006 Workshop on Faceted Search : http ://facetedsearch.googlepages.com/


                                               46
D’un point de vue ´diteur, l’id´e derri`re le paradigme de recherche multi-facettes
                         e            e       e
est qu’un document, pour ˆtre class´, poss`de g´n´ralement diff´rentes caract´ristiques
                          e         e     e     e e            e            e
(facettes), chacune peut ˆtre d´crite par une hi´rarchie de concepts diff´rente [72].
                          e     e                 e                       e
De cette mani`re, les r´sultats de recherche (les documents) peuvent ˆtre organis´s `
               e       e                                             e            e a
travers des facettes (g´n´ralement) orthogonales. Par exemple, dans une biblioth`que
                       e e                                                        e
num´rique, les r´sultats peuvent ˆtre group´s par auteur, ann´e de publication, th`me,
    e            e               e         e                 e                    e
etc.

       D’un point de vue utilisateur, l’id´e est de permettre ` l’usager, ` travers une
                                          e                   a           a
interface graphique, d’avoir plusieurs points d’entr´e pour explorer une base de do-
                                                    e
cuments. Dans ce cas, les facettes offrent diff´rentes hi´rarchies (g´n´ralement or-
                                               e         e           e e
thogonales) que l’utilisateur peut utiliser pour naviguer dans une base. Les facettes
peuvent ainsi ˆtre vues comme une mani`re de cat´goriser le contenu d’une base
              e                             e         e
de documents pour permettre des interactions utilisateur intuitives. Les hi´rarchies
                                                                            e
d´crivant les facettes offrent ` l’usager une vue d’ensemble sur le contenu de la
 e                             a
collection, et un moyen pour le guider ` formuler son besoin et la requˆte correspon-
                                       a                               e
dante. Elles sont donc utilisables pour la navigation, la recherche, et l’organisation
des r´ponses [53][105].
     e


   G´n´ralement ce paradigme marche bien dans le cas o` les documents sont an-
     e e                                                 u
not´s (de pr´f´rence manuellement), la collection est statique et relativement de
   e        ee
petite taille, et son contenu est homog`ne [42].
                                       e

       Bien que d’une mani`re g´n´rale la structure d’une facette soit hi´rarchique, il
                          e    e e                                       e
peut y avoir des facettes dont la structure est plate. Dans ce cas, la facette est
repr´sent´e par un ensemble18 de termes sans aucune structure entre eux [21]. Le
    e    e
contenu des facettes peut correspondre ` des propri´t´s th´matiques ou ` des pro-
                                       a           ee     e            a
pri´t´s m´ta-donn´es19 des documents [40].
   ee    e        e
  18
       G´n´ralement de taille r´duite
        e e                    e
  19
       Langue, type du document, date de cr´ation, etc.
                                           e




                                                 47
2.5.2    Outils bas´s sur le paradigme de recherche multi-facettes
                   e
Le syst`me du mus´e de l’Universit´ d’Helsinki
       e         e                e

   Les auteurs utilisent le paradigme de recherche multi-facettes pour d´velopper
                                                                        e
une interface graphique pour la navigation dans une base de photos. Celles-ci sont
extraites ` partir de la base du mus´e de l’Universit´ d’Helsinki. Elles contiennent
          a                          e                e
des personnes, des ´v´nements, des lieux, des objets physiques, etc. Les auteurs pro-
                    e e
posent d’utiliser une ontologie pour l’annotation des photos et le d´veloppement de
                                                                    e
l’interface. L’ontologie est construite manuellement et son contenu est extrait ` par-
                                                                                a
tir de celui des photos. Elle est constitu´e d’un ensemble de cat´gories hi´rarchiques
                                          e                      e         e
qui correspondent ` des facettes. L’annotation des photos est ´galement effectu´e
                  a                                             e             e
manuellement en utilisant les instances des concepts de l’ontologie.




                   Fig. 2.3 – Interface d’acc`s multi-vues [38][39]
                                             e

   A travers l’interface, l’utilisateur peut naviguer dans les facettes de l’ontologie
pour : i ) formuler son besoin d’information au cas o` il ne connaˆ pas le contenu de
                                                      u           ıt
la base ; et ii ) formuler la requˆte correspondante.
                                  e


   L’ontologie est ´galement utilis´e par le syst`me pour “fabriquer” des r´ponses
                    e              e              e                          e
plus significatives en proposant ` l’utilisateur, non seulement l’image qu’il cherche,
                                a

                                         48
mais aussi les images dont le contenu est proche.


   Dans la figure 2.3, nous pr´sentons une copie d’´cran de l’interface d´velopp´e
                              e                   e                      e      e
par Hyv¨nen et ses coll`gues. Du cˆt´ gauche de l’´cran, l’utilisateur peut choisir
       o               e          oe              e
les facettes ontologiques (ontological view ) selon lesquelles il veut explorer la base.
Ceci s’effectue en choisissant des entr´es depuis le menu d´roulant add more views.
                                       e                      e
Ces facettes ontologiques sont celles qui ont ´t´ employ´es pour annoter manuelle-
                                               ee          e
ment les photos. Elles indiquent ` l’utilisateur les termes pertinents li´s aux photos.
                                  a                                      e
L’utilisateur peut focaliser son besoin d’information en naviguant dans ces facettes.
En choisissant des entr´es des facettes ontologiques, un filtrage de la base se fait,
                       e
et les photos correspondantes apparaissent sur la partie droite de l’interface. Dans
la figure 2.3, le choix est Personne=GarlandBinder et Place=Building. Une photo
annot´e par ces deux termes est ainsi affich´e20 . Le syst`me recommande ´galement
      e                                    e            e                 e
d’autres photos en se basant sur leurs annotations et les d´finitions ontologiques. A
                                                           e
titre d’exemple, le syst`me peut recommander des photos o` le mˆme GarlandBinder
                        e                                 u     e
figure mais pas dans un bˆtiment, ou encore des photos prises dans un bˆtiment mais
                          a                                           a
d´crivant d’autres personnes.
 e

       La difficult´ principale mentionn´e par les auteurs est l’effort suppl´mentaire
                 e                    e                                   e
n´cessaire pour la cr´ation de l’ontologie et les annotations d´taill´es des photos. Ils
 e                   e                                         e     e
ne pr´sentent aucune ´valuation, ni au niveau des performances de recherche ni au
     e                 e
niveau de l’utilisabilit´ de leur interface.
                        e

Le syst`me Flamenco
       e

    Le syst`me Flamenco21 propose une interface (cf. figure 2.4) qui permet ` la fois
           e                                                               a
la recherche par mot-cl´s et la navigation dans une base d’images selon plusieurs
                       e
facettes [36][105]. La base d’images g´r´es par le syst`me est annot´e manuellement
                                      ee               e            e
par des descriptions textuelles. Chaque image est associ´e manuellement ` une ou
                                                          e               a
plusieurs facettes qui sont elles-mˆmes fabriqu´es manuellement. Le syst`me permet
                                    e            e                         e
d’afficher ces facettes (hi´rarchiques ou plates) en proposant des liens hypertextes
                            e
sur lesquels l’utilisateur peut cliquer pour faire une recherche. Chaque fois que l’uti-
lisateur clique sur un lien, un ensemble d’images est propos´ par le syst`me. Lors de
                                                            e            e
  20
    Le choix de la photo ` afficher en premier en cas o` plusieurs photos sont annot´es par les
                         a                           u                            e
mˆmes termes n’a pas ´t´ ´voqu´ par les auteurs.
 e                   eee       e
 21
    http ://flamenco.berkeley.edu/


                                               49
la recherche par mots-cl´s, la notion de multi-facettes n’est pas prise en compte, et
                        e
le syst`me affiche tout simplement les images qui sont annot´es par ces mots22 .
       e                                                  e




                  Fig. 2.4 – Interface multi-facettes du syst`me Flamenco
                                                             e



2.5.3        Fabrication des dimensions/facettes
      La plupart des travaux existants construisent les facettes manuellement. Une
premi`re m´thode consiste ` diviser une ressource existante (ontologie, th´saurus,
      e     e                a                                             e
etc.) en diff´rentes hi´rarchies, chacune correspond ` une facette. Cette m´thode a
            e         e                             a                     e
 22
      Le choix de l’ordre dans lequel les images doivent ˆtre affich´es n’est pas discut´ par les auteurs.
                                                         e        e                   e



                                                   50
´t´ adopt´e par Aussenac-Gilles et Mothe qui ont divis´ manuellement une onto-
ee       e                                            e
logie de domaine en diff´rentes hi´rarchies dans le but de d´velopper une interface
                          e          e                          e
d’acc`s multi-facettes [1]. Une autre m´thode consiste a fabriquer individuellement
      e                                   e                `
les facettes. Dans ce cas, elles peuvent ˆtre structur´es s´par´ment ou dans une seule
                                         e            e e e
ontologie [39][52].


   En ce qui concerne la construction automatique de facettes, le peu de travaux
qui s’int´ressent ` cet aspect n’ont pas encore conduit ` des r´sultats aboutis mais
         e        a                                     a      e
proposent seulement quelques id´es [101][26][87].
                                  e


   Dakka et ses coll`gues ont propos´ un algorithme qui permet d’enrichir automa-
                    e               e
tiquement des facettes existantes [26]. Ils utilisent des techniques de classification
supervis´e pour classer des nouveaux termes dans des facettes existantes. Pour ce
          e
faire, ils utilisent une base d’images annot´es manuellement. A chaque image est as-
                                            e
soci´ un ensemble de mots-cl´s, chacun appartenant ` une des facettes. Pour enrichir
    e                        e                     a
une facette F, les auteurs utilisent WordNet pour extraire les synonymes des mots
utilis´s pour annoter les images appartenant ` F. Ces synonymes seront ajout´s au
      e                                         a                                 e
vocabulaire de F. Les auteurs utilisent la structure de WordNet pour organiser le vo-
cabulaire de chaque facette “enrichie” autour d’une hi´rarchie. Pour cela, ils utilisent
                                                       e
des heuristiques pour extraire automatiquement des relations (g´n´rique/sp´cifique,
                                                               e e        e
et ´quivalent) entre les mots du vocabulaire de F.
   e


    La limite de cette m´thode est que l’algorithme utilis´ est supervis´, par cons´que-
                        e                                 e             e          e
nt, les facettes doivent ˆtre connues ` l’avance, et aucune nouvelle facette ne peut
                         e            a
ˆtre d´couverte. Une id´e int´ressante serait de d´couvrir automatiquement des nou-
e     e                 e    e                    e
velles facettes, ce qui pourrait passer par trois ´tapes : i ) d´couvrir automatique-
                                                  e             e
ment, et d’une mani`re non supervis´e, ` partir d’une base textuelle, un ensemble de
                    e                e a
termes candidats pour le vocabulaire d’une facette ; ii ) regrouper automatiquement
les termes qui appartiennent ` la mˆme facette ; iii ) construire la structure de chaque
                             a     e
facette.

   Pour franchir la premi`re ´tape, Dakka et ses coll`gues ont propos´ un algorithme
                         e e                         e               e
qui se base sur des connaissances externes [101]. L’id´e est que les termes utilis´s
                                                      e                           e
dans les documents sont sp´cifiques et ne d´crivent g´n´ralement pas la facette. Par
                          e               e         e e
exemple, dans un article de presse, un journaliste va mentionner “Jacques Chirac”

                                          51
sans dire qu’il s’agit d’un “homme politique” ou qu’il est originaire de “l’Europe”
ou mˆme de “France”. Ainsi, pour d´couvrir des termes g´n´riques qui d´crivent
      e                                 e                      e e            e
les facettes, les auteurs utilisent des ressources externes23 pour ´tendre le contenu
                                                                   e
des documents. L’id´e de base est d’interroger ces ressources et de voir quels termes
                      e
co-occurrent souvent avec les termes de la base. L’hypoth`se est que les termes qui
                                                           e
d´crivent les facettes sont des termes rares dans la base de documents mais qui co-
 e
occurrent fr´quemment dans les ressources externes avec les termes de la base. Le
            e
contenu de chaque document est alors ´tendu en utilisant certains termes de la res-
                                      e
source externe, et ces documents ´tendus sont par la suite utilis´s pour extraire les
                                 e                               e
facettes. Finalement, les auteurs font l’hypoth`se que les termes candidats doivent
                                               e
ˆtre peu fr´quents dans les documents originaux, mais fr´quents dans les documents
e          e                                             e
´tendus. Ce travail est en cours d’´laboration, et les auteurs ne pr´sentent aucune
e                                  e                                e
´valuation exp´rimentale.
e             e


   Pour franchir la deuxi`me et la troisi`me ´tape, Stoica et Hearst proposent de
                         e               e   e
d´couper WordNet en facettes en utilisant la relation d’hyperonymie (is-a) [87].
 e
L’algorithme propos´ suppose que chaque document de la collection est annot´ par
                    e                                                            e
une description textuelle. Celle-ci est utilis´e pour fabriquer les hi´rarchies des fa-
                                              e                       e
cettes. Le processus consiste ` s´lectionner un ensemble de termes (selon certains
                              a e
crit`res statistiques simples) ` partir des descriptions textuelles. L’ensemble des
    e                          a
termes s´lectionn´s forme un “noyau d’arbre” (tree core). Ce dernier est enrichi par
         e        e
des termes extraits de WordNet. Ces termes appartiennent aux chemins d’hyperony-
mie qui existent entre les termes du noyau d’arbre dans WordNet. L’´tape suivante
                                                                           e
consiste ` r´duire la taille du noyau d’arbre enrichi. Pour ce faire, les auteurs utilisent
         a e
des crit`res simples comme un concept p`re qui a moins de x fils est ´limin´. Fina-
        e                               e                            e      e
lement, ils suppriment les nœuds tr`s g´n´riques de sorte ` produire les hi´rarchies
                                   e e e                  a                e
d´sir´es. Quelques exp´riences ont ´t´ effectu´es afin d’´valuer l’algorithme propos´.
 e e                   e           ee         e        e                           e
Comme l’algorithme est destin´ ` ˆtre utilis´ par des architectes d’informations (in-
                               eae          e
formation architects), son ´valuation a ´t´ effectu´e par des utilisateurs de ce type.
                           e            ee        e
85% des 34 participants ont souhait´ utiliser l’outil dans leur travail.
                                   e
  23
       Comme WordNet ou Wikipedia.




                                            52
2.5.4     Discussion
   La recherche multi-facettes est un paradigme prometteur pour la r´solution des
                                                                       e
requˆtes pr´cises. Toutefois, les approches bas´es sur ce paradigme ne peuvent fonc-
    e      e                                   e
tionner que dans un cadre limit´. En effet, les documents doivent ˆtre annot´s de
                               e                                    e         e
pr´f´rence manuellement. Ceci impose donc une limite sur la collection qui doit ˆtre
   ee                                                                           e
statique et relativement de petite taille, et dont le contenu doit ˆtre homog`ne.
                                                                   e         e

   Vu que la recherche se fait par navigation, une grande taille de la hi´rarchie de
                                                                         e
concepts peut repr´senter une surcharge cognitive ` laquelle l’utilisateur doit faire
                    e                                  a
face pour choisir les entr´es qui l’int´ressent. Dans ce sens, il y a quelques tentatives
                          e            e
pour afficher dynamiquement les hi´rarchies de concepts ` l’utilisateur, mais il n’y
                                     e                       a
a pas encore de r´sultats aboutis [90]. A notre avis, ceci restera un probl`me d´licat
                  e                                                        e    e
dans le sens o` les requˆtes pr´cises contiennent une terminologie tr`s sp´cifique qui
              u         e      e                                      e    e
demande une navigation profonde dans la hi´rarchie de concepts.
                                          e


    La complexit´ de la structure s´mantique des requˆtes pr´cises repr´sente une
                e                  e                    e      e        e
autre difficult´ que les interfaces multi-facettes n’arrivent pas ` surmonter. En ef-
             e                                                   a
fet, ce type de requˆtes peut contenir des op´rateurs, et/ou mettre en relation
                    e                           e
des concepts qu’elles contiennent. Ceci demande un traitement sp´cifique pour in-
                                                                  e
terpr´ter la s´mantique v´hicul´e par la structure de la requˆte.
     e        e          e     e                             e


    Les travaux bas´s sur le paradigme de recherche multi-facettes supposent que les
                    e
facettes existent, et que les documents leurs sont associ´s manuellement. A notre
                                                         e
connaissance, le seul travail qui associe automatiquement des documents ` des fa-
                                                                        a
cettes est celui de Aussenac-Gilles et Mothe [1].


  Tel qu’il est utilis´, le paradigme de recherche multi-facettes repr´sente une
                      e                                                 e
mani`re de structurer une collection de documents sous forme de “bases de donn´es”
    e                                                                         e
o` les facettes correspondent ` des attributs. Ainsi, pendant la navigation, l’usa-
 u                               a
ger choisit les attributs qui l’int´ressent et le syst`me lui fournit leurs valeurs. Les
                                   e                  e
syst`mes existants n’ont pas ´t´ test´s en termes de performance de recherche. A
    e                           ee      e
notre connaissance, la seule ´valuation a ´t´ effectu´e par Yee et ses coll`gues qui
                               e             ee        e                      e
ont fait une ´tude d’utilisabilit´ d’une interface multi-facettes sur une base d’images
             e                   e
[105]. Leurs r´sultats ont montr´ que les utilisateurs pr´f`rent utiliser ce type d’in-
              e                 e                        ee


                                           53
terface aux interfaces d’interrogation bas´es sur les mots-cl´s.
                                          e                  e


2.6     Conclusion
   Nous nous sommes int´ress´s aux travaux qui utilisent les ressources externes
                       e    e
pour prendre en compte la s´mantique v´hicul´e par les documents et les requˆtes.
                             e            e    e                                e
Ainsi, nous avons pu identifier une classe d’approches qui repr´sentent les documents
                                                              e
(requˆtes) par des concepts au lieu des mots-cl´s. Ces approches n´cessitent un pro-
     e                                         e                   e
cessus de d´sambigu¨
           e       ısation afin d’associer des concepts aux termes pr´sents dans les
                                                                    e
documents (requˆtes). Les r´sultats obtenus jusqu’` pr´sent ont montr´ les limites
                e           e                      a e                 e
de ces approches par rapport ` celles bas´es sur les mots-cl´s. Un premier facteur
                              a           e                 e
qui influe sur les performances d’un SRI bas´ sur les concepts est la pr´cision du
                                              e                          e
d´sambigu¨
 e        ıseur utilis´. Pour cette raison, nous avons examin´ les travaux les plus
                      e                                      e
repr´sentatifs qui s’int´ressent ` l’´valuation des d´sambigu¨
    e                   e        a e                 e       ıseurs dans le cadre de
la RI. Une telle ´valuation permet de savoir avec pr´cision l’impact de la pr´cision
                 e                                     e                      e
du d´sambigu¨
     e        ıseur sur les performances de recherche. De cette fa¸on, la plupart des
                                                                  c
travaux ont pu conclure que l’ambigu¨ e n’a pas un effet dramatique sur les perfor-
                                    ıt´
mances de recherche. Au cas o` un d´sambigu¨
                              u     e        ıseur est utilis´, il faut qu’il soit tr`s
                                                             e                       e
pr´cis (≥90%) pour qu’on puisse avoir des bons r´sultats.
  e                                             e

   Un deuxi`me facteur dont d´pend les performances de recherche est le degr´ de
           e                 e                                              e
couverture de la ressource externe utilis´e par rapport au vocabulaire du corpus. A ce
                                         e
sujet, les rares travaux qui ont obtenu des r´sultats positifs, sont ceux qui combinent
                                             e
l’indexation conceptuelle avec l’indexation ` base de mots-cl´s.
                                            a                e

   Le troisi`me facteur dont d´pend les performances de recherche est la m´thode
            e                 e                                           e
utilis´e pour “interpr´ter” le contenu s´mantique du document et du besoin d’infor-
      e               e                 e
mation. Dans les approches existantes, une fois les concepts extraits, les documents
(requˆtes) sont consid´r´(e)s comme des sacs de concepts. Par cons´quent, les rela-
      e                ee                                           e
tions s´mantiques qui peuvent exister entre les diff´rents concepts qu’ils contiennent
        e                                          e
ne sont pas exploit´es. C’est pourquoi des documents qui ne partagent pas les mˆmes
                   e                                                             e
concepts avec une requˆte ne pourront pas ˆtre retrouv´s avec ces approches mˆme
                        e                    e          e                       e
s’ils sont pertinents pour cette requˆte. L’expansion de requˆtes repr´sente une so-
                                     e                       e        e
lution possible ` ce probl`me. Plusieurs travaux se sont int´ress´s ` cet aspect, mais
                a         e                                 e    e a


                                          54
rares sont ceux qui ont eu des r´sultats positifs. Face ` ces ´checs, des chercheurs ont
                                e                       a     e
propos´ d’´tendre les requˆtes d’une mani`re “prudente”. Dans cette direction Baziz
      e e                 e                  e
a obtenu des r´sultats positifs. Baziz s’est ´galement int´ress´ ` la repr´sentation des
              e                              e            e    ea         e
documents par des r´seaux s´mantiques qui mettent en relation les concepts du mˆme
                    e        e                                                      e
document. Cependant, ces r´seaux sont utilis´s seulement pour la d´sambigu¨
                           e                e                     e       ısation
et pas durant le processus de RI. Mˆme s’il a propos´ une approche d’expansion
                                   e                  e
prudente qui lui a permis d’am´liorer les r´sultats, Baziz consid`re de nouveau la
                              e            e                     e
requˆte ´tendue comme un sac de concepts.
    e e


   Ces r´sultats nous ont persuad´s que le fait de passer d’un niveau mot ` un niveau
        e                        e                                        a
concept n’est pas suffisant pour prendre en compte le contenu s´mantique des docu-
                                                                 e
ments (requˆtes), et r´soudre ainsi des requˆtes pr´cises. Nous sommes convaincus
             e          e                     e      e
que la prise en compte des dimensions de domaine repr´sente un moyen pour at-
                                                           e
teindre ces objectifs. Nous avons donc ´tudi´ les principaux travaux qui s’int´ressent
                                       e    e                                 e
aux dimensions de domaine en RI.


   Les travaux qui s’int´ressent aux dimensions concernent pour le moment la re-
                         e
cherche bas´e sur le paradigme multi-facette. Les approches bas´es sur ce type de re-
           e                                                     e
cherche sont prometteuses, mais leur application reste limit´e ` petite ´chelle vu que
                                                            e a         e
tout le processus d’annotation des documents est manuel. La complexit´ de la struc-
                                                                      e
ture des requˆtes pr´cises repr´sente une difficult´ que les interfaces multi-facettes
              e      e         e                 e
n’arrivent pas ` surmonter. De plus, ce type de requˆtes contient une terminologie
               a                                       e
tr`s sp´cifique qui demande une navigation profonde dans les hi´rarchies de concepts
  e     e                                                        e
qui d´finissent les facettes. Ceci repr´sente une lourde surcharge cognitive pour l’uti-
      e                               e
lisateur lors du choix des entr´es qui l’int´ressent.
                               e            e


    Pour conclure, nous pouvons constater que, malgr´ les efforts fournis par de
                                                       e
nombreux chercheurs, la prise en compte du contenu s´mantique des documents
                                                         e
(requˆtes) reste encore un probl`me largement ouvert. Nous sommes donc persuad´s
     e                          e                                             e
que les approches existantes qui consid`rent les documents (requˆtes) comme des
                                       e                         e
sacs de concepts ne peuvent pas r´soudre des requˆtes pr´cises. Pour notre part,
                                   e               e       e
l’approche que nous avons adopt´e consiste ` utiliser les dimensions de domaines.
                                 e          a
L’utilisation des dimensions en dehors du paradigme multi-facette a pour but d’ex-
pliciter la structure s´mantique au niveau de la repr´sentation des documents et des
                       e                             e
requˆtes. Nous utilisons les dimensions afin d’extraire les ´l´ments importants qui
    e                                                      ee

                                           55
contribuent au d´veloppement du th`me pr´sent dans le document et dans la requˆte.
                e                 e     e                                     e
En se basant sur ces ´l´ments, nous tentons de repr´senter le contenu des documents
                     ee                            e
(requˆtes) en mettant en exergue la s´mantique qu’ils(elles) v´hiculent. Dans la suite
     e                               e                        e
du document, nous pr´sentons en d´tails notre contribution et son apport th´orique
                       e           e                                          e
et pratique par rapport ` l’´tat de l’art.
                        a e




                                             56
Chapitre 3

Un Mod`le de RI fond´ sur les
        e            e
dimensions de domaine

3.1         Pr´ambule
              e
    L’objectif de la Recherche d’Information est de s´lectionner les documents per-
                                                       e
tinents qui traitent du th`me de la requˆte. Pour atteindre cet objectif, l’indexation
                          e              e
joue un rˆle primordial en d´finissant les descripteurs qui repr´sentent les documents
         o                  e                                  e
et ` partir desquels ils peuvent ˆtre acc´d´s ou analys´s. Dans les approches exis-
   a                               e       e e            e
tantes, les descripteurs utilis´s sont les mots ou les termes ou les concepts. Comme
                               e
nous l’avons pr´sent´ dans le premier chapitre, ces descripteurs ne sont pas suffisants
                e    e
pour interpr´ter le contenu s´mantique des documents/requˆtes, et prendre correc-
            e                e                           e
tement en compte le th`me lors de l’interrogation.
                        e


   Dans notre travail, nous proposons une nouvelle approche qui consiste ` utiliser
                                                                          a
un nouveau type de descripteurs lors de l’indexation : les dimensions de domaine.
L’int´rˆt principal de cette approche est de mettre en exergue les aspects li´s aux
     ee                                                                      e
descriptions s´mantiques du contenu du document et de la requˆte. Nous utilisons
              e                                                 e
les dimensions comme un moyen pour compl´ter l’information partielle transmise
                                            e
par le contenu brut1 des documents/requˆtes. Ceci permet au syst`me de produire,
                                        e                       e
d’une part, une repr´sentation pr´cise du contenu s´mantique des documents, et
                     e           e                  e
d’interpr´ter, d’autre part, le besoin de l’utilisateur. Ainsi, le jugement de la perti-
         e
nence d’un document pour une requˆte fait intervenir les aspects li´s aux descriptions
                                     e                                e
  1
      sac de mots, sac de termes, sac de concepts, etc.


                                                  57
s´mantiques du contenu du document et de la requˆte.
 e                                              e


    Notre approche concerne l’acc`s ` un corpus o` plusieurs domaines peuvent co-
                                    e a             u
exister. Selon le dictionnaire de l’Acad´mie fran¸aise, un domaine est tout ce qu’em-
                                        e        c
brasse un art, une science, une facult´ de l’esprit, etc. (exemples : le domaine de
                                        e
la peinture, de la sculpture, de la politique, etc.). Nous travaillons uniquement sur
des domaines “connus”, c’est-`-dire qui ont atteint une certaine notori´t´ et par l`
                              a                                          ee         a
mˆme une certaine stabilit´ (par opposition ` des domaines “nouveaux” qui corres-
  e                        e                 a
pondent ` des th´ories en cours d’´laboration et dont la terminologie n’est pas fix´e).
        a       e                 e                                               e


   Pour pouvoir acc´der ` ce corpus, nous faisons coexister des ressources externes
                   e    a
d´crivant chacun de ces domaines. Si plusieurs ´coles de pens´es/conceptions s’af-
  e                                            e               e
frontent ` l’int´rieur d’un domaine, nous pensons qu’il est pr´f´rable de les traiter
         a      e                                             ee
comme des domaines s´par´s : le but n’est pas de forcer un consensus artificiel sur
                        e e
les d´finitions des concepts d’un domaine. Le rˆle d’une ressource externe n’est pas
     e                                        o
de normaliser un domaine, mais de donner une repr´sentation de l’existant.
                                                   e


   Chaque domaine pr´sent dans le corpus est d´crit ` travers la ressource externe
                        e                     e     a
par trois types de descripteurs :


   - Dimensions : une dimension d’un domaine est un concept g´n´ral utilis´ pour
                                                             e e          e
exprimer des th`mes dans ce domaine. Par exemple, dans le domaine de la Politique
                e
internationale, un th`me peut ˆtre d´velopp´ par un r´dacteur en faisant r´f´rence
                     e        e     e      e         e                    ee
aux dimensions “Lieux g´ographiques”, “Personne”, “Ev´nement”, etc. Une mˆme
                        e                              e                      e
dimension peut appartenir ` diff´rents domaines ` la fois. Par exemple, la dimension
                          a    e                a
“Lieu g´ographique” peut ˆtre utilis´e pour d´velopper les th`mes du domaine de la
       e                 e          e        e               e
Politique internationale et du domaine du Sport, etc.

   - Concepts : un concept correspond ` une signification particuli`re d’un mot
                                      a                           e
(ou s´quence de mots). Dans un domaine, chaque dimension contient un ensemble
     e
de concepts. Par exemple, la dimension “Personne” dans le domaine du Sport peut
contenir les concepts Joueur, Arbitre, Entraineur, etc.


   - Termes : un terme est constitu´ d’un mot (ou s´quence de mots) qui sert
                                   e               e
pour d´noter un concept dans un domaine particulier. La signification d’un terme
      e

                                         58
est d´termin´e par les concepts qu’il d´note ` l’int´rieur du mˆme domaine.
     e      e                          e     a      e          e


3.2     Introduction
   Nous proposons ici de d´finir un mod`le de RI capable de satisafaire des utilisa-
                          e           e
teurs souhaitant formuler leurs requˆtes de la mani`re suivante :
                                    e              e


R1 : “Donne-moi les documents qui parlent du g´n´ral fran¸ais responsable de la
                                                 e e        c
    cr´ation de la zone de s´curit´ pendant le conflit des Balkans” ;
      e                     e     e


R2 : “Donne moi des documents qui parlent de Bill Gates et de Steve Jobes et au
    moins de deux soci´t´s d’informatique” ;
                      ee


R3 : “Donne-moi des images de type rayon-x contenant une fracture ou une luxa-
    tion d’un tibia” ;


R4 : “Donne-moi des images de type rayon-x des fractures de tous les os de la
    jambe” ;


R5 : “Donne-moi des images de type rayon-x de f´mur sans fracture” ;
                                               e


R6 : “Donne-moi des images de la peau de la main sans aucune pathologie” ;


etc.
   Les besoins formul´s ` travers ces requˆtes sont dits “pr´cis”. En effet, un utilisa-
                     e a                  e                 e
teur fait r´f´rence ` des dimensions de son domaine d’int´rˆt pour d´crire pr´cis´ment
           ee       a                                    ee         e        e e
son besoin d’information en utilisant des concepts et des relations s´mantiques entre
                                                                     e
eux. Par exemple, dans la requˆte R1 l’utilisateur cherche un ´l´ment de la dimension
                                e                              ee
Personne, en particulier, le nom d’une personne P. Celle-ci est d´crite ` travers deux
                                                                 e      a
dimensions, en utilisant les deux concepts suivants : G´n´ral qui est un concept de la
                                                       e e
dimension Personne, et France qui est un concept de la dimension Lieu g´ographique.
                                                                       e
En effet, la personne recherch´e est un G´n´ral, et originaire de France.
                             e           e e


                                          59
Lors de la formulation d’une requˆte pr´cise, l’utilisateur pourrait souhaiter
                                    e     e
d´crire davantage son besoin en employant des quantificateurs (au moins deux,
 e
tous, etc.) ou bien des op´rateurs bool´ens ET/OU/NON, etc.
                          e            e


   En consid´rant les exigences de l’utilisateur, un langage expressif de requˆte est
               e                                                                 e
n´cessaire. Il doit permettre ` l’usager d’utiliser des concepts et des dimensions pour
 e                            a
d´crire son besoin. Il doit ´galement permettre ` l’utilisateur d’employer des relations
 e                          e                   a
entre les descripteurs de sa requˆte. Finalement, l’utilisateur doit pouvoir enrichir la
                                  e
description de son besoin ` travers des op´rateurs.
                             a              e


   Pour interpr´ter les requˆtes pr´cises ainsi formul´es, un traitement sp´cifique est
               e            e      e                  e                    e
n´cessaire :
 e


- Prise en compte des deux types de descripteurs (concepts et dimensions) pour in-
      terpr´ter le contenu s´mantique v´hicul´ dans la requˆte ;
           e                e          e     e             e


- Prise en compte des relations entre descripteurs de la requˆte ;
                                                             e


- Prise en compte des op´rateurs.
                        e


   Pour pouvoir r´pondre pr´cis´ment ` ce type de requˆtes, leurs sp´cificit´s doivent
                 e         e e       a                e             e      e
ˆtre prises en compte lors de l’indexation des documents. Pour ˆtre retrouv´, un do-
e                                                               e            e
cument doit donc ˆtre repr´sent´ par des concepts et des dimensions, et sa description
                  e        e     e
doit permettre de satisfaire des requˆtes qui contiennent des relations s´mantiques
                                      e                                    e
ainsi que des op´rateurs.
                e


   En se basant sur des ressources externes, nous proposons dans la suite un mod`le,
                                                                                 e
fond´ sur les dimensions, associant des concepts et des relations s´mantiques dans la
    e                                                              e
description du contenu des documents(requˆtes). Ce mod`le s’appuie sur un langage
                                            e              e
d’indexation expressif permettant une description pr´cise du contenu des documents.
                                                    e
Il s’appuie ´galement sur un langage de requˆte expressif permettant ` l’utilisateur
            e                                e                        a
d’exprimer des requˆtes pr´cises. Les connaissances du domaine sont utilis´es lors de
                   e      e                                               e
la d´finition de notre mod`le tout en garantissant une repr´sentation uniforme des
    e                     e                                e
documents, des requˆtes et de la ressource externe. Ceci a ´t´ effectu´ en utilisant
                    e                                      ee         e

                                          60
un formalisme de repr´sentation de connaissances ad´quat : il s’agit de la logique
                     e                             e
descriptive.


3.3      Sp´cificit´s du mod`le
           e      e        e
   Usage des dimensions


    Les dimensions dans notre mod`le peuvent ˆtre vues comme une couche descrip-
                                   e          e
tive qui permet d’associer ` un concept un rˆle particulier lors de la description du
                           a                o
contenu d’un document ou d’une requˆte. Par exemple, sachant que “Joueur” est un
                                     e
´l´ment de la dimension Personne, mˆme s’il ne contient pas le terme “joueur”, un do-
ee                                 e
cument contenant “Zidane” peut ˆtre retrouv´ comme r´ponse ` la requˆte suivante :
                                e            e         e        a       e


   R7 : “Donne-moi les documents qui parlent du joueur fran¸ais qui a ´t´ ´lu
                                                           c          eee
                        meilleur footballeur en 2004 ”.


Usage des relations

   Nous nous int´ressons aux relations s´mantiques que l’on peut trouver dans la res-
                e                       e
source externe et qui permettent d’apporter une pr´cision sur une entit´ ambigu¨ du
                                                  e                    e       e
document, comme les relations “est un”, ou “partie de”, etc.


   Exemple : un document r´ponse ` la requˆte R7 doit contenir le nom d’une
                           e       a        e
personne P. P est un “joueur”, et P est originaire de “France”. En utilisant les
relations s´mantiques pr´sentes dans la ressource externe, nous pouvons s´lectionner
           e            e                                                e
l’ensemble des joueurs fran¸ais. Les documents qui contiennent un des noms de
                            c
ces joueurs est un candidat pour r´pondre ` cette requˆte. Mais pour r´pondre
                                      e         a            e             e
enti`rement et avec pr´cision, il faut prendre en compte les autres informations de
    e                   e
la requˆte : la date (2004) et la cons´cration (meilleur footballeur).
       e                              e


   Usage des op´rateurs
               e


    Nous nous int´ressons ` une formulation pr´cise du besoin de l’utilisateur. Celui-
                 e        a                   e
ci veut exprimer ` travers sa requˆte un besoin tel que : “donne-moi les images qui
                 a                e

                                         61
d´crivent une main sans aucune pathologie”. Il faut donc permettre ` l’utilisateur
 e                                                                 a
d’employer un op´rateur de n´gation pour exprimer ce genre de besoin.
                e           e

   Dans la section suivante, nous pr´sentons avec d´tail des exemples typiques de
                                    e              e
besoins d’informations pr´cis que nous proposons de satisfaire ` travers notre mod`le
                         e                                     a                  e
de recherche. L’expression de ces requˆtes dans notre mod`le est pr´sent´e dans la
                                       e                    e         e    e
section 3.6.2.


3.3.1     Exemples typiques de besoins d’information pr´cis
                                                       e
   Le but de cette section est d’analyser ce genre de requˆte afin de proposer un
                                                          e
mod`le de recherche ad´quat. Nous pr´sentons donc un ensemble de requˆtes en
    e                     e               e                                  e
d´taillant leurs sp´cificit´s et en sugg´rant des moyens pour les r´soudre. Nous men-
  e                e      e            e                          e
tionnons la n´cessit´ d’introduire explicitement les dimensions dans la description
              e      e
des documents et des requˆtes, ainsi que la n´cessit´ d’utiliser les op´rateurs sur les
                         e                   e       e                 e
dimensions et pas seulement sur les concepts et les termes comme cela a ´t´ d´j` fait
                                                                          ee ea
(ex. dans le mod`le bool´en).
                e       e

   Pour les besoins des exemples, nous supposons que les dimensions suivantes sont
disponibles ` travers une ressource externe :
            a


Personne : contenant des politiciens, des sportifs, des c´l´brit´s, etc.
                                                         ee     e


Organisation : contenant des entreprises, des organisations internationales, etc.


Lieu g´ographique : contenant l’ensemble des lieux dans le monde (continent,
      e
     pays, villes, etc.) ;


´ e
Ev´nement : contenant des ´v´nements de la vie courante (guerre en Iraq, raz-de-
                          e e
    mar´e, etc.) ;
       e


Anatomie : contenant les diff´rents membres du corps humain ;
                            e




                                          62
Pathologie : contenant l’ensemble des maladies qui peuvent affecter le corps hu-
     main ;


Modalit´ : contenant l’ensemble des types des images m´dicales.
       e                                              e


   Voici maintenant quelques exemples de besoins d’information pr´cis.
                                                                 e


R8 : “Donne-moi les documents qui parlent de Bill Gates et d’une soci´t´ d’infor-
                                                                     ee
     matique”.


   L’utilisateur cherche des documents relatifs ` un ´l´ment de la dimension Per-
                                                a    ee
sonne : Bill Gates et ` un ´l´ment de la dimension Organisation : soci´t´ d’infor-
                       a    ee                                        ee
matique. Un document pertinent doit traiter des deux ´l´ments de dimensions. Ceci
                                                      ee
se traduit par l’op´rateur bool´en de conjonction ET.
                   e           e


R9 : “Donne-moi les documents qui parlent de Steve Jobs ou de Apple, Inc.”.


   L’utilisateur cherche des documents relatifs ` un ´l´ment de la dimension Per-
                                                a    ee
sonne : Steve Jobs ou un ´l´ment de la dimension Organisation : Apple, Inc. Un
                           ee
document pertinent doit traiter d’un des deux ´l´ments de dimensions. Ceci se tra-
                                               ee
duit par l’op´rateur bool´en de disjonction OU.
             e           e


R10 : “Donne-moi des images qui montrent un tibia sans aucune pathologie”.


   L’utilisateur cherche des images qui contiennent un ´l´ment de la dimension Ana-
                                                       ee
tomie : tibia sans aucun ´l´ment de la dimension Pathologie : pas de fracture ou
                         ee
luxation, etc. Un document pertinent doit contenir l’´l´ment de la dimension Ana-
                                                     ee
tomie et ne doit pas contenir l’´l´ment de la dimension Pathologie. Ceci se traduit
                                ee
par l’op´rateur bool´en de n´gation NON.
        e           e       e


  Il est possible qu’un document pr´sente un tibia sans aucune pathologie, mais
                                      e
montre aussi une autre partie de l’anatomie avec d’autres pathologies que celles qui


                                        63
peuvent affecter le tibia. Dans ce cas, ce document peut ˆtre consid´r´ pertinent. Il
                                                        e          ee
faut donc distinguer, au moment de l’interrogation, qu’il faut exclure seulement les
documents qui contiennent des pathologies du tibia. Ceci peut se traduire par une
relation entre les ´l´ments de dimensions au moment de la formulation de la requˆte.
                   ee                                                           e


R1 : “Donne-moi les documents qui parlent du g´n´ral fran¸ais responsable de la
                                                 e e        c
    cr´ation de la zone de s´curit´ pendant le conflit des Balkans”.
      e                     e     e


      Un utilisateur peut pr´ciser ` travers sa requˆte ce dont le document doit obli-
                            e      a                e
gatoirement parler. Il peut ´galement introduire des descripteurs dont le document
                            e
r´ponse ne doit pas obligatoirement parler. Par exemple, a travers la requˆte R1,
 e                                                         `                e
l’utilisateur cherche un ´l´ment de la dimension Personne, en particulier, le nom
                         ee
d’un g´n´ral fran¸ais. Donc un document pertinent doit obligatoirement parler du
        e e       c
nom de cette personne. Mˆme si ce document ne parle pas du conflit ou des Bal-
                            e
kans, il peut ˆtre consid´r´ pertinent. Donc tandis que l’´l´ment de la dimension
              e          ee                               ee
Personne est obligatoire, les autres ´l´ments de dimensions peuvent ˆtre option-
                                      ee                             e
nels (´v´nement et lieu g´ographique). Les op´rateurs bool´ens ne sont pas suffisants
      e e                  e                   e          e
pour exprimer ces deux notions. En effet, l’emploi d’un op´rateur bool´en implique
                                                           e             e
toujours l’utilisation de deux ´l´ments. Ceci ne permet donc pas ` l’utilisateur d’ex-
                               ee                                a
primer qu’il y a un seul ´l´ment qui est obligatoire ou bien un seul ´l´ment qui est
                         ee                                          ee
optionnel. D’une part, l’utilisation du ET implique que les deux ´l´ments en ques-
                                                                  ee
tion sont obligatoires. D’autre part, l’utilisation du OU implique que l’un des deux
´l´ments en question est optionnel, sans pr´ciser lequel. La notion d’obligation n’est
ee                                            e
pas nouvelle : certains moteurs de recherche 2 utilisent un tel crit`re (repr´sent´ par
                                                                    e        e    e
le pr´fixe “+”) afin de fournir une syntaxe plus simple et plus intuitive, permet-
     e
tant ainsi de r´soudre la difficult´ rencontr´e par les utilisateurs pour exprimer des
                e                e         e
requˆtes bool´ennes.
     e        e


      Ces deux types d’expressions de besoins peuvent ˆtre prises en compte en uti-
                                                      e
lisant des op´rateurs sur les ´l´ments de dimensions pr´sents dans la requˆte. Ces
             e                ee                         e                    e
op´rateurs peuvent ˆtre : obligatoire ou optionnel. Ils ont ´t´ d´taill´s dans [48][44]
   e                e                                       ee e       e
dans un contexte o` l’utilisateur a d´j` vu les documents et ne se souvient pas exac-
                   u                 ea
tement de leur contenu. Nous pouvons reprendre ces op´rateurs afin de donner les
                                                     e
  2
      ex. Google, Altavista, etc.


                                           64
moyens ` l’utilisateur de d´crire avec pr´cision son besoin d’information.
       a                   e             e


   Il est possible que l’utilisateur n’arrive pas ` utiliser les deux op´rateurs pr´c´dents.
                                                  a                     e          e e
Par exemple, imaginons que l’utilisateur puisse consid´rer que les documents qui
                                                               e
traitent du th`me de sa requˆte sont pertinents, mais en privil´giant ceux qui contien-
              e             e                                  e
nent le nom de la personne d’abord, ensuite ceux qui parlent du conflit, ensuite ceux
qui parlent des Balkans. Dans ce cas, l’expression de ce besoin peut ˆtre mise en
                                                                           e
œuvre avec un op´rateur priorit´. Celui-ci permet ` l’utilisateur d’avoir plus de flexi-
                    e             e                   a
bilit´ lors de la d´finition de son besoin. Ainsi, il peut donner la plus grande priorit´
     e             e                                                                   e
aux documents qui contiennent le nom de la personne recherch´e, et une priorit´
                                                               e                e
moins importante aux documents qui contiennent les autres ´l´ments de dimensions.
                                                          ee


   Nous pouvons imaginer un sc´nario o` l’utilisateur veut donner des poids aux
                                 e        u
´l´ments de dimensions de sa requˆte . La valeur de chaque poids peut ˆtre comprise
ee                               e                                    e
entre 0 et 1. 1 ´tant la valeur la plus ´lev´e qui signifie que l’´l´ment de dimension
                e                       e e                      ee
correspondant est tr`s importante dans la requˆte et obligatoire, et 0 signifie que
                      e                            e
l’´l´ment de dimension correspondant est optionnel. L’expression de ce besoin peut
  ee
se faire ` travers un op´rateur jauge. Ainsi, l’utilisateur peut pr´ciser explicitement
         a              e                                          e
les degr´s d’importance relatifs aux ´l´ments de dimensions pr´sents dans sa requˆte.
         e                           ee                         e                   e


   Jusqu’` pr´sent, nous avons vu des cas o` la requˆte contient un seul ´l´ment de
         a e                               u        e                    ee
chaque dimension. Il est possible que la requˆte contienne plusieurs ´l´ments de la
                                             e                       ee
mˆme dimension. La question est donc de savoir quel(s) op´rateur(s) utiliser entre
  e                                                         e
les ´l´ments d’une mˆme dimension. Nous essayons de r´pondre ` cette question `
    ee              e                                   e        a                a
travers les exemples suivants.


R11 : “Donne-moi les documents qui parlent de Bill Gates et Steve Jobs et d’une
    soci´t´ d’informatique”.
        ee


Dans cette requˆte, il y a deux ´l´ments de la dimension Personne : Bill Gates et
               e                ee
Steve Jobs, et un ´l´ment de la dimension Organisation : soci´t´ d’informatique.
                  ee                                          ee
Un document pertinent doit parler des DEUX ´l´ments de la dimension Personne
                                               ee
pr´sents dans la requˆte ET d’un ´l´ment de la dimension Organisation. Dans ce
  e                      e            ee
cas, il faut utiliser l’op´rateur ET entre les ´l´ments de la dimension Personne.
                          e                    ee


                                            65
R12 : “Donne-moi les images qui montrent une fracture ou une luxation d’un ti-
      bia”.


Deux dimensions sont pr´sentes dans cette requˆte : la dimension Pathologie : frac-
                         e                      e
ture, luxation ; la dimension Anatomie : tibia. Une image pertinente doit contenir
une fracture OU une luxation, ET un tibia. Dans ce cas, il suffit d’utiliser l’op´rateur
                                                                               e
OU entre les ´l´ments de la dimension Pathologie pour pr´ciser le besoin de l’utili-
              ee                                            e
sateur.


R13 : “Donne-moi des images qui montrent un tibia sans fracture”.


L’utilisateur cherche des images qui contiennent un ´l´ment de la dimension Anato-
                                                    ee
mie : tibia sans l’´l´ment de la dimension Pathologie : fracture. Il est possible qu’un
                   ee
document contenant un autre ´l´ment de la dimension Pathologie (ex. luxation) soit
                              ee
pertinent pour cette requˆte. Pour bien pr´ciser ce besoin d’information, il faut uti-
                          e               e
liser l’op´rateur de n´gation NON sur la pathologie de type fracture seulement et
          e           e
pas sur tous les ´l´ments de la dimension Pathologie.
                 ee


R2 : “Donne-moi les documents qui parlent de Bill Gates et Steve Jobs et au
      moins de deux soci´t´s d’informatique”.
                        ee


Nous remarquons ` partir de cette requˆte que l’utilisateur cherche un document
                  a                     e
qui parlent de deux ´l´ments de la dimension Personnes : Bill Gates et Steve Jobs,
                    ee
dont les noms sont connus ET AU MOINS DE DEUX ´l´ments de la dimension
                                                           ee
Organisation : soci´t´ d’informatique, dont les noms sont inconnus. Par cons´quent,
                   ee                                                       e
un document qui parlent des deux personnes avec une seule soci´t´ informatique ne
                                                                ee
satisfait pas le besoin de l’utilisateur. Il est donc n´cessaire d’introduire un op´rateur
                                                       e                           e
quantificateur qui permet ` l’utilisateur de pr´ciser ` travers sa requˆte le nombre
                                a                    e     a                 e
d’´l´ments de dimension recherch´s. L’utilisateur pourra donc pr´ciser qu’il cherche
  ee                            e                               e
des documents qui parlent de deux soci´t´s d’informatique ou plus.
                                       ee




                                           66
R14 : “Donne-moi les images qui montrent une hanche sans pathologie”.


Nous remarquons que l’utilisateur ne pr´cise pas le nom de l’´l´ment de la dimension
                                       e                     ee
Pathologie qu’il cherche. La seule information qu’il fournit est qu’il s’agit d’une
pathologie de la hanche. Dans ce cas, il est possible que les documents pertinents
ne contiennent pas le terme “pathologie” mais contiennent plutˆt des termes comme
                                                              o
“Fracture” et/ou “Luxation”, etc. Afin que le syst`me puisse bien interpr´ter le
                                                    e                       e
contenu s´mantique de cette requˆte, il faut qu’il arrive ` inf´rer que “pathologie”
           e                        e                      a e
n’est pas le terme recherch´ mais plutˆt une description des ´l´ments recherch´s. Un
                           e          o                        ee                e
moyen possible est de permettre ` l’utilisateur de faire explicitement cette pr´cision.
                                  a                                            e
Il peut ainsi sp´cifier qu’un terme de sa requˆte repr´sente une description d’un
                e                               e       e
´l´ment recherch´. On peut aussi fournir ` l’utilisateur les moyens pour utiliser des
ee               e                        a
relations s´mantiques. Ainsi, il peut pr´ciser que les ´l´ments recherch´s sont des
           e                            e              ee               e
“pathologies qui affectent la hanche”. Ainsi, lors de la recherche, le syst`me ne se
                                                                          e
contente pas de rechercher les documents qui contiennent le terme “pathologie”,
mais surtout les documents qui contiennent des types de pathologies qui affectent la
hanche.


3.3.2     Vers un mod`le de RI orient´ pr´cision
                     e               e e
   Les approches existantes semblent insuffisantes devant les exigences que nous
avons pr´sent´es. Elles traitent les documents et les requˆtes comme des sacs de
        e      e                                              e
concepts lors de l’indexation et sont donc incapables de r´soudre des requˆtes pr´cises.
                                                          e               e      e
Le mod`le bool´en repr´sente une solution possible pour prendre en compte les
       e        e      e
op´rateurs bool´ens, mais il reste toutefois limit´ devant la complexit´ de la struc-
  e            e                                  e                    e
ture s´mantique des requˆtes pr´cises auxquelles nous nous int´ressons. Il faut donc
      e                 e      e                                 e
avoir recours ` de nouveaux formalismes de repr´sentation de connaissances pour
              a                                   e
introduire plus de s´mantique lors de l’indexation. Il faut utiliser une ressource ex-
                    e
terne pour repr´senter le contenu s´mantique des documents et requˆte. Il serait ainsi
               e                   e                               e
souhaitable d’avoir une repr´sentation uniforme des documents, requˆtes, et de la res-
                            e                                       e
source externe. Ceci peut ˆtre atteint en utilisant un formalisme de repr´sentation
                          e                                              e
de connaissances commun ` ces trois ´l´ments. Ce formalisme doit aussi proposer
                           a           ee
une op´ration de comparaison jouant le rˆle de la fonction de correspondance d’un
       e                                  o
SRI. Il doit ´galement prendre en compte les exigences des utilisateurs en termes
             e
d’op´rateurs (bool´ens, quantificateurs, etc.).
    e             e

                                          67
Plusieurs formalismes ont ´t´ exp´riment´s dans ce sens. Nous notons parti-
                                ee      e   e
culi`rement les Arborescences S´mantiques [9], les Graphes Conceptuels [16][63] et
    e                            e
les Logiques Descriptives [55][56][57].


   Le choix du formalisme de repr´sentation de connaissances ad´quat d´pend ´vide-
                                 e                             e      e     e
mment de nos besoins. Nous avons opt´ pour les Logiques Descriptives qui per-
                                        e
mettent d’exprimer la connaissance d’un domaine particulier et raisonner sur cette
derni`re de fa¸on efficace. Ainsi, il est possible que les trois sources de connais-
     e        c
sances (repr´sentation du document, de la requˆte, et de la ressource externe) soient
            e                                  e
repr´sent´es par le mˆme formalisme, ce qui assure que toutes ces sources de connais-
    e    e           e
sances participent au processus de recherche d’une mani`re uniforme. Ce formalisme
                                                        e
dispose par ailleurs d’un niveau d’expressivit´ assez ´lev´ qui convient tr`s bien `
                                              e       e e                  e       a
la repr´sentation pr´cise des documents et des besoins d’informations. Par exemple,
       e            e
il contient tous les op´rateurs dont nous avons besoin dans notre mod`le. Ces rai-
                       e                                               e
sons font des Logiques Descriptives une solution particuli`rement appropri´e pour la
                                                          e               e
mod´lisation dans notre contexte de RI.
   e

   Dans la section suivante, nous introduisons les logiques descriptives, puis nous
pr´sentons leurs applications dans notre mod`le de RI.
  e                                         e


3.4      La logique descriptive
    La logique descriptive (DL) [2], appel´e ´galement logique terminologique [12] est
                                          e e
une famille de formalismes de repr´sentation de la connaissance bas´e sur la logique.
                                    e                                e
Elle est con¸ue pour repr´senter et raisonner sur la connaissance d’un domaine d’ap-
            c             e
plication d’une mani`re structur´e. Elle descend des formalismes plus anciens que
                     e           e
sont les r´seaux s´mantiques et les “frames”.
          e       e


   Les notions de base de la DL sont les concepts atomiques et les rˆles atomiques.
                                                                    o
Les concepts sont interpr´t´s comme des sous-ensembles d’individus constituant soit
                         ee
des entit´s, soit des ´l´ments particuliers du domaine a mod´liser. Dans ce deuxi`me
          e           ee                                 `      e                   e
cas, ils sont appel´s des constantes individuelles. Les rˆles, quant ` eux, repr´sentent
                   e                                     o           a          e
des relations binaires entre des concepts, toujours sur le mˆme domaine. Une majo-
                                                            e


                                          68
rit´ de DLs permet d’exprimer qu’une constante individuelle est une instance d’un
   e
concept particulier, ou qu’une paire de constantes individuelles est une instance d’un
rˆle donn´.
 o       e


   Chaque DL est caract´ris´e par les constructeurs qu’elle fournit pour former des
                         e e
concepts et rˆles complexes ` partir des concepts et rˆles atomiques. D’abord, deux
             o              a                         o
constructeurs de concepts assez particuliers sont g´n´ralement introduits : il s’agit
                                                   e e
des constructeurs “Top” et “Bottom”, d´notant respectivement, l’ensemble de tous
                                        e
les individus du domaine de discours et l’ensemble vide. Les deux constructeurs
conjonction (⊓) et disjonction (⊔) sont respectivement l’intersection et l’union de
concepts. Le quantificateur existentiel typ´ (∃ R.C o` R est un rˆle et C un concept)
                                          e         u           o
et le quantificateur universel (∀ R.C) sont tels que :


- Pour qu’un objet a soit l’instance de l’ensemble ∃ R.C, il doit exister un objet b,
     qui est une instance de C et qui est li´ ` a via R ;
                                            ea


- a est une instance de l’ensemble ∀ R.C, si tous les objets li´s ` a via R sont des
                                                               e a
     instances de C.


   Le composant terminologique de la logique descriptive est la T(erminologique)-
Box. Elle est utilis´e pour introduire des noms (abr´viations) pour les concepts
                    e                               e
complexes. Elle permet la d´claration des axiomes g´n´raux d’inclusion de concepts
                           e                       e e
(G´n´ral Concepts Inclusion (GCI) axiomes). Un GCI est de la forme C ⊑ D ou
  e e
C ≡ Do` C et D sont des concepts sans restriction. Une T-Box est donc un en-
         u
semble, qui peut ˆtre vide, de GCI.
                 e


    Les DL adoptent toutes une s´mantique reposant sur une interpr´tation ensem-
                                   e                                   e
bliste des termes. Ce proc´d´ est connu sous l’appellation de s´mantique d´notationn-
                          e e                                  e          e
elle (denotational semantics). Ils introduisent ainsi une interpr´tation I = (∆I , .I )
                                                                 e
qui consiste en un ensemble non vide ∆I appel´ le domaine de discours de I, et en
                                                e
une fonction . qui associe pour chaque nom de concept C un ensemble C I ⊆ ∆I , et
              I

pour chaque nom de rˆle R, une relation binaire RI ⊆ ∆I × ∆I .
                    o


   Une interpr´tation I satisfait le GCI C ⊑ D si C I ⊆ D I . I satisfait la T-Box
              e

                                          69
T , si I satisfait tous les GCI dans T . Dans ce cas, I est appel´ mod`le de T . Un
                                                                 e    e
concept C est satisfiable par rapport ` une T-Box T s’il y a un mod`le I de T tel
                                     a                                 e
que C I = ∅. Ainsi, un algorithme de satisfiabilit´ (consistance) teste si un concept
                                                 e
donn´ peut effectivement ˆtre instanci´. Un ´l´ment d ∈ C I est appel´ une instance
     e                    e          e      ee                        e
de C.


    Le composant assertionnel de la logique descriptive est la A(ssertion)-Box. Celle-
ci contient l’ensemble des assertions. Par exemple, si la T-Box contient le concept
Personne, alors la A-Box peut contenir Jacques qui en est une instance.


   Il existe des algorithmes, pour certaines logiques descriptives, pour calculer la
taxonomie de la T-Box : c’est la hi´rarchie de subsomption de tous les concepts
                                        e
introduits dans la T-Box. Ils offrent une capacit´ de raisonnement qui d´duit de la
                                                    e                       e
connaissance implicite ` partir de celle qui est donn´e explicitement dans la T-Box T .
                       a                              e
Ainsi, l’algorithme de subsomption d´termine les relations de sous et super-concepts :
                                    e
un concept C est subsum´ par un concept D (C ⊑T D), si chaque instance de C est
                          e
aussi une instance de D, c’est-`-dire, si chaque mod`le I de la T-Box T interpr`te
                                a                   e                          e
C comme un sous ensemble de l’interpr´tation de D (C I ⊆ D I ). Deux concepts sont
                                        e
dits ´quivalents s’ils se subsument mutuellement : C ≡ D si C ⊑ D et D ⊑ C.
     e


   Il existe plusieurs logiques descriptives, la minimale ´tant le langage AL (Attribut-
                                                          e
ive Langauge). Ce langage ne remplit pas les exigences de notre mod`le, a savoir
                                                                       e `
contenir tous les op´rateurs bool´ens, l’op´rateur de quantification, etc. En fonc-
                     e            e         e
tion de nos besoins, nous avons choisi un langage DL qui a un pouvoir d’expressivit´
                                                                                   e
sup´rieur ` AL. Il s’agit du langage ALCQ (Attributive Language with Complements
   e      a
and Qualified number restrictions) dont la syntaxe et la s´mantique sont repr´sent´es
                                                         e                  e    e
dans la section suivante.


3.4.1     Syntaxe et s´mantique du langage ALCQ
                      e
   Les descriptions de concepts sont form´es selon les r`gles syntaxiques pr´sent´es
                                         e              e                   e    e
dans le tableau 3.1. Soient c un concept atomique, r un rˆle atomique et C et D des
                                                         o
descriptions de concepts. L’interpr´tation de concepts complexes est d´finie dans le
                                   e                                   e
tableau 3.1.



                                          70
Tab. 3.1 – Syntaxe et s´mantique du langage ALCQ.
                                       e
    Constructeur             Syntaxe S´mantique
                                            e
                                           I
    Nom de concept           c           c
    Top (concept univer- ⊤               ∆I
    sel)
    N´gation de concepts ¬C
      e                                  ¬C I = ∆I C I
    non      n´cessairement
              e
    primitifs
    Bottom                   ⊥           ∅
    Conjonction              C ⊓D        C I ∩ DI
    Disjonction              C ⊔D        C I ∪ DI
    Quantificateur univer- ∀R.C           {d ∈ ∆I |∀ e ∈ ∆I .(RI (d, e) → e ∈ C I )}
    selle
    Quantificateur exis- ∃R.C             {d ∈ ∆I |∃ e ∈ ∆I .(RI (d, e), e ∈ C I )}
    tentiel typ´e
    Restriction de nombre       nR.C {d ∈ ∆I ||{e|RI (d, e), e ∈ C I }| n}
    qualifi´e
           e
    Restriction de nombre       nR.C {d ∈ ∆I ||{e|RI (d, e), e ∈ C I }| n}
    qualifi´e
           e


   Voici quelques exemples pouvant ˆtre exprim´s en ALCQ :
                                   e          e


    Soient P ersonne et F eminin des concepts atomiques. Alors P ersonne ⊓ F eminin
                          ´                                                  ´
(les personnes qui sont f´minines) et P ersonne ⊓ ¬F eminin (les personnes qui ne
                         e                            ´
sont pas f´minines) sont des concepts ALCQ.
          e

   Soit a-enfant un rˆle atomique, nous pouvons alors former les concepts :
                     o


- P ersonne ⊓ ∃ a-enfant.⊤ d´note les personnes qui ont un enfant ;
                            e
- P ersonne ⊓ ∀ a-enfant.F eminin d´note toutes les personnes dont les enfants sont
                           ´       e
     des filles ;
- P ersonne ⊓ ∀ a-enfant.⊥ d´note les personnes qui n’ont pas d’enfant.
                            e


   Si F emme ≡ P ersonne ⊓ F eminin, alors :
                             ´


- ¬F emme d´note les individus qui ne sont pas des femmes ;
           e


                                          71
- F emme ⊓ ∃ a-enfant.P ersonne d´note les m`res ;
                                 e          e
- F emme ⊓      3a-enfant.P ersonne d´note les m`res qui ont au moins trois enfants.
                                     e          e


3.4.2     Logique Descriptive et Recherche d’Information
    L’application de la logique descriptive au domaine de la RI est prometteuse, car
il suffit de consid´rer le corpus des documents comme un sous-ensemble du domaine
                 e
de discours choisi, et y repr´senter les documents et les requˆtes par des concepts.
                             e                                e
Ainsi, chaque document d (requˆte q) sera repr´sent´(e) dans la T-Box T par son
                               e              e    e
index docI (qI) qui est une expression (concept) ALCQ. docI est une abstraction
(repr´sentation) d’un ensemble de documents qui ont le mˆme contenu. Les docu-
     e                                                      e
ments physiques repr´sentent alors les instances de docI. Conform´ment ` la termi-
                      e                                          e     a
nologie des DL, la correspondance entre une requˆte q et un document doc se calcule
                                                 e
ainsi dans la hi´rarchie de subsomption : un document doc est pertinent pour une
                  e
requˆte q si le concept docI est subsum´ par le concept qI : docI ⊑T qI (cf. figure 3.1).
    e                                  e
Ainsi, pour r´pondre ` une requˆte q, le SRI s´lectionne les documents dont l’index
             e       a           e             e
docI est subsum´ par le concept qI. Cette id´e s’appuie sur le mod`le logique propos´
                e                           e                     e                 e
par Van Rijsbergen qui consid`re le processus de recherche comme une ´valuation
                               e                                           e
d’une implication logique entre la requˆte q et chaque document doc du corpus, re-
                                       e
lativement ` un ensemble de connaissances K [93]. Ceci ind´pendemment du choix
           a                                                e
de formalisme de repr´sentation de doc, q et K. Selon la suggestion de Van Rijsber-
                      e
gen, seuls doivent ˆtre consid´r´s pertinents, les documents dont on peut d´duire la
                   e          ee                                           e
requˆte d’une mani`re logique. La correspondance revient donc ` donner une mesure
    e               e                                           a
d’incertitude PK (doc → q).

   Meghini et ses collaborateurs [56] ont propos´ une DL nomm´e MIRTL comme un
                                                e            e
formalisme ad´quat pour la conception des SRI bas´s sur le mod`le logique. La DL
              e                                      e          e
ainsi propos´e a ´t´ utilis´e pour la repr´sentation des documents selon diff´rentes
            e    ee        e              e                                 e
caract´ristiques : le contenu du document, la structure, le contexte, etc. Nous allons
      e
nous inspirer de ce travail afin de tirer profit des DL dans notre mod´lisation.
                                                                       e


   Dans les sections suivantes, nous allons voir comment nous utilisons les DL dans
notre contexte de mod´lisation d’un mod`le de RI orient´ pr´cision.
                       e                  e             e e




                                          72
Fig. 3.1 – Correspondance entre une requˆte et un document repr´sent´s en logique
                                        e                      e    e
descriptive.

3.5      Mod`le de RI : notation et d´finitions
            e                        e
   Nous d´finissons ici, d’une mani`re g´n´rale, les composantes de notre mod`le de
         e                        e    e e                                  e
Recherche d’Information.


3.5.1     Ressource externe
   Nous pr´sentons ici le mod`le formel de la ressource externe K d´crivant l’en-
          e                  e                                     e
semble des connaissances pr´sentes dans le corpus.
                           e


    Soit C = {c1 . . . cnc } un ensemble de nc concepts atomiques, R = {r1 . . . rnr } un
ensemble de nr rˆles. Nous appelons S = (C, R) la signature de K. Une fois que la
                  o
signature S est fix´e, une interpr´tation I pour S est une paire I = (∆I , .I ) o` :
                    e               e                                             u


 - ∆I est un ensemble non vide ;
 - .I est une fonction assignant :
        ◦ Un sous-ensemble CiI ⊆ ∆I ` chaque concept atomique ci ∈ C ;
                                    a
        ◦ Une relation Ri ⊆ ∆I × ∆I ` chaque rˆle Ri ∈ R ;
                        I
                                    a         o




                                           73
Dans notre contexte de RI, nous nous int´ressons ` la mod´lisation du contenu des
                                              e        a       e
documents et non ` la mod´lisation du monde r´el. Ainsi, la fonction d’interpr´tation
                   a        e                   e                              e
.I d´pend du contenu des documents. C’est-`-dire, l’interpr´tation d’un concept ne
    e                                         a              e
repr´sente pas des entit´s du monde r´el, mais plutˆt un ensemble d’instances dans les
    e                   e            e             o
documents. Par exemple, l’interpr´tation de “Berlusconi” n’est pas la personne elle-
                                 e
mˆme dans le monde r´el, mais plutˆt ses apparitions dans les documents. Chaque
  e                 e               o
apparition de “Berlusconi” dans un document diff´rent est une instance : “Berlusconi
                                                    e
en tant que pr´sident du club Milan AC”, “Berlusconi en tant que Premier ministre
                 e
de l’Italie”, etc. Pour cette raison, dans notre mod´lisation la A-Box est un ensemble
                                                     e
vide, et les documents et les requˆtes sont repr´sent´s uniquement par des concepts.
                                  e             e    e
Par exemple, Zidane, qui est en principe une instance du concept Joueur, donnera
lieu au concept Zidane ⊑ Joueur qui sera stock´ dans la T-Box. Comme nous le
                                                  e
verrons dans la suite, ceci ne repr´sente aucune contrainte lors de la repr´sentation
                                   e                                       e
du contenu des documents et des requˆtes. Bien au contraire, nous aurons un cadre
                                       e
unifi´ o` la requˆte de l’utilisateur peut faire r´f´rence ` la fois ` des “instances”
    e u          e                               ee       a         a
(Zidane) et ` des “concepts” (joueur ). De plus, en RI il n’y a pas un besoin ´vident
            a                                                                 e
de s´parer les concepts des instances. Parfois, afin de bien d´crire un ´l´ment, il est
    e                                                        e         ee
mˆme n´cessaire d’utiliser dans la mˆme phrase des termes qui d´notent des concepts
  e     e                           e                           e
et d’autres d´notant des instances. Par exemple, pour chercher des documents qui
             e
parlent de Berlusconi, il est parfois n´cessaire de pr´ciser le besoin d’information
                                        e               e
en utilisant, en plus de l’instance “Berlusconi”, le concept “pr´sident du club Milan
                                                                e
AC” ou bien le concept “Premier ministre de l’Italie”.

      ´
      Etant donn´ le langage de description ALCQ et une signature S, une ressource
                e
externe K dans ALCQ est un quadruple K = (S, T, A, Dim), tel que T est la T-Box,
A est la A-Box, et Dim est l’ensemble des dimensions.


   Pour des contraintes pratiques (l’existence des ressources hi´rarchiques), nous im-
                                                                 e
posons une condition n´cessaire pour d´finir une dimension ` travers la hi´rarchie3
                       e                 e                     a              e
de la ressource externe K. Ainsi, une dimension dimi est d´finie par un concept
                                                             e
rac dimi et tous les concepts qu’il subsume. Formellement une dimension dimi issue
d’une ressource K est d´finie comme suit :
                        e

  3
    D´finie par l’ensemble d’axiomes terminologiques de la forme C ⊑ D, o` C et D sont des
     e                                                                  u
expressions ALCQ sur la signature S.


                                           74
dimi = (rac dimi , Ci)


o` :
 u


 - rac dimi ∈ C est le concept racine de la hi´rarchie d´finissant dimi ;
                                              e         e
 - Ci = {c ∈ C | c ⊑ rac dimi } est l’ensemble des concepts sp´cifiques ` dimi .
                                                              e        a


   Ainsi, Dim = {dimi . . . dimnd } forme l’ensemble des nd dimensions d´finies `
                                                                        e      a
travers la ressource externe K.


   Cette d´finition est simplifi´e car elle correspond seulement ` des ressources or-
           e                  e                                a
ganis´es autour d’une hi´rarchie de concepts. La r´alit´ peut ˆtre plus complexe,
     e                   e                          e e        e
notamment en organisant les connaissances d’un domaine dans une ressource non
hi´rarchique. Il peut donc exister des dimensions de domaine qui ne font pas partie
  e
de la cat´gorie des dimensions que nous avons d´finies.
         e                                      e


       Dans un cas r´el, il est possible qu’il n’y ait pas une sous-hi´rarchie qui d´finisse
                    e                                                 e             e
explicitement la dimension. Dans ce cas, il est possible que la dimension en ques-
tion puisse ˆtre d´finie ` travers plusieurs sous hi´rarchies de la ressource externe
             e    e     a                          e
utilis´e. Par cons´quent, nous pouvons cr´er manuellement la racine pour regrou-
      e           e                        e
per toutes ces sous-hi´rarchies et d´finir ainsi une dimension. Par exemple, pour
                      e             e
d´finir les dimensions “Anatomie”, “Pathologie”, et “Modalit´” dans le cadre de nos
 e                                                         e
exp´rimentations dans le domaine de l’imagerie m´dicale, nous avions le choix entre
    e                                              e
                    4         5
les ressources MeSH et UMLS . Supposons que ces deux ressources aient ´t´ d´crites
                                                                          ee e
en DL (les entr´es sont des concepts, et la structure hi´rarchique est form´e par des
                e                                       e                  e
axiomes de subsomption)6 . Ainsi, dans la premi`re ressource, ces dimensions peuvent
                                               e
ˆtre d´finies respectivement ` travers les sous hi´rarchies suivantes : Anatomy [A],
e     e                     a                    e
Diseases [C], et Analytical, Diagnostic and Therapeutic Techniques and Equipment
[E]. En revanche, dans la ressource UMLS nous avons dˆ cr´er manuellement les
                                                         u e
   4
     http ://www.nlm.nih.gov/mesh/
   5
     http ://www.nlm.nih.gov/research/umls/
   6
     En r´alit´, et d’apr`s nos exp´riences, il est tr`s difficile de mod´liser UMLS en DL. En effet,
           e e            e        e                  e                e
ce m´ta-th´saurus dispose d’une caract´ristique unique qui consiste ` avoir plusieurs hi´rarchies
      e     e                            e                               a                e
parall`les et pas forc´ment compatibles. Pour plus d’informations sur ce sujet, nous invitons le
       e                e
lecteur ` lire les travaux de Barry Smith [http ://ontology.buffalo.edu/smith/]
         a

                                               75
racines pour regrouper des sous hi´rarchies de la ressource et d´finir ainsi les di-
                                  e                             e
mensions en question. Par exemple, pour d´finir la dimension “Pathologie”, nous
                                           e
avons cr´´ une racine pour regrouper les sous-hi´rarchies “Disease or Syndrome”,
        ee                                      e
“Finding”, et “Injury or Poisoning”.


3.5.2        Indexation des documents
   Soit Doc = {doci |1   i    nd} l’ensemble des nd documents pr´sents dans le
                                                                    e
corpus. Un document doci peut ˆtre un article de presse, un compte-rendu m´dical,
                              e                                           e
une image, etc.


   Dans notre cas, une requˆte repr´sente une description textuelle des documents
                           e       e
recherch´s.
        e

Vocabulaire d’indexation

    Le vocabulaire d’indexation VDoc constitue l’ensemble des descripteurs qui servent
` la description du contenu des documents Doc lors de la phase d’indexation. Chaque
a
document est repr´sent´ par les descripteurs pr´sents dans la ressource externe.
                   e    e                        e


       VDoc contient donc l’union de l’ensemble des concepts et de l’ensemble des dimen-
sions extraits de la ressource externe K.



             VDoc = (V cDoc ∪ V dimDoc )7 , avec V cDoc = C, V dimDoc = Dim.

Collection de documents index´s
                             e

   Chaque document doc ∈ Doc contient un ensemble de concepts docc = {c ∈ C}.
A partir de docc nous pouvons d´duire l’ensemble des dimensions docdim = {dim}
                               e
pr´sentes dans doc.
  e

   7
     Dans notre mod`le, il est possible de former un besoin d’information en utilisant uniquement
                     e
des dimensions. Pour cette raison, nous s´parons ici les dimensions et les concepts mˆme s’ils sont
                                          e                                          e
reli´s dans la base de connaissances.
    e




                                                76
Chaque concept c ∈ docc a un poids wc,doc qui caract´rise son degr´ d’importance
                                                           e             e
` d´crire le contenu de doc8 .
a e

       Le contenu s´mantique d’un document doc sera repr´sent´ par l’index docI qui
                   e                                    e    e
est une expression ALCQ sur le vocabulaire VDoc . La d´finition formelle de docI est
                                                      e
pr´sent´e plus loin dans ce chapitre.
  e    e


3.5.3        Formulation de la requˆte
                                   e
Vocabulaire d’interrogation

    Le vocabulaire d’interrogation sert ` la formulation des requˆtes de l’utilisateur.
                                        a                        e
Celui-ci peut utiliser le vocabulaire pr´sent dans la ressource externe K. Il peut
                                         e
pr´ciser davantage son besoin d’information en ajoutant a sa requˆte des op´rateurs
  e                                                       `        e          e
et des relations s´mantiques entre les descripteurs.
                  e


   D’une mani`re g´n´rale, nous d´finissons le vocabulaire d’interrogation VQ comme
               e   e e           e
´tant le r´sultat d’une combinaison de dimensions, de concepts, de relations et
e         e
d’op´rateurs. Le contenu s´mantique d’une requˆte q est donc repr´sent´e par qI
    e                     e                      e                   e    e
qui est une expression ALCQ sur le vocabulaire VQ . La d´finition formelle de qI est
                                                        e
pr´sent´e plus loin dans ce chapitre.
  e     e


3.5.4        Correspondance entre la requˆte et le document
                                         e
       Pour r´pondre ` une requˆte, deux op´rations sont n´cessaires :
             e       a         e           e              e


i. La premi`re consiste ` s´lectionner, parmi les documents index´s, ceux qui satis-
            e           a e                                       e
      font la requˆte. Cette op´ration est effectu´e ` l’aide d’une fonction fSel qui
                  e             e                 e a
         doit respecter, lors de l’´valuation des documents, les op´rateurs et les relations
                                   e                               e
         pr´sents dans la requˆte. Nous verrons plus loin que cette fonction est bas´e
           e                     e                                                        e
         sur la hi´rarchie de subsomption. En effet, afin de calculer la correspondance
                  e
         entre un document et une requˆte, nous proc´derons par un premier niveau
                                          e                e
         d’indexation bas´ sur la logique descriptive : il s’agit de l’indexation pour la
                          e
   8
     Dans notre mod´lisation, les poids ne font pas partie de la DL. Nous les utilisons plus loin lors
                   e
de l’ordonnancement des documents pertinents pour une requˆte.  e




                                                 77
correspondance.


ii. La deuxi`me op´ration est effectu´e ` l’aide d’une fonction fOrd qui permet d’or-
            e     e                 e a
      ganiser l’ensemble des documents s´lectionn´s (par fSel ) dans leur ordre de
                                         e        e
      pertinence par rapport ` la requˆte. La valeur de pertinence d’un document
                             a        e
      d par rapport ` une requˆte q est calcul´e par fOrd en fonction des poids
                     a           e             e
      des descripteurs dans d et q. Afin de mettre en œuvre la fonction fOrd , nous
      proc´derons par un deuxi`me niveau d’indexation : l’indexation pour l’or-
          e                    e
      donnancement.


   Selon Meghini [56], la complexit´ d’int´gration des pond´rations dans un mod`le
                                   e      e                e                    e
de RI ` base de logique descriptive est tr`s ´lev´e. Pour cette raison, nous avons
      a                                     e e e
d´cid´ de s´parer ces deux niveaux d’indexation de telle sorte que les pond´rations
 e e       e                                                               e
ne feront pas partie de notre mod`le ` base de logique descriptive.
                                 e a


   Les d´finitions formelles des fonctions fSel et fOrd sont pr´sent´es dans la suite
         e                                                    e    e
de ce chapitre.


3.6      Mod`le de RI orient´ pr´cision
            e               e e
   A partir des notations pr´sent´es dans la section pr´c´dente, nous introduisons
                            e    e                     e e
ici une description de notre mod`le de Recherche d’Information orient´ pr´cision qui
                                e                                    e e
comprend les ´l´ments suivants :
               ee


- Une ressource externe contenant des dimensions, des concepts, et des relations
      s´mantiques ;
       e
- Les concepts et les dimensions constituent le vocabulaire d’indexation et le voca-
      bulaire d’interrogation :
- Le contenu s´mantique d’un document est d´crit par ces descripteurs mis en
              e                            e
      relations les uns avec les autres ;
- La requˆte est repr´sent´e par ces descripteurs mis en relations les uns avec les
         e            e   e
    autres. Elle est ´galement enrichie avec des op´rateurs ;
                     e                             e



                                            78
- La correspondance entre la requˆte et les documents est r´alis´e en utilisant les
                                 e                         e e
      deux types de descripteurs et en respectant les op´rateurs qui leur sont associ´s
                                                        e                            e
      dans la requˆte.
                  e


3.6.1     Mod`le de document
             e
   Nous avons montr´ lors du deuxi`me chapitre que les approches qui consid`rent les
                     e            e                                        e
documents (requˆtes) comme des sacs de concepts ne permettent pas de r´soudre des
                 e                                                      e
requˆtes pr´cises. Dans notre approche, nous proposons d’utiliser les dimensions de
    e      e
domaine pour mettre en exergue les ´l´ments pertinents qui contribuent ` la descrip-
                                   ee                                  a
tion du contenu s´mantique des documents et des requˆtes. Ainsi, nous utilisons les
                 e                                    e
dimensions, les concepts et les relations pour d´finir une nouvelle unit´ d’indexation
                                                e                      e
qui nous permet de produire une repr´sentation pr´cise du contenu des documents et
                                       e           e
des requˆtes tout en consid´rant les aspects li´s ` leur s´mantique. Par cons´quent,
        e                   e                  e a        e                   e
au lieu de consid´rer un document qui parle du “pr´sident fran¸ais Jacques Chirac”
                 e                                e           c
comme un sac de concepts, nous repr´sentons son contenu par l’´l´ment appartenant
                                   e                          ee
` la dimension “Personne” qui est “Jacques Chirac” et qui est “pr´sident” originaire
a                                                                  e
de “France”. De mˆme, lors de l’interrogation, l’utilisateur peut d´crire son besoin
                    e                                                e
en identifiant l’´l´ment qu’il recherche (ex. le nom d’un joueur : “Zidane”) et/ou en
                ee
le d´crivant en utilisant un ou plusieurs concepts. De cette mani`re, en voulant cher-
    e                                                            e
cher un ´l´ment qui correspond ` un pr´sident fran¸ais, l’utilisateur peut pr´ciser
         ee                        a       e           c                        e
que l’´l´ment appartient ` la dimension “Personne”, et qu’il est “Pr´sident” d´crit
      ee                  a                                         e         e
par le concept “France”9 .

L’´l´ment de dimension : une nouvelle unit´ d’indexation
  ee                                      e

    Tout concept sp´cifique ` une dimension est susceptible de constituer un ´l´ment
                   e         a                                               ee
de cette dimension lorsqu’il est utilis´ dans un document ou une requˆte. Un ´l´ment
                                       e                             e       ee
d’une dimension dimi est une expression ALCQ qui cherche ` correspondre le plus
                                                               a
pr´cis´ment possible au concept sp´cifique de dimi auquel il est fait r´f´rence dans
  e e                              e                                  ee
un document ou une requˆte. Cette expression est une conjonction dont au moins
                          e
un des concepts appartient ` dimi . Elle peut contenir d’autres concepts qui servent
                            a
` “raffiner” la description de l’´l´ment de dimension en question. Formellement, un
a                              ee
  9
   Deux concepts appartenant chacun ` une dimension diff´rente : “France” appartient ` la di-
                                       a                    e                       a
mension “Lieu g´ographique”, et “Pr´sident” appartient ` la dimension “Personne”.
               e                   e                   a




                                            79
´l´ment de la dimension dimi est une expression ALCQ de la forme suivante :
ee



       edimi ≡ cidf
           e          1   ⊓ . . . ⊓ cidf   n   ⊓ ∃ d´crit par.cdes 1 ⊓ . . . ⊓ ∃ d´crit par.cdes m
                                                    e                             e



o` :
 u


- les concepts cidfi appartiennent ` dimi ;
                                   a
- les concepts cdes j appartiennent ` d’autres dimensions que dimi .
                                    a


   edimi est donc identifi´ par les concepts cidfi , et d´crit par les concepts cdes j .
         e                 e                            e
d´crit par est une relation utilis´e uniquement lors de la mod´lisation pour d´crire
 e                                e                            e               e
un ´l´ment de dimension. Dans la pratique, elle est remplac´e par d’autres relations
   ee                                                      e
concr`tes (Par ex. Pr´sident originaire de France, Pathologie affecte F´mur, etc.).
     e               e                                                e


   Exemple 1


    Soit un document qui contient l’´l´ment de la dimension “Personne” SteveJobs
                                    ee
et l’´l´ment de la dimension “Organisation” Apple, Inc.. Supposons que ces deux
     ee
´l´ments de dimensions sont repr´sent´s respectivement par edimp et edimo . Nous
ee                              e    e
aurons ainsi :


   edimP ≡ Steve Jobs
   edimO ≡ Apple, Inc


   Exemple 2


   Dans un document qui contient le “G´n´ral fran¸ais Philippe Morillon”, l’´l´ment
                                      e e        c                          ee
de la dimension “Personne” est identifi´ par “Philippe Morillon” et “G´n´ral”, et
                                      e                                 e e
d´crit par “France”. Supposons que cet ´l´ment de dimension soit repr´sent´ par
 e                                     ee                            e    e
edimp . Nous aurons ainsi :



           edimp ≡ P hilippe Morillon ⊓ G´n´ral ⊓ ∃ originaire de.F rance
                                         e e

                                                       80
Si l’on indexe un document par l’´l´ment edimp , cela peut paraˆ redondant
                                     ee                            ıtre
car P hilippe Morillon ⊑ G´n´ral et P hilippe Morillon ⊑ ∃ originaire de.F rance.
                           e e
Mais ca ne l’est pas car la ressource externe ne contient pas forc´ment toutes les
     ¸                                                            e
connaissances pr´sentes dans les documents (on ne sait pas forc´ment que Philippe
                e                                              e
Morillon est originaire de France). Ceci permettra par exemple de r´pondre ` une
                                                                    e      a
requˆte dont le contenu est repr´sent´ par ∃ originaire de.F rance.
    e                           e    e


   Dans notre mod`le de document, les ´l´ments de dimension sont utilis´s afin de
                   e                   ee                              e
produire une repr´sentation pr´cise du contenu s´mantique des documents. Nous
                 e            e                 e
proposons ainsi le rˆle index´ par afin d’associer un ´l´ment de dimension ` un
                    o        e                         ee                   a
document. Soit un document doc contenant d dimensions, pour chacune il existe ni
´l´ments de dimension. La repr´sentation (l’index) docI du contenu s´mantique de
ee                             e                                    e
doc est une expression ALCQ sur VDoc ∪ {index´ par} repr´sent´e de la forme sui-
                                             e          e    e
vante :



docI ≡ ∃ index´ par.edim1 ⊓ . . . ⊓ ∃ index´ par.edim1 ⊓ . . . ⊓ ∃ index´ par.edimi ⊓
                 e         1                 e         n1                e         1
. . . ⊓ ∃ index´ par.edimni ⊓ . . . ⊓ ∃ index´ par.edim1 ⊓ . . . ⊓ ∃ index´ par.edimd
               e         i
                                              e         d
                                                                          e          nd




   Apr`s le processus d’indexation, toutes les repr´sentations docI des documents
      e                                            e
doc sont ajout´es ` la T-Box. Celle-ci contient alors, en plus des connaissances du
               e a
domaine, les index des documents pr´sents dans la collection.
                                    e


   Dans la figure 3.2, nous pr´sentons la repr´sentation graphique de notre mod`le
                             e               e                                e
de document. Le contenu s´mantique d’un document physique doc est repr´sent´ par
                         e                                              e   e
le concept docI qui est une expression ALCQ. docI est d´fini par la conjonction d’un
                                                        e
ensemble d’´l´ments de dimensions edim qui sont reli´s ` docI par le rˆle index´ par.
            ee                                      e a               o        e
Chaque ´l´ment de dimension edim est identifi´ par un concept de la dimension `
         ee                                       e                                 a
laquelle il appartient (⊑ cidf ) ou bien sa racine (⊑ rac dim). edim peut ˆtre d´crit
                                                                          e     e
par z´ros ou plusieurs concepts (∃ d´crit par.cdes ). Notons que les documents phy-
     e                                 e
siques qui ont le mˆme contenu sont repr´sent´s par des concepts (expression ALCQ)
                   e                    e    e


                                          81
Fig. 3.2 – Repr´sentation graphique du mod`le de document
                          e                          e

´quivalents.
e


   Exemple


   Soit un document doc qui parle des “deux soci´t´s d’informatique Microsoft et
                                                   ee
Apple, Inc.” et de “Bill Gates” et “Steve Jobs”. A partir de ce document, nous pou-
vons identifier deux ´l´ments de la dimension “Organisation”, que nous appelons res-
                    ee
pectivement edimo et edimo , et deux ´l´ments de la dimension “Personne” que nous
                 1        2          ee
appelons respectivement edim1 et edimp . edimo et edim2 sont d´crits par “Soci´t´
                              p
                                        2      1
                                                        o
                                                                e             ee
d’informatique” et identifi´s respectivement par “Microsoft” et “Apple, Inc.”. edimp
                          e                                                       1
        p
et edim2 sont identifi´s respectivement par “Bill Gates” et “Steve Jobs”. Ainsi, ces
                      e
´l´ments seront repr´sent´s comme suit :
ee                  e    e


   edimo ≡ Microsoft ⊓ Soci´t´ d’informatique
       1                   ee
       o
   edim2 ≡ Apple, Inc. ⊓ Soci´t´ d’informatique
                             ee
   edimp ≡ Bill Gates
       1



                                        82
edimp ≡ Steve Jobs
           2



   Finalement la repr´sentation du contenu s´mantique du document doc dans la
                     e                      e
T-Box est d´finie comme suit :
           e



        docI ≡ ∃ index´ par.edimo ⊓ ∃ index´ par.edimo ⊓ ∃ index´ par.edimp ⊓
                      e         1          e         2          e         1
                                       ∃ index´ par.edimp
                                              e         2


   Chaque ´l´ment de dimension edimi a un poids wedimi qui caract´rise son
           ee                          ni               ni
                                                                     e
degr´ d’importance ` d´crire le contenu du document auquel il appartient10 . La
    e              a e
valeur de wedimi d´pend des poids des concepts qui l’identifie et des concepts qui le
               ni
                   e
d´crivent. En effet, nous supposons que plus le poids des concepts identifiant edimi
 e                                                                                ni
est grand, plus wedimni est ´lev´. Nous supposons ´galement que plus il y a des
                      i     e e                     e
concepts d´crivant edimi , plus la valeur de wedimi est ´lev´e.
          e            ni                         ni
                                                        e e


3.6.2        Mod`le de requˆte
                e          e
Pr´ambule
  e

       Dans les syst`mes de recherche existants, le mode d’interaction typique avec l’uti-
                    e
lisateur est bas´ sur les mots-cl´s ou sur le processus de requˆte par l’exemple : dans
                e                e                             e
le premier cas, l’utilisateur introduit une liste de mots-cl´s pour d´crire son besoin
                                                             e        e
d’information. A partir de la requˆte, le syst`me essaye d’interpr´ter le besoin de
                                     e           e                    e
l’utilisateur et r´pondre par un ensemble de documents. Dans le deuxi`me cas, un
                  e                                                    e
utilisateur propose une image en entr´e du syst`me qui g´n`re une requˆte puis pro-
                                     e         e        e e           e
pose en sortie les images qui lui sont les plus ’proches’ ou ’similaires’.

       Ces modes d’interaction souffrent du fait que les besoins de l’utilisateur restent
implicites. En effet, le syst`me doit utiliser sa connaissance du contenu de la requˆte
                            e                                                      e
(mots-cl´s ou image) afin d’extraire l’information explicite et mettre en œuvre les
         e
repr´sentations correspondantes. Ce processus peut aboutir ` des ambigu¨ es et des
    e                                                            a               ıt´
r´sultats de recherche peu satisfaisants lorsque le besoin de l’utilisateur est tr`s pr´cis.
 e                                                                                 e   e

  10
     Dans notre mod´lisation, les poids ne font pas partie de la DL. Nous les utilisons plus loin pour
                   e
l’ordonnancement des documents pertinents pour une requˆte.  e



                                                 83
Nous proposons ici un mod`le bas´ sur un langage de requˆte textuel expressif
                             e      e                       e
dans le sens o` il permet ` l’utilisateur d’exprimer des requˆtes pr´cises en combi-
               u           a                                 e       e
nant dimensions, concepts et relations de son domaine d’int´rˆt. La requˆte peut ˆtre
                                                           ee           e        e
enrichie, en cas de besoin, par un ensemble d’op´rateurs.
                                                 e


    Ainsi, l’interaction avec l’utilisateur est directe puisque, contrairement aux syst`-
                                                                                       e
mes existants, l’utilisateur prend en charge le processus de formulation de requˆte
                                                                                e
                                                                    11
en traduisant ses besoins au syst`me de mani`re explicite et pr´cise .
                                  e           e                 e


  Nous pr´sentons apr`s les ´l´ments de base de notre mod`le de correspondance.
           e           e     ee                              e
Nous d´crirons dans un premier temps le langage de requˆtes puis nous aborderons les
      e                                                e
conditions ` v´rifier pour tout couple (q, doc) afin que le document doc soit consid´r´
           a e                                                                    ee
pertinent pour la requˆte q selon le processus de correspondance d´fini pour notre
                       e                                            e
mod`le de recherche orient´ pr´cision.
    e                      e e

Langage de requˆtes
               e

   Dans notre mod`le de requˆte, les ´l´ments de dimension sont utilis´s afin de
                   e          e       ee                              e
produire une repr´sentation pr´cise du contenu s´mantique des requˆtes. Ainsi, la
                 e            e                 e                 e
repr´sentation d’une requˆte q est d´finie par la combinaison de crit`res de s´lection
    e                    e          e                               e        e
sur les ´l´ments de dimensions introduit par l’utilisateur pour identifier les docu-
        ee
ments recherch´s. Nous proposons ` l’utilisateur d’employer explicitement des re-
                e                   a
lations s´mantiques afin d’identifier et/ou d´crire des ´l´ments de dimensions (cf.
         e                                   e           ee
section 3.6.1). Formellement, une requˆte est repr´sent´e de la mˆme mani`re qu’un
                                      e           e    e         e       e
document avec en plus les op´rateurs qui permettent ` l’utilisateur de d´crire son
                            e                       a                   e
besoin avec pr´cision.
              e


   Soit une requˆte q contenant d dimensions, pour chacune il existe ni ´l´ments
                e                                                       ee
de dimension. La repr´sentation qI du contenu s´mantique de q est une expression
                     e                         e
ALCQ sur VQ ∪ {index´ par}. Le rˆle index´ par, introduit pr´c´demment, permet
                       e           o       e                e e
d’associer un ´l´ment de dimension ` une requˆte.
              ee                   a         e


    Chaque ´l´ment de dimension edimi peut avoir un poids wedimi qui pond`re
           ee                       ni                         ni
                                                                         e
  11 ´
    Evidemment, une interface graphique doit ˆtre propos´e a l’utilisateur pour qu’il exprime son
                                             e          e `
besoin en langue naturel.



                                               84
son degr´ d’importance pour d´crire le contenu de la requˆte ` laquelle il appartient.
        e                    e                           e a
La valeur de wedimi peut ˆtre introduite par l’utilisateur ` travers une interface au
                    ni
                         e                                 a
cas o` il le souhaite.
     u

Expression de requˆtes
                  e

   L’expression de requˆtes a pour but d’extraire un ensemble de documents jug´s
                        e                                                         e
pertinents par le syst`me. La repr´sentation d’une requˆte q doit donc d´noter l’en-
                      e           e                    e                e
semble des documents qui lui sont pertinents. De cette mani`re, nous pourrons
                                                                e
s´lectionner tous les documents doc tel que docI est subsum´ par qI.
 e                                                         e


   Relations d’interrogation

   Comme dans le mod`le de document, les relations de subsomption, et d´crit par
                    e                                                  e
sont utilis´es pour l’interrogation. La diff´rence ici par rapport au mod`le de docu-
           e                               e                             e
ment est que l’utilisateur doit employer explicitement ces deux relations afin d’iden-
tifier et d´crire les ´l´ments de dimension dans sa requˆte. Pour cette raison, nous
          e          ee                                  e
fournissons ` l’utilisateur ces deux relations lors du processus de formulation de
             a
requˆtes. L’usage de ces relations peut ˆtre effectu´ d’une mani`re graphique simple
     e                                  e          e           e
en proposant ` l’utilisateur des zones de texte pour les concepts qui servent ` iden-
              a                                                               a
tifier les ´l´ments de dimensions, et d’autres zones de texte pour les concepts qui
          ee
servent ` les d´crire.
        a      e

   La relation de subsomption


   L’utilisateur emploie la relation de subsomption (est un) pour identifier un ´l´ment
                                                                               ee
de dimension dans sa requˆte.
                            e


   Exemple


   Dans la requˆte R9, l’utilisateur est ` la recherche d’un document qui contient un
                e                        a
´l´ment de la dimension “Personne” : “Steve Jobs” ou un ´l´ment de la dimension
ee                                                            ee
“Organisation” : “Apple, Inc.”. Dans ce cas, les ´l´ments des dimensions “Person-
                                                 ee
ne” et “Organisation” sont identifi´s respectivement par les concepts “Steve Jobs”
                                  e
et “Apple, Inc.”. Supposons que ces deux ´l´ments de dimensions soient repr´sent´s
                                         ee                                e    e


                                         85
respectivement par edimp et edimo . Nous aurons ainsi :


   edimp ≡ Steve Jobs
   edimo ≡ Apple, Inc.


   Dans le langage ALCQ, la requˆte R9 se traduit donc par la notation suivante :
                                e


                  R9 ≡ ∃ index´ par.edimp ⊔ ∃ index´ par.edimo
                              e                    e




   Le syst`me interpr`te cette requˆte de la mani`re suivante : l’utilisateur est ` la
          e          e             e             e                                a
recherche d’un document qui contient un ´l´ment de la dimension “Personne” qui
                                          ee
est “Steve Jobs” ou un ´l´ment de la dimension “Organisation” qui est “Apple, Inc.”.
                       ee


   La relation d´crit par :
                e


    Cette relation est employ´e par l’utilisateur afin de d´crire un ´l´ment de dimen-
                             e                            e         ee
sion par un ou plusieurs concepts.


   Exemple


   R15 : “Donne-moi les documents qui parlent du joueur fran¸ais qui a eu un
                                                                c
carton rouge lors de la finale de la coupe du monde FIFA 2006 ”.


   L’utilisateur cherche un document qui contient un ´l´ment de la dimension “Per-
                                                     ee
sonne” : un “Joueur” qui est originaire de “France”. Soit edimp l’´l´ment recherch´
                                                                  ee              e
par l’utilisateur. edimp est d´crit par un concept de la dimension “Personne” :
                              e
“Joueur”, et un concept de la dimension “Lieu g´ographique” : “France”. Il est
                                                  e
donc repr´sent´ comme suit :
           e    e


   edimp ≡ Joueur ⊓ ∃ originaire de.F rance


   La requˆte R15 se traduit donc par la notation suivante :
          e


                                         86
R15 ≡ ∃ index´ par.edimp
                                          e




   Dans les sections suivantes, nous pr´sentons comment ces relations sont utilis´es
                                       e                                         e
par le syst`me pour r´pondre ` une requˆte. Mais avant cela, nous introduisons
           e          e        a          e
maintenant les op´rateurs que notre syst`me fournit ` l’utilisateur pour pr´ciser son
                 e                      e           a                      e
besoin.

   Op´rateurs d’interrogation
     e


   En fonction des besoins d’information que nous avons pr´sent´s au d´but de ce
                                                          e    e      e
chapitre, nous distinguons trois types d’op´rateurs : bool´ens, quantificateurs, jauge.
                                           e              e
Nous d´taillons chacun d’eux dans les sections suivantes.
       e


   Op´rateurs bool´ens
     e            e


    Nous distinguons trois op´rateurs bool´ens : la conjonction not´e ⊓, la disjonc-
                              e              e                         e
tion not´e ⊔, et lan´gation mat´rialis´e par ¬. Nous pr´sentons quelques exemples
         e          e            e      e                   e
de requˆtes afin de montrer l’utilit´ de ces op´rateurs et leur usage dans notre mod`le.
       e                           e           e                                   e


   La conjonction


   Exemple


    La requˆte R8 met en œuvre un ´l´ment de la dimension “Personne : “Bill Ga-
           e                         ee
tes” et un ´l´ment de la dimension “Organisation” : “Soci´t´ d’informatique”, par
           ee                                               ee
l’interm´diaire d’une conjonction. Nous repr´sentons ces deux ´l´ments de dimension
        e                                   e                 ee
respectivement par edimp et edimo .


   edimp ≡ Bill Gates
   edimo ≡ Soci´t´ d′ inf ormatique
               ee


   La requˆte R8 a donc l’expression suivante dans notre mod`le :
          e                                                 e



                                          87
R8 ≡ ∃ index´ par.edimp ⊓ ∃ index´ par.edimo
                                e                    e




   La disjonction


   Exemple


   La requˆte R9 met en œuvre un ´l´ment de la dimension “Personne” : “Steve
           e                          ee
Jobs” et un ´l´ment de la dimension “Organisation” : “Apple, Inc.”, par l’interm´diai-
            ee                                                                  e
re d’une disjonction. Nous repr´sentons ces deux ´l´ments respectivement par edimp
                               e                 ee
et edimo .


   edimp ≡ Steve Jobs
   edimo ≡ Soci´t´ d′ inf ormatique
               ee


   La requˆte R9 a donc l’expression suivante dans notre mod`le :
          e                                                 e



                  R9 ≡ ∃ index´ par.edimp ⊔ ∃ index´ par.edimo
                              e                    e




   La n´gation
       e


   Exemple 1


   La requˆte R10 met en œuvre un ´l´ment de la dimension “Anatomie” : “Tibia” et
          e                       ee
un ´l´ment de la dimension “Pathologie” : “Pathologie du tibia”, par l’interm´diaire
   ee                                                                        e
d’une n´gation. Nous repr´sentons ces deux ´l´ments respectivement par edima et
       e                  e                 ee
edimp .

   edima ≡ T ibia
   edimp ≡ rac P athologie ⊓ ∃ af f ecte.T ibia




                                         88
La requˆte R10 a donc l’expression suivante dans notre mod`le :
          e                                                  e


                 R10 ≡ ∃ index´ par.edima ⊓ ¬∃ index´ par.edimp
                              e                     e




   Ceci se traduit par le fait qu’un document pertinent doit contenir un tibia et
aucune pathologie li´e ` cette partie de l’anatomie. Comme la pathologie dans cette
                     e a
requˆte est un ´l´ment g´n´rique, il faut donc identifier tous les types de pathologies
    e          ee       e e
que l’on peut avoir sur un tibia et les utiliser pour r´pondre ` cette requˆte.
                                                       e       a           e

   Exemple 2


   La requˆte R13 met en œuvre un ´l´ment de la dimension “Anatomie” : “Tibia”
          e                       ee
et un ´l´ment de la dimension “Pathologie” : “Fracture”, par l’interm´diaire d’une
      ee                                                             e
n´gation. Nous repr´sentons ces deux ´l´ments respectivement par edima et edimp .
 e                 e                 ee


   edima ≡ Tibia
   edimp ≡ Fracture


   La requˆte R13 a donc la transcription suivante dans notre mod`le :
          e                                                      e


                 R13 ≡ ∃ index´ par.edima ⊓ ¬∃ index´ par.edimp
                              e                     e




   Ceci se traduit par le fait qu’un document pertinent doit contenir un tibia sans
fracture. Il est possible qu’une image contenant un tibia avec une luxation puisse
ˆtre consid´r´e comme pertinente par l’utilisateur. Comme la pathologie dans cette
e           ee
requˆte est identifi´e, l’appariement se fait entre le document et la requˆte en prenant
     e             e                                                     e
en compte seulement la pathologie “fracture” pour ´liminer les documents corres-
                                                  e
pondants.


   Combinaisons des op´rateurs bool´ens
                      e            e


                                          89
Exemple


    La requˆte R12 met en œuvre un ´l´ment de la dimension “Anatomie” : “Tibia”,
            e                       ee
et deux ´l´ments de la dimension “Pathologie” : “Fracture” ou “Luxation”, par l’in-
         ee
term´diaire d’une conjonction. Nous repr´sentons ces trois ´l´ments respectivement
     e                                  e                  ee
                p          p
par edima , edim1 , et edim2 .


   edima ≡ T ibia
   edimp ≡ F racture
       1
   edimp ≡ Luxation
       2



   La requˆte R12 a donc l’expression suivante dans notre mod`le :
          e                                                  e


     R12 ≡ ∃ index´ par.edima ⊓ (∃ index´ par.edimp ⊔ ∃ index´ par.edimp )
                  e                     e         1          e         2




   Op´rateur quantificateur
     e

   L’op´rateur quantificateur permet ` l’utilisateur de pr´ciser le nombre d’´l´ments
       e                            a                    e                  ee
de dimensions qu’il aimerait trouver dans le document pertinent. Nous distinguons
trois valeurs possibles ` cet op´rateur : ´gal mat´rialis´ par “=”, au moins mat´rial-
                        a       e         e       e      e                      e
is´e par , et au plus mat´rialis´e par . La restriction de nombre “= nR.C” n’est
  e                        e    e
pas incluse dans le langage ALCQ mais nous pouvons l’exprimer par ( nR.C ⊓
nR.C).


   Le cas ´gal
          e


   Exemple


   Soit la requˆte R16 “Donne-moi une image qui contient Zinedine Zidane tout
               e
seul”.


   Cette requˆte contient un ´l´ment de la dimension “Personne” : “Zinedine Zida-
              e               ee
ne”, avec une restriction de nombre (tout seul). Nous repr´sentons cet ´l´ment par
                                                          e            ee

                                         90
edimp . Le document pertinent doit contenir un seul ´l´ment de la dimension per-
    1                                               ee
sonne. Afin d’exprimer ce besoin d’information, nous avons besoin des deux ´l´ments
                                                                          ee
suivants :


   edimp ≡ Zinedine Zidane
       1
       p
   edim2 ≡ rac P ersonne


   La requˆte R16 a donc l’expression suivante dans notre mod`le :
          e                                                  e



              R16 ≡ ∃ index´ par.edimp ⊓ ∃ = 1 index´ par.edimp
                           e         1              e         2




   Les cas au moins et au plus


   Exemple

   La requˆte R2 contient deux ´l´ment de la dimension Personne : Bill Gates et
          e                    ee
Steve Jobs, et un ´l´ment de la dimension Organisation : Soci´t´ d’informatique.
                  ee                                            ee
                                                            p       p
Nous repr´sentons ces trois ´l´ments respectivement par edim1 , edim2 , et edimo .
         e                  ee                                                 1



   edimp ≡ Bill Gates
       1
       p
   edim2 ≡ Steve Jobs



                         edimo ≡ Soci´t´ d’informatique
                             1       ee




   Nous remarquons que le document recherch´ doit contenir au moins deux
                                           e
soci´t´ d’informatique. Ceci se traduit dans notre mod`le par l’op´rateur quanti-
    ee                                                e           e
ficateur 2.


   La requˆte R2 a donc l’expression suivante dans notre mod`le :
          e                                                 e



                                       91
R2 ≡ ∃ index´ par.edimp ⊓ ∃ index´ par.edimp ⊓
                     e         1          e         2                  2 index´ par.edimo
                                                                              e         1




       Le cas “au plus” est idem ` ce cas en changeant le symbole “ ” par “ ”.
                                 a


       Op´rateur jauge
         e


   Cet op´rateur permet ` l’utilisateur de pr´ciser les degr´s d’importance relatifs
         e               a                   e              e
aux ´l´ments de dimension de sa requˆte. Ce degr´ peut ˆtre mat´rialis´ par un poids
    ee                              e           e       e       e     e
qui correspond ` une valeur r´elle appartenant ` l’intervalle [0,1]12 .
               a             e                 a


    En effet, comme d´j` discut´, il est possible qu’un utilisateur veuille pr´ciser qu’il
                      ea       e                                             e
y a des ´l´ments de dimensions de sa requˆte qui sont obligatoires et d’autres qui sont
        ee                                e
optionnels. En r´alit´, un ´l´ment de dimension marqu´ comme obligatoire dans
                 e e       ee                             e
une requˆte doit absolument apparaˆ dans les documents retrouv´s, alors qu’un
        e                         ıtre                          e
´l´ment de dimension optionnel peut y apparaˆ ou non. Cette notion d’obligation
ee                                          ıtre
n’est pas nouvelle : Kefi et ses collaborateurs [48] ont propos´ d’utiliser les crit`res
                                                              e                    e
obligatoire et optionnel dans un contexte o` l’utilisateur a d´j` vu les documents
                                             u                 ea
et ne se souvient pas exactement de leur contenu. Leur but ´tait de permettre une
                                                             e
formulation pr´cise mais n´anmoins ais´e de la requˆte. Nous nous inspirons ici de
               e             e            e        e
leur travail pour utiliser ces deux crit`res.
                                        e


   Ces deux modalit´s d’expression de besoin peuvent ˆtre prises en compte dans
                      e                                   e
notre mod`le en utilisant les poids. Ainsi, un ´l´ment obligatoire doit avoir un poids
         e                                     ee
´gal ` 1, tandis qu’un ´l´ment optionnel doit avoir un poids ´gal ` 0.
e    a                 ee                                    e    a

       Il est possible que l’utilisateur n’arrive pas ` d´cider quels ´l´ments sont obliga-
                                                      a e             ee
toires et quels ´l´ments sont optionnels. Dans ce cas, nous lui fournissons ` travers
                ee                                                          a
notre mod`le un moyen pour privil´gier certains ´l´ments ` d’autres sans pour autant
           e                       e            ee       a
pr´ciser ce qui est obligatoire et ce qui est optionnel. Ceci peut ˆtre mis en œuvre
  e                                                                e
par des valeurs de priorit´ que l’utilisateur donne ` chaque ´l´ment de dimension de
                          e                         a        ee
sa requˆte.
        e
  12
     Nous rappelons que les poids ne sont pas int´gr´ dans notre mod`le ` base de logique descriptive.
                                                 e e                e a
Ils sont uniquement utilis´s pour l’ordonnancement des documents pertinents pour une requˆte.
                          e                                                                     e


                                                 92
L’´l´ment de dimension qui a une priorit´ i doit apparaˆ dans tous les docu-
      ee                                        e              ıtre
ments retrouv´s, sinon, c’est l’´l´ment de dimension qui a une priorit´ i+1. Avec i
              e                 ee                                      e
est un entier qui appartient ` l’intervalle [2, nd+1], et nd est le nombre d’´l´ments
                             a                                               ee
de dimensions pr´sents dans la requˆte.
                e                  e


   Les documents r´ponses ` une requˆte sont class´s en fonction des priorit´s des
                    e        a        e            e                        e
´l´ments de dimensions qu’ils contiennent. Une classe de documents est cr´´e pour
ee                                                                       ee
chaque valeur de priorit´. Comme un document peut contenir plusieurs ´l´ments de
                        e                                             ee
dimensions qui ont des priorit´s diff´rentes, il peut appartenir ` plusieurs classes `
                               e      e                           a                   a
la fois. Les classes des documents r´ponses sont pr´sent´es ` l’utilisateur en fonction
                                    e              e    e a
de la valeur de priorit´ de dimension en question : d’abord, la classe des documents
                       e
contenant les ´l´ments de dimensions de priorit´ i, ensuite celle des documents conte-
              ee                               e
nant les ´l´ments de dimensions de priorit´ i+1, ainsi de suite. L’ordre d’affichage
         ee                                e
des documents au sein d’une mˆme classe est calcul´ ` l’aide de la fonction d’ordon-
                             e                    ea
nancement que nous verrons plus loin dans ce manuscrit.


   Obligatoire vs optionnel


   Exemple

    `
    A travers la requˆte R1, l’utilisateur cherche des documents qui parlent d’une per-
                     e
sonne. Donc un document pertinent doit obligatoirement contenir l’´l´ment d´crivant
                                                                     ee        e
cette personne. Mˆme si ce document ne parle pas du conflit ou des Balkans, il peut
                   e
ˆtre consid´r´ pertinent.
e          ee


    Soit edimp la repr´sentation de l’´l´ment de la dimension “Personne” : “G´n´ral
                      e               ee                                     e e
fran¸ais”, edime repr´sente l’´l´ment de la dimension “Ev´nement” : “Conflit des
    c                 e        ee                           e
                   l         l
Balkans”, et edim1 et edim2 repr´sentent respectivement les deux ´l´ments de la
                                   e                                 ee
dimension “Lieu g´ographique”.
                 e

   edimp ≡ G´n´ral ⊓ ∃ originaire de.F rance
            e e
   edime ≡ Conf lit des Balkans
   ediml ≡ Balkans
       1
   ediml ≡ Zone de s´curit´ ⊓ ∃ cr´e pendant.Conf lit des Balkans
       2            e     e       e´

                                          93
Supposons que l’´l´ment de la dimension “Personne” est obligatoire, et les autres
                    ee
´l´ments sont optionnels. Dans ce cas, la requˆte R1 a la transcription suivante dans
ee                                            e
notre mod`le :
          e



                               R1 ≡ ∃ index´ par.edimp
                                           e




   Priorit´
          e


    Supposons maintenant que l’utilisateur veuille pr´ciser des priorit´s sur les ´l´me-
                                                     e                 e          ee
nts de dimension de sa requˆte. Par exemple, l’´l´ment de la dimension “Personne”
                           e                    ee
est le plus prioritaire, et ceux de la dimension “Lieu g´ographique” sont les moins
                                                        e
prioritaires.


   Formellement, il est relativement compliqu´ de d´finir cet op´rateur dans le lan-
                                             e     e           e
gage ALCQ que nous avons adopt´. Mais techniquement, il est tr`s simple de l’ap-
                                  e                              e
pliquer. En effet, il suffit de retourner les documents qui contiennent l’´l´ment de
                                                                          ee
dimension de priorit´ i, suivis par les documents qui contiennent l’´l´ment de dimen-
                     e                                              ee
sion de priorit´ i + 1, et ainsi de suite.
               e

   Afin de sp´cifier les crit`res de recherche les plus exigeants dans le processus de
            e              e
recherche, il est possible qu’une requˆte combine tous les op´rateurs propos´s dans
                                      e                      e              e
notre mod`le.
           e


   Finalement, comme pour les documents (cf. la figure 3.2), la repr´sentation qI
                                                                    e
du contenu s´mantique de q est une expression ALCQ. Lors de l’interrogation, l’ex-
            e
pression qI est ajout´e ` la T-Box qui contient d´j` les connaissances du domaine
                     e a                          ea
ainsi que les index des documents de la collection. Il ne reste donc qu’` ´valuer la
                                                                        ae
requˆte.
    e




                                             94
3.6.3    ´
         Evaluation des requˆtes
                            e
   Pour ´valuer une requˆte, nous avons besoin d’une fonction qui respecte les
        e               e
contraintes impos´es par l’utilisateur pour la correspondance entre un document
                 e
et une requˆte. Cette fonction est d´finie au niveau de l’indexation pour la corres-
            e                        e
pondance qui est bas´e sur la logique descriptive.
                    e


   Nous avons ´galement besoin d’une fonction qui permette d’organiser les docu-
              e
ments dans leur ordre de pertinence par rapport ` la requˆte. cette fonction est
                                                  a       e
d´finie au niveau de l’indexation pour l’ordonnancement que nous pr´sentons dans
  e                                                               e
la suite.


   Nous illustrons dans la suite comment ces deux fonctions sont int´gr´es dans
                                                                    e e
notre mod`le.
         e

La fonction de correspondance fSel

   La fonction de correspondance est bas´e sur le calcul de la subsomption dans la
                                        e
T-Box. En effet, en logique descriptive, le processus de RI peut ˆtre vu comme la
                                                                  e
tˆche de retrouver les documents repr´sent´s par des concepts qui sont subsum´s par
 a                                   e    e                                  e
le concept repr´sentant la requˆte. Pour deux concepts C1 et C2 appartenant ` la
               e               e                                               a
T-Box T , on consid`re que C1 est subsum´ par C2 dans T (C1 ⊑T C2 ) si et seulement
                   e                      e
                                                 I    I
si, pour chaque mod`le I de T , il est vrai que C1 ⊆ C2 .
                     e


    Dans la figure 3.3, un document doc et une requˆte q sont repr´sent´s respec-
                                                  e              e    e
tivement, au niveau de l’indexation pour la correspondance, par docI et qI
dans la T-Box. La correspondance entre doc et q se traduit en logique descriptive
par la subsomption : doc est consid´r´ pertinent pour q si docI est subsum´ par qI
                                   ee                                     e
(docI ⊑T qI) (c’est-`-dire, en v´rifiant que docI I ⊆ qI I est vrai). Cette v´rification
                     a          e                                           e
prend en compte les documents qui satisfont l’op´rateur bool´en, l’op´rateur quan-
                                                   e            e       e
tificateur, et l’op´rateur jauge qui sont utilis´s pour la d´finition du concept qI
                  e                            e              e
repr´sentant la requˆte.
    e               e

   Finalement, l’ensemble des documents pertinents pour une requˆte q est d´fini
                                                                e          e
comme suit :



                                         95
DP ert = {doc ∈ Doc|docI ⊑K qI}




Fig. 3.3 – Calcul de la correspondance entre un document doc et une requˆte q au
                                                                        e
niveau de l’indexation pour la correspondance

    Afin de proposer ` l’utilisateur une liste de documents ordonn´s, nous organi-
                     a                                            e
sation l’ensemble DP ert en fonction du degr´ de pertinence de ses documents par
                                             e
rapport ` la requˆte. Cette ´tape est d´crite dans la section suivante.
        a        e          e          e

La fonction d’ordonnancement fOrd

      La fonction d’ordonnancement fOrd a pour but d’organiser les documents re-
tourn´s pour une requˆte. Comme nous l’avons d´j` mentionn´, cette fonction n’est
     e               e                          ea          e
pas mod´lis´e en DL dans notre mod`le. Nous n’avons pas encore abord´ pr´cis´ment
        e e                       e                                 e e e
ce probl`me d’ordonnancement, c’est pourquoi nous n’avons pas d´fini une fonction
        e                                                       e
particuli`re ` cet effet. Il existe plusieurs m´triques dont nous pouvons nous inspirer
         e a                                  e
pour d´finir une fonction d’ordonnancement.
       e


   D’une mani`re g´n´rale, la fonction fOrd doit calculer une valeur de pertinence,
               e    e e
not´e RSV13 , d’un document doc par rapport ` une requˆte q en tenant compte des
   e                                         a          e
 13
      Retrieval Status Value.



                                              96
param`tres suivants :
     e


- Les poids des ´l´ments de dimension dans doc : plus le poids des ´l´ments de di-
                ee                                                 ee
     mension partag´s par q et doc est grand, plus la valeur de pertinence de doc
                     e
     est ´lev´e par rapport ` q ;
         e e                a


- Les poids des ´l´ments de dimension dans q : plus doc contient des ´l´ments de
                ee                                                     ee
     dimension dont le poids est ´lev´ dans q, plus la valeur de pertinence de doc
                                 e e
     est grande ;


- Les valeurs de priorit´ des ´l´ments de dimension dans q : un document contenant
                        e     ee
      un ´l´ment de dimension dont la valeur de priorit´ est ´gale ` Π est plus per-
          ee                                           e      e    a
      tinent qu’un document contenant un ´l´ment de dimension dont la valeur de
                                            ee
     priorit´ est ´gale ` Π + 1.
            e     e     a




Fig. 3.4 – Calcul du RSV entre une requˆte et un document au niveau de l’indexation
                                       e
pour l’ordonnancement

   Dans nos exp´rimentations (cf. chapitre 4), nous avons utilis´ le mod`le vectoriel
               e                                                e       e
pour mettre en œuvre la fonction fOrd . Dans ce cas, comme pr´sent´ dans la figure
                                                                e   e
3.4, un document doc et une requˆte q sont repr´sent´s respectivement, au niveau de
                                e              e    e
                                                           −→
l’indexation pour l’ordonnancement, par les vecteurs doc et − . Le RSV entre
                                                                  →
                                                                  q
doc et q est calcul´ en appliquant le cosinus sur l’angle form´ par les deux vecteurs
                   e                                          e
−→ −  →.
doc et q

                                         97
3.7     Conclusion
   En consid´rant les exigences de l’utilisateur en termes de pr´cision, nous avons
            e                                                   e
propos´ un mod`le de Recherche d’Information capable de r´soudre des requˆtes
       e         e                                           e                 e
pr´cises. En se basant sur des connaissances du domaine repr´sent´es ` travers une
  e                                                         e    e a
ressource externe, nous avons propos´ d’utiliser les dimensions de domaine pour
                                       e
mettre en exergue les ´l´ments pertinents qui contribuent ` la description du contenu
                      ee                                  a
s´mantique des documents et des requˆtes. Ainsi, nous utilisons les dimensions, les
 e                                     e
concepts et les relations pour d´finir une nouvelle unit´ d’indexation : l’´l´ment
                                e                      e                  ee
de dimension. L’utilisation des ´l´ments de dimension nous permet de produire
                                  ee
une repr´sentation pr´cise des documents tout en consid´rant les aspects li´s ` leur
        e             e                                e                   e a
s´mantique. Un langage expressif de requˆte a ´t´ propos´ afin de permettre ` l’usa-
 e                                         e     ee        e                   a
ger d’utiliser des ´l´ments de dimensions et des op´rateurs pour d´crire avec pr´cision
                   ee                              e              e             e
son besoin d’information.

   Afin de d´finir notre mod`le, nous avons choisi un formalisme de repr´sentation de
           e              e                                           e
connaissances ad´quat qui permet la repr´sentation pr´cise du contenu s´mantique
                e                          e             e                  e
des documents et des requˆtes : il s’agit de la logique descriptive. Ainsi, nous avons
                         e
pu incorporer les connaissances du domaine lors de la d´finition de notre mod`le
                                                         e                      e
tout en garantissant une repr´sentation uniforme des documents, des requˆtes et de
                              e                                           e
la ressource externe. Nous avons montr´ que ce formalisme dispose d’un niveau d’ex-
                                      e
pressivit´ assez ´lev´ qui convient tr`s bien ` la repr´sentation pr´cise du contenu
         e       e e                  e       a        e            e
s´mantique des documents et des requˆtes. Ce formalisme offre ´galement un moyen
 e                                      e                        e
pour calculer la correspondance entre un document et une requˆte mettant en œuvre
                                                                 e
la pertinence syst`me : il s’agit de l’algorithme de calcul de subsomption.
                  e


  Dans le chapitre suivant, nous montrons, ` travers la mise en œuvre de notre
                                                a
mod`le, ses apports significatifs par rapport aux approches existantes. Nous pr´sentons
   e                                                                          e
en particulier, comment le calcul de la subsomption est un moyen efficace pour
r´soudre des requˆtes pr´cises repr´sent´es dans notre mod`le. Nous pr´sentons
 e                e      e           e     e                  e          e
´galement l’impact positif de l’utilisation des dimensions de domaine sur les per-
e
formances d’un Syst`me de Recherche d’Information.
                   e




                                          98
Chapitre 4

Mise en œuvre du mod`le
                    e

4.1      Introduction
   La premi`re partie de ce chapitre est consacr´e ` la mise en œuvre de notre mod`le
           e                                    e a                               e
bas´ sur la logique descriptive. Nous y pr´sentons les ´tapes n´cessaires pour cette
   e                                      e             e       e
mise en œuvre (Section 4.2) et illustrons leur r´alisation par des exemples concrets
                                                e
(Section 4.3).

   La deuxi`me partie quant ` elle est consacr´e aux ´valuations exp´rimentales
           e                a                 e      e              e
de l’apport de l’usage des dimensions de domaine. D’abord, nous pr´sentons le
                                                                        e
contexte dans lequel nous avons men´ nos exp´riences (Section 4.4.1). Ensuite, nous
                                   e        e
exposons les conclusions tir´es de l’application de notre mod`le sur des requˆtes
                            e                                   e               e
de la collection CLEF-2005 (Section 4.4.2). Dans les sections 4.4.3 et 4.4.4, nous
´valuons exp´rimentalement l’apport de l’utilisation des dimensions de domaine pour
e            e
la r´solution de requˆtes pr´cises (issues du domaine m´dical). Les performances
    e                e      e                           e
de notre syst`me sont ainsi ´valu´es en termes de pr´cision moyenne. Enfin, nous
              e             e     e                  e
concluons ce chapitre par une synth`se des r´sultats obtenus et quelques perspec-
                                   e        e
tives (Section 4.5).




                                         99
4.2     ´
        Etapes n´cessaires pour la mise en œuvre du
                e
        mod`le
           e
   Nous pr´sentons dans la figure 4.1 une description graphique des ´tapes n´cessaires
           e                                                       e       e
pour la mise en œuvre de notre mod`le.
                                    e




Fig. 4.1 – Repr´sentation graphique des ´tapes n´cessaires pour la mise en œuvre
               e                        e       e
du mod`le
       e



4.2.1    E1 : Identification des ´l´ments de dimension
                                ee
   La premi`re ´tape consiste ` identifier les ´l´ments de dimension au niveau des
           e e                a               ee
documents (requˆtes). Cette ´tape demande l’extraction, ` partir des documents
                  e            e                             a
(requˆtes), des concepts et des relations qui servent ` d´finir les ´l´ments de dimen-
      e                                               a e          ee
sion. Ce processus peut n´cessiter un traitement automatique de la langue guid´ par
                          e                                                      e


                                        100
l’utilisation des ressources externes.


    Du cˆt´ des documents, nous n’avons pas encore propos´ une m´thode pour ex-
         oe                                               e        e
traire automatiquement les ´l´ments de dimensions. Ceci s’inscrit dans le cadre de
                           ee
nos perspectives ` court terme. Dans les exp´riences que nous pr´sentons ici, nous
                  a                            e                   e
avons fait des simplifications pour identifier les ´l´ments de dimension. En effet, dans
                                                 ee
une premi`re exp´rience, nous d´finissons un ´l´ment de dimension par un simple mot
          e      e             e            ee
(Section 4.4.3). Dans une deuxi`me exp´rience, nous le d´finissons par un concept
                                e       e                 e
(Section 4.4.4).


   Du cˆt´ des requˆtes, le probl`me d’extraction des ´l´ments de dimension ne se
       oe          e             e                    ee
pose pas vu qu’une interface graphique doit ˆtre propos´e ` l’utilisateur afin qu’il
                                              e          e a
puisse d´crire son besoin en langue naturelle. Il y aura donc des champs de texte
         e
pour d´crire explicitement les ´l´ments de dimensions.
       e                       ee


4.2.2     E2 : Indexation pour la correspondance
   Lors de cette ´tape, nous utilisons la logique descriptive pour mod´liser la res-
                  e                                                   e
source externe, les documents, et les requˆtes en se basant respectivement sur le
                                            e
mod`le de connaissances, le mod`le de document, et le mod`le de requˆte que nous
    e                          e                          e           e
avons d´fini. Chaque document (requˆte) est repr´sent´(e) par la conjonction (et/ou
       e                            e          e    e
la disjonction) d’un ensemble d’´l´ments de dimension. Dans la terminologie de la
                                  ee
logique descriptive, cette ´tape permet de construire la T-Box.
                           e


4.2.3     E3 : S´lection des documents
                e
    La troisi`me ´tape concerne la r´solution des requˆtes. Une requˆte peut conte-
             e    e                   e               e               e
nir une combinaison de crit`res de s´lection sur les ´l´ments de dimensions d´finis
                             e         e             ee                       e
par l’utilisateur pour identifier les documents recherch´s. Il n’y a pas de combinai-
                                                        e
son “id´ale” d’op´rateurs pour former une requˆte. C’est ` l’utilisateur de choisir,
       e         e                             e          a
en fonction de ses besoins et de son domaine d’int´rˆt, un ou plusieurs op´rateurs
                                                  ee                       e
parmi ceux que nous proposons dans notre mod`le de requˆte.
                                            e          e

   Pour effectuer cette ´tape, nous utilisons une fonction de s´lection (fSel ) qui nous
                       e                                      e
permet de s´lectionner les documents pertinents pour une requˆte donn´e. Cette
           e                                                 e       e


                                         101
fonction est bas´e sur le calcul de la subsumption dans la T-Box construit lors de
                e
l’´tape E2.
  e

   A la fin de cette ´tape, les documents pertinents pour une requˆte sont s´lectionn´s.
                    e                                            e         e        e
En vue de pouvoir les organiser dans leur ordre de pertinence par rapport ` la requˆte,
                                                                          a        e
nous proc´dons par les deux ´tapes qui suivent.
         e                    e


4.2.4     E4 : Indexation pour l’ordonnancement
    Dans notre mod`le, un ´l´ment de dimension peut avoir un poids qui refl`te son
                    e       ee                                               e
degr´ de repr´sentativit´ dans un document (requˆte). Cette ´tape est consacr´e donc
     e       e          e                       e           e                e
` la pond´ration des ´l´ments de dimension au niveau des documents (requˆtes). A
a         e           ee                                                    e      `
ce niveau, nous n’avons pas encore propos´ une m´thode particuli`re, mais nous
                                           e         e              e
envisageons d’utiliser une des m´triques existantes. En l’occurrence, cette ´tape a
                                e                                           e
´t´ effectu´e, lors de nos exp´rimentations, ` l’aide du mod`le vectoriel.
ee        e                  e              a              e


4.2.5     E5 : Ordonnancement des documents
   La cinqui`me et derni`re ´tape consiste ` organiser, en utilisant la fonction fOrd ,
            e           e e                a
les documents s´lectionn´s (par fSel ) dans leur ordre de pertinence par rapport ` la
               e        e                                                        a
requˆte en question. Dans notre mod`le, nous n’avons pas d´fini une fonction par-
     e                                 e                       e
ticuli`re ` cette fin. Nous nous sommes born´s ` utiliser le mod`le vectoriel pour le
      e a                                    e a               e
calcul d’une valeur de similarit´ entre une requˆte et un document en prenant en
                                e               e
compte les poids des ´l´ments de dimensions.
                       ee


   Nous d´taillons maintenant la r´alisation de ces ´tapes en illustrant par des
         e                        e                 e
exemples concrets.


4.3     R´alisation des ´tapes n´cessaires pour la mise
         e              e       e
        en œuvre du mod`le
                       e
   Nous reprenons ici l’exemple que nous avons pr´sent´ dans la probl´matique (cf.
                                                 e    e              e
figure 4.2). Nous montrons comment, en disposant d’une ressource externe, d’un
document, et d’une requˆte, la T-Box est construite. Par la suite, nous pr´sentons
                       e                                                  e



                                         102
comment le calcul de la hi´rarchie de subsomption dans la T-Box est utilis´ pour la
                          e                                               e
r´solution de requˆtes.
 e                e




                 Fig. 4.2 – Exemple pour la mise en œuvre du mod`le
                                                                e



4.3.1       R´alisation des ´tapes E2 & E3
             e              e
      Il s’agit ici de construire la T-Box contenant les connaissances trait´es par notre
                                                                            e
syst`me. La logique descriptive repr´sente un moyen pour pr´senter des informations
     e                              e                       e
` l’ˆtre humain. Pour que ces informations soient trait´es par des applications, elles
a e                                                    e
doivent ˆtre repr´sent´es dans un langage ad´quat. Dans notre cas, nous avons choisi
         e       e    e                      e
d’utiliser le langage OWL1 (Web Ontology Language). Celui-ci a ´t´ propos´ par le
                                                               ee        e
  1
      http ://www.w3.org/TR/owl-features/


                                            103
consortium W3C2 pour ˆtre utilis´ par des applications qui doivent traiter des onto-
                     e          e
logies.

       Techniquement, la T-Box, contenant la ressource externe K, les repr´sentations
                                                                          e
docI des documents et qI des requˆtes, est stock´e dans un fichier que nous appelons
                                  e             e
T-Box.owl (cf. le contenu de ce fichier dans l’annexe).

Mod`le de connaissances
   e

   Il s’agit ici de traduire une ressource externe, repr´sent´e en logique descriptive,
                                                        e    e
en OWL et la stocker dans le fichier T-Box.owl. Dans notre mod`le, nous supposons
                                                                   e
que les ressources externes sont d´j` repr´sent´es en logique descriptive. Dans le cas
                                  ea      e    e
contraire, nous avons d´velopp´ un outil qui permet de repr´senter une ressource
                         e      e                              e
externe existante en logique descriptive et la traduire en format OWL. Nous nous
basons sur des heuristiques tr`s simples pour effectuer la traduction : les entr´es de
                              e                                                   e
la ressource externe sont traduites en concepts, et les relations en rˆles [43][85].
                                                                      o


    Pour notre exemple (figure 4.2), voici la description en logique descriptive de la
ressource externe. Sa traduction en OWL est pr´sent´e dans l’annexe.
                                                e     e


       ⊤


       P ersonne ⊑ ⊤
       G´n´ral ⊑ P ersonne
         e e
       P hilippe Morillon ⊑ G´n´ral
                             e e
       P hilippe Morillon ≡ ∃Originaire de.F rance


       Lieu g´ographique ⊑ ⊤
             e
       F rance ⊑ Lieu g´ographique
                       e
       Balkans ⊑ Lieu g´ographique
                        e
       Ex-Yougoslavie ⊑ Lieu g´ographique
                               e
       Ex-Yougoslavie ≡ ∃P artie de.Balkans
       Zone de s´curit´ ⊑ Lieu g´ographique
                e     e         e
       Serbie ⊑ Ex-Yougoslavie
   2
       http ://www.w3.org/TR/owl-ref/


                                          104
Slov´nie ⊑ Ex-Yougoslavie
       e
   Zone de s´curit´ ≡ ∃Cr´e pendant.Conf lit des Balkans
            e     e      e´

   ´ e
   Ev´nement ⊑ ⊤
                    ´ e
   Guerre civile ⊑ Ev´nement
   Conf lit des Balkans ⊑ Guerre civile
   Conf lit des Balkans ≡ ∃A lieu a.Balkans
                                  `

   A ce niveau, le fichier T-Box.owl contient seulement la ressource externe.

Mod`le de documents
   e

   Il s’agit ici d’ajouter, ` la T-Box, les repr´sentations des documents tout en res-
                            a                   e
pectant le mod`le de documents (cf. figure 4.3). Ainsi, chaque document doc de la
                 e
collection est repr´sent´, dans le fichier T-Box.owl, par un concept docI qui est une
                   e    e
expression en logique descriptive qui d´crit le contenu de doc.
                                        e




           Fig. 4.3 – Repr´sentation graphique du mod`le de document
                          e                          e


                                         105
En supposant que les ´l´ments de dimension ont ´t´ extraits ` partir du docu-
                        ee                        ee           a
ment pr´sent´ dans la figure 4.2, leur repr´sentation en logique descriptive est de la
       e    e                             e
mani`re suivante :
    e


   edim1 ≡ P hilippe Morillon
   edim2 ≡ Zone de s´curit´ ⊓ ∃Cr´e pendant.Guerre civile
                     e     e     e´
   edim3 ≡ Ex-Yougoslavie
   edim4 ≡ Serbie
   edim5 ≡ Slov´nie
               e


   Le document de notre exemple est donc repr´sent´ en logique descriptive par
                                             e    e
l’expression suivante :



    docI ≡ ∃index´ par.edim1 ⊓ ∃index´ par.edim2 ⊓ ∃index´ par.edim3 ⊓
                 e                   e                   e
                      ∃index´ par.edim4 ⊓ ∃index´ par.edim5
                            e                   e

   Cette expression est ajout´e automatiquement ` la T-Box. En effet, nous avons
                             e                    a
d´velopp´ un outil qui permet de repr´senter un document en logique descriptive et
 e      e                            e
le traduire en format OWL. Cet outil accepte en entr´e un ensemble d’´l´ments de
                                                        e                  ee
dimensions, et produit en sortie le concept docI et l’ajoute dans le fichier T-Box.owl.



Mod`le de requˆtes
   e          e

   Il s’agit ici d’ajouter ` la T-Box la repr´sentation de la requˆte en respectant
                           a                 e                    e
le mod`le de requˆte propos´. Ainsi, chaque requˆte est repr´sent´e, dans le fichier
      e          e         e                    e           e    e
T-Box.owl, par un concept qI.


   En supposant que les ´l´ments de dimensions sont extraits ` partir de la requˆte
                          ee                                   a                   e
de notre exemple (4.2), leur repr´sentation en logique descriptive est la suivante :
                                 e


   edim6 ≡ G´n´ral ⊓ ∃Orginaire de.F rance
            e e
   edim7 ≡ Zone de s´curit´ ⊓ ∃Cr´e pendant.Conf lit des Balkans
                    e     e      e´




                                         106
De la mˆme mani`re que pour les documents, notre outil permet de repr´senter
          e       e                                                     e
une requˆte en logique descriptive et la traduire automatiquement en format OWL.
        e

   La requˆte de notre exemple est donc repr´sent´e en logique descriptive par l’ex-
          e                                 e    e
pression suivante :



                      qI ≡ ∃index´ par.edim6 ⊓ ∃index´ par.edim7
                                 e                   e

   En ajoutant le concept qI au fichier T-Box.owl, la T-Box est construite, et la cor-
respondance entre documents et requˆtes peut ˆtre effectu´e. Nous pr´sentons dans la
                                    e        e          e          e
figure 4.4 une repr´sentation graphique de la T-Box. Les concepts sont pr´sent´s dans
                  e                                                     e    e
l’ordre alphab´tique : d’abord le concept docI, ensuite les concepts de la ressource
              e
                                      ´ e
externe K (contenant les dimensions Ev´nement, Lieu g´ographique, et Personne),
                                                         e
enfin le concept qI.




                 Fig. 4.4 – Repr´sentation graphique de la T-Box
                                e




                                         107
Correspondance

    La correspondance entre le document et la requˆte se traduit en logique descrip-
                                                  e
tive par la subsomption : le document d est consid´r´ pertinent pour la requˆte q si
                                                  ee                         e
docI est subsum´ par qI (docI ⊑T qI) (cf. figure 4.5). Techniquement, il faut faire
                 e
des inf´rences dans le fichier T-Box.owl et fabriquer la hi´rarchie de subsomption. Il
       e                                                  e
existe plusieurs raisonneurs qui permettent d’effectuer cette tˆche (Racer3 , Fact++4 ,
                                                              a
etc.). Dans nos exp´rimentations, nous avons choisi le raisonneur Pellet5 .
                     e




 Fig. 4.5 – Calcul de la correspondance entre un document doc et une requˆte q
                                                                         e

  Le raisonneur prend en entr´e le fichier T-Box.owl qui est repr´sent´ graphique-
                               e                                    e    e
ment dans la figure 4.4. En faisant des inf´rences, le raisonneur produit la hi´rarchie
                                          e                                   e
de subsomption qui est pr´sent´e dans la figure 4.6. Dans celle-ci, nous pouvons
                           e     e
constater que le concept docI est plus sp´cifique que le concept qI dans la hi´rarchie
                                         e                                   e
ainsi fabriqu´e. Cette information implique que le concept qI subsume le concept
             e
docI, ce qui veut dire que le document doc peut ˆtre consid´r´ comme une r´ponse
                                                e          ee             e
pertinente pour la requˆte q.
                        e

      `
      A ce niveau, notre syst`me arrive ` s´lectionner les documents pertinents pour
                             e          a e
une requˆte. Il ne reste qu’` les classer dans leur ordre de pertinence par rapport `
         e                  a                                                       a
la requˆte. Ce processus est d´crit dans la section suivante.
       e                       e
  3
    http ://www.racer-systems.com/
  4
    http ://owl.man.ac.uk/factplusplus/
  5
    http ://pellet.owldl.com/



                                          108
Fig. 4.6 – La hi´rarchie de subsomption fabriqu´e par le raisonneur Pellet
                       e                              e

4.3.2        R´alisation des ´tapes E4 & E5
              e              e
    Nous avons utilis´ le mod`le vectoriel pour mettre en œuvre ces deux ´tapes.
                      e         e                                            e
Comme pr´sent´ dans la figure 4.7, un document doc et une requˆte q sont repr´sent´s
           e    e                                               e            e   e
                                  −→ −
respectivement par les vecteurs doc et →. Le RSV6 entre doc et q est calcul´ en ap-
                                        q                                  e
                                                            −→ −   →.
pliquant le cosinus sur l’angle form´ par les deux vecteurs doc et q
                                    e


   Dans les exp´riences pr´sent´es ici, nous consid´rons un ´l´ment de dimension
               e          e    e                   e        ee
comme un concept ou un mot. Ainsi, l’application du mod`le vectoriel est tr`s simple
                                                        e                  e
car chaque document (requˆte) est repr´sent´(e) par un vecteur de concepts ou mots.
                         e            e    e

      Nous pr´sentons maintenant les exp´riences men´es sur la collection CLEF-2005
             e                          e           e
qui ont pour but d’´valuer l’apport de l’utilisation des dimensions pour la r´solution
                   e                                                         e
des requˆtes pr´cises.
        e      e
  6
      Retrieval Status Value.




                                          109
Fig. 4.7 – Calcul du RSV entre une requˆte et un document au niveau de l’indexation
                                       e
pour l’ordonnancement

4.4         Exp´rimentations sur la collection CLEF-2005
               e
    Avant d’exposer nos exp´riences, nous pr´sentons d’abord le contexte dans lequel
                           e                e
elles ont ´t´ men´es.
          ee     e


4.4.1        Contexte des exp´rimentations
                             e
Protocole d’´valuation
            e

   Nous avons utilis´ une collection de la campagne d’´valuation CLEF-2005. Elle
                     e                                e
a ´t´ utilis´e dans la tˆche de recherche d’images m´dicales (MedIR) [24] qui fait
  ee        e           a                           e
partie de la piste ImageCLEF qui concerne la recherche multilingue d’images.


      Dans la campagne CLEF, les syst`mes sont ´valu´s selon l’approche d’´valuation
                                     e         e    e                     e
caract´ristique des syst`mes de Recherche d’Information. Celle-ci est bas´e sur la
      e                 e                                                 e
notion de pertinence qui consiste en la quantification de la correspondance d’un do-
cument par rapport ` une requˆte. Elle repose sur une mesure des performances des
                     a         e
syst`mes bas´e sur le calcul de deux indicateurs : le rappel et la pr´cision [23]. Un
    e       e                                                        e
Syst`me de Recherche d’Information de qualit´ maximise ces deux valeurs, bien que
    e                                        e
celles-ci soient g´n´ralement antinomiques.
                  e e

      La m´thode d’´valuation des syst`mes est faite selon le protocole TREC7 . Pour
          e        e                  e
chaque requˆte, les 1000 premiers documents sont restitu´s par le syst`me et des
           e                                            e             e
  7
      http ://trec.nist.gov/


                                         110
pr´cisions sont calcul´es ` diff´rents points (5, 10, 15, 30, 100, et 1000 premiers
  e                   e a      e
documents restitu´s), puis une moyenne Avg Pr de toutes ces pr´cisions est calcul´e.
                 e                                            e                  e

Le corpus

   Les exp´rimentations sont conduites sur le corpus ImageCLEFmed-2005. Celui-ci
          e
contient 50,026 images avec des annotations en format XML. La majorit´ des anno-
                                                                           e
tations sont en anglais, mais il y a un nombre significatif en fran¸ais et en allemand,
                                                                  c
avec quelques cas sans aucune annotation.


   Le corpus comprend ´galement 25 requˆtes contenant chacune une ou plusieurs
                      e                e
images exemples (positives, n´gatives). Chaque requˆte contient trois courtes des-
                               e                      e
criptions textuelles respectivement en fran¸ais, en anglais, et en allemand.
                                           c


    Dans la figure 4.8, nous pr´sentons un exemple typique d’une requˆte de la col-
                              e                                     e
lection ImageCLEFmed-2005 :




       Fig. 4.8 – Exemple de requˆte de la collection ImageCLEFmed-2005
                                 e




                                         111
Pourquoi la collection ImageCLEFmed ?

   Nous pensons que la collection ImageCLEFmed est particuli`rement pertinente
                                                              e
pour ´valuer notre approche. En effet, cette collection contient des requˆtes qui
     e                                                                  e
expriment des besoins pr´cis de m´decins. A travers ces requˆtes, l’ˆtre humain com-
                        e        e                          e       e
prend clairement que l’on cherche des images qui contiennent deux ´l´ments en rap-
                                                                     ee
port l’un avec l’autre : i ) une partie de l’anatomie du corps humain (ex. f´mur), ii )
                                                                               e
une pathologie li´e ` cette partie de l’anatomie (ex. fracture), iii ) enfin, ces ´l´ments
                 e a                                                             ee
doivent ˆtre d´crits dans une image d’une modalit´ particuli`re (ex. x-ray). Ces
         e     e                                        e           e
trois types d’´l´ments d’informations repr´sentent des dimensions du domaine de la
              ee                          e
m´decine.
  e


    Notre d´fi est de r´soudre ces requˆtes pr´cises Nous proposons ainsi de prendre
           e          e               e      e
en compte les dimensions susmentionn´es et montrer que leur utilisation permet d’in-
                                      e
terpr´ter avec pr´cision les requˆtes de la collection ImageCLEFmed, et d’augmenter
     e            e              e
ainsi la pr´cision du syst`me.
           e              e

Les ressources externes utilis´es
                              e

   Nous avons utilis´ deux ressources externes pour d´finir les dimensions du do-
                    e                                 e
maine m´dical. Nous les pr´sentons bri`vement dans les sections suivantes.
       e                  e           e

Le th´saurus MeSH
     e

   MeSH8 (Medical Subject Headings) est un th´saurus d´velopp´ par la “National
                                                e        e       e
                    9
Library of Medicine ”. Il se compose d’un ensemble de termes de la m´dicine fai-
                                                                        e
sant r´f´rence ` des descripteurs organis´s dans une structure hi´rarchique. MeSH
      ee       a                         e                       e
contenait 22997 descripteurs class´s ` la fois dans une structure alphab´tique et
                                  e a                                      e
hi´rarchique. Au niveau sup´rieur de la structure hi´rarchique, on trouve des termes
  e                        e                        e
tr`s g´n´riques tels que “Anatomy” ou “Diseases”. Des termes plus sp´cifiques tels
  e e e                                                               e
que “Femur” et “Cancer” se trouvent ` des niveaux plus bas de la hi´rarchie qui
                                      a                                e
contient onze niveaux. Nous pr´sentons, dans la figure 4.9, les premiers niveaux de
                               e
la hi´rarchie de MeSH.
     e

  8
      http ://www.nlm.nih.gov/mesh/ [visit´ le 19-6-2007]
                                            e
  9
      http ://www.nlm.nih.gov/ [visit´ le 19-6-2007]
                                     e




                                               112
Fig. 4.9 – Premier niveau de la structure hi´rarchique de MeSH
                                                      e

   Dans notre exp´rience, nous avons utilis´ la structure hi´rarchique de MeSH
                   e                          e             e
pour d´finir les dimensions “Anatomie”, “Pathologie”, et “Modalit´”. Celles-ci sont
      e                                                         e
d´finies respectivement par les hi´rarchies suivantes :
 e                               e


- Anatomy [A] ;
- Diseases [C] ;
- Analytical, Diagnostic and Therapeutic Techniques and Equipment [E]

Le m´ta-th´saurus UMLS
    e     e

   UMLS (Unified Medical Language System) r´sulte de la fusion de 140 sources de
                                                  e
donn´es terminologiques (UMLS knowledge sources) du domaine m´dical. Il contient
     e                                                                 e
´galement des outils linguistiques destin´s ` faciliter les tˆches d’acc`s, de recherche,
e                                        e a                 a          e
d’int´gration, et d’agr´gation des informations biom´dicales et de sant´. Il est com-
      e                e                             e                  e
pos´ de trois ´l´ments : le M´ta-thesaurus, le Semantic Network, et le Specialist Lexi-
    e         ee             e
con. Le M´ta-thesaurus est la partie la plus importante par sa taille et son contenu.
          e
Il regroupe des concepts d´not´s par des termes diff´rents. Ces termes peuvent
                            e e                         e
´ventuellement provenir de sources diff´rentes. La structure du m´ta-th´saurus com-
e                                      e                         e      e
prend les quatre niveaux suivants :




                                          113
- Atome : c’est le plus petit ´l´ment dans la structure. Il repr´sente les instances
                              ee                                e
      d’une chaˆ de caract`res venant de diff´rentes sources ;
               ıne        e                 e
- Chaˆ
     ınes : repr´sente les variations de forme d’une chaˆ de caract`res. C’est le
                e                                       ıne        e
      regroupement des atomes qui ont la mˆme forme de chaˆ de caract`res ;
                                          e               ıne        e
- Terme : repr´sente les variations de d´notation d’un concept. Ce sont donc les
              e                         e
      termes des synonymes qui regroupent un ensemble de chaˆ ;
                                                            ınes
- Concept : repr´sente le sens des termes. C’est le regroupement des synonymes.
                e

   UMLS comprend environ 170 types de relations entre les concepts pr´sents dans
                                                                     e
le M´ta-th´saurus. La relation de synonymie est repr´sent´e implicitement dans la
     e     e                                          e    e
structure des concepts. Tous les concepts sont organis´s en 135 cat´gories, appel´es
                                                      e            e             e
types s´mantiques dans le Semantic Network. Cette structure est un ajout ` la fusion
       e                                                                  a
des th´saurus. Elle permet de “couvrir” cette fusion d’une classification hi´rarchique.
      e                                                                    e
C’est pr´cis´ment cette structure que nous utilisons pour d´finir les dimensions.
        e e                                                  e


   Pour les requˆtes d’ImagCLEFmed-2005, nous avons utilis´ les dimensions Ana-
                e                                          e
tomie, Pathologie, et Modalit´. En analysant manuellement les requˆtes et UMLS,
                             e                                    e
nous avons choisi les concepts qui d´finissent chacune de ces dimensions :
                                    e


- Anatomie “Anatomical Structure”, “Body System”, “Body Space or Junction”,
    “Body Location or Region” ;
- Pathologie “Disease or Syndrome”, “Finding”, “Injury or Poisoning” ;
- Modalit´ “Diagnostic Procedure”, “Manufactured Object”.
         e


   Les concepts de chaque cat´gorie sont organis´s autour d’une sous-hi´rarchie
                             e                  e                        e
d’UMLS. Donc, pour d´finir une dimension, nous regroupons les sous-hi´rarchies qui
                     e                                              e
correspondent au concept d´finissant cette dimension.
                          e


4.4.2     Mise en œuvre du mod`le ` base de la logique descrip-
                              e a
          tive sur la collection ImageCLEFmed-2005
   L’objectif ` travers cette exp´rience est de tester la faisabilit´ de l’application de
              a                  e                                  e
notre approche sur des requˆtes extraites d’une collection r´f´rence. Il s’agit princi-
                             e                                 ee
palement de savoir ` quel point notre mod`le peut ˆtre appliqu´ et quelles sont les
                    a                        e        e             e

                                          114
limites techniques et formelles qui lui sont li´es.
                                               e


   Nous avons effectu´ des tests sur quelques requˆtes choisies en fonction de leur
                     e                           e
complexit´. Pour chacune de ces requˆtes, nous construisons une T-Box constitu´e
         e                          e                                           e
de la requˆte elle-mˆme, des documents qui lui sont pertinents et d’une partie de
          e         e
UMLS. Ensuite, nous calculons la correspondance ` l’aide du raisonneur Pellet et
                                                  a
comparons le r´sultat avec la correspondance calcul´e par un mod`le de RI classique
                e                                  e            e
(i.e. le mod`le vectoriel).
            e

Analyses concernant les donn´es
                            e

    La premi`re difficult´ concerne la s´lection d’un sous-ensemble de UMLS pour
             e           e             e
chacune des requˆtes ´tudi´es. Techniquement cette tˆche est assez simple ` r´aliser :
                 e e       e                        a                     a e
il suffit de s´lectionner, ` partir de UMLS, les hi´rarchies auxquelles appartiennent
            e            a                       e
les concepts de la requˆte et les traduire dans un format OWL. Lors du calcul de la
                       e
subsomption, ces hi´rarchies sont utilis´es par le raisonneur Pellet afin de retrouver
                     e                   e
les documents pertinents pour la requˆte en question.
                                     e

   Le probl`me majeur ` ce niveau est que UMLS contient plusieurs hi´rarchies pa-
           e          a                                             e
rall`les provenant chacune d’une ressource ind´pendante. Ceci repr´sente une diffi-
    e                                          e                    e
cult´ lors de la repr´sentation de UMLS en logique descriptive. Une solution possible
     e               e
est de choisir une seule hi´rarchie (par exemple, provenant d’une ressource parti-
                              e
culi`re) et l’utiliser pour le calcul de la subsomption.
    e


   Le deuxi`me probl`me rencontr´ consiste en l’extraction automatique des ´l´ments
           e         e           e                                           ee
de dimension ` partir des documents. Cette tˆche n’est pas facile ` r´aliser. Elle de-
             a                              a                     a e
mande une analyse pr´cise de la langue naturelle afin d’extraire les concepts et les
                      e
relations qui servent ` d´finir les ´l´ments de dimension. Nous avons simplifi´ le
                      a e          ee                                       e
mod`le en supposant qu’un ´l´ment de dimension est d´fini par un concept. Du cˆt´
     e                     ee                        e                       oe
de la requˆte, ce probl`me est mineur vu que l’extraction des ´l´ments de dimension
            e           e                                     ee
se fait tr`s facilement d’une mani`re manuelle.
          e                       e


  Le troisi`me probl`me est li´ au contenu des documents de la collection ImageCL-
           e        e         e
EFmed-2005. Certains de ces documents contiennent un texte (m´ta-donn´es) qui
                                                                   e        e
ne d´crit pas le contenu de l’image associ´e. En effet, les jugements de pertinence
    e                                     e


                                          115
dans la collection ImageCLEFmed-2005 ont ´t´ effectu´s en se basant sur les images
                                         ee        e
et non pas sur les textes qui leur sont associ´s. Ceci repr´sente un handicap lors de
                                              e            e
l’´valuation de la fonction de correspondance, surtout quand le syst`me ne retrouve
  e                                                                  e
pas les documents pertinents. En effet, dans ce cas, on ne peut pas d´terminer ce qui
                                                                     e
a mal fonctionn´ lors de l’exp´rience : est-ce que notre fonction de correspondance ne
               e              e
fonctionne vraiment pas bien, ou bien les documents ne contiennent-ils effectivement
pas de texte d´crivant l’image.
              e

Analyses concernant le mod`le
                          e

   La fonction de correspondance


   Apr`s moult essais, nous avons conclu que la qualit´ de la conception de la res-
       e                                              e
source externe utilis´e a un impact majeur sur la performance de la fonction de
                     e
correspondance bas´e sur le calcul de la subsomption. En effet, plus cette ressource
                    e
contient des relations de subsomption (is-a), plus la fonction de correspondance est
capable de retrouver des documents pertinents ` une requˆte mˆme s’ils ne partagent
                                              a          e    e
pas les mˆmes concepts qu’elle. Par exemple, pour une requˆte contenant “Tibia”,
          e                                                 e
la correspondance ` base du mod`le vectoriel n’a pu retrouver que 3 documents per-
                  a             e
tinents alors que notre fonction de correspondance a permis d’en retrouver 12, en
utilisant la relation “Tibia is-a Bone”. En effet, ` travers l’algorithme qui calcule
                                                  a
la subsomption, l’utilisation de la Logique Descriptive offre une capacit´ de raison-
                                                                        e
nement qui peut d´duire des connaissances implicites ` partir de celles qui sont
                   e                                     a
explicitement d´finies dans la T-Box, et permet ainsi de retrouver des documents
               e
pertinents pour une requˆte mˆme s’ils ne partagent aucun concept avec elle.
                        e    e

   Cependant, nous avons rencontr´ quelques probl`mes en utilisant la hi´rarchie de
                                 e               e                      e
subsomption. En effet, selon le domaine, la ressource externe peut ˆtre organis´e `
                                                                   e          e a
travers des hi´rarchies s´mantiques diff´rentes. Par exemple, dans le domaine de la
              e          e             e
G´ographie, la relation part of est probablement une des relations les plus utilis´es
  e                                                                                 e
dans les hi´rarchies de concepts. Il en est de mˆme pour l’anatomie humaine. Par
           e                                      e
exemple, si un utilisateur cherche ”fracture in the leg”, il va certainement consid´rer
                                                                                   e
un document contenant “fracture of the hip” comme pertinent. Ainsi, le syst`me de
                                                                           e
recherche doit prendre en compte, lors du calcul de la subsomption, la hi´rarchie
                                                                          e
part of d´crivant l’anatomie humaine.
         e


                                         116
Une fa¸on de r´soudre ce probl`me est d’effectuer une expansion guid´e de la
           c       e               e                                          e
requˆte telle que propos´ par Baziz [4]. Il s’agit de sp´cifier les relations ` utiliser
     e                  e                               e                    a
lors de l’expansion de requˆte. Dans l’exemple pr´c´dent, une expansion possible
                           e                        e e
serait de rechercher les documents qui contiennent “Leg” et les membres de l’ana-
                                                      ´
tomie qui font partie de “Leg” (Leg ⊔ ∃ part of.Leg). Evidemment, pour que cette
solution marche, il faut ´tudier le nombre de niveaux dans la hi´rarchie ` utiliser
                          e                                          e        a
lors de l’expansion. En l’occurrence, l’expansion doit ˆtre faite d’une fa¸on ` pouvoir
                                                       e                  c a
ajouter “Hip”, “Femur ”, “Tibia”, etc.


   Une deuxi`me fa¸on de r´soudre ce probl`me est de “tordre” la relation de sub-
            e     c       e               e
somption et de repr´senter ainsi la hi´rarchie part of comme une hi´rarchie de sub-
                   e                  e                            e
somption, donc d´clarer implicitement, par exemple, que Hip is a Leg. Avec cette
                 e
approche, nous aurions les ´l´ments de dimensions suivants respectivement dans la
                           ee
requˆte et le document :
    e


 edimq ≡ Fracture ⊓ ∃ affect.Leg
 edimd ≡ Fracture ⊓ ∃ affect.Hip


   Ayant d´clar´ que Hip ⊑ Leg, le raisonneur va correctement inf´rer que edimd ⊑
          e    e                                                 e
edimq . Dans nos exp´rimentations, nous avons impl´ment´ cette approche “rapide
                    e                                e     e
et na¨
     ıve”. Cependant, l’utilisation de la subsomption pour mimer une autre relation
peut conduire, dans certains cas, ` des d´ductions contre-intuitives impr´vues. Une
                                   a       e                             e
approche plus “sˆ re et propre” consiste ` d´finir des propri´t´s transitives afin de
                 u                       a e                e e
repr´senter les diff´rents types de hi´rarchies qui peuvent exister dans un domaine
    e              e                  e
donn´. Ainsi, les ´l´ments de dimension de l’exemple pr´c´dent seront pr´sent´s
    e             ee                                   e e              e    e
comme suit :


 edimq ≡ Fracture ⊓ ∃ affect ∃part of .Leg
 edimd ≡ Fracture ⊓ ∃ affect ∃part of .Hip


    Si un axiome sp´cifie que part of est transitive, et si la d´finition de Hip est de
                    e                                          e
la forme “... ⊓ ∃part of.Leg”, alors le raisonneur peut inf´rer que edimd ⊑ edimq .
                                                            e


                                         117
Nous pouvons donc conclure que la fonction de correspondance bas´e sur le calcul
                                                                   e
de la subsomption a l’avantage d’ˆtre tr`s flexible dans le sens o` elle permet d’uti-
                                   e      e                       u
liser n’importe quelle relation pour calculer la correspondance entre un document et
une requˆte. Mais, comme nous le verrons dans la section suivante, le prix ` payer
          e                                                                  a
peut survenir au niveau de la fonction d’ordonnancement.


   La fonction d’ordonnancement

   Avec notre fonction de correspondance, un document peut ˆtre retrouv´ comme
                                                           e           e
r´ponse ` une requˆte mˆme s’il ne partage pas les mˆmes concepts qu’elle. Dans ce
 e        a         e     e                            e
cas, il n’est pas possible de calculer (` l’aide du mod`le vectoriel) une valeur de si-
                                        a              e
milarit´ entre un document et une requˆte qui ne partagent pas les mˆmes concepts.
       e                               e                              e
Par exemple, pour la requˆte contenant “Tibia” et un document contenant “Bone”,
                          e
le mod`le vectoriel a retourn´ une valeur de similarit´ nulle alors que le document
       e                     e                        e
est pertinent pour la requˆte en question.
                          e


   Une solution possible ` ce probl`me consiste ` ´tendre la requˆte ou le docu-
                           a          e            a e                 e
ment avant de fabriquer leurs vecteurs respectifs et calculer la valeur de similarit´ e
entre eux. En effet, lors du calcul de la subsomption, il est possible de savoir quelles
sont les relations qui ont ´t´ utilis´es par le raisonneur pour fabriquer la hi´rarchie
                           ee        e                                         e
de subsomption. Ces relations peuvent ˆtre utilis´es pour ´tendre la requˆte ou ses
                                          e          e       e               e
documents r´ponses. Par exemple, pour la requˆte contenant “Tibia” et le docu-
             e                                  e
ment contenant “Bone”, nous pouvons utiliser la relation “is-a” pour ´tendre soit la
                                                                     e
requˆte par le concept “Bone”, soit le document par le concept “Tibia”.
    e


   Suite ` ce probl`me, deux questions m´ritent d’ˆtre pos´es :
         a         e                    e         e       e


  1. Est-ce que l’ordonnancement dans un contexte de recherche pr´cise est indis-
                                                                 e
     pensable ?


  2. Est-ce que la notion de pertinence dans un contexte de recherche pr´cise est la
                                                                        e
     mˆme que celle qui est utilis´e dans la recherche g´n´rale ?
      e                           e                     e e


   Nous pensons que dans une tˆche de recherche pr´cise, l’utilisateur peut se satis-
                              a                   e


                                         118
faire de n’importe quelle r´ponse pertinente retourn´e par le syst`me. Etant donn´
                           e                        e             e              e
que la fonction de correspondance est cens´e ne retourner que des documents tr`s
                                          e                                    e
pertinents, l’ordonnancement devient moins important que dans un cas de recherche
g´n´rale (comme sur le Web par exemple). Cependant, on peut penser que la no-
 e e
tion de pertinence dans un contexte de recherche pr´cise diff`re de celle qui est
                                                     e        e
utilis´e dans une recherche g´n´rale. Par exemple, pour une requˆte demandant la
      e                      e e                                e
liste des joueurs de l’´quipe de Rugby de France, un document contenant les 15
                       e
joueurs peut ˆtre consid´r´ par l’utilisateur comme plus pertinent qu’un document
              e          ee
contenant seulement quelques joueurs.


   Nous pensons qu’avant de proposer une fonction d’ordonnancement, il faut d’abord
d´finir la notion de pertinence dans un contexte de recherche pr´cise. Il est possible
 e                                                                e
que la d´finition de cette notion d´pende du domaine d’application consid´r´. Pour
         e                         e                                        ee
cette raison, il semble souhaitable de collaborer avec des utilisateurs d’un domaine
particulier afin de d´finir leur notion de pertinence et proposer par la suite une fonc-
                    e
tion d’ordonnancement.


   Consid´ration des performances en temps de calcul
         e


   Il est ´vident que l’utilisation d’un raisonneur pour mettre en œuvre la fonction
          e
de correspondance conduit ` des temps de calcul nettement plus longs que dans le
                              a
cas des SRI bas´s sur un index classique. N´anmoins, plusieurs points peuvent ˆtre
                e                             e                                    e
int´ressants ` ´tudier afin d’am´liorer les performances d’une approche bas´e sur la
   e         ae                    e                                          e
logique descriptive : i ) le contenu des documents est g´n´ralement repr´sent´ par une
                                                        e e             e    e
simple expression logique en utilisant les constructeurs ⊓ et ∃. Ainsi, nous pouvons
imaginer un algorithme de raisonnement plus simple que ceux utilis´s dans le cas
                                                                       e
g´n´ral ; ii ) le contenu de la collection est g´n´ralement stable, et peut donc ˆtre
 e e                                            e e                              e
pr´-trait´ afin de minimiser les calculs au moment de l’interrogation. Par exemple,
  e      e
nous pouvons pr´-calculer la hi´rarchie de subsomption, et une fois la requˆte pos´e,
                   e             e                                          e      e
le raisonneur n’a qu’` placer le concept repr´sentant la requˆte au bon endroit de
                      a                          e               e
cette hi´rarchie. De plus, il est inutile de calculer la subsomption entre les concepts
        e
repr´sentant les documents ; iii ) en cas o` les requˆtes sont repr´sent´es par des ex-
     e                                      u          e           e    e
pressions logiques simples ou r´guli`res, un traitement sp´cifique peut ˆtre appliqu´
                                e   e                      e            e          e
afin de faciliter la tˆche du raisonneur et ´viter des calculs inutiles.
                     a                     e



                                         119
Apr`s cette analyse sur la mise en œuvre du mod`le, nous d´taillons maintenant
         e                                           e          e
deux exp´riences pr´liminaires d´di´es ` l’´valuation, en terme de performance de
         e         e              e e a e
recherche, de l’apport de l’utilisation des dimensions de domaine. Dans chacune
de ces deux exp´riences, nous avons utilis´ le syst`me d’exp´rimentation X-IOTA
                 e                         e       e         e
d´velopp´ par l’´quipe MRIM du laboratoire LIG [17].
 e      e       e


4.4.3        D´finition des ´l´ments de dimensions par des mots
              e            ee
      Dans cette nouvelle exp´rience10 , nous avons utilis´ le th´saurus MeSH comme
                             e                            e      e
ressource externe pour la d´finition des dimensions du domaine m´dical. Nous avons
                           e                                     e
´galement utilis´ les mots pour identifier les ´l´ments de dimensions au niveau des
e               e                             ee
documents/requˆtes. Le but de cette exp´rience est de montrer comment, en dispo-
                 e                        e
sant d’un th´saurus de petite taille et d’un index ` base de mots-cl´s, l’application
             e                                     a                e
de l’usage des dimensions de domaine peut r´soudre des requˆtes pr´cises et d´passer
                                            e               e     e          e
les approches bas´es sur les mod`les existants.
                 e              e

Identification et pond´ration des ´l´ments de dimensions
                     e           ee

      Une fois les dimensions d´finies, nous les utilisons pour identifier les ´l´ments
                               e                                             ee
de dimension au niveau des documents (requˆtes) du corpus ImageCLEFmed. Nous
                                            e
avons fait une simplification en d´finissant un ´l´ment de dimension par un simple
                                 e            ee
mot. Donc si un mot appartenant ` un document (requˆte) existe dans une des
                                    a                     e
dimensions d´finies, alors il sera consid´r´ comme un ´l´ment de cette dimension.
              e                         ee             ee
Une fois les ´l´ments de dimensions identifi´s, nous les pond´rons en employant le
             ee                             e               e
sch´ma de pond´ration LTC du mod`le vectoriel.
   e          e                 e

S´lection et ordonnancement des documents pertinents pour une requˆte
 e                                                                e

      Afin de r´soudre les requˆtes du corpus ImageCLEFmed, nous utilisons trois
              e               e
crit`res parmi ceux que nous avons propos´s dans notre mod`le : obligatoire, option-
    e                                    e                e
nel, et priorit´.
               e


   Rappelons qu’un ´l´ment de dimension marqu´ comme obligatoire dans une
                     ee                         e
requˆte doit absolument apparaˆ dans les documents retrouv´s, alors qu’un ´l´ment
    e                         ıtre                        e               ee
de dimension optionnel peut y apparaˆ ou non. Enfin, un ´l´ment de dimension qui
                                    ıtre               ee
 10
      Cette exp´rience a ´t´ men´e en collaboration avec Dr. J-P. Chevallet et Dr. J-W. Lim [20] [19]
               e         ee     e


                                                 120
a une priorit´ i doit apparaˆ dans les documents retrouv´s, sinon, c’est l’´l´ment
             e              ıtre                        e                  ee
de dimension qui a une priorit´ i + 1.
                              e

   En se basant sur ces trois crit`res, nous avons effectu´ quatre tests afin de pou-
                                  e                      e
voir interpr´ter le contenu des requˆtes. Nous pr´sentons ces tests dans la section
            e                         e          e
suivante, ainsi que les r´sultats obtenus.
                         e


    Notre objectif ici n’est pas d’´valuer la fonction de correspondance, bas´e sur le
                                   e                                         e
calcul de la subsomption, mais plutˆt l’apport de l’utilisation des dimensions pour
                                      o
la r´solution de requˆtes pr´cises. Ainsi, lors du calcul de la correspondance, nous
    e                e      e
n’avons pas besoin de faire des inf´rences dans la ressource externe pour le cal-
                                     e
cul de la subsomption. La correspondance entre une requˆte et un document peut
                                                         e
ˆtre effectu´e avec un mod`le bool´en classique o` les documents (requˆtes) sont
e           e             e       e              u                      e
repr´sent´(e)s comme une conjonction (et/ou disjonction) d’´l´ments de dimension.
    e    e                                                 ee


   Une fois les documents s´lectionn´s, nous utilisons le mod`le vectoriel pour les
                           e        e                        e
ordonner en fonction de leur pertinence par rapport ` la requˆte en question. Comme
                                                    a        e
la correspondance a ´t´ effectu´e sans aucune inf´rence dans la ressource externe,
                     ee         e                 e
chaque document retrouv´ partage forc´ment les mˆmes ´l´ments de dimension que
                          e             e           e     ee
la requˆte. Ainsi, l’application du mod`le vectoriel pour le calcul d’une valeur de
        e                              e
similarit´ entre un document et une requˆte ne pose aucun probl`me.
          e                              e                       e

R´sultats exp´rimentaux
 e           e

    Nous avons d’abord effectu´ une indexation classique bas´e sur le mod`le vec-
                              e                              e             e
toriel (avec le sch´ma de pond´ration LTC) sans prise en compte des dimensions.
                   e          e
Le r´sultat de cette m´thode d’indexation classique servira de r´f´rence (baseline)
     e                 e                                        ee
pour ´valuer l’apport de l’usage des dimensions de domaine. La pr´cision moyenne
     e                                                           e
(MAP : Mean Average Precision) obtenu avec le baseline est ´gale ` 0.1725.
                                                            e    a


   Les r´sultats obtenus sont pr´sent´s dans le tableau 4.1, o` les lignes corres-
        e                           e    e                         u
pondent aux tests, et les valeurs correspondent aux r´sultats et leur taux de variation
                                                     e
compar´ au baseline.
      e


   Voici les quatre tests effectu´s lors de nos exp´riences. Evidemment, ce sont de
                                e                 e


                                         121
Tab. 4.1 – Comparaison des r´sultats de notre approche avec le baseline.
                                 e
                Tests MAP Comparaison avec le baseline (%)
                 T1   0.1463                  -17.90
                 T2   0.1956                 +13.39
                 T3   0.2075                 +20.28
                 T4 0.2130                   +23.47


simples tests sur des cas particuliers qui n’ont pas de port´e g´n´rale. Le but ici ´tant
                                                            e e e                   e
de montrer comment les op´rateurs que nous avons propos´s peuvent ˆtre utilis´s
                              e                                 e           e          e
pour mieux pr´ciser un besoin d’information.
             e


T1 : “Un document est consid´r´ pertinent s’il contient les trois dimensions pr´sentes
                            e e                                                e
      dans la requˆte”.
                  e


   Cette requˆte se traduit par le fait que les ´l´ments des dimensions Anatomie,
               e                                 ee
Pathologie, et Modalit´ sont obligatoires et doivent donc ˆtre pr´sents dans les do-
                      e                                   e      e
cuments pertinents.

   Nous nous attendions ` ce que ce test am´liore les r´sultats mais les exp´riences
                        a                  e           e                    e
d´montrent le contraire : une baisse de 17.90%. Apr`s analyse de la collection, nous
 e                                                   e
avons remarqu´ que ce r´sultat est dˆ au fait que les documents de ImageCLEFmed-
              e         e           u
2005 ne contiennent pas souvent les termes d´crivant la modalit´ des images. Le fait
                                              e                 e
que la modalit´ ne soit pas assez explicit´e dans les documents nous paraˆ normal
              e                           e                                 ıt
car un compte-rendu d´crit une pathologie sur une partie de l’anatomie, et l’informa-
                      e
tion sur le type d’image est souvent implicite. Pour cette raison, nous avons propos´
                                                                                    e
le test suivant :


T2 : “Un document est consid´r´ pertinent s’il contient au moins une des dimen-
                            e e
      sions de la requˆte”.
                      e


   Cette requˆte se traduit par le fait que les ´l´ments des dimensions Anatomie,
               e                                 ee
Pathologie, et Modalit´ sont tous optionnels et qu’au moins un d’entre eux doit ˆtre
                      e                                                         e
pr´sent dans les documents pertinents.
  e



                                          122
Avec ce test, nous avons obtenu une am´lioration du r´sultat de 13.39%. Dans
                                            e              e
ce cas, nous avons suppos´ que toutes les dimensions ont la mˆme importance dans
                          e                                     e
la requˆte. Cette supposition n’est pas toujours valide. En effet, les termes d´crivant
       e                                                                      e
                                                                          11
la modalit´ dans la requˆte ne sont pas discriminants (ex : une CT peut ˆtre
           e              e                                                        e
“une image d’un rein” ou “une image d’un emphys`me”, etc.). De mˆme, les termes
                                                   e                 e
d´crivant la pathologie sont parfois ambigus (ex : une fracture peut ˆtre “une frac-
 e                                                                   e
ture d’un f´mur ” ou “une fracture d’un crˆne”, etc.). Donc, il nous a sembl´ que
           e                               a                                    e
l’anatomie est la dimension la plus importante parce qu’elle est discriminante et non
ambigu¨. Ceci nous a sugg´r´ le test suivant :
       e                  ee


T3 : “Un document pertinent doit contenir l’anatomie, sinon la pathologie, sinon la
     modalit´ ”.
            e


      Avec ce test, nous avons am´lior´ les performances de recherche de 20.28%.
                                 e e


   Comme les termes d´crivant la modalit´ ne sont pas souvent pr´sents dans les
                      e                 e                       e
documents, nous avons consid´r´ dans notre quatri`me test que les ´l´ments des
                            ee                   e                ee
dimensions Anatomie et Pathologie sont obligatoires, et que les ´l´ments de la di-
                                                                ee
mension Modalit´ sont optionnels.
               e


T4 : “Un document est consid´r´ pertinent s’il contient les dimensions anatomie et
                            e e
        pathologie”.


      Avec ce test, nous avons obtenu une am´lioration des performances de recherche
                                            e
de 23.47%.


   Dans la figure 4.10, nous proposons une comparaison graphique des performances
de notre syst`me par rapport au baseline.
             e


  Nous pr´sentons dans la section suivante la deuxi`me exp´rience que nous avons
          e                                        e      e
men´e en se basant sur une indexation conceptuelle. Nous revenons ` la fin de ce
   e                                                               a
chapitre aux interpr´tations de ces r´sultats et aux conclusions que l’on peut tirer
                    e                e
apr`s ces exp´riences.
   e         e
 11
      Computed Tomography.

                                         123
Fig. 4.10 – R´sultats exp´rimentaux de la prise en compte des ´l´ments de dimen-
              e           e                                   ee
sions d´finis par des mots
       e

4.4.4      D´finition des ´l´ments de dimensions par des concepts
            e            ee
   Dans le but de confirmer et consolider12 les r´sultats obtenus dans la premi`re
                                                e                             e
exp´rience, nous avons men´ une deuxi`me exp´rience sur la mˆme collection Ima-
   e                      e          e        e               e
geCLEFmed. Dans cette deuxi`me exp´rience, nous avons utilis´ les concepts pour
                                e      e                       e
l’identification des ´l´ments de dimensions au niveau des documents/requˆtes. Nous
                    ee                                                 e
avons ainsi utilis´ le m´ta-th´saurus UMLS pour l’extraction des concepts ` partir
                  e     e     e                                           a
des documents/requˆte, et pour la d´finition des dimensions du domaine m´dical. La
                  e                e                                   e
mien en œuvre de cette exp´rience suit les mˆmes ´tapes que nous avons pr´sent´es
                           e                e     e                      e    e
dans la premi`re exp´rience.
             e      e

Mise en œuvre de l’indexation conceptuelle

    Dans le pr´sent travail, l’indexation conceptuelle n’est pas un objectif en soi. Il
              e
s’agit tout simplement d’un moyen pour extraire, ` partir des documents (requˆtes),
                                                  a                          e
les concepts qui nous servent ` identifier les ´l´ments de dimension.
                              a               ee
   12
      C’est dans le sens o` dans la premi`re exp´rience il y avait une forte simplification en d´finissant
                          u              e      e                                              e
les ´l´ments de dimensions par des simples mots-cl´s.
    ee                                                e



                                                 124
Voyons bri`vement la mise en œuvre de l’indexation conceptuelle que nous avons
              e
utilis´e. Une description d´taill´e avec tous les r´sultats est disponible dans [73].
      e                    e     e                 e
        13
L’outil que nous avons utilis´ est adapt´ aux textes ´crits en anglais. Nous l’avons
                              e           e            e
´galement utilis´ pour les textes ´crits en allemand et en fran¸ais.
e               e                 e                            c


    Le principe g´n´ral de l’extraction des termes et des concepts qu’ils d´notent est
                  e e                                                      e
bas´ sur l’utilisation des outils de TAL traditionnellement utilis´s en RI, guid´s par
    e                                                             e             e
les donn´es terminologiques de UMLS. Tout d’abord, tous les textes de la collection
        e
sont analys´s ` l’aide de TreeTagger14 qui fournit comme r´sultat des mots segment´s,
           e a                                            e                       e
´tiquet´s syntaxiquement et lemmatis´s. Ensuite, une correspondance est faite entre
e      e                               e
les (groupes de) mots fournis par TreeTagger et les entr´es de UMLS. L’hypoth`se
                                                        e                        e
sur laquelle se base la mise en œuvre de l’indexation conceptuelle est que seuls les
termes pr´sents dans UMLS et retrouv´s, avec seulement des variantes lexicales dans
         e                            e
les textes, permettent d’identifier un terme. Cette hypoth`se est restrictive car il
                                                         e
est possible que les donn´es terminologiques dans UMLS ne couvrent pas toutes les
                         e
formes textuelles possibles.

      La mise en œuvre de l’indexation conceptuelle est une tˆche difficile. Par exemple,
                                                             a
le m´ta-th´saurus UMLS ne contient pas toutes les formes textuelles possibles qui
    e     e
d´notent un concept. Ainsi, la correspondance stricte entre le texte des documents
  e
et les entr´es de UMLS ne permet pas d’extraire tous les concepts. Cette limite peut
           e
ˆtre contourn´e en tenant compte de deux types de variations :
e              e


i ) La variation au niveau de la casse (utiliser les formes en majuscule ou en mi-
        nuscule) : selon les r´sultats, il semble difficile de pouvoir dire quelle m´thode
                              e                                                   e
        effectue la meilleure correspondance entre les (groupe de) mots des textes et
        les entr´es de UMLS. En tout cas, d’un point de vue RI, la suppression de la
                e
        casse est plus simple ` mettre en œuvre et semble donc plus int´ressante.
                              a                                        e


ii ) La variation au niveau lexical (la forme d’origine d’un mot ou sa forme lem-
      matis´e). A ce niveau il existe un probl`me de non-d´tection des termes qui
           e                                  e             e
 13
      D´velopp´ par Lo¨ Maisonnasse.
        e      e      ıc
 14
      http ://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html


                                              125
pourraient d´noter des concepts dans le texte. Ce type d’erreur provient de
                 e
     l’analyse lexicale de TreeTagger qui ne permet pas de retrouver les lemmes de
     tous les mots utilis´s dans le corpus m´dical. Par exemple, le terme “angio-
                           e                 e
     grams”, qui est pr´sent dans une requˆte sous la forme au pluriel, ne peut pas
                         e                 e
     ˆtre associ´ au concept correspondant car UMLS ne contient que la forme au
     e          e
     singulier (angiogram) et TreeTagger n’est pas capable de retrouver le lemme
     correspondant ` “angiograms”. En effet, l’analyseur TreeTagger est un ana-
                    a
     lyseur g´n´ral et donc non adapt´ au vocabulaire m´dical. L’utilisation d’un
             e e                       e                  e
     analyseur sp´cialis´ sur le domaine pourrait am´liorer les r´sultats.
                 e      e                           e            e


   Un autre probl`me concerne l’association entre une chaˆ de caract`res et les
                   e                                        ıne           e
entr´es d’UMLS. Faut-il consid´rer seulement les termes pr´sents dans le texte et qui
    e                          e                          e
sont les plus longs (contiennent le plus grand nombre de mots), ou bien consid´rer
                                                                                 e
tous les termes ind´pendamment de leurs tailles ? Dans le premier cas, notamment
                   e
consid´r´ par Baziz [4], le terme pertinent ` extraire de la s´quence “Images of right
       ee                                   a                 e
middle lobe”, est “right middle lobe” et non pas seulement “lobe”.

   Les exp´riences que nous avons effectu´es ont montr´ que la correspondance bas´e
          e                             e            e                          e
sur les termes les plus longs donne des r´sultats inf´rieurs ` ceux qui sont obtenus `
                                         e           e       a                       a
l’aide des mots. Cette baisse de performance s’explique par l’extrˆme pr´cision des
                                                                     e      e
concepts extraits. En effet, des concepts d´not´s par “Right middle lobe” ou “Chest
                                          e e
CT” sont trop pr´cis de sorte que leur utilisation ` la place de leurs constituants
                   e                                a
entraˆ une forte baisse du rappel. D’autres probl`mes tels que la m´tonymie influe
     ıne                                          e                 e
sur la correspondance entre les concepts.


    En extrayant les concepts d´not´s par tous les termes pr´sents dans le texte, on
                                 e e                          e
obtient une nette am´lioration dans les performances du syst`me, surpassant ainsi
                      e                                         e
les r´sultats obtenus par l’indexation bas´e sur les mots cl´s. Cette am´lioration est
     e                                    e                 e           e
la cons´quence d’une augmentation du taux du rappel qui est dˆ ` l’extraction de
       e                                                     ua
certains concepts plus g´n´raux.
                        e e


   Dans la pr´sente exp´rimentation, nous n’avons pas trait´ le probl`me de l’am-
               e        e                                  e         e
bigu¨ e des termes. Nous avons suppos´ que dans un domaine tr`s sp´cifique, tel que
    ıt´                              e                        e    e
la m´decine, le taux d’ambigu¨ e des termes n’est pas ´lev´. Dans ce cas, l’indexation
    e                        ıt´                      e e


                                         126
Tab. 4.2 – Comparaison des r´sultats de
                                 e               notre approche avec le baseline.
 Tests        Documents en Anglais                Documents de toute la collection
        MAP Compar´ au baseline (%)
                        e                         MAP Compar´ au baseline (%)
                                                                  e
 T1     0.1335            -10.03                 0.1428             -1.61
 T2     0.156             +6.19                  0.1534             +5.72
 T3     0.1617            +10.07                 0.1579             +8.82
 T4    0.1707             +16.2                  0.1742            +20.05


conceptuelle sert principalement ` la prise en compte de la variation terminologique.
                                 a

R´sultats exp´rimentaux
 e           e

  Nous avons men´ deux exp´riences : la premi`re est effectu´e sur les seuls docu-
                   e           e                e             e
ments en anglais, et la deuxi`me sur toute la collection ImageCLEFmed-2005. Les
                             e
r´sultats pr´sent´s plus loin sont compar´s ` deux r´sultats de r´f´rence obtenus
 e          e    e                        e a        e             ee
avec la seule indexation conceptuelle bas´e sur le mod`le vectoriel (avec le sch´ma
                                         e             e                        e
de pond´ration LTC) sans prise en compte des dimensions. Le premier r´sultat de
          e                                                                e
r´f´rence correspond ` l’indexation conceptuelle effectu´e sur les documents en an-
 ee                    a                               e
glais : 0,1469 de pr´cision moyenne (MAP) ; le deuxi`me r´sultat de r´f´rence corres-
                    e                               e    e           ee
pond ` l’indexation conceptuelle effectu´e sur les documents de toute la collection :
     a                                 e
0,1451 de pr´cision moyenne. Dans la suite, chacun de ces deux r´sultats sera appel´
            e                                                   e                  e
baseline.

   Nous remarquons que les valeurs des baselines obtenus avec l’indexation concep-
tuelle sont plus faibles que ceux obtenus avec l’indexation bas´e sur les mots-cl´s (cf.
                                                               e                 e
section 4.4.3). Ceci est dˆ en partie aux difficult´s de la mise en œuvre de l’indexa-
                           u                       e
tion conceptuelle que nous avons ´voqu´es dans la section pr´c´dente.
                                 e    e                     e e

   Comme dans l’exp´rience pr´sent´e dans la section 4.4.3, nous r´utilisons les
                   e         e    e                               e
quatre tests bas´s sur les crit`res suivants : obligatoire, optionnel, et priorit´. Les
                 e             e                                                 e
nouveaux r´sultats sont pr´sent´s dans le tableau 4.2 o` chaque ligne correspond
            e               e    e                         u
` un test, et les valeurs repr´sentent les r´sultats et leur variation par rapport au
a                             e             e
baseline correspondant.


   Ces r´sultats montrent que les quatre tests provoquent les mˆmes variations des
        e                                                        e
performances que celles qui ont ´t´ obtenues dans la premi`re exp´rience (cf. tableau
                                ee                        e       e


                                          127
Tab. 4.3 – Variations des performances de notre syst`me appliqu´ sur trois index
                                                    e          e
diff´rents.
   e
                          Index 1            Index 2             Index 3
                  T1      -17.90             -10.03              -1.61
                  T2      +13.39             +6.19               +5.72
                  T3      +20.28             +10.07              +8.82
                  T4      +23.47             +16.2               +20.05


4.315 ). Le test T1 provoque une baisse dans les performances, et tous les autres tests
conduisent ` des am´liorations dont les meilleures ont ´t´ obtenues par le test T4 :
              a       e                                 ee
+16.2% pour les seuls documents en anglais, et +20.05% pour l’ensemble des docu-
ments de la collection.


       Ces r´sultats confirment les conclusions tir´es suite ` la premi`re exp´rience :
            e                                     e         a         e      e


- Les documents de la collection ImageCLEFmed-2005 ne contiennent pas souvent
         les concepts d´crivant la modalit´ des images. Ainsi, il suffit de consid´rer que
                       e                  e                                     e
         les ´l´ments de la dimension modalit´ sont optionnels pour obtenir une forte
             ee                                e
         am´lioration des performances ;
           e


- Les dimensions de domaine n’ont pas toujours la mˆme importance dans la requˆte :
                                                   e                          e
    les ´l´ments de la dimension Anatomie ne sont pas ambigus et il est donc
        ee
    b´n´fique de leur donner une priorit´ plus ´lev´e que celles des ´l´ments des
      e e                                e       e e                ee
         autres dimensions. Le fait de mettre des priorit´s sur les ´l´ments de dimen-
                                                           e         ee
         sions des requˆtes conduit dans tous les cas ` de nettes am´liorations au niveau
                       e                              a             e
         des performances de notre syst`me.
                                       e


   La figure 4.11 illustre les variations des performances de notre syst`me en effec-
                                                                       e
tuant les tests respectivement sur Index1, Index2, et Index3.

  15
    o` Idex1 = Documents de toute la collection (´l´ments de dimensions d´finis par des mots-cl´s) ;
     u                                           ee                      e                    e
Index2 = Documents en Anglais (´l´ments de dimensions d´finis par des concepts), et Index3 =
                                  ee                        e
Documents de toute la collection (´l´ments de dimensions d´finis par des concepts)
                                  ee                       e




                                               128
Fig. 4.11 – Variations des performances de notre syst`me appliqu´ sur trois index
                                                     e          e
diff´rents
   e

4.5     Conclusion
   Dans tout ce quatri`me chapitre, nous avons d´taill´ la mise en œuvre de notre
                       e                         e    e
mod`le et son application sur des exemples de la collection ImageCLEFmed-2005.
    e
Plus particuli`rement, nous avons montr´ comment le calcul de subsomption est
              e                         e
utilis´ pour mettre en œuvre la fonction de correspondance ` base de la logique
      e                                                       a
descriptive. Ainsi, nous avons pu conclure que la performance de la fonction de cor-
respondance d´pend principalement de la qualit´ de la ressource externe utilis´e :
               e                                 e                              e
plus cette ressource contient de relations de subsomption, plus la fonction de corres-
pondance est capable de retrouver des documents pertinents ` une requˆte, mˆme
                                                                a          e      e
s’ils ne partagent pas les mˆmes concepts qu’elle.
                            e

   Nous avons montr´ que la fonction de correspondance est tr`s flexible dans le sens
                   e                                         e
o` elle permet d’utiliser n’importe quelle relation pour calculer la correspondance
 u
entre un document et une requˆte. Il suffit de sp´cifier des propri´t´s transitives afin
                               e                 e               ee
de permettre ` un raisonneur d’utiliser n’importe quel type de relation lors du calcul
             a
de la subsomption.


    En utilisant les relations lors du calcul de la subsomption, un document peut ˆtre
                                                                                  e
retrouv´ comme r´ponse ` une requˆte mˆme s’il ne partage pas les mˆmes concepts
       e           e        a          e     e                          e
avec elle. Ceci pose probl`me au niveau de la fonction d’ordonnancement car elle
                          e

                                         129
est incapable de calculer une valeur de similarit´ entre un document et une requˆte
                                                 e                              e
qui ne partagent pas les mˆmes concepts. Une solution tr`s simple est d’´tendre la
                          e                             e               e
requˆte ou le document durant le calcul de l’ordonnancement. Jusqu’` pr´sent, nous
    e                                                              a e
n’avons pas propos´ une fonction d’ordonnancement particuli`re et nous envisageons
                  e                                        e
d’´tudier ce probl`me dans nos futurs travaux. En particulier, nous souhaiterions
  e               e
d´finir la notion de pertinence dans un contexte de recherche pr´cise. Ceci devrait
 e                                                             e
nous permettre de proposer une fonction d’ordonnancement qui soit encore plus en
ad´quation avec les besoins pr´cis d’utilisateurs professionnels.
  e                           e


    Apr`s la mise en œuvre du mod`le, nous avons pr´sent´ deux exp´riences pr´limin-
        e                          e               e    e         e          e
aires d´di´es ` l’´valuation, en terme de performance de recherche, de l’apport de
       e e a e
l’utilisation des dimensions de domaine :


i ) La premi`re est bas´e sur l’usage d’´l´ments de dimensions repr´sent´s par des
            e          e                ee                             e    e
     mots-cl´s. Dans cette exp´rience, nous avons utilis´ la structure hi´rarchique du
            e                 e                         e                e
        th´saurus MeSH pour d´finir les dimensions. Malgr´ une approche simplifi´e
          e                     e                        e                       e
        de la d´finition des ´l´ments de dimension, nous avons r´ussi ` d´passer les
               e            ee                                 e     a e
        performances des syst`mes qui ne prennent pas en compte les dimensions de
                              e
        domaine. Les r´sultats obtenus lors de cette exp´rience ont clairement montr´
                       e                                e                           e
        l’avantage de l’usage des dimensions de domaine pour l’interpr´tation des be-
                                                                        e
        soins pr´cis (une am´lioration de plus de 23% de la pr´cision moyenne). Cette
                 e            e                                e
        mˆme id´e nous a permis d’obtenir le meilleur r´sultat lors de notre participa-
          e       e                                     e
        tion16 ` la piste de recherche d’images m´dicales de la campagne d’´valuation
               a                                 e                          e
        CLEF-2005 [20][19] ;


ii ) La deuxi`me est bas´e sur l’usage d’´l´ments de dimensions repr´sent´s par des
             e          e                ee                         e    e
      concepts. Dans cette exp´rience, nous avons utilis´ le m´ta-th´saurus UMLS
                              e                         e     e     e
        pour la d´finition des dimensions et la mise en œuvre de l’indexation concep-
                   e
        tuelle. Les ´l´ments de dimensions ont ´t´ repr´sent´s par les concepts extraits
                     ee                        ee      e    e
        de ce m´ta-th´saurus. Bien que la technique d’extraction des concepts, et donc
                 e      e
        la reconnaissance des dimensions, ne soit pas totalement fiable, nous avons
        r´ussi ` am´liorer les performances de notre syst`me de 20%. Les r´sultats
         e     a    e                                    e                 e
        obtenus lors de cette exp´rience consolident ceux obtenus lors de la premi`re
                                 e                                                e
 16
      En collaboration avec Dr. J-P. Chevallet et Dr. J-W. Lim.


                                                130
exp´rience, et confirment l’apport significatif de l’usage des dimensions pour la
           e
        r´solution des requˆtes pr´cises.
         e                 e      e


   L’ensemble des r´sultats obtenus ici nous permet d’affirmer que la prise en compte
                   e
des dimensions permet d’augmenter la pr´cision moyenne du SRI. En effet, il s’agit
                                          e
d’un compl´ment d’information qui permet d’identifier les ´l´ments pertinents qui
            e                                              ee
d´crivent le th`me d´taill´ dans la requˆte (document). En identifiant ces ´l´ments,
 e             e    e     e             e                                 ee
que nous avons appel´s ´l´ments de dimensions, notre syst`me arrive ` interpr´ter
                      e ee                                 e           a        e
avec plus de pr´cision le contenu de la requˆte et donc de mieux la r´soudre. Nous
               e                            e                        e
avons ´galement propos´ un langage de requˆte expressif qui permet ` l’usager d’uti-
      e                 e                   e                      a
liser des op´rateurs sur les ´l´ments de dimensions de sa requˆte, et de mieux pr´ciser
            e                ee                               e                  e
son besoin en information. Nos exp´riences ont montr´ l’impact positif de l’usage de
                                     e                  e
               17
ces op´rateurs sur la pr´cision du contenu de la requˆte, et sur les performances.
       e                   e                             e


      Comme notre syst`me s’adresse ` des utilisateurs professionnels qui connaissaient
                      e             a
bien leur domaine d’int´rˆt, il est relativement facile d’utiliser notre langage de
                         ee
requˆte pour d´crire avec pr´cision les besoins d’information. Dans le cas o` l’uti-
     e         e             e                                               u
lisateur ne souhaiterait pas utiliser notre langage de requˆte, et se contente d’un
                                                           e
texte brut pour d´crire son besoin, il semble n´anmoins que notre syst`me soit ca-
                  e                             e                      e
pable d’identifier les dimensions et de les prendre en compte lors du processus d’in-
terrogation. Dans cette direction, nous avons men´ une exp´rience sur la collection
                                                    e       e
imageCLEFmed-2005 sans utiliser explicitement les op´rateurs sur les ´l´ments de di-
                                                      e              ee
mensions. La requˆte est alors toujours consid´r´e comme une conjonction d’´l´ments
                 e                            ee                           ee
de dimensions. Apr`s la s´lection des documents pertinents, nous les organisons dans
                    e    e
leur ordre de pertinence en fonction du nombre d’´l´ments de dimensions qu’ils par-
                                                 ee
tagent avec la requˆte en question. Ce processus se fait d’une mani`re transparente
                   e                                                e
sans aucune intervention humaine. Les r´sultats obtenus lors de cette exp´rience ont
                                        e                                e
montr´ une am´lioration sup´rieure ` 12% dans les performances. Ceci prouve en-
      e         e            e       a
core l’apport significatif de l’usage des dimensions lors du processus de RI mˆme
                                                                             e
sans aucune intervention de l’utilisateur.


   Nous pouvons conclure apr`s les r´sultats encourageant obtenus ici que la prise
                            e       e
en compte des dimensions de domaine est un moyen efficace pour la r´solution des
                                                                    e
 17
      les crit`res obligatoire, optionnel, et priorit´
              e                                      e


                                                    131
requˆtes pr´cises. Cependant, nous consid´rons que les r´sultats pr´sent´s ici ne sont
    e      e                             e              e          e    e
qu’une premi`re ´tape en vue de valider l’apport de l’usage des dimensions dans
             e e
un processus de RI orient´ pr´cision. Afin de quantifier l’apport de notre approche,
                         e e
nous projetons de mettre en œuvre l’int´gralit´ de notre mod`le. La prochaine ´tape
                                       e      e             e                 e
consiste donc ` repr´senter les ´l´ments de dimensions tel que nous les avons d´finis.
               a      e          ee                                             e
C’est-`-dire, ` les repr´senter par un ensemble de concepts et des relations. Une fois
      a       a         e
les ´l´ments de dimension extraits, il reste seulement ` appliquer la fonction de cor-
    ee                                                 a
respondance pour ´valuer l’int´gralit´ de notre approche. Une deuxi`me perspective
                  e           e       e                               e
est de proposer une fonction d’ordonnancement ad´quate au contexte de recherche
                                                     e
pr´cise. La troisi`me perspective est de d´velopper une interface graphique afin que
   e              e                           e
les utilisateurs puissent tester l’utilisabit´ de notre syst`me.
                                             e              e




                                         132
Chapitre 5

Conclusion

    Nous nous sommes int´ress´s ` un contexte de RI dans des milieux profession-
                            e    e a
nels, o` les besoins d’information des utilisateurs sont formul´s ` travers des requˆtes
       u                                                       e a                  e
pr´cises. L’objectif de notre travail de th`se a donc ´t´ de d´finir un mod`le de RI
  e                                        e          ee      e           e
capable de r´soudre ce type de requˆtes. Pour ce faire, nous avons opt´ pour l’uti-
             e                        e                                 e
lisation des connaissances du domaine d’int´rˆt de l’utilisateur afin de consid´rer
                                              ee                              e
la s´mantique v´hicul´e par les documents et les requˆtes. Ces connaissances sont
    e           e     e                                 e
d´crites ` travers des ressources externes, et leur usage a pour but d’“augmenter”
  e      a
les connaissances du syst`me sur le domaine trait´ afin qu’il puisse expliciter la
                         e                         e
s´mantique v´hicul´e par le document, et r´soudre ainsi des requˆtes pr´cises.
 e           e    e                       e                     e      e


   Nous nous sommes int´ress´s aux travaux qui utilisent les ressources externes
                          e   e
pour la repr´sentation du contenu s´mantique des documents et des requˆtes. Ces
            e                      e                                   e
travaux concernent principalement l’approche de RI dite “bas´e-concepts” (Concept-
                                                            e
Based Information Retrieval ). L’´tude des travaux les plus significatifs situ´s dans
                                 e                                           e
cette classe d’approches nous a montr´ leurs limites face aux exigences de l’utilisateur
                                     e
en termes de pr´cision du syst`me. En effet, ces approches consid`rent les documents
                e             e                                    e
et les requˆtes comme des sacs de concepts (pond´r´s), et ne peuvent donc mettre
            e                                       ee
en exergue les aspects li´s aux descriptions s´mantiques du contenu du document et
                         e                    e
de la requˆte. Pour notre part, l’approche que nous avons adopt´e consiste ` utiliser
          e                                                     e          a
les dimensions de domaine.




                                          133
5.1      Apport th´orique
                  e
   Dans notre approche, nous d´finissons d’abord les dimensions de domaine ` tra-
                              e                                           a
vers des ressources externes. Il s’agit d’ajouter une structure dans la ressource externe
en cr´ant des concepts d´finissant les dimensions. Ensuite, nous utilisons les dimen-
     e                    e
sions pour mettre en avant les ´l´ments pertinents qui contribuent ` la description
                               ee                                  a
du contenu s´mantique des documents et des requˆtes. Ainsi, au lieu de consid´rer
            e                                     e                             e
les documents et les requˆtes comme des sacs de concepts, nous avons propos´ une
                         e                                                    e
nouvelle unit´ d’indexation d´finie par des dimensions, des concepts et des relations
             e                e
s´mantiques : il s’agit de l’´l´ment de dimension. Nous utilisons cette nouvelle
 e                           ee
unit´ d’indexation afin de produire une repr´sentation pr´cise des documents et des
    e                                       e           e
requˆtes tout en consid´rant les aspects li´s ` leur s´mantique. Ainsi, nous avons
    e                  e                   e a        e
propos´ un langage de document expressif qui permet une indexation pr´cise du
      e                                                                   e
contenu s´mantique des documents. Nous avons ´galement propos´ un langage de
         e                                         e                e
requˆte expressif permettant ` l’usager d’utiliser ces ´l´ments de dimensions et des
    e                        a                         ee
op´rateurs pour d´crire avec pr´cision son besoin d’information. En consid´rant les
  e               e            e                                           e
exigences de l’utilisateur en termes de pr´cision, nous avons propos´ un mod`le de
                                          e                         e       e
Recherche d’Information capable de r´soudre des requˆtes pr´cises.
                                      e                e     e


   Pour d´finir notre mod`le, nous avons choisi un formalisme de repr´sentation de
          e               e                                            e
connaissances disposant d’un niveau d’expressivit´ assez ´lev´ qui convient tr`s bien
                                                 e       e e                  e
` la repr´sentation pr´cise du contenu s´mantique des documents et des requˆtes : il
a        e             e                  e                                    e
s’agit de la logique descriptive. Ainsi, nous avons pu incorporer les connaissances du
domaine lors de la d´finition de notre mod`le tout en garantissant une repr´sentation
                    e                     e                                e
uniforme des documents, des requˆtes et de la ressource externe. Nous avons ´galement
                                  e                                         e
profit´ de l’algorithme de calcul de subsomption offert par la logique descriptive afin
      e
de d´finir la fonction de correspondance mettant en œuvre la pertinence syst`me.
    e                                                                      e


5.2      Apport pratique
   Dans le but de tester la faisabilit´ de notre approche, nous avons effectu´ une s´rie
                                      e                                     e      e
d’exp´riences sur des requˆtes de la collection ImageCLEFmed-2005. Ces exp´riences
     e                     e                                                   e
nous ont permis de savoir jusqu’` quel point notre mod`le, bas´ sur la logique des-
                                  a                        e      e
criptive, peut ˆtre appliqu´ et quelles sont les limites formelles et techniques qui lui
               e           e
sont li´es. Nous avons principalement conclu que la qualit´ de la conception de la
       e                                                      e

                                          134
ressource externe, utilis´e pour la repr´sentation du contenu des documents et des
                         e              e
requˆtes, a un impact majeur sur les performances de recherche. En effet, la fonc-
     e
tion de correspondance bas´e sur le calcul de subsomption s’av`re souvent b´n´fique
                           e                                   e           e e
quand la ressource externe est riche en terme de relation de subsomption (is-a). En
effet, c’est surtout ` travers l’algorithme de calcul de subsomption que la logique des-
                    a
criptive offre une capacit´ de raisonnement qui permet de d´duire des connaissances
                           e                                  e
implicites ` partir de celles repr´sent´es explicitement dans la T-Box, et permet ainsi
           a                      e    e
de retrouver des documents pertinents pour une requˆte mˆme s’ils ne partagent pas
                                                        e    e
les mˆmes concepts que cette derni`re. Nos exp´riences ont cependant montr´ que
      e                                e            e                            e
la relation de subsomption n’est pas suffisante pour calculer la correspondance entre
un document et une requˆte. Pour cette raison, nous avons entrepris d’utiliser des
                          e
propri´t´s transitives. Ainsi, nous avons rendu notre fonction de correspondance tr`s
       ee                                                                            e
flexible dans le sens o` elle permet d’utiliser n’importe quel type de relation lors du
                       u
calcul de la correspondance entre un document et une requˆte.e


   Dans le but d’´valuer l’apport de l’usage des dimensions en terme de performance
                 e
de recherche, nous avons men´ une deuxi`me s´rie d’exp´riences sur la collection
                               e          e     e        e
ImageCLEFmed-2005. L’ensemble des r´sultats encourageant obtenus nous a permis
                                       e
de conclure que la prise en compte des dimensions de domaine est un moyen efficace
pour la r´solution des requˆtes pr´cises.
         e                 e      e


5.3     Perspectives
  Avant de pouvoir utiliser les dimensions de domaine, il faut d’abord les construire.
Dans les exp´riences pr´sent´es dans ce manuscrit, les dimensions ont ´t´ construites
            e          e    e                                         ee
manuellement ` travers des ressources externes existantes. Pour nos futures exp´rien-
              a                                                                 e
ces, nous projetons de les construire automatiquement. Nous avons d´j` commenc´
                                                                    ea           e
l’´tude de ce probl`me et con¸u un algorithme pr´liminaire pour cette construction
  e                e          c                  e
[69]. La prochaine ´tape consiste ` ´valuer exp´rimentalement cet algorithme. Pour
                    e               ae           e
ce faire, nous allons nous inspirer des travaux de Stoica et Hearst sur la construction
automatique des facettes [87].


   Les r´sultats pr´sent´s dans ce manuscrit ne sont qu’une premi`re ´tape en vue
        e          e    e                                        e e
de la validation de l’apport de l’usage des dimensions dans un processus de RI orient´
                                                                                     e


                                            135
pr´cision. Afin de quantifier plus pr´cis´ment l’apport de notre approche, nous proje-
  e                                e e
tons de mettre en œuvre l’int´gralit´ de notre mod`le. La prochaine ´tape consistera
                             e      e             e                 e
donc ` identifier automatiquement les ´l´ments de dimension au niveau des docu-
      a                                 ee
ments. Cette ´tape demande de savoir extraire, ` partir des documents, des concepts
             e                                  a
et des relations qui servent ` d´finir les ´l´ments de dimension. Ce processus peut
                             a e          ee
n´cessiter un traitement automatique de la langue, guid´ par l’utilisation des res-
 e                                                       e
sources externes. Une fois les ´l´ments de dimension extraits, il ne restera plus qu’`
                               ee                                                    a
appliquer la fonction de correspondance pour ´valuer l’int´gralit´ de notre approche.
                                              e           e      e


    Une troisi`me perspective est de proposer une fonction d’ordonnancement ad´qu-
              e                                                                 e
ate au contexte de recherche dans les milieux professionnels. Mais avant de proposer
une telle fonction, nous pensons qu’il faut d’abord d´finir la notion de pertinence
                                                        e
dans ce contexte particulier. Il est possible que la d´finition de cette notion puisse
                                                      e
d´pendre du domaine d’application consid´r´. Pour cette raison, il apparaˆ sou-
 e                                           ee                               ıt
haitable de collaborer avec des utilisateurs d’un domaine particulier afin de d´finir
                                                                              e
leur notion de pertinence et proposer par la suite une fonction d’ordonnancement
ad´quate.
  e

   La fonction d’ordonnancement recherch´e devrait s’appuyer sur les pond´rations
                                        e                                e
des ´l´ments de dimension afin de permettre le calcul d’une valeur de pertinence
    ee
d’un document par rapport ` une requˆte. Une quatri`me perspective concerne donc
                          a         e              e
l’´tude de la possibilit´ d’int´grer les pond´rations dans notre mod`le bas´ sur la lo-
  e                     e      e             e                      e      e
gique descriptive. Ceci semble n´cessiter l’extension du mod`le actuel par la logique
                                   e                           e
floue.


   La cinqui`me perspective est de d´velopper une interface graphique afin que les
            e                       e
utilisateurs puissent tester l’utilisabit´ de notre syst`me. Cette interface devrait per-
                                         e              e
mette ` l’utilisateur de tirer pleinement profit de notre mod`le, en particulier, en
        a                                                         e
exploitant le langage de requˆte lors de l’expression de son besoin d’information. Le
                                e
d´veloppement de cette interface devrait ˆtre centr´ sur les utilisateurs afin qu’elle
 e                                       e         e
soit adapt´e ` leur besoin.
          e a




                                          136
Bibliographie

[1] Nathalie Aussenac-Gilles and Josiane Mothe. Ontologies as Background Know-
    ledge to Explore Document Collections . In RIAO 2004, Avignon,, pages 129–
   142, April 2004.
[2] Franz Baader, Diego Calvanese, Deborah L. McGuinness, Daniele Nardi, and
   Peter F. Patel-Schneider, editors. The description logic handbook : theory,
   implementation, and applications. Cambridge University Press, New York,
   NY, USA, 2003.
[3] Ricardo A. Baeza-Yates and Berthier Ribeiro-Neto. Modern Information Re-
   trieval. Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA,
   1999.
[4] Mustapha Baziz. Indexation conceptuelle guid´e par ontologie pour la recherche
                                                 e
    d’information. Th`se de doctorat, Universit´ Paul Sabatier, Toulouse, France,
                     e                         e
   d´cembre 2005.
    e
[5] Mustapha Baziz, Nathalie Aussenac-Gilles, and Mohand Boughanem.
   D´sambiguisation et Expansion de Requˆtes dans un SRI, Etude de l’apport
    e                                    e
   des liens s´mantiques. Revue des Sciences et Technologies de l’Information
              e
   (RSTI) s´rie ISI, 8(4/2003) :113–136, d´cembre 2003.
           e                              e
[6] Mustapha Baziz, Mohand Boughanem, and Nathalie Aussenac-Gilles. IRIT
   at CLEF 2004 : The English GIRT task . In Carol Peters, Paul Clough,
   Julio Gonzalo, and Gareth J. F. Jones, editors, Cross Language Evaluation
   Forum CLEF’2004 Workshop , Bath, UK, 15/09/04-17/09/04, pages 283–291.
   Lecture Notes in Computer Science LNCS Volume 3491/2005, Springer-Verlag,
   September 2004.
[7] Mustapha Baziz, Mohand Boughanem, Nathalie Aussenac-Gilles, and Claude
    Chrisment. Semantic cores for representing documents in ir. In SAC’05 :


                                      137
Proceedings of the 2005 ACM symposium on Applied computing, pages 1011–
    1017, New York, NY, USA, 2005. ACM.
 [8] Tim Berners-Lee, James Hendler, and Ora Lasilla. The semantic web. Scientific
    American, May 2001.
 [9] Catherine Berrut. Une m´thode d’indexation fond´e sur l’analyse s´mantique
                            e                       e                 e
    de documents sp´cialis´s. Le prototype RIME et son application ` un corpus
                    e     e                                           a
    m´dical. Th`se de doctorat, Universit´ Joseph Fourier, Grenoble, France, 1988.
      e        e                         e
[10] C. Biemann. Semantic indexing with typed terms using rapid annotation. In
     Proceedings of the TKE-05-Workshop on Methods and Applications of Seman-
    tic Indexing, Copenhagen, 2005.
[11] Richard C. Bodner and Fei Song. Knowledge-based approaches to query ex-
    pansion in information retrieval. In AI ’96 : Proceedings of the 11th Bien-
    nial Conference of the Canadian Society for Computational Studies of Intelli-
    gence on Advances in Artificial Intelligence, pages 146–158, London, UK, 1996.
    Springer-Verlag.
[12] R. J. Brachman and J. G. Schmolze. An overview of the kl-one knowledge
     representation system. In J. Mylopoulos and M. L. Brodie, editors, Artifi-
    cial Intelligence & Databases, pages 207–230. Kaufmann Publishers, INC., San
    Mateo, CA, 1989.
[13] Chris Buckley. The smart lab report : The modern smart years (1980-1996).
     SIGIR Forum, 31(1), 1997.
[14] Chris Buckley, Gerard Salton, James Allan, and Amit Singhal. Automatic
     query expansion using smart : Trec 3. In TREC, pages 0–, 1994.
[15] Jean Charlet, Philippe Laublet, and Chantal Reynaud. Web s´mantique :
                                                                   e
     Rapport final. Technical report, Action sp´cifique 32 CNRS / STIC, December
                                              e
    2003.
[16] Jean-Pierre Chevallet. Un Mod`le Logique de Recherche d’Informations ap-
                                  e
    pliqu´ au formalisme des Graphes Conceptuels. Le prototype ELEN et son
          e
    exp´rimentation sur un corpus de composants logiciels. PhD thesis, Univer-
        e
    sit´ Joseph Fourier, Grenoble, 1992.
       e
[17] Jean-Pierre Chevallet. X-iota : An open xml framework for ir experimentation
    application on multiple weighting scheme tests in a bilingual corpus. Lecture


                                      138
Notes in Computer Science (LNCS), AIRS’04 Conference Beijing, 3211 :263–
    280, 2004.
[18] Jean-Pierre Chevallet, Joo-Hwee Lim, and Diem Thi Hoang Le. Domain know-
    ledge conceptual inter-media indexing : application to multilingual multimedia
    medical reports. In CIKM, pages 495–504. ACM, 2007.
[19] Jean-Pierre Chevallet, Joo-Hwee Lim, and Sa¨ Radhouani. A structured visual
                                                ıd
     learning approach mixed with ontology dimensions for medical queries. In Ca-
    rol Peters, Fredric C. Gey, Julio Gonzalo, Henning M¨ ller, Gareth J. F. Jones,
                                                        u
    Michael Kluck, Bernardo Magnini, and Maarten de Rijke, editors, CLEF, vo-
    lume 4022 of Lecture Notes in Computer Science, pages 642–651. Springer,
    2005.
[20] Jean-Pierre Chevallet, Joo-Hwee Lim, and Sa¨ Radhouani. Using ontology
                                                   ıd
     dimensions and negative expansion to solve precise queries in clef medical task.
     In CLEF Workhop, Working Notes Medical Image Track, Vienna, Austria, 21–
    23 September 2005.
[21] Paul-Alexandru Chirita Christian Kohlsch¨ tter and Wolfgang Nejdl. Using link
                                             u
    analysis to identify aspects in faceted web search. In ACM SIGIR Workshop
    on Faceted Search, Seattle, USA, August 2006.
[22] Martin Chodorow Claudia Leacock and George Miller. Using corpus statis-
     tics and wordnet relations for sense identification. computational linguistics.
    Computational Linguistics, 24(1) :147–165, 1998.
[23] C. Cleverdon and M. Kean. Factors determining the performance of indexing
    systems. Aslib Cranfield Research Project, Cranfield, England, 1968.
[24] Paul Clough and Henning Muller. The clef cross language image retrieval track
     2005. In http ://ir.shef.ac.uk/imageclef2005/, visited on November 2005.
[25] Fabio Crestani. Exploiting the similarity of non-matching terms at retrieval
     time. Information Retrieval, 2(1) :23–43, 2000.
[26] Wisam Dakka, Panagiotis G. Ipeirotis, and Kenneth R. Wood. Automatic
     construction of multifaceted browsing interfaces. In Otthein Herzog, Hans-
    J¨rg Schek, Norbert Fuhr, Abdur Chowdhury, and Wilfried Teiken, editors,
     o
    CIKM, pages 768–775. ACM, 2005.




                                        139
[27] Claudia Leacock Ellen Marie Voorhees and Geoffrey Towell. Learning context
    to disambiguate word senses. In the 3rd Computational Learning Theory and
    iVatural Learning Systems Conference. MIT Press, 1992.
[28] Christiane Fellbaum, editor. WordNet : an electronic lexical database. Massa-
     chusetts : The MIT Press, 1998. p.423.
[29] Edward Alan Fox. Extending the boolean and vector space models of infor-
     mation retrieval with p-norm queries and multiple concept types. PhD thesis,
    Ithaca, NY, USA, 1983.
[30] William Gale, Kenneth Ward Church, and David Yarowsky. Estimating upper
    and lower bounds on the performance of word-sense disambiguation programs.
    In Proceedings of the 30th annual meeting on Association for Computational
    Linguistics, pages 249–256, Morristown, NJ, USA, 1992. Association for Com-
    putational Linguistics.
[31] Joseph A. Goguen. What is a concept ? In Frithjof Dau, Marie-Laure Mugnier,
     and Gerd Stumme, editors, Proceedings of the 13th International Conference on
     Conceptual Structures (ICCS 2005), volume 3596 of Lecture Notes in Computer
    Science, pages 52–77. Springer, 2005.
[32] Julio Gonzalo, Felisa Verdejo, Irina Chugur, and Juan Cigarran. Indexing
     with wordnet synsets can improve text retrieval. In Proceedings of the CO-
     LING/ACL ’98 Workshop on Usage of WordNet for NLP, pages 38–44, Mon-
    treal, Canada, 1998.
[33] Donna Harman. Relevance feedback revisited. In SIGIR ’92 : Proceedings of
    the 15th annual international ACM SIGIR conference on Research and deve-
    lopment in information retrieval, pages 1–10, New York, NY, USA, 1992. ACM
    Press.
[34] Donna Harman. The first text retrieval conference (trec-1), rockville, md, usa,
    4-6 november 1992. Inf. Process. Manage., 29(4) :411–414, 1993.
[35] Philip J. Hayes. Intelligent high-volume text processing using shallow, domain-
    specific techniques. pages 227–241, 1992.
[36] Marti A. Hearst. Clustering versus faceted categories for information explora-
     tion. Commun. ACM, 49(4) :59–61, 2006.




                                       140
[37] Marti A. Hearst. Design recommendations for hierarchical faceted search in-
    terfaces. In ACM SIGIR Workshop on Faceted Search, Seattle, USA, August
    2006.
[38] Eero Hyv¨nen, Samppa Saarela, Avril Styrman, and Kim Viljanen. Ontology-
             o
     based image retrieval. In WWW (Posters), 2003.
[39] Eero Hyv¨nen, Avril Styrman, and Samppa Saarela. Ontology-based image
             o
    retrieval. In Towards the semantic web and web services, Proceedings of XML
    Finland 2002 Conference, pages 15–27, October 21–22 2002.
[40] Haward Jie and Yi Zhang. Personalized faceted query expansion. In ACM
     SIGIR Workshop on Faceted Search, Seattle, USA, August 2006.
[41] Karen Sparck Jones and C.J. Keith van Rijsbergen. Progress in documentation.
    Journal of Documentation, 32(1) :59–75, 1976.
[42] Uwe Thaden Jorg Diederich and Wolf-Tilo Balke. The semantic growbag de-
    monstrator for automatically organizing topic facets. In ACM SIGIR Workshop
    on Faceted Search, Seattle, USA, August 2006.
[43] Vipul Kashyap and Alexander Borgida. Representing the umls semantic net-
    work using owl : (or ”what’s in a semantic web link ?”). In Dieter Fensel,
    Katia P. Sycara, and John Mylopoulos, editors, International Semantic Web
    Conference, volume 2870 of Lecture Notes in Computer Science, pages 1–16.
    Springer, 2003.
[44] Leila Kefi. Mod`le g´n´ral de recherche d’information : Application ` la re-
                      e   e e                                           a
     cherche de documents techniques. Th`se de doctorat, Universit´ Joseph Fou-
                                        e                         e
     rier, Grenoble, France, 2006.
[45] Robert Krovetz. Viewing morphology as an inference process. In Proc. of 16th
    Annual International ACM/SIGIR Conference on Research & Development in
    Information Retrieval, pages 191–203, 1993.
[46] Robert Krovetz. Homonymy and polysemy in information retrieval. In ACL,
     pages 72–79, 1997.
[47] Robert Krovetz and W. Bruce Croft. Lexical ambiguity and information re-
    trieval. ACM Transactions on Information Systems, 10(2) :115–141, 1992.
[48] Catherine Berrut Leila Kefi and Eric Gaussier. un mod`le de ri bas´ sur des
                                                          e           e
     crit`res d’obligation et de certitude. In CORIA06 COnf´rence en Recherche
         e                                                 e
     Information, Lyon (France), 15–17 mars 2006.

                                      141
[49] David D Lewis. Representation and learning in information retrieval. Technical
    report, Amherst, MA, USA, 1991.
[50] Dekang Lin. An Information-Theoretic Definition of Similarity. In Proceedings
    of the 15th International Conference on Machine Learning, pages 296–304.
    Morgan Kaufmann, San Francisco, CA, 1998.
[51] Shuang Liu, Fang Liu, Clement Yu, and Weiyi Meng. An effective approach to
     document retrieval via utilizing wordnet and recognizing phrases. In SIGIR,
    2004.
[52] Eetu M¨kel¨, Eero Hyv¨nen, and Samppa Saarela. Ontogator - a semantic
           a a            o
    view-based search engine service for web applications. In International Se-
    mantic Web Conference, pages 847–860, 2006.
[53] Eetu M¨kel¨, Eero Hyv¨nen, and Teemu Sidoroff. View-based user interfaces
             a a             o
     for information retrieval on the semantic web. In ISWC-2005 Workshop End
     User Semantic Web Interaction, November.
[54] Mourad Mechkour. A multifacet formal image model for information retrieval.
     In Ian Ruthven, editor, MIRO, Workshops in Computing. BCS, 1995.
[55] Carlo Meghini, Fabrizio Sebastiani, and Umberto Straccia. A model of multi-
     media information retrieval. J. ACM, 48(5) :909–970, 2001.
[56] Carlo Meghini, Fabrizio Sebastiani, Umberto Straccia, and Costantino Thanos.
     A model of information retrieval based on a terminological logic. In SIGIR
    ’93 : Proceedings of the 16th annual international ACM SIGIR conference on
    Research and development in information retrieval, pages 298–307, New York,
    NY, USA, 1993.
[57] Carlo Meghini and Umberto Straccia. A relevance terminological logic for
    information retrieval. In Hans-Peter Frei, Donna Harman, Peter Schuble, and
    Ross Wilkinson, editors, SIGIR, pages 197–205. ACM, 1996.
[58] Rada Mihalcea and Dan Moldovan. Semantic indexing using wordnet senses. In
     Proceedings of the ACL-2000 workshop on Recent advances in natural language
    processing and information retrieval, pages 35–45, Morristown, NJ, USA, 2000.
    Association for Computational Linguistics.
[59] Rada Mihalcea and Dan I. Moldovan. An iterative approach to word sense di-
     sambiguation. In Proceedings of the Thirteenth International Florida Artificial
     Intelligence Research Society Conference, pages 219–223. AAAI Press, 2000.

                                       142
[60] George Miller. Wordnet : an on-line lexical database. International Journal of
    Lexicography, 4(3), 1990.
[61] Dan I. Moldovan, Sanda M. Harabagiu, Marius Pasca, Rada Mihalcea, Richard
    Goodrum, Roxana Girju, and Vasile Rus. Lasso : A tool for surfing the answer
    net. In TREC, 1999.
[62] Dan I. Moldovan and Rada Mihalcea. Using wordnet and lexical operators to
     improve internet searches. IEEE Internet Computing, 4(1) :34–43, 2000.
[63] Iadh Ounis. Un mod`le d’indexation relationnel pour les graphes conceptuels
                         e
     fond´ sur une interpr´tation logique. Th`se de doctorat, Universit´ Joseph
         e                e                  e                         e
    Fourier, Grenoble, France, 1998.
     ¨
[64] Ozlem Uzuner, Boris Katz, and Deniz Yuret. Word sense disambiguation for
    information retrieval. In AAAI/IAAI, page 985, 1999.
[65] Helen J. Peat and Peter Willett. The limitations of term co-occurrence data
     for query expansion in document retrieval systems. JASIS, 42(5) :378–383,
     1991.
[66] A Steven Pollitt. The key role of classification and indexing in view-based
     searching. In Proceedings of the 63rd International Federation of Library As-
    sociations and Institutions General Conference (IFLA’97), 1997.
[67] Paul Procter. Longman Dictionary of Contemporary English. Longman Group,
     1978.
[68] Yonggang Qiu and Hans-Peter Frei. Concept based query expansion. In Robert
     Korfhage, Edie M. Rasmussen, and Peter Willett, editors, SIGIR, pages 160–
     169. ACM, 1993.
[69] Sa¨ Radhouani. Un algorithme pour la construction automatique de dimen-
       ıd
    sions ` partir de resources existantes. Technical report, CUI, University of
          a
    Geneva, Switzerland, September 2007.
[70] Philip Resnik. Semantic similarity in a taxonomy : An information-based mea-
     sure and its application to problems of ambiguity in natural language. Journal
     of Artificial Intelligence Research, 11 :95–130, 1999.
[71] Ray Richardson and Alan F. Smeaton. Using WordNet in a knowledge-based
    approach to information retrieval. Technical Report CA-0395, Dublin, Ireland,
    1995.


                                       143
[72] Giovanni Maria Sacco. Research results in dynamic taxonomy and faceted
    search systems. In DEXA Workshops, pages 201–206. IEEE Computer Society,
    2007.
[73] Joo-Hwee Lim Le Thi-Hoang-Diem Sa¨ Radhouani, Lo¨ Maisonnasse, , and
                                         ıd               ıc
     Jean-Pierre Chevallet. Une indexation conceptuelle pour un filtrage par di-
    mensions, exp´rimentation sur la base m´dicale imageclefmed avec le m´ta-
                 e                         e                             e
    th´saurus umls. In CORIA06 COnf´rence en Recherche d’Information, Lyon
      e                               e
    (France), 15–17 mars 2006.
[74] G. Salton. The SMART Retrieval System ;Experiments in Automatic Document
    Processing. Prentice-Hall, Inc., Upper Saddle River, NJ, USA, 1971.
[75] Gerard Salton. Some research problems in automatic information retrieval. In
     Jennifer J. Kuehn, editor, SIGIR, pages 252–263. ACM, 1983.
[76] Gerard Salton and Michael Lesk. Computer evaluation of indexing and text
     processing. J. ACM, 15(1) :8–36, 1968.
[77] Mark Sanderson. Word sense disambiguation and information retrieval. In
    Proc. of the 17th ACM/SIGIR Conference, pages 142–150, 1994.
[78] Mark Sanderson. Word Sense Disambiguation and Information Retrieval.
     Ph.d. thesis, University of Glasgow, Glasgow G12 8QQ, UK, 1997.
[79] Mark Sanderson. Retrieving with good sense. Information Retrieval, 2(1) :45–
     65, 2000.
[80] Hinrich Sch¨ tze and Jan O. Pedersen. Information Retrieval Based on Word
                u
    Senses. In Fourth Annual Symposium on Document Analysis and Information
    Retrieval, 1995.
[81] Satanjeev Banerjee Siddharth Patwardhan and Ted Pedersen. Using measures
     of semantic relatedness for word sense disambiguation. In Proceedings of the
    Fourth International Conference on Intelligent Text Processing and Computa-
    tional Linguistics, pages 241–257, 2003.
[82] Malika Sma¨ Raisonnement ` base de cas pour une recherche ´volutive d’in-
                ıl.               a                               e
     formation. Th`se de doctorat, Universit´ de Nancy, Nancy, France, 1994.
                    e                       e
[83] Alan F. Smeaton and Ian Quigley. Experiments on using semantic distances
    between words in image caption retrieval. In Proc. of 19th International Confe-
    rence on Research and Development in Information Retrieval, Zurich, Switzer-
    land, 1996.

                                      144
[84] Alan F. Smeaton and C. J. van Rijsbergen. The retrieval effects of query
    expansion on a feedback document retrieval system. Comput. J., 26(3) :239–
    246, 1983.
[85] Lina Fatima Soualmia, Christine Golbreich, and St´fan Jacques Darmoni. Re-
                                                      e
     presenting the mesh in owl : Towards a semi-automatic migration. In Udo
    Hahn, editor, KR-MED, volume 102 of CEUR Workshop Proceedings, pages
    81–87. CEUR-WS.org, 2004.
[86] J.A. Stein. Alternative methods of indexing legal material : Development of a
     conceptual index. In Conference ”Law Via the Internet g7”, Sydney, Australia,
     1997.
[87] Emilia Stoica and Marti A. Hearst. Demonstration : Using wordnet to build
    hierarchical facet categories. In ACM SIGIR Workshop on Faceted Search,
    Seattle, USA, August 2006.
[88] Michael Sussna. Word sense disambiguation for free-text indexing using a
     massive semantic network. In Proc. of 2nd International Conference on Infor-
     mation and Knowledge Management, Arlington, Virginia, 1993.
[89] Michael John Sussna. Text retrieval using inference in semantic metanetworks.
    PhD thesis, University of California at San Diego, La Jolla, CA, USA, 1997.
[90] Daniel Tunkelang. Dynamic category sets : An approach for faceted search. In
    ACM SIGIR Workshop on Faceted Search, Seattle, USA, August 2006.
[91] Howard R. Turtle and W. Bruce Croft. Inference networks for document re-
    trieval. In Jean-Luc Vidick, editor, SIGIR, pages 1–24. ACM, 1990.
[92] David Vallet, Miriam Fern´ndez, and Pablo Castells. An ontology-based in-
                              a
    formation retrieval model. In Asunci´n G´mez-P´rez and J´rˆme Euzenat,
                                        o   o     e         eo
    editors, ESWC, volume 3532 of Lecture Notes in Computer Science, pages
    455–470. Springer, 2005.
[93] C.J. Keith van Rijsbergen. A new theoretical framework for information re-
    trieval. In ACM Conference on Research and development in Information
    Retrieval, Pisa, pages 194–200, 1986.
[94] Ellen Marie Voorhees. On expanding query vectors with lexically related words.
     In TREC, pages 223–232, 1993.




                                       145
[95] Ellen Marie Voorhees. Using wordnet to disambiguate word senses for text
     retrieval. In Robert Korfhage, Edie M. Rasmussen, and Peter Willett, editors,
     SIGIR, pages 171–180. ACM, 1993.
 [96] Ellen Marie Voorhees. Query expansion using lexical-semantic relations. In
      SIGIR ’94 : Proceedings of the 17th annual international ACM SIGIR confe-
     rence on Research and development in information retrieval, pages 61–69, New
     York, NY, USA, 1994. Springer-Verlag New York, Inc.
 [97] Ellen Marie Voorhees. Using WordNet for Text Retrieval. In C. Fellbaum,
      editor, WordNet : an electronic lexical database. MIT Press, 1998.
 [98] Ellen Marie Voorhees. Natural language processing and information retrie-
      val. In Maria Teresa Pazienza, editor, SCIE, volume 1714 of Lecture Notes in
     Computer Science, pages 32–48. Springer, 1999.
 [99] Peter Wallis. Information retrieval based on paraphrase. In the 1st Pacific
     Association for Computational Linguistics Conference, 1993.
[100] Stephen F. Weiss. Learning to disambiguate. Information Storage and Retrie-
     val, 9(1) :33–41, 1973.
[101] Rishabh Dayal Wisam Dakka and Panagiotis G. Ipeirotis. Automatic discovery
      of useful facet terms. In ACM SIGIR Workshop on Faceted Search, Seattle,
      USA, August 2006.
[102] Jinxi Xu and W. Bruce Croft. Query expansion using local and global docu-
      ment analysis. In Hans-Peter Frei, Donna Harman, Peter Sch¨uble, and Ross
                                                                a
     Wilkinson, editors, SIGIR, pages 4–11. ACM, 1996.
[103] Jinxi Xu and W. Bruce Croft. Improving the effectiveness of information
      retrieval with local context analysis. ACM Trans. Inf. Syst., 18(1) :79–112,
      2000.
[104] David Yarowsky. One sense per collocation. In Proceedings ARPA Human
      Language Technology Workshop, pages 266–271, 1993.
[105] Ka-Ping Yee, Kirsten Swearingen, Kevin Li, and Marti Hearst. Faceted meta-
     data for image search and browsing. In CHI ’03 : Proceedings of the conference
     on Human factors in computing systems, pages 401–408. ACM Press, 2003.
[106] Uri Zernik. Train1 vs. train2 : Tagging word senses in corpus. In Lexical
      Acquisition : Exploiting On-Line Resources to Build a Lexicon, pages 91–112.
      Lawrence Erlbaum, Hillsdale, NJ, 1991.


                                       146

PhD Dissertation - Manuscrit de thèse de doctorat

  • 1.
    ´ ` UNIVERSITE DE GENEVE ´ UNIVERSITE JOSEPH FOURIER Un mod`le de recherche d’information e orient´ pr´cision fond´ sur les dimensions e e e de domaine ` THESE en co-tutelle pr´sent´e par e e Sa¨ RADHOUANI ıd pour l’obtention des titres Docteur `s sciences ´conomiques et sociales (Universit´ de Gen`ve) e e e e Mention : Syst`mes d’Information e Docteur en informatique (Universit´ Joseph Fourier) e Composition du jury : Monsieur Mohand BOUGHANEM, Universit´ de Toulouse e Madame Sylvie CALABRETTO, INSA Lyon Messieurs Jean-Pierre CHEVALLET, IPAL Singapour, co-directeur de th`se e Yves CHIARAMELLA, Universit´ de Grenoble, co-directeur de th`se e e Gilles FALQUET, Universit´ de Gen`ve, co-directeur de th`se e e e Dimitri KONSTANTAS, Universit´ de Gen`ve, pr´sident du jury e e e Th`se No 671 e Gen`ve, 2008 e
  • 2.
    La Facult´ dessciences ´conomiques et sociales, sur pr´avis du jury, a autoris´ e e e e l’impression de la pr´sente th`se, sans entendre, par l`, ´mettre aucune opinion sur e e a e les propositions qui s’y trouvent ´nonc´es et qui n’engagent que la responsabilit´ de e e e leur auteur. Gen`ve, le 18 juillet 2008 e Le doyen Bernard MORARD Impression d’apr`s le manuscrit de l’auteur. e c Sa¨ Radhouani 2008. Tous droits r´serv´s. ıd e e i
  • 3.
    Remerciements C’est un grand plaisir pour moi de remercier toutes les personnes qui ont permis ` ce travail d’ˆtre ce qu’il est. a e Je remercie tout d’abord M. Dimitri Konstantas qui m’a fait l’honneur de pr´sider e le jury de cette th`se. e Je tiens ensuite ` remercier Mme Sylvie Calabretto ainsi que M. Mohand Bou- a ghanem pour avoir accept´ de rapporter mon travail de th`se, ainsi que pour l’int´rˆt e e ee qu’ils ont manifest´ ` son ´gard. ea e Je tiens ` adresser mes plus vifs remerciements ` M. Yves Chiaramella de m’avoir a a encadr´ pendant mon travail de th`se. Il a su me transmettre sa passion pour le do- e e maine de la Recherche d’Information et je lui en suis profond´ment reconnaissant. e Je voudrais ´galement remercier M. Jean-Pierre Chevallet d’avoir accept´ de co- e e diriger mon travail de th`se malgr´ les milliers de kilom`tres qui nous s´paraient. Sa e e e e patience et ses nombreuses remarques tr`s pertinentes m’ont ´t´ des plus pr´cieuses e ee e durant ce travail. Durant ma th`se, j’ai eu la toute grande chance de connaˆ et de travailler avec e ıtre M. Gilles Falquet, un directeur de th`se exceptionnel tant pour ses comp´tences e e scientifiques que pour ses qualit´s humaines. Sans sa patience, sa disponibilit´ et son e e appui de tous les instants, cette th`se n’aurait probablement jamais vu le jour. Je e lui en suis donc tr`s profond´ment reconnaissant. e e Je remercie les membres du laboratoire IPAL-I2R, en particulier Dr. Joo-Hwee Lim, pour leurs conseils et leurs soutiens tout au long de mon stage ` Singapour. a Je remercie aussi les membres de l’´quipe MRIM pour leurs remarques et leurs e questions pertinentes lors des r´unions de travail. e Un grand merci ` tous les membres du groupe ISI pour les moments agr´ables a e ii
  • 4.
    que l’on atoujours partag´s : les moments sympathiques pass´s ` “La Petite Italie”, e e a les pauses th´, les branches Cailler, les ´coles de printemps, et tellement d’autres e e choses dont je ne peux faire la liste. Merci tout particuli`rement ` Claire-Lise pour e a sa disponibilit´, son ´coute, et son soutien permanent. Merci ` Jean-Pierre pour les e e a corrections multiples de mon manuscrit, et les discussions sur l’histoire et la physique (dont les fameux trous noirs). Un grand merci ` Jacques pour ses conseils et sa colla- a boration qui m’ont ´t´ d’une grande utilit´ pendant mon travail et me seront d’une ee e grande utilit´ dans toute ma vie. Merci ` Mathieu pour les longues discussions que e a l’on a eues sur la logique descriptive. Merci aussi ` Claudine, Gabriela, Jean-Claude, a Kaveh, Luka, Mustapha et Patrick pour toutes sortes de raisons qu’il serait trop long d’´num´rer ici. e e Je remercie ´galement Evelyne Kohl, Marie-France Culebras et C´line Marleix- e e Bardeau pour leur soutien administratif, ainsi que Daniel Agulleiro et Nicolas Mayen- court, Ing´nieurs syst`me du CUI, pour leur disponibilit´ permanente. e e e Je tiens ` adresser mes plus sinc`res remerciements ` toute la famille Falquet en a e a t´moignage de ma profonde reconnaissance pour son hospitalit´, son encouragement e e et son soutien permanent tout au long de mon s´jour ` Gen`ve. e a e Je remercie mon oncle Mustapha Kouki en reconnaissance de son interminable encouragement et de ses pr´cieux conseils. e Je remercie ´galement mon instituteur M. Othman Bouzidi, a qui je dois tout ce e ` que je suis. Je tiens ` remercier mon cousin Badra pour son soutien pendant mon s´jour en a e France. Mes sinc`res remerciements ` Jonas pour sa compr´hension, son soutien, et sa e a e patience en partageant mes p´riodes difficiles. e Je tiens ` remercier toute ma famille pour son encouragement constant ; avec une a mention sp´ciale ` mes parents en t´moignage de ma profonde reconnaissance pour e a e leur patience et tous les sacrifices qu’ils ont consentis ` mon ´gard. Un grand merci a e iii
  • 5.
    ` Radhouane, Haykel,Marouane et l’adorable Amira pour leur soutien, encourage- a ment, et tellement de merveilleuses choses. J’adresse mes sinc`res remerciements ` Takoua qui a su me r´conforter et soute- e a e nir pendant la derni`re ligne droite de ma th`se. e e Je remercie enfin tous mes amis (Isaac, Michael, Ramzi, Rim, . . .) et tous ceux que j’aime et qui m’aiment. iv
  • 6.
    R´sum´ e e Nous nous int´ressons ` un contexte de Recherche d’Information (RI) dans des mi- e a lieux professionnels, o` les besoins d’information sont formul´s ` travers des requˆtes u e a e pr´cises. Notre travail consiste ` d´finir un mod`le de RI capable de r´soudre ce type e a e e e de requˆtes. e Notre approche est fond´e sur les dimensions de domaine. Celles-ci sont d´finies ` e e a travers des ressources externes, et utilis´es pour produire une repr´sentation pr´cise e e e du contenu s´mantique des documents et des requˆtes. e e Nous d´finissons notre mod`le en utilisant la logique de descripton (LD). Nous e e profitons de l’algorithme de calcul de subsomption offert par la LD afin de d´finir e la fonction de correspondance mettant en œuvre la pertinence syst`me. A travers e cet algorithme, la LD offre une capacit´ de raisonnement qui permet de d´duire e e des connaissances implicites ` partir de celles repr´sent´es explicitement dans la a e e ressource externe, et permet ainsi de retrouver des documents pertinents pour une requˆte mˆme s’ils ne partagent pas les mˆmes concepts que cette derni`re. e e e e Afin de tester la faisabilit´ de notre approche, une s´rie d’exp´riences a ´t´ ef- e e e ee fectu´e sur la collection ImageCLEFmed-2005. Ces exp´riences nous ont permis de e e savoir jusqu’` quel point notre mod`le peut ˆtre appliqu´, et quelles sont les limites a e e e formelles et techniques qui lui sont li´es. e Afin d’´valuer l’apport de l’usage des dimensions en termes de performance e de recherche, nous avons men´ une deuxi`me s´rie d’exp´riences sur la collection e e e e ImageCLEFmed-2005. Les r´sultats obtenus nous ont permis de conclure que la e prise en compte des dimensions est un moyen efficace pour la r´solution des requˆtes e e pr´cises. e Mots cl´s : Recherche d’Information, requˆtes pr´cises, recherche multi-dimensions e e e (multi-facettes), dimensions de domaine, ressources externes, indexation s´mantique, e Logique de description. v
  • 7.
    Abstract We are interested in a context of Information Retrieval (IR) in professional envi- ronments, where information needs are expressed through precise queries. Our goal is to define an IR model capable to solve such queries. Our approach is based on domain dimensions. These are defined through external resources, and used to produce a precise representation of the semantic content of documents and queries. We define our model using the description logic (DL). We take advantage of the algorithm for computing subsomption offered by the LD, in order to define the mat- ching function implementing the system’s relevance. Through this algorithm, the DL has a capacity of reasoning which can deduce implicit knowledge from those expli- citly represented in the external resource, and thus find relevant documents for a query even if they do not share the same concepts with this query. In order to test the feasibility of our approach, a series of experiments was carried out on the ImageCLEFmed-2005 collection. These experiences have enabled us to know the extent to which our model can be applied, and what are the formal and technical limits associated with it. In order to evaluate the contribution of the use of dimensions in terms of retrieval performance, we conducted a second series of experiments on the ImageCLEFmed- 2005 collection. The obtained results have shown that taking into account dimensions is an effective way to solve precise queries. Keywords : Information Retrieval, precise queries, multi-dimensional (faceted) search, domain dimensions, external resources, semantic indexing, Description Logic. vi
  • 8.
    Table des mati`res e 1 Introduction g´n´rale e e 1 1.1 Pr´ambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 1 1.2 Mod`les de RI bas´s sur les mots-cl´s . . . . . . . . . . . . . . . . . . e e e 2 1.3 Mod`les de RI bas´s sur les concepts . . . . . . . . . . . . . . . . . . e e 4 1.4 Vers un mod`le de RI bas´ sur les dimensions de domaine . . . . . . . e e 7 1.5 Probl´matique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 10 1.6 Plan de la th`se . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 14 2 Ressources externes et dimensions de domaine 15 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2 Ressources externes & RI . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2.1 Cr´dibilit´ des approches bas´es sur les ressources externes . . e e e 17 2.2.2 Exemple de ressource externe utilis´e en RI : WordNet . . . . e 18 2.3 Usage des ressources externes pour la repr´sentation des documents . e 19 2.3.1 La d´sambigu¨ e ısation . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.2 Indexation conceptuelle/s´mantique . . . . . . . . . . . . . . . e 23 2.3.3 Evaluation de la d´sambigu¨ e ısation . . . . . . . . . . . . . . . . 33 2.4 Usage des ressources externes pour l’expansion des requˆtes . . . . . . e 39 2.4.1 Expansion de requˆtes bas´e sur les relations lexico-s´mantiques e e e de WordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.4.2 Utilisation de WordNet pour une expansion “guid´e” de requˆtes 43 e e 2.4.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.5 Dimensions & RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.5.1 Le paradigme de la recherche bas´e sur les facettes . . . . . . e 46 2.5.2 Outils bas´s sur le paradigme de recherche multi-facettes . . . e 48 2.5.3 Fabrication des dimensions/facettes . . . . . . . . . . . . . . . 50 vii
  • 9.
    2.5.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3 Un Mod`le de RI fond´ sur les dimensions de domaine e e 57 3.1 Pr´ambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 e 3.2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.3 Sp´cificit´s du mod`le . . . . . . . . . . . . . . . . . . . . . . . . . . e e e 61 3.3.1 Exemples typiques de besoins d’information pr´cis . . . . . . . e 62 3.3.2 Vers un mod`le de RI orient´ pr´cision . . . . . . . . . . . . . e e e 67 3.4 La logique descriptive . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.4.1 Syntaxe et s´mantique du langage ALCQ . . . . . . . . . . . . e 70 3.4.2 Logique Descriptive et Recherche d’Information . . . . . . . . 72 3.5 Mod`le de RI : notation et d´finitions . . . . . . . . . . . . . . . . . . e e 73 3.5.1 Ressource externe . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.5.2 Indexation des documents . . . . . . . . . . . . . . . . . . . . 76 3.5.3 Formulation de la requˆte . . . . . . . . . . . . . . . . . . . . e 77 3.5.4 Correspondance entre la requˆte et le document . . . . . . . . e 77 3.6 Mod`le de RI orient´ pr´cision . . . . . . . . . . . . . . . . . . . . . . e e e 78 3.6.1 Mod`le de document . . . . . . . . . . . . . . . . . . . . . . . e 79 3.6.2 Mod`le de requˆte . . . . . . . . . . . . . . . . . . . . . . . . e e 83 3.6.3 ´ Evaluation des requˆtes . . . . . . . . . . . . . . . . . . . . . e 95 3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 4 Mise en œuvre du mod`le e 99 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 ´ 4.2 Etapes n´cessaires pour la mise en œuvre du mod`le . . . . . . . . . . 100 e e 4.2.1 E1 : Identification des ´l´ments de dimension . . . . . . . . . . 100 ee 4.2.2 E2 : Indexation pour la correspondance . . . . . . . . . . . . . 101 4.2.3 E3 : S´lection des documents . . . . . . . . . . . . . . . . . . 101 e 4.2.4 E4 : Indexation pour l’ordonnancement . . . . . . . . . . . . . 102 4.2.5 E5 : Ordonnancement des documents . . . . . . . . . . . . . . 102 4.3 R´alisation des ´tapes n´cessaires pour la mise en œuvre du mod`le . 102 e e e e 4.3.1 R´alisation des ´tapes E2 & E3 . . . . . . . . . . . . . . . . . 103 e e 4.3.2 R´alisation des ´tapes E4 & E5 . . . . . . . . . . . . . . . . . 109 e e 4.4 Exp´rimentations sur la collection CLEF-2005 . . . . . . . . . . . . . 110 e viii
  • 10.
    4.4.1 Contexte des exp´rimentations . . . . . . . . . . . . . . . . . . 110 e 4.4.2 Mise en œuvre du mod`le ` base de la logique descriptive sur e a la collection ImageCLEFmed-2005 . . . . . . . . . . . . . . . . 114 4.4.3 D´finition des ´l´ments de dimensions par des mots . . . . . . 120 e ee 4.4.4 D´finition des ´l´ments de dimensions par des concepts . . . . 124 e ee 4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 5 Conclusion 133 5.1 Apport th´orique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 e 5.2 Apport pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 5.3 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 ix
  • 11.
    Table des figures 1.1 Objectif et processus de la Recherche d’Information . . . . . . . . . . 3 1.2 Sch´ma global de notre approche . . . . . . . . . . . . . . . . . . . . e 12 1.3 Dimensions de domaine stock´es dans une ressource externe . . . . . e 13 2.1 D´notation d’un concept par un ensemble de termes synonymes dans e diff´rentes langues. . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 17 2.2 Enonc´ de la requˆte 122 de la collection TREC-1 . . . . . . . . . . . e e 41 2.3 Interface d’acc`s multi-vues [38][39] . . . . . . . . . . . . . . . . . . . e 48 2.4 Interface multi-facettes du syst`me Flamenco . . . . . . . . . . . . . . e 50 3.1 Correspondance entre une requˆte et un document repr´sent´s en lo- e e e gique descriptive. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.2 Repr´sentation graphique du mod`le de document . . . . . . . . . . . e e 82 3.3 Calcul de la correspondance entre un document doc et une requˆte q e au niveau de l’indexation pour la correspondance . . . . . . . . . . . 96 3.4 Calcul du RSV entre une requˆte et un document au niveau de l’in- e dexation pour l’ordonnancement . . . . . . . . . . . . . . . . . . . . . 97 4.1 Repr´sentation graphique des ´tapes n´cessaires pour la mise en œuvre e e e du mod`le . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 e 4.2 Exemple pour la mise en œuvre du mod`le . . . . . . . . . . . . . . . 103 e 4.3 Repr´sentation graphique du mod`le de document . . . . . . . . . . . 105 e e 4.4 Repr´sentation graphique de la T-Box . . . . . . . . . . . . . . . . . 107 e 4.5 Calcul de la correspondance entre un document doc et une requˆte q . 108 e 4.6 La hi´rarchie de subsomption fabriqu´e par le raisonneur Pellet . . . 109 e e 4.7 Calcul du RSV entre une requˆte et un document au niveau de l’in- e dexation pour l’ordonnancement . . . . . . . . . . . . . . . . . . . . . 110 4.8 Exemple de requˆte de la collection ImageCLEFmed-2005 . . . . . . . 111 e x
  • 12.
    4.9 Premier niveaude la structure hi´rarchique de MeSH . . . . . . . . . 113 e 4.10 R´sultats exp´rimentaux de la prise en compte des ´l´ments de di- e e ee mensions d´finis par des mots . . . . . . . . . . . . . . . . . . . . . . 124 e 4.11 Variations des performances de notre syst`me appliqu´ sur trois index e e diff´rents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 e xi
  • 13.
    Liste des tableaux 2.1 Pourcentage des documents corrects retrouv´s en premi`re position [32] 37 e e 3.1 Syntaxe et s´mantique du langage ALCQ. . . . . . . . . . . . . . . . e 71 4.1 Comparaison des r´sultats de notre approche avec le baseline. . . . . 122 e 4.2 Comparaison des r´sultats de notre approche avec le baseline. . . . . 127 e 4.3 Variations des performances de notre syst`me appliqu´ sur trois index e e diff´rents. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 e xii
  • 14.
    Chapitre 1 Introduction g´n´rale e e 1.1 Pr´ambule e Depuis l’apparition de l’informatique, les connaissances stock´es sur support e num´rique n’ont cess´ de s’accumuler, et le nombre des documents qui les stockent e e s’accroˆ tr`s rapidement. Nous arrivons ainsi ` une situation parfaitement contradic- ıt e a toire : jamais il n’y a eu autant d’informations disponibles, mais trouver dans cette accumulation, pr´cis´ment ce que l’on recherche, devient de plus en plus ardu. e e Devant le nombre important de documents disponibles, la recherche s´quentielle1 e est bien sˆ r tr`s limit´e et l’acc`s ` l’information bas´ sur une requˆte semble plus u e e e a e e efficace. Ainsi, la Recherche d’Informations (RI) devient davantage cruciale et les Syst`mes de Recherche d’Information (SRI) deviennent une aide inestimable pour e rechercher une information. La RI est un processus qui, ` partir d’une requˆte (expression des besoins en a e information d’un utilisateur), permet de retrouver l’ensemble des documents conte- nant l’information recherch´e. La mise en œuvre de ce processus passe par une e sp´cification d’un mod`le de RI int´grant : i ) une repr´sentation des documents ; e e e e ii ) une repr´sentation de la requˆte ; et iii ) un appariement entre le document et la e e requˆte. Plusieurs mod`les ont ´t´ propos´s dans la litt´rature dont l’objectif com- e e ee e e mun est de satisfaire au mieux les besoins de l’utilisateur. Chacun de ces mod`les se e diff´rencie par sa mani`re de repr´senter les documents et la requˆte, et de les mettre e e e e en correspondance. Ceci d´pend g´n´ralement du contexte de la recherche : la na- e e e 1 En explorant manuellement une collection de documents. 1
  • 15.
    ture du besoinde l’utilisateur, sa mani`re d’exprimer son besoin, ses exigences, les e connaissances qu’il a sur le domaine2 et les documents, etc. Dans la section suivante, nous d´taillons les principes de base de ces mod`les et pr´sentons leurs limites. e e e 1.2 Mod`les de RI bas´s sur les mots-cl´s e e e L’objectif de la RI est de s´lectionner les documents qui traitent le mieux pos- e sible du th`me de la requˆte (cf. Figure 1.1). A notre connaissance, il n’y pas de e e consensus sur la notion de th`me en RI. Dans notre th`se, nous adoptons la d´finition e e e suivante : un th`me est une id´e, un sujet d´velopp´ dans un discours, un ´crit, un e e e e e 3 ouvrage . Pour atteindre l’objectif pr´cit´, les approches existantes4 en RI textuelle s’ap- e e puyent sur des m´thodes purement statistiques bas´es sur les distributions de mots- e e cl´s, pour calculer la similarit´ entre la requˆte et les documents du corpus. La e e e pertinence d’un document par rapport ` une requˆte est calcul´e en fonction de a e e la similarit´ du vocabulaire et non pas en fonction de la similarit´ th´matique qui e e e existe entre le document et la requˆte. En effet, pour qu’un document soit s´lectionn´ e e e par le syst`me, il doit partager les mˆmes mots (du moins une partie d’entre eux) e e avec la requˆte. Dans le cas du mod`le bool´en, pour ˆtre s´lectionn´, le document e e e e e e doit contenir tous les mots (conjonction) ou une partie des mots (disjonction) de la requˆte. Dans le mod`le vectoriel, plus un document partage des mots avec la requˆte e e e et dans la mˆme proportion de poids, plus il est pertinent pour cette requˆte. En e e r´alit´, un document peut ˆtre pertinent mˆme s’il ne partage pas les mˆmes mots e e e e e avec la requˆte. Par exemple, un document contenant le mot “voiture” peut consti- e tuer une r´ponse pertinente ` une requˆte contenant le mot “automobile”, mˆme si e a e e le mot “automobile” n’existe pas dans le document. Salton a soulign´ ce probl`me e e o` les auteurs de documents et les utilisateurs des SRI utilisent une grande vari´t´ u ee de mots pour d´noter le mˆme concept [75]. Ce probl`me, qualifi´ de term mismatch e e e e ou word mismatch [25][103], est dˆ au fait que l’analyse purement statistique, sur u laquelle est bas´e la fonction de correspondance, permet seulement l’extraction des e 2 Selon le dictionnaire de l’Acad´mie fran¸aise, un domaine est tout ce qu’embrasse un art, une e c science, une facult´ de l’esprit, etc. (exemples : le domaine de la peinture, de la sculpture, de la e politique, etc.). 3 D´finition donn´e par le Centre National de Ressources Textuelles et Lexicales. e e 4 Bas´es sur les mod`les classiques de RI. e e 2
  • 16.
    descripteurs mais pasleur signification. Fig. 1.1 – Objectif et processus de la Recherche d’Information Ainsi, nous observons un foss´ entre l’objectif de la RI et la m´thode qui la r´alise : e e e les techniques de RI existantes traitent essentiellement le signifiant, mais tr`s peu e le signifi´. En effet, l’objectif de la RI est de retrouver des documents qui traitent e du th`me de la requˆte, c’est-`-dire, dont le contenu s´mantique est similaire ` e e a e a celui de la requˆte. Mais en pratique, la mise en œuvre des SRI est faite de fa¸on ` e c a ce que ces syst`mes recherchent les documents partageant les mˆmes mots avec la e e requˆte. Dans ce cas, soit les mod`les de RI sous-jacents ignorent le sens des mots e e (signifi´), soit ils supposent implicitement qu’il y a une correspondance stricte entre e les mots (signifiants) et les sens (signifi´s). Cette derni`re supposition est erron´e car e e e un signifi´ peut ˆtre exprim´ par diff´rents signifiants, et un signifiant peut expri- e e e e mer plusieurs signifi´s diff´rents (selon le contexte). Par exemple, pour une requˆte e e e contenant le mot “Java” (langage de programmation), le syst`me peut compl`tement e e ignorer le sens du mot Java et retourner des documents qui parlent de l’ˆ de Java ıle situ´e en Indon´sie. e e Il est clair que les SRI bas´s sur les mod`les de RI classiques ont fait beaucoup de e e progr`s pour repr´senter et comparer la requˆte et les documents. Nous avons quand e e e 3
  • 17.
    mˆme constat´, dansles campagnes d’´valuation (TREC5 , NTCIR6 , CLEF7 , etc.), e e e que la plupart des syst`mes semblent avoir atteint leurs limites de performances, bien e que la marge d’am´lioration semble encore grande (selon les mesures utilis´es pour e e l’´valuation). Ceci est une indication que les optimisations de nature essentiellement e statistiques des mod`les existants ont atteint leurs limites. e Il nous apparaˆ qu’une am´lioration suppl´mentaire des performances des SRI ıt e e 8 requiert l’utilisation de connaissances externes ` celles du corpus, notamment grˆce a a ` la disponibilit´ croissante des ressources qui les stockent (dictionnaire, th´saurus, a e e ontologie, etc.). Un certain nombre de ces ressources ont rencontr´ beaucoup de e succ`s dans le domaine de RI, que ce soit dans des domaines sp´cialis´s (ex. MeSH e e e et UMLS pour le domaine m´dical), ou dans un domaine g´n´raliste (ex. WordNet). e e e Grˆce ` l’apparition de nouvelles ressources dans des domaines de plus en plus divers a a (g´ographie, g´nomique, droit, etc.), cette tendance ne cesse de s’amplifier. e e 1.3 Mod`les de RI bas´s sur les concepts e e Parmi les travaux de recherche qui ont essay´ de surmonter les limites pr´sent´es e e e dans la section pr´c´dente, il existe une approche de RI dite “bas´e-concepts” (Conce- e e e pt-Based Information Retrieval ). Selon les communaut´s (Intelligence Artificielle, Philosophie, Linguistique, Scien- e ce de la cognition, etc.), il existe diff´rentes d´finitions de la notion de concept [31]. e e De fa¸on g´n´rale, un concept est un objet mental (son milieu, c’est l’esprit hu- c e e main) qui peut ˆtre d´fini comme une abstraction g´n´ralis´e ` partir de propri´t´s e e e e e a ee communes ` des objets concrets (leur milieu, c’est la r´alit´ telle qu’on la ren- a e e contre). En d’autres termes, une conceptualisation est une abstraction qui consiste ` analyser la r´alit´ pour en tirer les propri´t´s pertinentes qui permettent de passer a e e ee du particulier au g´n´ral. Un concept poss`de une extension et une compr´hension. e e e e L’extension est l’ensemble des objets qui poss`dent les propri´t´s correspondant au e ee concept. En d’autres termes, c’est la quantit´ de r´alit´ ` laquelle le concept se rap- e e ea 5 http ://trec.nist.gov/ 6 http ://research.nii.ac.jp/ntcir/ 7 http ://www.clef-campaign.org/ 8 “externes” car non pr´sentes dans les documents ` traiter, du moins sous une forme explicite e a et compl`te. e 4
  • 18.
    porte. Par exemple,le concept “Personne” a une plus grande extension que le concept “Femme”. La compr´hension quant ` elle est l’ensemble des propri´t´s qui donnent e a ee son contenu ` un concept (l’ensemble des propri´t´s qui caract´risent les objets du a ee e concept). Elle varie en fonction inverse de l’extension. Par exemple, le concept “Fem- me” a une compr´hension plus grande que le concept “Personne” (on peut ´num´rer e e e plus de propri´t´s ` son sujet). ee a Un concept est construit par l’ˆtre humain d’une mani`re non-ambigu¨, ind´pen- e e e e damment des langues, des supports et des formalismes de repr´sentation [18]. Mˆme e e s’il est exprim´ ` travers une forme mat´rielle (des mots), le concept n’est pas e a e mat´riel. e En consid´rant cette d´finition, il est tr`s difficile pour une machine d’extraire e e e des concepts ` partir d’une source num´rique. Cependant, il est possible d’associer a e un concept ` des ´l´ments d´crits dans des documents num´riques (textes, images, a ee e e etc.). C’est pour cette raison pratique qu’en RI la notion de concept est souvent li´e au sens des mots : un concept correspond ` une signification particuli`re d’un e a e mot (ou s´quence de mots). De son cˆt´, un terme est une paire (mot ou s´quence e oe e de mots, concept). C’est-`-dire, un terme est constitu´ d’un mot (ou s´quence de a e e mots) qui sert pour d´noter un concept dans un domaine particulier. Le mot, quant e ` lui, est l’unit´ du discours oral ou ´crit. Dans des langues comme le fran¸ais ou a e e c l’anglais ´crits, le mot est repr´sent´ par une s´quence de lettres entre deux blancs. e e e e Pour all´ger l’´criture, nous utilisons “terme” ´galement pour d´signer le mot ou la e e e e s´quence de mots correspondant ` un terme. e a Une approche de RI bas´e-concepts se caract´rise par la notion d’espace concep- e e tuel dans lequel les documents et les requˆtes sont repr´sent´s par opposition ` l’es- e e e a pace de mots simples utilis´s dans les mod`les classiques [3]. Les travaux pr´sent´s e e e e dans le cadre de notre th`se se situent dans cette classe d’approches. e Nous nous int´ressons ici ` l’am´lioration de la pr´cision en RI. A cette fin, nous e a e e ´tudions l’utilisation des connaissances externes pour identifier les th`mes au niveau e e des documents et la requˆte. Plus pr´cis´ment, il s’agit de concevoir des mod`les de e e e e repr´sentation du contenu s´mantique des documents et des requˆtes. e e e 5
  • 19.
    L’utilisation des connaissancesexternes a fait l’objet de plusieurs travaux souvent orient´s vers l’am´lioration de la pr´cision (d´sambigu¨ e e e e ısation de termes, indexation conceptuelle), et/ou vers l’am´lioration du rappel (expansion de requˆtes). Dans ce e e contexte, elles servent ` expliciter le sens des termes dans le corpus en identifiant des a concepts et ´ventuellement des relations entre ces concepts. Ceci permet au syst`me e e de prendre en compte la s´mantique sous-jacente aux termes ; d’abord, au moment e de l’indexation, la ressource externe est utilis´e pour extraire des termes faisant e r´f´rence aux entit´s conceptuelles trait´es dans les documents ; ensuite, au moment ee e e de l’interrogation (reformulation de requˆte et correspondance), elle sert ` identifier e a les concepts des documents d´not´s par les descripteurs de la requˆte. Enfin, son e e e utilisation permet d’avoir des informations suppl´mentaires sur la s´mantique as- e e soci´e aux termes issus du contenu (document et requˆte), et d’aider ainsi le SRI ` e e a interpr´ter le contenu s´mantique et ` am´liorer les performances de recherche. e e a e Cette classe d’approches pr´sente plusieurs avantages. L’utilisateur peut faire e usage des connaissances pr´sentes dans la ressource externe ` partir de laquelle le e a corpus a ´t´ index´. Cela peut l’aider ` augmenter sa connaissance par rapport ee e a ` l’information qui lui est disponible dans le corpus. L’utilisateur peut ´galement a e utiliser le vocabulaire contrˆl´, pr´sent dans la ressource externe et utilis´ pour la oe e e repr´sentation des documents, pour mieux exprimer son besoin. Dans ce cas, la e description du besoin d’information a les mˆmes caract´ristiques que celles des do- e e cuments. Nous pouvons dire que le principal avantage des approches bas´es-concepts est e que l’utilisateur et le syst`me arrivent ` “parler” le mˆme langage (celui qui cor- e a e respond au vocabulaire de la ressource externe utilis´e). Cependant, ces approches e consid`rent les documents et requˆtes comme des sacs de concepts. Ainsi, les relations e e s´mantiques qui peuvent exister entre les concepts ne sont pas toujours exploit´es. e e Ceci peut provoquer des probl`mes comme mentionn´s dans la section pr´c´dente : e e e e un document est consid´r´ pertinent seulement s’il partage les mˆmes concepts de la ee e requˆte (requˆte initiale ou ´tendue). Par exemple, pour la requˆte donne-moi les do- e e e e cuments qui parlent du politicien am´ricain qui a eu le prix Nobel de la paix en 2007, e un document pertinent doit contenir le nom Al Gore. Ce document ne peut cepen- dant pas ˆtre retrouv´ par un syst`me qui n’exploite pas les relations s´mantiques. e e e e Pour pouvoir r´soudre cette requˆte, un SRI a besoin de connaissances externes pour e e 6
  • 20.
    inf´rer que AlGore est un politicien originaire des Etats Unis, etc. e Nous pensons que le principal probl`me de ces mod`les de RI est qu’ils consid`rent e e e peu la structure s´mantique des documents (requˆtes) lors de l’interpr´tation de e e e leurs contenus [4][58][68][92][96]. Nous sommes convaincus, qu’en plus de d´crire les e connaissances du(des) domaine(s) pr´sent(s) dans le corpus, les ressources externes e peuvent apporter des information utiles pour l’interpr´tation des th`mes d´velopp´s e e e e dans les documents de ce corpus. Nos travaux vont actuellement dans ce sens. 1.4 Vers un mod`le de RI bas´ sur les dimensions e e de domaine Dans notre travail de th`se, nous nous int´ressons ` un processus de RI dont le e e a contexte est pr´cis´ par le domaine d’int´rˆt de l’utilisateur. e e e e Nous avons vu pr´c´demment qu’un document qui partage les mˆmes descrip- e e e teurs (que ce soient des mots ou des concepts) avec la requˆte n’est pas forc´ment e e pertinent pour cette requˆte. Ainsi, la question que nous nous sommes pos´e est : e e “Y a-t-il des ´l´ments, autres que les descripteurs, qu’un document doit ee partager9 avec la requˆte pour qu’il soit consid´r´ pertinent ?” e e e Dans un processus de RI, l’utilisateur souffre d’un manque d’information, mais a une id´e des lacunes de ses connaissances et donc de son besoin en information. Une e premi`re difficult´ majeure ` laquelle doit faire face un SRI est que le besoin d’infor- e e a mation est une chose particuli`re ` l’utilisateur. Comme il est rarement int´gr´ dans e a e e le processus de RI, son besoin d’information est souvent mal interpr´t´. Pour pouvoir ee satisfaire l’utilisateur, le SRI doit d’abord “comprendre” son besoin d’information. Une premi`re question se pose alors : Q1 “comment aider le SRI ` interpr´ter ce que e a e l’utilisateur essaye de d´crire”. Autrement dit, en plus des descripteurs de la requˆte, e e y a-t-il d’autres ´l´ments qui peuvent aider le SRI ` avoir plus d’informations sur le ee a 9 Ce n’est pas seulement une intersection au sens simpliste du terme : ca pourrait ˆtre une ¸ e implication logique, ou une probabilit´, etc. e 7
  • 21.
    besoin de l’utilisateur? Une deuxi`me difficult´ ` laquelle doit faire face un SRI est que l’utilisateur juge e ea les documents qui lui sont retourn´s par rapport ` l’interpr´tation de son besoin et e a e non pas par rapport ` l’ensemble des documents du corpus susceptibles de l’int´resser a e [91]. Une deuxi`me question se pose alors : Q2 “comment int´grer l’utilisateur lors e e du processus d’indexation et du calcul de pertinence des documents ?” Pour r´pondre aux questions Q1 et Q2, nous avons choisi d’utiliser les connais- e sances du domaine d’int´rˆt de l’utilisateur qui peuvent ˆtre d´crites ` travers des ee e e a ressources externes. Nous avons suppos´ que ces ressources peuvent : i ) nous ren- e seigner sur les besoins de l’utilisateur pendant sa tˆche de recherche ; et ii ) aider le a SRI ` interpr´ter le contenu s´mantique du document et ` calculer la pertinence en a e e a prenant en compte la similarit´ th´matique entre le document et la requˆte10 . e e e En pratique, nous avons analys´ plusieurs requˆtes extraites de diff´rentes collec- e e e tions des campagnes d’´valuation des SRI (ex. TREC, CLEF, etc.). A titre d’exemple, e nous pr´sentons ici deux requˆtes extraites de deux collections de la campagne CLEF- e e 2005 : la premi`re est extraite de la collection multilingue Multi-8, et la deuxi`me de e e la collection des comptes-rendus m´dicaux ImageCLEFmed. e Requˆte 1 : “Donne-moi les documents qui parlent du g´n´ral fran¸ais responsable e e e c de la cr´ation de la zone de s´curit´ pendant le conflit des Balkans ?” e e e Pour un lecteur humain, il est clair que l’on recherche des documents qui parlent d’une personne : g´n´ral fran¸ais. Un document pertinent, contenant le nom de la e e c personne en question, ne contient pas forc´ment les termes “g´n´ral” et “fran¸ais”. e e e c Pour y rem´dier, une solution possible est de faire une expansion “intelligente” de e la requˆte pour informer le syst`me qu’on est ` la recherche d’une personne et pas e e a seulement des termes “g´n´ral” et “fran¸ais”. Le fait d’identifier l’´l´ment personne e e c ee dans cette requˆte n’est pas suffisant pour la r´soudre. En effet, cet ´l´ment ap- e e ee paraˆ dans un contexte particulier qui est d´crit par d’autres ´l´ments. La personne ıt e ee 10 Nous verrons dans le chapitre de l’´tat de l’art que ces deux hypoth`ses sont inspir´es de e e e certaines id´es qui ont ´t´ d´j` d´velopp´es. e e e ea e e 8
  • 22.
    que l’on cherchea cr´´ une zone de s´curit´. Celle-ci a ´t´ cr´´e dans un lieu ee e e e e ee g´ographique : les Balkans. Enfin, la cr´ation de cette zone a eu lieu suite ` un e e a ´v´nement : conflit des Balkans. e e Ainsi, pour interpr´ter le besoin d’information formul´ ` travers la requˆte 1, nous e ea e 11 allons supposer qu’il est n´cessaire d’expliciter tous les ´l´ments-cl´s introduits par e ee e l’utilisateur, et de disposer d’un langage de requˆte expressif pour mieux cerner ce e que l’utilisateur recherche. Requˆte 2 : “Show me x-ray images with fractures of femur ” e Pour un ˆtre humain, il est clair que l’on cherche des images qui contiennent un e aspect anatomie (le f´mur ) et un aspect pathologie (fracture). Ces deux ´l´ments, e ee 12 qui sont s´mantiquement reli´s , doivent apparaˆ dans une image dont la moda- e e ıtre lit´ est rayon-x. Ainsi, une image au rayon-x qui contient “une fracture du crˆne” e a ou “un f´mur sans fracture” est suppos´e non pertinente par rapport ` cette requˆte. e e a e De mˆme pour les images contenant “une fracture du f´mur ” dont la modalit´ n’est e e e pas rayon-x. En observant plusieurs documents (requˆtes) de diff´rents domaines13 , nous avons e e remarqu´ une r´gularit´ au niveau des ´l´ments qui d´crivent les th`mes d´velopp´s e e e ee e e e e dans les documents (requˆtes) appartenant ` un mˆme domaine. Par exemple, les e a e th`mes du domaine de la politique internationale peuvent ˆtre d´velopp´s en utili- e e e e sant des ´l´ments tels que Personne, Lieu g´ographique, Epoque, Ev´nement, etc. En ee e e m´decine, un th`me peut ˆtre d´velopp´ en utilisant des ´l´ments tels que Anatomie, e e e e e ee Pathologie, Stade de la maladie, Type de traitement, etc. Ainsi, nous appellerons ces ´l´ments les dimensions de domaine et nous les d´finissons comme suit : ee e “Une dimension d’un domaine est un concept utilis´ pour exprimer des th`mes e e dans ce domaine.” 11 Par exemple, en proc´dant par une expansion “intelligente”. e 12 En m´decine, une fracture est une pathologie d’un os tel que le f´mur. e e 13 M´dical, politique internationale, astronomie, etc. e 9
  • 23.
    Le concept associ´` la dimension est en pratique g´n´ral, c’est-`-dire, poss`de une ea e e a e vaste extension et une compr´hension minimale. Si l’on peut construire une hi´rarchie e e des concepts du domaine, il devrait se trouver pr`s de la racine de la hi´rarchie, c’est- e e `-dire, il aurait de nombreux sous-concepts et peu ou pas de concepts super-ordonn´s. a e L’id´e sous-jacente ` notre approche est qu’un auteur, quand il r´dige son docu- e a e ment, s’int´resse ` un domaine particulier pour d´velopper un th`me. Ainsi, il fait e a e e r´f´rence ` des dimensions de son domaine d’int´rˆt pour d´tailler l’id´e exprim´e ee a ee e e e dans son document. Pour ce faire, il fait r´f´rence aux concepts relatifs aux dimen- ee sions choisies. Pour d´noter ces concepts dans son texte, il utilise des termes de son e domaine d’int´rˆt. ee Par exemple, pour r´diger un compte-rendu m´dical, un m´decin peut faire e e e r´f´rence dans son texte aux dimensions “Pathologie” et “Anatomie”. Ensuite, il ee fait r´f´rence ` des concepts relatifs ` ces dimensions, et enfin il utilise des termes ee a a pour d´noter ces concepts. Par exemple, il peut utiliser les termes “seins” et “can- e cer”, ou “f´mur” et “fracture”, etc. e De la mˆme mani`re, un utilisateur s’int´resse ` un domaine particulier pour e e e a d´crire son besoin d’information. Il fait d’abord r´f´rence ` des dimensions de son e ee a domaine d’int´rˆt. Ensuite, il fait r´f´rence ` des concepts relatifs ` ces dimensions. ee ee a a Enfin, il emploie des termes pour d´noter ces concepts dans la requˆte qui exprime e e son besoin d’information. 1.5 Probl´matique e Nous nous pla¸ons dans un contexte de recherche o` l’utilisateur d´crit un be- c u e soin pr´cis. Ce contexte est typiquement celui des milieux professionnels, o` les e u utilisateurs ont de bonnes connaissances de leur domaine d’int´rˆt, ainsi que des ee documents (comptes-rendus, textes de loi, etc.) qu’ils consultent r´guli`rement. Lors e e d’une tˆche de recherche, les professionnels essayent de compl´ter l’information qu’ils a e ont d´j` mais qui est insuffisante. Leurs besoins dans ce cas sont pr´cis et d´crits ea e e 10
  • 24.
    ` travers uneterminologie sp´cifique ` leurs domaines d’int´rˆt. Par exemple, un a e a ee m´decin d´sirant retrouver un compte-rendu, voudrait pouvoir formuler son besoin e e d’information de la mani`re suivante : e “Je cherche un compte-rendu sur le type de traitements ` effectuer en cas d’un a cancer du sein de stade M0 ”. Nous remarquons, ` partir de cet exemple, que le m´decin connaˆ bien la ter- a e ıt minologie de son domaine, et par cons´quent, que la description de son besoin est e tr`s pr´cise. Nous remarquons ´galement qu’il se sert des dimensions de son domaine e e e pour d´crire son besoin : anatomie, pathologie, traitement, stade de la maladie, etc. e Les professionnels sont des utilisateurs qui s’attendent a trouver une r´ponse ` e pr´cise et de qualit´ ` leur requˆte, leur permettant de r´aliser leur tˆche profession- e ea e e a nelle (´tablir un diagnostic, r´diger un article de presse, se documenter, etc.). Afin e e de permettre au syst`me de retrouver des documents en meilleure ad´quation avec e e le r´el besoin de tels utilisateurs, nous pensons qu’il est n´cessaire de prendre en e e compte les dimensions du domaine d’int´rˆt de l’utilisateur. La question principale ee que nous posons ainsi est : “Comment satisfaire, ` partir de l’information “brute”14 , une requˆte pr´cise a e e formul´e par un utilisateur qui s’int´resse ` un domaine particulier ?” e e a Nous d´notons par le qualificateur “pr´cise” une requˆte qui, au contraire d’une e e e requˆte vague, contient une terminologie tr`s sp´cialis´e. Elle pr´sente une complexit´ e e e e e e au niveau de sa structure s´mantique qui peut ˆtre mat´rialis´e par un ensemble de e e e e 15 relations s´mantiques et d’op´rateurs . Ce type de requˆte semble ˆtre adapt´ ` une e e e e ea indexation relationnelle qui permet de prendre en compte les relations s´mantiques e lors de la repr´sentation du contenu du document ` indexer. e a L’objectif du travail d´crit dans notre th`se est donc de d´finir un mod`le de Re- e e e e cherche d’Information qui soit en ad´quation avec le contexte particulier dans lequel e 14 Sac de mots dans les documents textuels, etc. 15 Bool´ens, quantificateurs, etc. e 11
  • 25.
    nous nous situons: – L’utilisateur a une forte connaissance sur son domaine d’int´rˆt qui doit ˆtre ee e repr´sent´ au sein du syst`me ; e e e – La formulation de la requˆte est une description pr´cise du document recherch´ e e e par l’utilisateur. Celui-ci d´crit le document qu’il souhaite retrouver en utilisant e une terminologie sp´cifique ` son domaine. Il peut pr´ciser ce qui est important e a e (crit`re obligatoire) ou moins important (crit`re optionnel) que ce document e e contienne. Il peut ´galement utiliser des op´rateurs bool´ens, ou des quantifi- e e e cateurs pour pr´ciser le nombre d’´l´ments que le document doit contenir. e ee Fig. 1.2 – Sch´ma global de notre approche e 12
  • 26.
    Fig. 1.3 –Dimensions de domaine stock´es dans une ressource externe e Nous proposons d’utiliser les dimensions de domaine afin de mettre en exergue les aspects li´s aux descriptions s´mantiques du contenu des documents (requˆtes), et e e e d’identifier ainsi les th`mes qui y sont d´velopp´s. A cette fin, un mod`le de RI fond´ e e e e e sur les dimensions est propos´. En consid´rant les exigences en termes de pr´cision e e e du syst`me, le langage de document et le langage de requˆte sur lesquels est e e fond´ notre mod`le doivent ˆtre expressifs. Ils permettent d’une part, d’indexer e e e avec pr´cision le contenu s´mantique des documents, et d’autre part, d’interpr´ter le e e e contenu s´mantique des requˆtes pr´cises. Evidemment, notre mod`le doit permettre e e e e ` l’utilisateur d’exprimer son besoin d’information pr´cis ` travers une requˆte. a e a e La mise en œuvre de notre mod`le n´cessite d’abord de d´finir les dimensions de e e e domaine puis de les rep´rer au niveau des documents (requˆtes). Pour rep´rer ces e e e dimensions, il faut identifier les concepts qui leur sont associ´s, et donc les termes e qui les d´notent dans les documents (requˆtes). Ceci peut n´cessiter une ´tape de e e e e d´sambigu¨ e ısation des sens des termes pr´sents dans les documents (requˆtes). e e Nous avons d´cid´ de d´finir les dimensions ` travers une ressource externe16 ` e e e a a large couverture qui associe un ensemble de termes ` un concept. Dans la figure a 1.2, nous pr´sentons le sch´ma global de notre approche. Disposant d’un ensemble e e 16 S´mantique : ontologie, linguistique : th´saurus, terminologique : dictionnaire terminologique, e e etc. 13
  • 27.
    de dimensions d´finies` travers une ressource externe (figure 1.3), notre approche e a interpr`te le contenu s´mantique des documents et des requˆtes et les mets en cor- e e e respondance. 1.6 Plan de la th`se e Apr`s ce chapitre introductif exposant notre probl´matique et les id´es que nous e e e d´fendons, nous consacrons chapitre 2 ` l’´tat de l’art. Nous passons en revue e a e les travaux qui utilisent les ressources externes pour la repr´sentation du contenu e s´mantique des documents (requˆtes) lors du processus de RI. Nous ´tudions ´galement e e e e les travaux qui s’int´ressent ` la notion de dimensions de domaine. e a Dans le troisi`me chapitre, nous pr´sentons une d´finition formelle de notre e e e mod`le de RI, et nous discutons plus particuli`rement de mani`re approfondie le e e e mod`le de documents et le mod`le de requˆte. Nous montrons comment, en se basant e e e sur les dimensions de domaines, notre mod`le parvient ` repr´senter avec pr´cision e a e e le contenu s´mantique des documents et satisfaire ainsi des requˆtes pr´cises. e e e Le quatri`me chapitre d´crit les ´tapes n´cessaires ` la mise en œuvre de notre e e e e a mod`le dans le cadre d’application de documents textuels. Il d´crit ´galement une e e e ´valuation exp´rimentale, de l’utilisation des dimensions pour la RI, bas´e sur des e e e crit`res d’´valuation orient´s syst`me [23] op´r´e sur une collection de la campagne e e e e ee CLEF. Le cinqui`me chapitre r´sume les contributions apport´es par ce travail au do- e e e maine de la RI et ´voque ´galement les perspectives de d´veloppement et d’optimi- e e e sation du mod`le propos´. e e 14
  • 28.
    Chapitre 2 Ressources externeset dimensions de domaine 2.1 Introduction Dans le chapitre pr´c´dent, nous avons pr´sent´ les limites des approches de RI e e e e existantes qui ne prennent pas en compte la s´mantique des documents (requˆtes). e e Devant ces limites, plusieurs travaux, tentant d’incorporer l’information s´mantique e dans le processus de RI, sont apparus en se basant sur la disponibilit´ de ressources e externes telles que les ontologies ou les th´saurus. Dans le cas du processus d’indexa- e tion, nous pouvons principalement identifier l’indexation conceptuelle ou l’indexation s´mantique 1 [10][58]. Pour ce qui est du processus d’interrogation, l’accent a surtout e port´ sur l’expansion de requˆtes. Les ressources externes peuvent ´galement aider e e e ` la formulation du besoin de l’utilisateur ` travers une interface graphique. C’est a a dans cette derni`re direction que Hearts [37] et Hyv¨nen [38] ont propos´ d’utiliser e o e les dimensions de domaines . Dans le but de comprendre comment les ressources externes ont ´t´ utilis´es pour ee e la prise en compte de la s´mantique lors du processus de RI, nous pr´sentons, dans e e la suite de ce chapitre, les approches les plus repr´sentatives dans la litt´rature. e e Ainsi, nous avons ´tudi´ des travaux sur l’indexation conceptuelle/s´mantique, puis e e e des travaux sur l’expansion de requˆtes. Avant de conclure ce chapitre avec une e synth`se des travaux existants, nous y discutons des travaux qui prennent en compte e 1 Ces deux terminologies sont utilis´es parfois par les chercheurs en RI avec quelques confusions. e 15
  • 29.
    la notion dedimensions lors du processus de RI. Mais commen¸ons d’abord par c d´finir quelques notions sur les ressources externes. e 2.2 Ressources externes & RI De fa¸on g´n´rale, selon les communaut´s (Linguistique, Sciences de la cognition, c e e e Intelligence artificielle, Philosophie, etc.), il existe diff´rentes d´finitions des notions e e que nous pr´sentons ici. Dans la suite, nous pr´sentons les d´finitions telles qu’elles e e e sont utilis´es en Recherche d’Information et telles que nous les utilisons dans notre e approche. Par ressource externe, nous entendons toute structure externe au corpus conte- nant des concepts et des termes qui les d´notent. Cette ressource peut ´galement e e contenir des relations entre les diff´rents concepts ; par extension, nous appelons e connaissances externes toutes les informations stock´es dans la ressource externe e (concept, termes, relations, d´finition, etc.). e Nous avons opt´ pour cette terminologie parce que, dans la communaut´ de RI, e e on utilise les mˆmes notations pour d´signer des ressources diff´rentes. Par exemple, e e e par abus de langage, le mot “ontologie” est utilis´ pour d´signer des ressources telles e e que, les th´saurus, les taxonomies, les hi´rarchies de concepts, etc. [32][51][62]. Nous e e n’allons pas d´tailler ici les d´finitions de ces diff´rents types de ressources ; nous e e e allons seulement d´crire, dans la suite du manuscrit, les caract´ristiques de celle e e dont nous avons besoin pour d´finir notre mod`le de RI. Ensuite, en fonction de nos e e besoins, nous choisissons la ressource qui nous convient le mieux, quelle que soit sa nature. Les concepts correspondent g´n´ralement aux nœuds (entr´es) d’une ressource e e e externe. Ces nœuds peuvent contenir des informations suppl´mentaires telles que la e d´finition du concept, le terme le plus couramment utilis´ pour le d´noter, les termes e e e synonymes qui le d´notent, etc. e Par exemple, dans le m´ta-th´saurus UMLS2 , le concept correspondant au “li- e e 2 http ://www.nlm.nih.gov/research/umls/ 16
  • 30.
    gament crois´ ant´rieur”est identifi´ par le code “C0630058”, et d´not´, dans le e e e e e domaine m´dical, par un ensemble de termes dans diff´rentes langues naturelles (cf. e e figure 2.1). Fig. 2.1 – D´notation d’un concept par un ensemble de termes synonymes dans e diff´rentes langues. e 2.2.1 Cr´dibilit´ des approches bas´es sur les ressources ex- e e e ternes Nous sommes convaincus que les ambitions des approches bas´es sur les res- e sources externes sont de plus en plus cr´dibles car le spectre d’applications et de e domaines concern´s ne cesse de s’´largir, ce qui favorise le d´veloppement de ces e e e ressources. Parmi celles-ci, nous mentionnons particuli`rement les ontologies qui de- e viennent de plus en plus utiles dans une large famille de syst`mes d’information. e Par exemple, elles sont utilis´es pour d´crire et traiter des ressources multim´dias, e e e permettre l’int´gration de sources h´t´rog`nes d’information, piloter des traitements e ee e automatiques de la langue naturelle, construire des solutions multilingues et inter- culturelles, etc. Ces utilisations se retrouvent dans de nombreux domaines d’applica- tion : Recherche d’Information, int´gration d’informations g´ographiques, commerce e e ´lectronique, enseignement assist´ par ordinateur, suivi m´dical informatis´, etc. e e e e Un cadre d’application particuli`rement prometteur pour le d´veloppement des e e syst`mes ` base d’ontologies est celui du Web s´mantique 3 [8][15]. En effet, dans ce e a e 3 Il s’agit d’une extension du Web actuel, dans laquelle l’information se voit associ´e ` un sens e a bien d´fini, am´liorant la capacit´ des logiciels ` traiter l’information disponible sur le Web. e e e a 17
  • 31.
    contexte, l’annotation desressources d’information repose sur des ontologies (elles- mˆmes disponibles et ´chang´es sur le Web). Grˆce au Web s´mantique, l’ontologie e e e a e a trouv´ un formalisme standard ` l’´chelle mondiale et s’int`gre dans de plus en e a e e plus d’applications Web, sans mˆme que les utilisateurs ne le sachent. e De ce fait, de plus en plus d’ontologies de domaines deviennent disponibles : on- tologie m´dicale, ontologie de la g´n´tique, ontologie de la g´om´trie, ontologie pour e e e e e le bˆtiment, ontologie de syst`mes documentaires, ontologie dans le secteur automo- a e bile, etc.4 La croissance du nombre d’ontologies sur le Web a mˆme favoris´ le d´veloppement e e e d’outils sp´cialis´s dans la recherche de ce genre de ressources. A ce sujet, men- e e tionnons par exemple swoogle 5 (semantic Web search engine) qui est un moteur de recherche qui permet de retrouver des ressources ontologiques disponibles sur le Web. Malgr´ toutes ces r´alisations, l’expansion du d´veloppement des ontologies est e e e loin d’ˆtre achev´e. Ainsi, les ontologies qui s’appliquaient essentiellement ` des e e a donn´es (multim´dias) sont d´sormais utilis´es pour d´crire des logiciels (ex. les e e e e e services Web). Elles commencent ´galement ` ˆtre utilis´es pour d´crire l’utilisateur e ae e e en sp´cifiant par exemple son contexte d’interaction (les pr´f´rences de l’utilisateur : e ee langue, goˆ ts, droits, etc. ; les caract´ristiques de son terminal : mobile, vocal, etc. ; sa u e situation g´ographique : l’´tranger, dans une salle avec imprimante, etc. ; l’historique e e d’utilisation, etc.). 2.2.2 Exemple de ressource externe utilis´e en RI : WordNet e WordNet6 est une base lexicale organis´e sous forme hi´rarchique autour de la e e notion de synset (ensemble de synonymes). Un synset regroupe des termes (simples ou compos´s) ayant un mˆme sens dans un contexte donn´. Par d´finition, chaque e e e e synset dans lequel un terme apparaˆ repr´sente un sens diff´rent de ce terme. ıt e e Les synsets sont organis´s par des relations d´finies sur eux, qui diff`rent selon la e e e 4 http ://ontology.buffalo.edu/, http ://www.geneontology.org/, http ://diseaseonto- logy.sourceforge.net/, http ://ontolingua.stanford.edu/, etc. 5 http ://swoogle.umbc.edu/ [visit´ le 08/07/07] e 6 Le choix de pr´senter WordNet est motiv´ par le fait qu’il est largement utilis´e dans la plupart e e e des approches que nous ´tudions dans notre travail, et dans la RI d’une mani`re g´n´rale. e e e e 18
  • 32.
    cat´gorie grammaticale (PartOf Speech). Les principales relations s´mantiques is- e e sues de WordNet utilis´es en RI sont les suivantes : la synonymie, la m´ronymie7 , e e et l’hyperonymie8 (is-a). Celle-ci est la plus dominante. Elle organise les synsets dans un ensemble de hi´rarchies. e En plus d’ˆtre gratuitement disponible, l’avantage d’utiliser WordNet est qu’il e couvre la majorit´ de la langue anglaise, ce qui la place souvent en ad´quation avec e e les donn´es trait´es en RI dans le cas g´n´ral. e e e e 2.3 Usage des ressources externes pour la repr´se- e ntation des documents Afin de repr´senter le contenu des textes par des concepts, l’indexation concep- e tuelle se base sur des techniques de d´sambigu¨ e ısation qui servent ` identifier les a concepts d´not´s par les termes dans le texte. Dans la section suivante, nous rap- e e pelons quelques techniques de d´sambigu¨ e ısation capable de r´aliser cette tˆche. En- e a suite, nous examinons des approches qui utilisent les ressources externes pour la repr´sentation du contenu des documents. e Nous verrons dans la suite de ce chapitre que les performances d’une approche de RI d´pendent de plusieurs facteurs. Dans notre cas, elles peuvent d´pendre de e e la qualit´ de la ressource externe utilis´e, de la qualit´ du d´sambigu¨ e e e e ıseur utilis´, e du mod`le de RI sous-jacent, etc. Donc, afin de bien ´valuer une approche de RI, e e il est int´ressant d’´valuer l’impact de chacun de ces facteurs sur ses performances. e e De cette fa¸on, nous avons la possibilit´ d’identifier ce qui a bien fonctionn´ et ce c e e qui a mal fonctionn´ lors d’une exp´rimentation de RI. C’est dans cette direction e e que nous pr´sentons un ensemble de travaux sur l’utilisation des ressource externe e et l’utilisation de d´sambigu¨ e ıseur pour la RI. 7 La classe des m´ronymes contient respectivement les concepts constituant des parties du concept e (... is a part of this concept, ... is a member of this concept ), ou dont le concept est une partie (this concept is a part of ... etc.). Exemple : voiture a pour m´ronymes porte, moteur. e 8 La classe des Hyperonymes contient les concepts p`res pour la relation de g´n´ralisation. La e e e relation inverse est l’hyponymie (sp´cialisation). e 19
  • 33.
    2.3.1 La d´sambigu¨ e ısation La d´sambigu¨ e ısation automatique des sens des mots est un probl`me qui a ´t´ e ee longuement ´tudi´ : Gale, Church et Yarowsky [30] citent par exemple un travail re- e e montant ` 1950. Dans ce chapitre, nous nous concentrons seulement sur les approches a les plus r´centes. Une revue plus d´taill´e de la d´sambigu¨ e e e e ısation est pr´sent´e par e e Krovetz [47] et Voorhees [27] et plus r´cemment une autre expos´e par Mark San- e e derson [79]. Plusieurs travaux ont ´tudi´ l’utilit´ de la d´sambigu¨ e e e e ısation pour la RI [32][47][77] [78][80]. Ces efforts ont clairement montr´ que la d´sambigu¨ e e ısation est un probl`me e plus subtil que l’on pensait. Une des premi`res tentatives d’utiliser un d´sambigu¨ e e ıseur avec un syst`me de RI a ´t´ faite par Stephen Weiss [100]. En utilisant son d´sambigu¨ e ee e ıs- eur pour r´soudre les sens de cinq mots ambigus extraits ` la main de la collection e a de ADI, Weiss a rapport´ une am´lioration de seulement 1% des performances de e e recherche. Une des recherches les plus approfondies sur l’ambigu¨ e et la RI a ´t´ ıt´ ee effectu´e par Krovetz et Croft [47] qui ont examin´ manuellement deux collections e e test (CACM et TIME) pour ´tudier l’ampleur de l’ambigu¨ e lexicale dans ces col- e ıt´ lections, ainsi que son effet sur la performance de la recherche. Ils ont trouv´ que ces e collections, mˆme si elles sont relativement petites et sp´cialis´es, contiennent des e e e mots utilis´s dans de multiples sens ; ils ont cependant conclu que les performances e de recherche ne sont pas fortement affect´es par l’ambigu¨ e des mots. En effet, les e ıt´ documents qui partagent plusieurs mots avec la requˆte tendent ` utiliser ces mots e a avec les mˆmes sens que ceux de la requˆte. Les auteurs pr´sument n´anmoins que e e e e la d´sambigu¨ e ısation des mots est probablement b´n´fique ` la recherche quand les e e a collections contiennent des th`mes divers, et qu’il y a peu de mots en commun entre e le document et la requˆte [47]. e Selon Mark Sanderson [77], les premiers essais ` grande ´chelle d’application d’un a e d´sambigu¨ e ıseur ` un syst`me de RI ont ´t´ r´alis´s par Voorhees [95] et Wallis [99]. a e ee e e Voorhees a construit un d´sambigu¨ e ıseur de mots bas´ sur WordNet [28][60]. Elle a e appliqu´ le d´sambigu¨ e e ıseur aux collections de CACM, de CISI, de CRAN, de MED et de TIME. Les tests men´s sur ces derni`res collections d´sambigu¨ ees ont eu comme e e e ıs´ cons´quence paradoxale une baisse dans la performance de la RI. Wallis a employ´ e e un d´sambigu¨ e ıseur en tant qu’´l´ment d’une exp´rience plus raffin´e dans laquelle il ee e e 20
  • 34.
    a remplac´ lesmots dans une collection de textes par le texte de leurs d´finitions e e issues d’un dictionnaire. Ceci a ´t´ fait de sorte que des mots synonymes (qui ont ee des d´finitions similaires) soient repr´sent´s par les mˆmes descripteurs, et donc que e e e e les documents contenant ces mots synonymes soient repr´sent´s par les mˆmes des- e e e cripteurs. En rempla¸ant un mot par sa d´finition, un d´sambigu¨ c e e ıseur a ´t´ employ´ ee e pour choisir la d´finition qui repr´sente le mieux le mot. Wallis a r´alis´ des essais e e e e sur les collections CACM et TIME, mais n’a trouv´ aucune am´lioration significative e e des performances de recherche. Les r´sultats de Voorhees et de Wallis sont surprenants car il semble raisonnable e que la performance de RI augmente si l’ambigu¨ e est r´solue. Parmi les probl`mes ıt´ e e qu’ils ont soulev´s, nous pouvons citer le manque de fiabilit´ au niveau de la perfor- e e mance de leurs d´sambigu¨ e ısations : par exemple, Voorhees a signal´ des probl`mes e e lors du choix du sens correct de certains des mots dans les requˆtes. De tels probl`mes e e ne permettent pas d’´tablir clairement au juste ce qui a mal fonctionn´ lors de e e l’exp´rience. Pour cette raison, plusieurs travaux sur l’´valuation des d´sambigu¨ e e e ıseurs ont ´t´ entrepris. ee L’´valuation reste un probl`me majeur de la recherche dans le domaine de la e e d´sambigu¨ e ısation car jusqu’` pr´sent l’´valuation d’un d´sambigu¨ a e e e ıseur n´cessite une e v´rification manuelle de ses propositions. Comme c’est un processus tr`s long, la e e plupart des d´sambigu¨ e ıseurs ont ´t´ ´valu´s seulement sur une poign´e de mots. ee e e e Cependant, Yarowsky a pr´sent´ une technique compl`tement automatique pour e e e l’´valuation des d´sambigu¨ e e ıseurs [104] ; elle consiste ` introduire, dans une collection a de textes, des mots ambigus cr´´s artificiellement, appel´s des “pseudo-mots”. Cette ee e technique consiste ` remplacer toutes les occurrences de deux mots, par exemple a “banane” et “kalashnikov ” par un nouveau mot ambigu “banana/kalashnikov ”. Le d´sambigu¨ e ıseur est alors appliqu´ ` chaque occurrence du nouveau mot. L’´valuation ea e de la pr´cision du d´sambigu¨ e e ıseur est alors facilit´e car on connaˆ ` l’avance le sens e ıt a correct de chaque occurrence des mots. Cependant, comme n’importe quelle simu- lation, celle-ci a ses limites. La m´thode choisie pour former des pseudo-mots de e diff´rents mots consiste ` faire un choix al´atoire. Par cons´quent, les divers sens e a e e d’un pseudo-mot sont peu susceptibles d’ˆtre ´troitement li´s. Cela diff`re des mots e e e e ambigus r´els dont les sens peuvent dans certains cas ˆtre reli´s d’une fa¸on quel- e e e c conque. La signification de cette diff´rence est peu claire, et donc on ne peut pas e 21
  • 35.
    affirmer que l’ambigu¨e introduite artificiellement correspond exactement ` l’am- ıt´ a bigu¨ e que l’on trouve dans des situations r´elles. ıt´ e Bien que Yarowsky ait invent´ les pseudo-mots seulement pour l’´valuation des e e d´sambigu¨ e ıseurs, sa m´thode semble a priori bien adapt´e ` l’´tude du rapport entre e e a e l’ambigu¨ e des mots et la RI [77][78]. Pour v´rifier cette id´e, Sanderson a fait ıt´ e e d’abord une premi`re exp´rience pour ´valuer les performances d’un SRI sur une e e e collection de test. Ensuite, il a introduit de l’ambigu¨ e dans la collection en utilisant ıt´ des pseudo-mots. Ainsi, il a pu comparer les performances du SRI sur cette collection accompagn´e d’ambigu¨ e avec les performances du syst`me obtenues sur la collection e ıt´ e initiale. De cette mani`re, Sanderson peut changer ` volont´ la quantit´ d’ambigu¨ e e a e e ıt´ dans une collection. Ainsi, par exemple, des niveaux d’ambigu¨ e qui d´passent de ıt´ e loin ceux des collections test standards peuvent ˆtre ´tudi´s. Cependant, l’avantage e e e principal d’utiliser des pseudo-mots est que la d´sambigu¨ e ısation des pseudo-mots peut ˆtre contrˆl´e avec pr´cision par l’exp´rimentateur. Par cons´quent, les effets e oe e e e d’un d´sambigu¨ e ıseur sur les performances d’un SRI, fonctionnant ` des niveaux va- a riables de pr´cision, peuvent ´galement ˆtre ´tudi´s. e e e e e Suite ` ces exp´rimentations, Sanderson a montr´ que l’ambigu¨ e des mots a des a e e ıt´ effets mineurs sur la pr´cision de la recherche, confirmant vraisemblablement que e les strat´gies d’appariement (matching), entre la requˆte et le document, effectuent e e d´j` une d´sambigu¨ ea e ısation implicite. C’est ` dire, quand un ensemble de mots appa- a raissent simultan´ment dans un contexte, que la signification appropri´e de chacun e e peut ˆtre d´termin´e (mˆme si chacun de ces mots pris individuellement est ambigu). e e e e Nous reprenons l’exemple utilis´ par Vooheers o` , dans l’ensemble base, bat, glove, e u hit, la plupart des mots ont plusieurs sens. Mais pris conjointement, ces mots font r´f´rence au jeu du Baseball. Sanderson estime que, si la d´sambigu¨ ee e ısation automa- tique des mots est effectu´e avec moins de 90% de pr´cision, les r´sultats sont plus e e e mauvais que si on ne d´sambigu¨ e ısait pas du tout. Un ´tat de l’art sur cette question de d´sambigu¨ e e ısation des mots dans le cadre de la RI est pr´sent´ par Sanderson [79]. Les r´sultats obtenus par diff´rents cher- e e e e cheurs sont parfois contradictoires. A partir de ces exp´riences, nous pouvons tirer la e conclusion que, pour am´liorer les performances d’un SRI, il est n´cessaire d’utiliser e e un d´sambigu¨ e ıseur fonctionnant avec une grande pr´cision. e 22
  • 36.
    Sanderson [79] etZernik [106] ont ´galement conclu que les dictionnaires ne four- e nissent pas une bonne source de d´finitions des termes (sens) pour les d´sambigu¨ e e ıseurs, parce que leurs distinctions entre les d´finitions sont trop fines car souvent bas´es e e sur des crit`res grammaticaux plutˆt que s´mantiques. Heureusement, d’autres res- e o e sources externes sont devenues de plus en plus disponibles. Ces ressources repr´sentent e le sens de termes ` travers les concepts qu’ils d´notent. En plus, elles offrent des a e connaissances en organisant les concepts dans une structure bas´e sur des relations e s´mantiques. Ceci offre des capacit´s non n´gligeables a la RI, mˆme si l’utilisa- e e e ` e tion des concepts exige une ´tape de d´sambigu¨ e e ısation des termes qui les d´notent e dans le texte. En effet, les connaissances pr´sentes dans la ressource externe peuvent e ˆtres utiles tant pour la d´sambigu¨ e e ısation que pour la repr´sentation du contenu e s´mantique des textes. e Voyons maintenant les travaux les plus repr´sentatifs qui utilisent des ressources e externes, principalement WordNet, pour repr´senter le contenu s´mantique des textes. e e 2.3.2 Indexation conceptuelle/s´mantique e Dans la litt´rature, l’indexation conceptuelle (ou l’indexation s´mantique) a ´t´ e e ee pr´sent´e comme une solution pour pallier les d´fauts de l’indexation classique bas´e e e e e sur des mots simples. Diff´rentes m´thodes ont ´t´ propos´es. Nous pouvons les e e ee e r´partir en deux cat´gories qui ne sont pas totalement disjointes : e e - Celles qui utilisent seulement les connaissances pr´sentes dans le corpus [80][86][106] ; e - Celles qui utilisent les connaissances externes au corpus [64][71][83][88][89][97][98], utilisent WordNet [60] ; et [45][46][99] utilisent le dictionnaire LDOCE9 [67]. Dans la suite, nous pr´sentons seulement les m´thodes les plus repr´sentatives e e e qui utilisent les connaissances externes pour la d´sambigu¨ e ısation [4][58][95]. Nous pr´sentons ´galement deux approches qui ´tudient l’impact de la d´sambigu¨ e e e e ısation sur les performances de la RI [32][77]. 9 The Longman Dictionary of Contemporary English. 23
  • 37.
    Utilisation de WordNetpour la d´sambigu¨ e ısation des sens de mots Voorhees a exploit´ les connaissances cod´es dans WordNet pour am´liorer les e e e effets que les synonymes et les homographes ont sur les SRI bas´s sur les mots. Au e lieu d’utiliser les mots eux-mˆmes, elle a utilis´ les concepts que ces mots d´notent. e e e Dans cette direction, elle a essay´ de voir si les synsets de WordNet peuvent ˆtre e e utilis´s comme des concepts dans un SRI ` usage non limit´ ` un domaine particu- e a ea lier. Ainsi, elle a propos´ une technique pour d´sambigu¨ les mots utilis´s lors du e e ıser e processus d’indexation automatique. La technique consiste ` s´lectionner un concept a e pour chaque mot ambigu apparaissant dans les textes des documents et des requˆtes. e Pour ce faire, l’auteur utilise la base WordNet. Ainsi, l’approche propos´e consiste e ` s´lectionner un synset de WordNet comme un concept d´not´ par un mot. Dans a e e e WordNet, les synsets sont li´s par diff´rentes relations. Voorhees utilise l’ensemble e e 10 des synsets correspondants aux noms ainsi que les relations suivantes : antonymie, hyperonymie/hyponymie (is-a) et m´ronymie/holonomie (part-of ). e La technique de d´sambigu¨ e ısation utilis´e dans ce travail est bas´e sur l’id´e qu’un e e e ensemble de mots, apparaissant ensemble dans un contexte, d´termine la significa- e tion appropri´e pour un autre mot, en d´pit du fait que chaque mot pr´sent dans e e e texte pris individuellement est ambigu (comme montr´ plus haut dans l’exemple des e mots dont l’ensemble d´note le baseball ). Pour d´sambigu¨ un mot m, une tech- e e ıser nique a ´t´ propos´e pour classer les synsets auxquels m appartient. Le classement ee e est effectu´ en se basant sur la valeur de cooccurrence calcul´e entre le contexte du e e mot en question et un voisinage contenant les mots du synset dans la hi´rarchie de e WordNet (Voorhees l’a appel´ hood ). e Pour d´finir le voisinage d’un synset s donn´, Voorhees consid`re l’ensemble des e e e synsets et les relations d’Hyponymie dans WordNet comme un ensemble de sommets et d’arcs dirig´s d’un graphe. Par la suite, le voisinage de s est le plus large sous- e graphe connexe qui contient s et seulement les descendants d’un ancˆtre de s, et qui e ne contient aucun synset ayant un descendant qui inclut une autre instance d’un membre (mot) de s. Le synset le mieux class´ est s´lectionn´ comme ´tant le sens e e e e du mot m dans le texte. Il est possible qu’un mot ne corresponde ` aucun synset de a WordNet. Dans ce cas, aucun synset n’est s´lectionn´. e e 10 Dans WordNet, il y a quatre cat´gories : les noms, les verbes, les adjectifs et les adverbes. e 24
  • 38.
    Apr`s l’´tape ded´sambigu¨ e e e ısation, vient l’´tape d’indexation qui prend en compte e le sens des mots. Voorhees a utilis´ le mod`le vectoriel ´tendu introduit par Fox [29]. e e e Dans ce mod`le, chaque vecteur est compos´ d’un ensemble de sous-vecteurs de e e diff´rents types de concept (appel´s ctypes)11 . Ainsi, un vecteur peut contenir trois e e ctypes : les lemmes des mots qui n’apparaissent pas dans WordNet ou qui ne sont pas des noms, les identificateurs des synsets des noms d´sambigu¨ es, et les lemmes e ıs´ des noms d´sambigu¨ es. e ıs´ Dans le mod`le vectoriel ´tendu, la similitude entre un document et une requˆte e e e est calcul´e comme suit : e sim(D, Q) = αi simi (Di , Qi ) (2.1) ctypei ` Avec simi , la fonction de similarit´ pour le ctypei, Di et Qi sont les iemes sous- e vecteurs des vecteurs D et Q, et αi , un nombre r´el qui refl`te l’importance du ctypei e e relativement aux autres ctypes. Pour ´valuer son approche, Voorhees a men´ des exp´rimentations sur les col- e e e lections CACM [75], CISI, Cranfield 1400, MED, et TIME [41]. Elle a compar´ son e approche avec une approche bas´e seulement sur les lemmes de tous les mots du texte. e Plusieurs tests ont ´t´ effectu´s en faisant diff´rentes combinaisons avec les ctypes ee e e et la valeur de α. Les r´sultats de ces exp´rimentations ont montr´ paradoxalement e e e que les performances du SRI diminuent sensiblement dans le cas de l’utilisation des collections d´sambigu¨ ees. e ıs´ Voorhees a pu constater que les requˆtes courtes sont difficiles ` d´sambigu¨ e a e ıser et que ceci est la cause majeure de la d´gradation des performances de recherche. e Par cons´quent, elle a ´valu´ son approche en d´sambigu¨ e e e e ısant seulement les mots dans les documents. En effet, au lieu de s´lectionner un seul sens pour un mot m e 11 Ce mod`le permet la manipulation d’autres types de concepts que ceux qui sont repr´sent´s e e e par les descripteurs du document : les citations, les cocitations, les donn´es bibliographiques, etc. e Ainsi, chaque sous-vecteur repr´sente un aspect diff´rent des documents de la collection. e e 25
  • 39.
    ambigu appartenant `la requˆte, elle a ajout´ tous les identificateurs des synsets a e e de m au vecteur de la requˆte. Les r´sultats de cette approche ont montr´ que les e e e performances du SRI diminuent sensiblement dans la plupart des collections utilis´es. e Dans ce travail, la qualit´ de la d´sambigu¨ e e ısation n’a pas ´t´ mesur´e empi- ee e riquement. Une ´valuation subjective a ´t´ effectu´e par l’auteur qui conclut que e ee e l’´tiquetage avec les sens tel qu’il est r´alis´ n’est pas exact, ce qui est la cause la e e e plus probable de la d´gradation des performances. L’auteur mentionne ´galement une e e grande difficult´ ` d´sambigu¨ les mots dans des requˆtes courtes. Enfin, elle pense ea e ıser e que les relations is-a qui d´finissent une hi´rarchie g´n´ralisation/sp´cialisation ne e e e e e sont pas suffisantes pour s´lectionner correctement le sens exact d’un mot ` partir e a des sens pr´sents dans WordNet. e Combinaison de donn´es lexicales et s´mantiques pour la repr´sentation e e e des textes Pour construire une repr´sentation s´mantique de texte, Mihalcea et Moldovan e e ajoutent des informations lexicales et s´mantiques aux documents et aux requˆtes e e durant une phase de pr´traitement dans laquelle le texte des requˆtes et des docu- e e ments est d´sambigu¨ e. Le processus de d´sambigu¨ e ıs´ e ısation se base sur l’information contextuelle, et sur l’identification des sens des mots ` partir de WordNet. Un nou- a veau mot est d´sambigu¨ e en tenant compte de sa relation avec les mots du corpus e ıs´ qui sont d´j` d´sambigu¨ es. Ce processus it´ratif leur permet d’identifier dans le ea e ıs´ e corpus d’origine les mots qui peuvent ˆtre d´sambigu¨ es avec une grande pr´cision. e e ıs´ e e ısation complet12 et peu pr´cis, ils Au lieu d’utiliser un algorithme de d´sambigu¨ e ont opt´ pour un algorithme semi-complet qui d´sambigu¨ environ 55% des noms e e ıse et des verbes mais avec un taux de pr´cision de 92%. La sortie du d´sambigu¨ e e ıseur est un texte dont les mots ont la forme suivante : Pos|Stem|POS |Offset. O` : Pos est la position du mot dans le texte ; Stem est le lemme du mot ; POS u est la cat´gorie grammaticale du mot, et Offset est l’identifiant du synset de Word- e Net dans lequel ce mot apparaˆ Au cas o` aucun sens ne serait attribu´ par le ıt. u e d´sambigu¨ e ıseur, ou si le mot ne se trouve pas dans WordNet, le dernier champ reste 12 Qui d´sambigu¨ TOUT le texte. e ıse 26
  • 40.
    vide. Apr`s l’ajoutde ces ´tiquettes lexicales et s´mantiques, les documents sont e e e index´s. L’index est cr´´ en combinant les mots simples (recherche bas´e mots), et e ee e les ´tiquettes s´mantiques (recherche bas´e sens). e e e Au moment de l’interrogation, chaque requˆte est d´sambigu¨ ee, ensuite elle e e ıs´ est adapt´e ` un format sp´cifique qui incorpore l’information s´mantique, comme e a e e trouv´e dans l’index, et utilise les op´rateurs AND et OR. e e Leur syst`me a ´t´ test´ sur la collection Cranfield. Celle-ci contient 1400 docu- e ee e ments du domaine de l’a´rodynamique. Parmi les 225 requˆtes de cette collection, e e les auteurs en ont choisi al´atoirement 50 et ont construit pour chacune d’entre elles e trois types de requˆtes : e 1) Une requˆte contenant seulement les mots s´lectionn´s a partir de la requˆte e e e ` e initiale lemmatis´e ; e 2) Une requˆte contenant les mots cl´s de la requˆte initiale et les synsets qui lui e e e sont associ´s ; e 3) Une requˆte contenant les mots cl´s de la requˆte initiale, les synsets qui leur e e e sont associ´s, et les synsets des hyperonymes des mots cl´s. e e Nous reprenons ici l’exemple pr´sent´ par les auteurs. Soit la requˆte suivante : e e e “Has anyone investigated the effect of surface mass transfer on hypersonic vis- cous interactions ?” Apr`s l’´tiquetage lexical et s´mantique, la requˆte se pr´sente comme suite : e e e e e Has anyone investigated |VB|535831 the effect|NN|7766144 of surface|NN|3447223 mass|NN|3923435 transfer |NN|132095 on hypersonic|JJ viscous|JJ interactions|NN|7840572| Les auteurs rapportent que la s´lection des mots-cl´s (les 55%) ` d´sambigu¨ e e a e ıser (par l’algorithme semi-complet) n’est pas simple, et qu’ils utilisent pour cela huit heuristiques [61]. Pour chaque requˆte, les trois types de requˆtes pr´cit´es sont e e e e 27
  • 41.
    form´es en utilisantles op´rateurs bool´ens AND et OR. Ainsi, pour la requˆte de e e e e type 2 par exemple, les auteurs obtiennent : (effect OR 7766144|NN) AND (surface OR 3447223|NN) AND (mass OR 3923435|NN) AND (transfer OR 132095|NN) AND (interaction OR 7840572|NN). Suite ` leurs exp´rimentations, les auteurs ont pu constater que la combinaison a e des mots-cl´s avec les synsets am´liore les performances du syst`me de RI par rapport e e e ` la recherche bas´e seulement sur les mots (+16% de rappel et +4% de pr´cision). a e e Nous pensons que ce r´sultat est dˆ au fait que la base WordNet ne couvre pas la e u totalit´ du vocabulaire de la collection utilis´e. Donc, une combinaison des synsets e e avec les mots peut garantir une couverture de tout le vocabulaire en question. Ce r´sultat est en accord avec d’autres r´sultats positifs obtenus par des chercheurs qui e e ont fait une indexation combin´e de la sorte [4]. e En utilisant les hyperonymes, les auteurs ont constat´ une am´lioration de 28% e e du rappel mais une baisse de 9% de la pr´cision. Il est probable que l’augmenta- e tion du rappel est dˆ au fait que l’expansion a permis de retrouver des documents u pertinents mais qui ne partagent pas exactement les mˆmes termes avec la requˆte. e e En revanche, la d´gradation de la pr´cision pourrait ˆtre expliqu´e par le fait que e e e e l’expansion a ´t´ faite d’une mani`re imprudente, ce qui ajoute parfois des concepts ee e ` la requˆte qui ne sont pas en rapport avec son th`me. Par cons´quent, le contenu a e e e de la requˆte ´tendu devient bruit´ par rapport au contenu original, et les documents e e e r´ponses ne sont pas forc´ment pertinents pour la requˆte originale. Nous verrons e e e dans la suite des solutions possibles ` ce probl`me d’expansion imprudente [4][68]. a e Le mod`le DocCore e Baziz consid`re que le th`me d´velopp´ dans un document (requˆte) est d´crit e e e e e e par un ensemble de concepts. Ainsi, au lieu de repr´senter les documents (requˆtes) e e par une liste de mots cl´s, il propose de les repr´senter par des concepts. Pour ce e e faire, il utilise une ressource externe pour extraire, ` partir d’un texte, les termes qui a font r´f´rences aux concepts d´crits dans ce texte. Une ´tape de d´sambigu¨ ee e e e ısation a 28
  • 42.
    ´t´ propos´e afind’associer chaque terme ` un seul concept de la ressource externe ee e a utilis´e. e Baziz construit pour chaque document de la collection ce qu’il appelle un R´seau e S´mantique de Document. Le mod`le de repr´sentation qu’il propose, DocCore, est e e e bas´ sur un processus automatis´ faisant appel ` une ressource externe pour identifier e e a les concepts du document et calculer les liens de proximit´ entre eux. Les arcs entre e les nœuds du r´seau s´mantique sont pond´r´s en fonction de la proximit´ s´mantique e e ee e e que peuvent avoir les deux nœuds correspondants. Le processus de d´sambigu¨ e ısation propos´ s’accomplit en trois ´tapes : e e 1) Extraction des concepts candidats : l’objectif de cette ´tape est d’ex- e traire tous les termes du document susceptibles de repr´senter des concepts de la e 13 ressource externe. Ces termes sont extraits en projetant le texte sur la ressource externe. De ce fait, pour un texte donn´, seuls les mots ou groupes de mots recon- e nus comme des entr´es dans la ressource externe sont conserv´s. De cette fa¸on, les e e c termes repr´sentant les concepts candidats sont extraits. Concernant la combinaison e des mots, le terme le plus long qui d´note un concept est retenu. Une fois ces termes e extraits du document, un poids leur est affect´ pour d´terminer leur importance dans e e ce document. Pour cela, Baziz a propos´ une variante du TF.IDF qui tient compte e de la longueur du terme (en nombre de mots). Cette variante est appel´e CF.IDF et e est calcul´e de la mani`re suivante : e e Length(ST ) cf (T ) = count(T ) + .count(ST ) (2.2) Length(T ) ST ∈sub terms(T ) o` T est un terme compos´ de n mots, Length(T) repr´sente le nombre de mots u e e dans T et sub terms(T) le nombre de tous les sous-termes (qui doivent d´noter ` e a leur tour des concepts de la ressource externe) d´riv´s de T : sous-termes de n-1 e e mots, sous-termes de n-2, ... et tous les mots simple de T. 13 Faire un appariement entre le texte et les entr´es de la ressource externe. e 29
  • 43.
    Une fois lestermes14 importants extraits du document, ils sont utilis´s pour e construire le r´seau s´mantique de ce document. Comme chaque terme extrait peut e e avoir plusieurs sens, des mesures de similarit´ entre les diff´rents sens des termes sont e e calcul´es en vue de s´lectionner, pour chaque terme, le meilleur sens correspondant e e dans la ressource externe. 2) Calcul de similarit´ entre concepts candidats : la mesure de similarit´ e e entre deux nœuds repr´sente une valeur condens´e r´sultant de la comparaison de e e e deux sens possibles pour deux termes (donc deux concepts candidats) en utilisant la distance entre les positions des deux concepts candidats dans la ressource externe, ou encore les relations s´mantiques de celle-ci. Pour ce faire, Baziz emploie quatre e mesures de proximit´ s´mantique connues dans la litt´rature utilisant des structures e e e de r´seaux s´mantiques ou hi´rarchiques (Lch [22], Lin [50], Lesk [81] et Resnik [70]). e e e 3) Construction du r´seau s´mantique : la derni`re ´tape de l’approche e e e e concerne la construction du “meilleur” r´seau s´mantique qui repr´sente au mieux e e e le contenu du document. Pour chaque terme du document, un score C score est calcul´ pour chacun des concepts candidats qu’il d´note. Le score d’un concept can- e e didat est obtenu en sommant les valeurs de similarit´ qu’il a avec les autres concepts e candidats (correspondant aux diff´rents sens des autres termes du document). Cela e permet, selon l’auteur, de d´sambigu¨ les termes compte tenu du contexte du do- e ıser cument. Les concepts candidats ayant les plus grands scores sont alors s´lectionn´s e e pour repr´senter les nœuds du “meilleur” r´seau s´mantique. Les liens (arcs) entre e e e ces diff´rents nœuds sont ´tiquet´s alors par les valeurs de similarit´ s´mantique e e e e e d´j` calcul´es dans la phase 2. Enfin, les r´seaux s´mantiques des documents sont ea e e e construits pour chacune des quatre mesures (Lch, Lin, Lesk et Rensik ). Lors de l’in- dexation, les descripteurs des documents ` indexer sont alors les nœuds des r´seaux a e s´mantiques. e L’auteur ne pr´cise pas comment il proc`de pour construire les r´seaux s´mantiqu- e e e e es des requˆtes. D’apr`s l’exemple pr´sent´, l’auteur ne fait pas de d´sambigu¨ e e e e e ısation des termes de la requˆte, mais d´tecte seulement le(s) concept(s) d´not´s par les e e e e termes les plus longs ` partir de la requˆte en utilisant WordNet. a e 14 D´notant les concepts candidats. e 30
  • 44.
    Etant donn´ queles requˆtes sont courtes, il nous semble difficile de construire e e un r´seau s´mantique pour chacune d’entre elles. Voorhees, dans sa m´thode de e e e d´sambigu¨ e ısation, tient compte du contexte d’un mot pour le d´sambigu¨ e ıser [95]. Elle a d´j` soulev´ le probl`me de la d´sambigu¨ ea e e e ısation des requˆtes courtes. Elle a e constat´ qu’il est difficile de d´sambigu¨ les mots des requˆtes courtes, ainsi elle a e e ıser e propos´ de d´sambigu¨ seulement les documents. e e ıser Baziz a ´valu´ son approche en utilisant une collection issue du projet Much- e e More15 [7]. Cette collection contient 7823 documents qui traitent du domaine m´dical e et qui contiennent des r´sum´s d’articles extraits de SpringerLink. La collection e e contient ´galement 25 topics ` partir desquels les requˆtes sont extraites. L’auteur a e a e utilis´ WordNet en consid´rant ses synsets comme des concepts. e e Pour les requˆtes, seule la d´tection des termes et leur pond´ration avec CF.IDF e e e sont appliqu´es du fait de leur taille relativement r´duite. e e Impact de l’indexation conceptuelle : Seuls les concepts (nœuds) des r´seaux e s´mantiques construits sont utilis´s pour indexer les documents. Ces concepts sont e e pond´r´s en utilisant la variante CF.IDF. Les r´sultats ont montr´ que cette m´thode ee e e e ne permet pas d’am´liorer les r´sultats par rapport la m´thode classique bas´e sur e e e e les mots cl´s. L’auteur justifie ce r´sultat par le fait que WordNet ne couvre pas e e tout le vocabulaire utilis´ dans la collection (le taux de couverture repr´sente 87% e e du vocabulaire des documents et 77% du vocabulaire utilis´ dans les requˆtes). Par e e cons´quent, et afin de couvrir la totalit´ des documents/requˆtes lors de l’indexation, e e e Baziz a fait une indexation combin´e utilisant les mots cl´s et les concepts. De ce fait, e e les concepts des r´seaux s´mantiques pond´r´s avec CF.IDF sont ajout´s aux mots e e ee e qui sont r´sultants de l’indexation classique. De cette mani`re, les performances du e e syst`me en pr´cision ont ´t´ am´lior´es de 26%. e e ee e e Impact de la pond´ration avec les C scores : Baziz a ´galement essay´ d’´valuer e e e e l’impact de la pond´ration sur les performances de recherche. Ainsi, au lieu d’utiliser e le CF.IDF, il a utilis´ les C scores correspondant aux quatre mesures de similarit´ e e 15 http ://muchmore.dfki.de (visit´ le 15-12-2006). e 31
  • 45.
    s´mantique utilis´es. Lesdocuments et les requˆtes sont, dans ce cas, repr´sent´s ` la e e e e e a fois par des concepts et des mots cl´s. Lors de l’indexation, si le concept est d´not´ par e e e un multi-mots, il est pond´r´ par le C score, sinon il est pond´r´ par le TF.IDF. Les ee ee r´sultats ont montr´ que cette m´thode peut am´liorer les performances de recherche. e e e e Tout comme Gonzalo [32], Baziz a propos´ une expansion de document en utili- e sant les synsets de WordNet. Ainsi, chaque concept du r´seau s´mantique est ´tendu e e e par ses synonymes (les termes appartenant au mˆme synset de WordNet que lui). e Dans ce cas, deux pond´rations diff´rentes ont ´t´ test´es : e e ee e 1) Les poids des concepts d’origine et de ceux qui sont issus de l’extension sont calcul´s de la mˆme mani`re : les r´sultats restent globalement meilleurs compar´s e e e e e ` l’indexation. a 2) Les synonymes ajout´s ont un poids inf´rieur (multipli´ par 0.5) ` ceux des e e e a concepts d’origine : les r´sultats sont meilleurs compar´s ` l’indexation classique, ce e e a qui est est en accord avec Voorhees [96] o` un facteur α entre 0 et 1 est utilis´ pour u e pond´rer les mots ajout´s (il est report´ que la valeur optimale pour α est 0.5). Ceci e e e paraˆ valable aussi pour l’expansion de document [95]. ıt Baziz a pu conclure que les poids utilisant les mesures de similarit´ donnent e des pr´cisions meilleures que celles obtenues avec CF.IDF. Il a ´galement conclu e e que, dans sa m´thode de d´sambigu¨ e e ısation, le choix de la mesure de similarit´ a e un impact sur la pr´cision de la s´lection des concepts ad´quats. En particulier, la e e e meilleure mesure, d’apr`s ses r´sultats, est celle de Resnik, suivie par les mesures de e e Lin, Lch et Lesk. Discussion La plupart des travaux rapport´s ici ne permettent pas une am´lioration signi- e e ficative des performances des SRI. Un des facteurs qui influencent les performances est sans doute la qualit´ de la ressource externe utilis´e, et surtout sa couverture e e par rapport au vocabulaire du corpus. Dans son exp´rience, Baziz a rapport´ que e e WordNet ne couvre pas tout le vocabulaire utilis´ dans la collection (le taux de cou- e verture repr´sente 87% du vocabulaire des documents et 77% du vocabulaire utilis´ e e 32
  • 46.
    dans les requˆtes)[4]. Par cons´quent, et afin de couvrir la totalit´ du vocabulaire e e e des documents/requˆtes, Baziz a fait une indexation combin´e utilisant les mots-cl´s e e e et les concepts. C’est le seul moyen qui lui a permis d’avoir des r´sultats significatifs. e Ces r´sultats sont confirm´s par Mihalcea et Moldovan, et Sch¨ tze et Pederson qui e e u ont constat´ qu’une indexation par concepts combin´e avec une indexation par mots- e e cl´s est plus performante qu’une indexation bas´e seulement sur les concepts [58][80]. e e Le deuxi`me facteur duquel d´pendent les performances est la qualit´ (pr´cision) e e e e du d´sambigu¨ e ıseur. Afin de mesurer l’impact de la d´sambigu¨ e ısation sur les perfor- mances de recherche, il faut ´valuer le d´sambigu¨ e e ıseur utilis´ en termes de pr´cision. e e Nous pr´sentons donc dans la suite, les travaux les plus repr´sentatifs qui se rap- e e portent ` ce champ de recherche. Ceci nous permettra de comprendre davantage les a raisons d’´checs des approches bas´es sur la d´sambigu¨ e e e ısation des termes. 2.3.3 Evaluation de la d´sambigu¨ e ısation L’impact de la d´sambigu¨ e ısation des termes sur les performances des SRIs a fait l’objet de plusieurs travaux de recherche. En voici deux parmi les plus repr´sentatifs. e Usage d’une simulation d’ambigu¨ e ` base de pseudo-mots ıt´ a Sanderson simule l’ambigu¨ e dans une collection de test en utilisant des pseudo- ıt´ mots [104]. Un pseudo-mot de taille n a n sens diff´rents. Afin d’´viter de cr´er une e e e ambigu¨ e au niveau des pseudo-mots eux-mˆmes, un mot ne peut ˆtre membre que ıt´ e e d’un seul pseudo-mot [77][78]. Dans ses exp´rimentations Sanderson a utilis´ la collection de cat´gorisation e e e de texte Reuters (cr´´e par Hayes [35] et modifi´e par Lewis [49]). La principale ee e diff´rence entre la collection Reuters et les collections de test de RI est que Reuters e ne dispose pas d’ensemble de requˆtes avec les documents pertinents correspondants. e N´anmoins, les documents de Reuters sont balis´s par des codes de sujets assign´s e e e manuellement. Sanderson se sert de ces codes pour utiliser Reuters comme une col- lection de test. Ainsi, il divise al´atoirement la totalit´ des documents de Reuters e e en deux ensembles ´gaux : Q (l’ensemble des requˆtes) et T (l’ensemble des tests). e e Ensuite, l’ensemble S est d´fini comme l’ensemble de tous les codes de sujets qui ont e 33
  • 47.
    ´t´ assign´s `au moins un document dans Q et un document de T. Par cons´quent, ee e a e une recherche peut ˆtre effectu´e en s´lectionnant un des codes de sujets de S. e e e Par exemple, pour effectuer une recherche pour le code C, Sanderson s´lectionne e tous les documents dans Q qui sont ´tiquet´s par C. Ensuite, il effectue une r´injection e e e de pertinence (relevance feedback ) en utilisant les documents s´lectionn´s auparavant e e pour avoir comme r´sultat le code C, plus des mots des documents s´lectionn´s. Le e e e r´sultat produit constitue une requˆte. De cette mani`re, Sanderson a la possibilit´ e e e e de varier la taille de la requˆte en jouant sur le nombre de mots s´lectionn´s. La e e e requˆte est utilis´e pour effectuer une recherche sur les documents de l’ensemble T. e e Les documents qui sont ´tiquet´s par C sont consid´r´s pertinents pour cette requˆte. e e ee e La liste des documents retrouv´s est examin´e pour voir ` quel rang apparaissent e e a les documents ´tiquet´s par C. En fonction de ce rang, des courbes rappel/pr´cision e e e sont g´n´r´es. e ee Sanderson compare les performances du SRI en effectuant d’abord des exp´riences e sur la collection initiale, ensuite des exp´riences sur la mˆme collection en y intro- e e duisant de l’ambigu¨ e ` l’aide des pseudo-mots. Ensuite, il ´tudie l’impact de la ıt´ a e d´sambigu¨ e ısation des pseudo-mots, avec un d´sambigu¨ e ıseur fonctionnant ` diff´rents a e taux de pr´cision, sur les performances de la RI. e Suite ` ses exp´rimentations, Sanderson a pu conclure que quand le d´sambigu¨ a e e ıseur fonctionne ` un taux d’erreurs de 25%, les performances du SRI sont plus mauvaises a que celles qui sont obtenues en utilisant la collection ambigu¨. Avec un taux d’erreurs e de 10%, les performances du syst`me sont similaires ` celles qui sont obtenues sur e a la collection ambigu¨. Il conclut que la d´sambigu¨ e e ısation peut ˆtre b´n´fique ` la RI e e e a quand les requˆtes sont courtes (un ou deux mots) et si le d´sambigu¨ e e ıseur ne fait pas beaucoup d’erreurs (moins de 10%). Ceci confirme la conclusion de Krovetz et Croft [47] selon qui, l’ambigu¨ e des mots a des effets mineurs sur la pr´cision de la ıt´ e recherche. Le fait que l’ambigu¨ e des mots pose probl`mes au SRI seulement quand les ıt´ e requˆtes sont courtes confirme vraisemblablement que les strat´gies de recouvrement e e (matching) entre la requˆte et le document effectuent d´j` une d´sambigu¨ e ea e ısation im- plicite. 34
  • 48.
    Nous pensons quela d´sambigu¨ e ısation partielle est une faiblesse des exp´riences e de Sanderson. Par exemple, sa d´sambigu¨ e ısation du mot spring/bank donne le mot “bank ” ; or ce dernier mot peut ˆtre employ´ dans plus qu’un sens dans le texte de e e la collection. Evaluation de l’impact d’un d´sambigu¨ e ıseur bas´ sur WordNet e Gonzalo et ses coll`gues proposent d’´tudier le b´n´fice d’une recherche ` par- e e e e a tir d’une collection de documents compl`tement d´sambigu¨ ee [32]. Pour ce faire, e e ıs´ ils ont transform´ une partie du corpus SEMCOR en une collection de test de RI. e SEMCOR, un sous-ensemble du corpus Brown, est d´sambigu¨ e manuellement avec e ıs´ des synsets de WordNet. La collection ainsi construite permet d’´valuer un SRI e ind´pendamment des outils de d´sambigu¨ e e ısation. Elle permet ´galement d’´valuer e e l’impact de la d´sambigu¨ e ısation des termes sur les performances des SRI et ce en in- troduisant volontairement des erreurs de d´sambigu¨ e ısation (` diff´rents taux). Ainsi, a e les auteurs peuvent d´terminer jusqu’` quel taux d’erreurs le SRI donne de meilleurs e a r´sultats. e Pour construire la collection test, les auteurs ont pris un ensemble de documents textuels de SEMCOR. A partir de chaque document, ils ont extrait des fragments de texte. Chaque fragment contient une portion coh´rente de texte. En tout, 117 frag- e ments constituent leur collection test avec en moyenne 1331 mots par fragment. Pour chaque fragment, un r´sum´ d´crivant le contenu th´matique a ´t´ ´crit manuelle- e e e e eee ment. Afin de d´sambigu¨ e ıser les termes des r´sum´s, les auteurs les ont ´tiquet´s e e e e manuellement par des synsets de WordNet. Plus pr´cis´ment, les auteurs utilisent e e les num´ros de sens dans WordNet pour ´tiqueter un terme. Chaque ´tiquette est e e e compos´e de la cat´gorie grammaticale (Part Of Speech ou POS), suivie du fichier e e de WordNet auquel appartient le terme, suivie du num´ro du sens dans ce fichier. e Ainsi, le terme “debate” du fichier 10 de WordNet ayant le sens 1 sera ´tiquet´ par e e “debate%1 :10 :1 : :”. Dans ce cas, le sens des termes est consid´r´, mais les termes ee synonymes ne sont pas encore identifi´s. Pour ce faire, les auteurs substituent chaque e sens par l’identifiant du synset qui lui est associ´. Ainsi, “debate%1 :10 :1 : :” sera e substitu´ par l’identifiant du synset “argument, debate” (a discussion in which rea- e sons are advanced for and against some proposition or proposal ; “the argument over 35
  • 49.
    foreign aid gœson and on”). Les r´sum´s ont chacun une taille moyenne de 22 mots. Ils deviennent les requˆtes e e e pour la collection. Par cons´quent, pour chaque requˆte, il y a exactement une seule e e r´ponse pertinente (le fragment pour lequel le r´sum´ a ´t´ ´crit). e e e eee Dans leur ´tude exp´rimentale, les auteurs ont utilis´ le syst`me SMART [74] e e e e avec trois espaces d’indexation diff´rents : les mots initiaux des documents, les mots- e sens (word-senses) correspondant aux termes des documents (c’est ` dire, la version a des documents d´sambigu¨ es manuellement), et les synsets de WordNet correspon- e ıs´ dant aux termes des documents. En se basant sur ces trois espaces d’indexation, les auteurs ont men´ 6 exp´riences : e e 1. Les documents et les requˆtes sont repr´sent´s par des mots simples ; e e e 2. Les documents et les requˆtes sont repr´sent´s par ce que les auteurs appellent e e e les mots-sens (ex. debate et argument seront substitu´s respectivement par e “debate%1 :10 :1 : :” et “argument%1 :10 :3 : :)” ; 3. Les documents et les requˆtes sont repr´sent´s par les synsets de WordNet. En e e e d’autres termes, les mots-sens ´quivalents seront repr´sent´s par un seul synset e e e (ex. “debate%1 :10 :1 : :” et “argument%1 :10 :3 : :)” seront repr´sent´s par e e l’identifiant n04616654 du synset correspondant) ; 4. Diff´rentes versions de la collection sont produites en introduisant volontairement e des erreurs de d´sambigu¨ e ısation ` diff´rents taux : 5%,10%,20%,30% et 60% ; a e 5. Pour compl´ter l’exp´rience pr´c´dente, une version de la collection a ´t´ produite e e e e ee en utilisant tous les sens possibles (dans leurs versions mot-sens et synset) pour chaque terme. Ceci repr´sente une limite pour la d´sambigu¨ e e ısation automa- tique : on ne doit pas d´sambigu¨ si la performance est plus mauvaise que si e ıser l’on consid`re tous les sens possibles ; e 6. Enfin, les auteurs ont produit une version non-d´sambigu¨ ee pour les requˆtes e ıs´ e (avec les deux variantes mots-sens et synsets). Les r´sultats ainsi obtenus (cf. tableau 2.1) repr´sentent la pr´cision pour les e e e documents retourn´s en premi`re position. Ils montrent que les meilleurs r´sultats e e e 36
  • 50.
    Tab. 2.1 –Pourcentage des documents corrects retrouv´s en premi`re position [32] e e Exp´rimentation e % de documents correct re- trouv´s en premi`re position e e Indexation (Id.) avec les synsets 62.0 Id. avec les mots-sens 53.2 Id. avec les mots simples 48.0 Id. avec les synsets avec 5% de 62.0 taux d’erreurs Id. avec 10% de taux d’erreurs 60.8 Id. avec 20% de taux d’erreurs 56.1 Id. avec 30% de taux d’erreurs 54.4 Id. avec tous les synsets possibles 52.6 (pas de d´sambigu¨ e ısation) Id. avec 60% de taux d’erreurs 49.1 Id. avec les synsets avec des 48.5 requˆtes non d´sambigu¨ ees e e ıs´ Id. avec les mots-Sens avec des 40.9 requˆtes non d´sambigu¨ ees e e ıs´ sont obtenus avec l’indexation par synsets o` 62% des documents pertinents ont ´t´ u ee retrouv´s en premi`re position. Ceci repr´sente une am´lioration de 29% par rapport e e e e au r´sultat obtenu avec l’indexation par des mots simples qui est de 48%. e De son cˆt´, l’indexation par mots-sens a permis de retourner 53.2% de docu- oe ments pertinent en premi`re position, am´liorant ainsi les performances de 11% (par e e rapport aux mots simples). Les r´sultats obtenus avec les synsets sont meilleurs que ceux obtenus avec les e mots-sens. Ceci peut ˆtre expliqu´ par le fait que la repr´sentation par synset est e e e plus riche vu qu’un synset contient les synonymes d’un mot-sens. Mˆme avec une indexation par les synsets et sans d´sambigu¨ e e ısation manuelle (chaque terme est repr´sent´ par tous les synsets possibles qui correspondent ` ses e e a diff´rents sens), les r´sultats (52.6%) sont sup´rieurs ` ceux qui sont obtenus par e e e a la repr´sentation par mots simples (48%). Avec une m´thode aussi simpliste, une e e interpr´tation possible de ce r´sultat est que la prise en compte des synonymes, qui e e sont regroup´s dans un synset, a un impact positif dans cette situation de recherche. e 37
  • 51.
    En analysant l’impactde la d´sambigu¨ e ısation sur les performances du SRI, Gon- zalo et al. ont pu conclure que, dans le cas de l’indexation par des synsets, moins de 10% d’erreurs de d´sambigu¨ e ısation n’affecte pas sensiblement les performances. Et ` partir de 10% d’erreurs, les performances commencent ` se d´grader. Ces conclu- a a e sions sont en accord avec celles de Sanderson [77]. N´anmoins, l’indexation par des e synsets donne de meilleurs r´sultats que ceux de l’indexation par mots simples et e ce jusqu’` un taux d’erreurs de 30%. De 30% ` 60%, les r´sultats ne montrent pas a a e des diff´rences significatives entre l’indexation par synsets et l’indexation par mots e simples. Cette conclusion n’est pas en accord avec celle de Sanderson [77] qui pr´tend e qu’il vaut mieux d´sambigu¨ avec au moins une pr´cision de 90% pour avoir des e ıser e bonnes performances. Selon Gonzalo et al., la principale diff´rence entre leur travail e et celui de Sanderson [77] est le langage d’indexation utilis´. Tandis que Gonzalo e et al. utilisent des synsets qui regroupent les synonymes des mots-sens, Sanderson utilise des pseudo-mots ambigus cr´´s artificiellement (tels que “bank /spring”). Il ee n’est pas garanti que ces pseudo-mots se comportent comme de vrais mots ambi- gus. D’ailleurs, par d´sambigu¨ e ısation, Sanderson veut dire s´lectionner - ` partir de e a l’exemple - bank ou spring qui restent eux-mˆmes des mots ambigus. e Discussion Comme not´ par plusieurs chercheurs ([77], [47]), la principale difficult´ pour e e am´liorer les performances de recherche est due ` l’inefficacit´ des d´sambigu¨ e a e e ıseurs utilis´s. En effet, il est judicieux de penser qu’en utilisant un d´sambigu¨ e e ıseur par- fait (ayant une pr´cision de 100%), les performances de recherche seront au moins e ´gales ` celles d’une indexation bas´e sur les mots-cl´s. Les ´tudes men´es jusqu’` e a e e e e a pr´sent ont montr´ que, pour am´liorer les performances de recherche, l’indexation e e e ne doit pas ˆtre seulement bas´e sur les concepts mais ´galement sur les mots, et ce e e e en grande partie ` cause des erreurs provoqu´es par les d´sambigu¨ a e e ıseurs. Nous pouvons constater, ` partir des travaux existants, que la prise en compte du a contenu s´mantique des documents (requˆtes) passe seulement par leur repr´sentation e e e par des concepts au lieu de simples mots. En effet, les documents (requˆtes) dans e ce cas sont consid´r´s comme des sacs de concepts, et les relations s´mantiques qui ee e peuvent exister entre ces concepts ne sont pas exploit´es. C’est pourquoi les docu- e 38
  • 52.
    ments traitant dumˆme th`me que celui de la requˆte ne pourront pas ˆtre retrouv´s e e e e e avec ces approches s’ils ne partagent pas les mˆmes concepts avec cette requˆte. Pour e e r´soudre ce probl`me, certains travaux ont propos´ d’utiliser des ressources externes e e e pour enrichir la repr´sentation du contenu des requˆtes. Ces travaux sont bas´s sur e e e l’expansion de requˆtes et visent ` avoir une repr´sentation ´tendue du contenu de e a e e la requˆte afin d’augmenter les chances de sa correspondance avec les documents qui e lui sont pertinents. Dans la section suivante, nous pr´sentons les travaux les plus e repr´sentatifs qui traitent cet aspect. e 2.4 Usage des ressources externes pour l’expan- sion des requˆtes e Les techniques d’expansion de requˆtes sont apparues depuis plus de 30 ans [76]. e En proc´dant par une expansion de requˆtes, on peut augmenter le rappel et/ou la e e pr´cision de recherche. Les techniques d’expansion de requˆtes peuvent ˆtre r´parties e e e e en deux cat´gories : e - Expansion bas´e sur les connaissances pr´sentes dans le corpus : cette technique uti- e e lise des donn´es statistiques extraites de la collection ´tudi´e (ex. co-occurrences e e e de termes [65], th´saurus de similarit´ [68], etc.). Elle peut ˆtre ´galement bas´e e e e e e sur l’injection de pertinence [14][33][84][102]. L’´tape de d´sambigu¨ e e ısation des mots n’est pas indispensable pour que cette technique fonctionne. Cette ap- proche n’a pas rencontr´ beaucoup de succ`s ; ainsi, Peat a pu conclure que les e e requˆtes ´tendues avec cette m´thode ne sont pas meilleures que les requˆtes e e e e d’origine, et que des requˆtes ´tendues avec des mots choisis al´atoirement e e e donnent des r´sultats parfois meilleurs [65]. Mais avec la disponibilit´ des res- e e sources externes, la m´thode suivante a vu le jour ; e - Expansion bas´e sur les ressources externes : [5][7][59][96] utilisent WordNet pour e ajouter des termes qui sont s´mantiquement li´s ` ceux pr´sents dans la requˆte e e a e e initiale. Cette technique demande une d´sambigu¨ e ısation des mots de la requˆte e initiale. Elle peut ˆtre utile si la d´sambigu¨ e e ısation s’av`re performante, notam- e ment dans le cas des requˆtes courtes qui sont difficiles ` d´sambigu¨ et qui e a e ıser 39
  • 53.
    exigent donc uneexpansion [47][78]. Ces deux techniques peuvent ˆtre combin´es [11][62]. Par exemple, Bodner et e e Song utilisent deux sources de connaissances diff´rentes. La premi`re refl`te les e e e connaissances sp´cifiques au domaine d´crit ` travers la collection utilis´e. Il s’agit e e a e d’une base de connaissances construite automatiquement en utilisant une m´thodee statistique. La deuxi`me contient des connaissances universelles et est utilis´e pour e e compl´ter les lacunes de la premi`re base. Il s’agit d’une adaptation manuelle de e e WordNet [11]. 2.4.1 Expansion de requˆtes bas´e sur les relations lexico- e e s´mantiques de WordNet e Voorhees examine l’utilit´ de l’expansion de requˆte par l’utilisation des rela- e e tions lexicales-s´mantiques dans une grande collection contenant plusieurs domaines. e Elle utilise la collection TREC [34] o` chaque requˆte contient un ensemble de u e champs identifi´s par des balises sp´ciales. Le champ Narrative fournit une des- e e cription d´taill´e de ce que constitue un document pertinent ; le champ Concepts e e contient des mots et des expressions qui sont li´s au th`me de la requˆte. Le champ e e e Description contient une courte description de chaque requˆte g´n´ralement sous la e e e forme d’une simple phrase ; le champ Topic contient un r´sum´ de la requˆte ; le e e e dernier champ d´signe le domaine auquel appartient la requˆte (cf. figure 2.2). e e Elle ajoute un nouveau champ ` la requˆte : une liste de synsets de WordNet, a e s´lectionn´s ` la main, contenant des mots en rapport avec le sujet de la requˆte e e a e (Topic). Le but est de s´lectionner, pour une requˆte particuli`re, les synsets qui ac- e e e centuent les concepts importants du sujet. Le choix des synsets a ´t´ fait par l’auteur ee en se basant sur sa propre compr´hension de la requˆte enti`re et sur le fait que les e e e synsets s´lectionn´s seront utilis´s pour l’expansion. e e e Par exemple, concernant la requˆte 122, le synset drug a plusieurs descendants e dans WordNet ` travers la hi´rarchie is-a (pharmaceutical, stimulants, intoxicants, a e sedatives, etc.) mais qui ne sont pas tous reli´s au concept “cancer fighting”. Dans e ce cas, Voorhees ajoute seulement le synset qui est en relation avec les concepts de la requˆte, c.-`-d. le synset pharmaceutical . La liste compl`te des synsets ajout´s ` e a e e a 40
  • 54.
    Fig. 2.2 –Enonc´ de la requˆte 122 de la collection TREC-1 e e la requˆte 122 est : cancer , skin cancer , and pharmaceutical . e Rien n’a ´t´ ajout´ aux requˆtes dont les concepts n’ont pas des synsets corres- ee e e pondants dans WordNet. Une fois les requˆtes ´tendues par des synsets, le reste du processus est auto- e e matique. Les champs de la requˆte originale sont d’abord index´s par le syst`me e e e SMART [13]. Le processus d’expansion est lanc´ quand le champ de synsets est at- e teint. Pour un synset donn´, il y a un large choix de mots ` ajouter a un vecteur de e a ` requˆte : on peut ajouter au choix seulement les synonymes pr´sents dans le synset, e e ou bien tous les descendants pr´sents dans la hi´rarchie is-a, ou bien tous les syno- e e nymes pr´sents dans les synsets qui ont un lien quelconque avec le synset original, e etc. Le processus d’expansion est param´tr´ pour faciliter la comparaison de l’effi- e e cacit´ d’une vari´t´ de ces sch´mas. Tous les synonymes pr´sents dans les synsets e ee e e ajout´s ` la requˆte sont utilis´s lors du processus d’expansion. e a e e Voorhees utilise le mod`le vectoriel ´tendu pr´sent´ par Fox [29]. Chaque vecteur e e e e de requˆte est compos´ de sous-vecteurs correspondant ` diff´rents types de concepts e e a e (appel´s ctypes) o` ctype correspond ` une relation lexicale. Un vecteur de requˆte e u a e 41
  • 55.
    a potentiellement onzectypes comme par exemple : un pour les mots originaux de la requˆte, un pour les synonymes, un pour chaque type de relation pr´sent dans la e e cat´gorie des noms de WordNet, etc. e Lors des exp´rimentations, l’efficacit´ du syst`me a ´t´ ´valu´e en fonction des e e e eee e types de relations utilis´s pendant l’expansion et le poids relatif donn´ ` chaque type e ea de relation (les αi dans la fonction de similarit´). Quatre types d’expansion ont ´t´ e ee effectu´s : e 1. Seulement par les synonymes ; 2. Par synonymes plus tous les descendants dans la hi´rarchie is-a ; e 3. Par synonymes plus les parents plus tous les descendants dans la hi´rarchie e is-a ; 4. Par synonymes plus tous les synsets li´s directement au synset donn´. La va- e e leur de α du sous-vecteur des mots originaux est plus ´lev´ que celles des α des e e autres sous-vecteurs. Les r´sultats ont clairement montr´ qu’aucune des strat´gies d’expansion n’am´liore e e e e de mani`re significative les performances de recherche compar´es aux requˆtes non e e e ´ ´tendues. Etant donn´ que l’expansion de requˆte telle qu’elle est utilis´e ici est e e e e une m´thode qui sert ` am´liorer le rappel, il n’est pas ´tonnant que les requˆtes e a e e e longues b´n´ficient moins du processus d’expansion que les requˆtes courtes. Voo- e e e rhees a mentionn´ que certaines requˆtes courtes ont pu b´n´ficier du processus e e e e d’expansion. Supposant que les requˆtes courtes ont le potentiel d’ˆtre sensiblement e e am´lior´e par l’expansion, Voorhees a essay´ de voir si ce potentiel peut ˆtre r´v´l´ e e e e e ee par un proc´d´ compl`tement automatique. Ainsi, elle a propos´ un algorithme d’ex- e e e e pansion automatique. De nouveau, les r´sultats n’ont pas ´t´ satisfaisants. e ee Voorhees signale que les requˆtes longues sont tr`s sensibles ` l’expansion et e e a provoquent des r´sultats n´gatifs. En effet, si l’expansion n’est pas contrˆl´e, elle e e oe devient “agressive” et produit un bruit dans la requˆte. Dans cette direction, Qiu e et Frei [68] ont r´v´l´ comment une expansion peut ˆtre utile quand la requˆte est e ee e e ´tendue en choisissant soigneusement les mots ` ajouter. Contrairement aux autres e a m´thodes, leurs requˆtes sont ´tendues en ajoutant les mots qui sont similaires au e e e 42
  • 56.
    concept de larequˆte 16 , plutˆt que de choisir les mots qui sont similaires aux mots e o de la requˆte. Ils proposent un mod`le d’expansion de requˆtes bas´ sur un th´saurus e e e e e de similarit´ construit automatiquement. Ce th´saurus refl`te la connaissance du e e e domaine d´crit dans la collection de documents ` partir de laquelle il est construit. e a Il est repr´sent´ par une matrice contenant des similarit´s mot-mot. Le principe de e e e leur m´thode peut ˆtre compar´ ` la traduction d’un texte d’une langue naturelle e e ea vers une autre : la consultation des dictionnaires pour un mot ne donne pas souvent la r´ponse finale. Au contraire, le traducteur qui connaˆ la signification du texte e ıt doit choisir le mot appropri´ ` partir d’une liste enti`re de traductions possibles. e a e Les exp´rimentations qu’ils ont men´es sur les collections MED, CACM et NPL e e ont donn´ de bons r´sultats. Les performances ont ´t´ am´lior´es respectivement e e ee e e de 18.31%, 22.85% et de 29.21%. Dans cette mˆme id´e d’´tendre les requˆtes d’une e e e e mani`re “contrˆl´e”, Baziz prend en compte le contexte de toute la requˆte et suppose e oe e que mˆme si chaque mot dans une requˆte est individuellement ambigu, l’ensemble e e des mots de cette requˆte pris ensemble contribue ` exprimer une mˆme id´e (sens) e a e e [4][6]. 2.4.2 Utilisation de WordNet pour une expansion “guid´e” e de requˆtes e La d´marche d’expansion de requˆte suivie par Baziz consiste d’abord ` d´tecter e e a e les termes de la requˆte qui renvoient ` des concepts d’une ressource externe, puis, e a de les ´tendre par des termes repr´sentant d’autres concepts proches de ceux de la e e requˆte. Ces termes sont identifi´s grˆce aux liens s´mantiques entre concepts qu’offre e e a e l’ontologie. Baziz rapporte que la d´sambigu¨ e ısation s’effectue en mˆme temps que e l’expansion, en prenant en compte le contexte de la requˆte et en cherchant ` iden- e a tifier les concepts correspondant aux plus longs termes que l’on peut former ` partir a des mots de la requˆte [4][6]. e Baziz a ´tudi´ trois points importants lors du processus d’expansion de requˆte : e e e i) L’apport de chaque type de relation s´mantique ; e ii) L’impact de la pond´ration des termes ajout´s ; e e 16 Qui veut dire la requˆte enti`re (selon la propre terminologie des auteurs). e e 43
  • 57.
    iii) La quantit´de termes ` ajouter. e a En ´tudiant l’usage de diff´rents types de relations s´mantiques pour l’expansion e e e de requˆte, Baziz a propos´ les trois m´thodes suivantes : e e e 1) L’expansion aveugle : chaque terme de la requˆte est ´tendu en utilisant les e e diff´rentes relations s´mantiques. Le r´sultat de cette expansion est un ensemble de e e e concepts candidats (nœuds possibles) reli´s au terme. Une expansion aveugle consiste e alors ` ajouter ` la requˆte initiale tous les concepts possibles pour toutes les rela- a a e tions. Une autre mani`re de proc´der est de faire une s´lection des concepts qui sont li´s e e e e aux termes de la requˆte initiale. Ainsi, Baziz a propos´ une technique qui permet de e e s´lectionner le “meilleur” concept ` ajouter au moment de l’expansion. En se basant e a sur cette technique, il a propos´ deux m´thodes d’expansion : e e 2) L’expansion mod´r´e : ajouter pour chaque terme de la requˆte, le meilleur e e e (un seul donc) concept par type de relation. Dans ce cas, le nombre de concepts ajout´s est ´gal au nombre de termes dans la requˆte. Cette approche traduit l’hy- e e e poth`se que l’utilisateur utilise diff´rents termes pour faire allusion ` plusieurs concepts e e a diff´rents dans sa requˆte. e e 3) L’expansion prudente : ajouter pour toute la requˆte, le meilleur (un seul e donc) concept (pour chaque type de relation). Cette approche traduit l’hypoth`se e que mˆme si les termes de la requˆte peuvent d´crire individuellement des concepts e e e diff´rents, ensemble ils contribuent ` d´noter un seul concept (id´e). Cette id´e a e a e e e ´t´ d´velopp´e par Qiu et Frei qui repr´sentent le contenu de la requˆte par un seul ee e e e e concept qu’ils app`llent “concept virtuel” [68]. Cependant Qiu et Frei ne consid`rent e e pas diff´rents types de relations vu qu’ils utilisent un th´saurus de similarit´ mot-mot. e e e Ces trois m´thodes d’expansion ont ´t´ ´valu´es pour mesurer leurs impacts sur e eee e les performances de recherche. Ainsi, Baziz a utilis´ la collection CLEF-2001. Il a e ´galement utilis´ WordNet pour la d´sambigu¨ e e e ısation et l’utilisation des relations s´mantiques. Les r´sultats pr´sent´s montrent que les trois m´thodes d’expansion e e e e e 44
  • 58.
    am´liorent les performancesde recherche. Les meilleurs r´sultats ont ´t´ obtenus e e ee avec l’expansion prudente (+55%). Ceci confirme la conclusion tir´e par Qiu et Frei, e ` savoir qu’une expansion peut ˆtre utile si la requˆte est ´tendue en choisissant a e e e soigneusement les mots ` ajouter [68]. a Baziz a ´galement ´tudi´ l’impact de la pond´ration des termes ajout´s ` la e e e e e a requˆte. Les r´sultats obtenus montrent qu’une pond´ration uniforme (´gale ` 1) des e e e e a termes d’origine et des termes ajout´s d´grade les performances de recherche de plus e e de 80%. Baziz a ´galement remarqu´ que les performances s’am´liorent sensiblement e e e d`s qu’il affecte aux termes ajout´s un poids inf´rieur ` celui des termes d’origine. e e e a Par exemple, en affectant le poids 0.9 aux termes ajout´s, les performances ont aug- e ment´ de plus de 60%. Tout comme Voorhees [94], Baziz a remarqu´ l’existence d’un e e poids optimal ` utiliser pour les termes ajout´s (0.5) ce qui a permis d’am´liorer les a e e performances de 78%. Voorhees a trouv´ la mˆme valeur (0.5) mais il ne s’agit pas e e du poids des termes ajout´s mais plutˆt d’un nombre r´el qui refl`te l’importance de e o e e termes ajout´s relativement aux termes d’origine. e Finalement Baziz a ´tudi´ l’impact du type de relation utilis´e lors de l’expan- e e e sion sur les performances de recherche. Ainsi, il a pu conclure que l’apport de la relation d’holonymie, est le moins important, puis vient celui de sa relation inverse, la m´ronymie. La relation d’hyponymie qui exprime la sp´cialisation a un meilleur e e apport mais vient derri`re sa relation inverse l’hyperonymie. Cette derni`re a re- e e tourn´ un r´sultat sup´rieur ` celui de la synonymie. e e e a L’effet de plusieurs expansions successives d’une requˆte s’est r´v´l´ n´gatif sur la e e ee e pr´cision du syst`me. En ´tudiant le nombre de termes ` ajouter ` une requˆte lors e e e a a e de l’expansion, Baziz a conclu que le nombre de termes, ` retenir dans le processus a d’expansion, doit ˆtre limit´ pour ne pas engendrer un bruit trop important. e e 2.4.3 Discussion Nous avons montr´ que l’expansion de requˆte peut ˆtre un moyen efficace pour e e e avoir une repr´sentation riche du contenu de la requˆte, et am´liorer ainsi la per- e e e formance du syst`me. Le point cl´ de la r´ussite de cette m´thode r´side dans le e e e e e choix “prudent” des concepts ` ajouter ` la requˆte initiale. En effet, une expansion a a e 45
  • 59.
    “aveugle” ne faitque d´grader les r´sultats en ajoutant du bruit ` la description e e a de la requˆte. Malgr´ l’apport des approches existantes, une limite persiste encore. e e En effet, mˆme apr`s l’expansion, la requˆte est toujours consid´r´e comme un sac e e e ee de concepts. Ceci ne favorise pas la r´solution d’une requˆte pr´cise qui dispose e e e d’une structure s´mantique complexe, et demande ainsi un traitement sp´cifique e e pour mettre en exergue tous les aspects li´s ` son contenu s´mantique. Nous sommes e a e convaincus que la prise en compte des dimensions de domaine est une solution pos- sible pour satisfaire des requˆtes pr´cises. C’est pourquoi nous ´tudions, dans la e e e section suivante, les travaux les plus repr´sentatifs qui s’int´ressent ` la notion de e e a dimensions et qui sont proches de notre probl´matique. e 2.5 Dimensions & RI A notre connaissance, les travaux qui s’int´ressent ` la notion de dimensions sont e a li´s principalement aux d´veloppements d’outils de navigation dans des bases de e e documents. Ces outils sont bas´s sur le paradigme de la recherche dite “bas´e sur e e les facettes” (faceted search) [36][54][66][82][105] ou “bas´e sur les vues” (view-based e search) [52][53]. Dans la litt´rature, les termes “facette”, “vue”, et “dimension” sont e utilis´es pour d´signer la mˆme chose. La recherche bas´e sur les facettes est un e e e e paradigme qui a ´t´ propos´ ` la fin des ann´es 1920, et qui retrouve un regain ee e a e d’int´rˆt (durant la conf´rence SIGIR 2006, il a ´t´ organis´ un atelier17 sur ce ee e ee e th`me). Dans la suite, nous d´crivons ce paradigme et nous examinons quelques e e travaux qui s’inscrivent dans ce champ de recherche. 2.5.1 Le paradigme de la recherche bas´e sur les facettes e La recherche multi-facettes est un paradigme bas´ sur la classification ` facettes e a qui a ´t´ ´labor´e par le math´maticien et biblioth´caire S. R. Ranganathan. Celui-ci e ee e e e a propos´ ce paradigme comme r´ponse au probl`me suivant : “Comment ranger les e e e livres dans une biblioth`que quand on sait qu’il y en a des grands et des petits, des e livres d’histoire et des romans, des auteurs qui ont ´crit les deux et des collections e reli´es qui traitent de tout et que l’on doit y ajouter les dossiers correspondant aux e diff´rents sujets ?” e 17 SIGIR’2006 Workshop on Faceted Search : http ://facetedsearch.googlepages.com/ 46
  • 60.
    D’un point devue ´diteur, l’id´e derri`re le paradigme de recherche multi-facettes e e e est qu’un document, pour ˆtre class´, poss`de g´n´ralement diff´rentes caract´ristiques e e e e e e e (facettes), chacune peut ˆtre d´crite par une hi´rarchie de concepts diff´rente [72]. e e e e De cette mani`re, les r´sultats de recherche (les documents) peuvent ˆtre organis´s ` e e e e a travers des facettes (g´n´ralement) orthogonales. Par exemple, dans une biblioth`que e e e num´rique, les r´sultats peuvent ˆtre group´s par auteur, ann´e de publication, th`me, e e e e e e etc. D’un point de vue utilisateur, l’id´e est de permettre ` l’usager, ` travers une e a a interface graphique, d’avoir plusieurs points d’entr´e pour explorer une base de do- e cuments. Dans ce cas, les facettes offrent diff´rentes hi´rarchies (g´n´ralement or- e e e e thogonales) que l’utilisateur peut utiliser pour naviguer dans une base. Les facettes peuvent ainsi ˆtre vues comme une mani`re de cat´goriser le contenu d’une base e e e de documents pour permettre des interactions utilisateur intuitives. Les hi´rarchies e d´crivant les facettes offrent ` l’usager une vue d’ensemble sur le contenu de la e a collection, et un moyen pour le guider ` formuler son besoin et la requˆte correspon- a e dante. Elles sont donc utilisables pour la navigation, la recherche, et l’organisation des r´ponses [53][105]. e G´n´ralement ce paradigme marche bien dans le cas o` les documents sont an- e e u not´s (de pr´f´rence manuellement), la collection est statique et relativement de e ee petite taille, et son contenu est homog`ne [42]. e Bien que d’une mani`re g´n´rale la structure d’une facette soit hi´rarchique, il e e e e peut y avoir des facettes dont la structure est plate. Dans ce cas, la facette est repr´sent´e par un ensemble18 de termes sans aucune structure entre eux [21]. Le e e contenu des facettes peut correspondre ` des propri´t´s th´matiques ou ` des pro- a ee e a pri´t´s m´ta-donn´es19 des documents [40]. ee e e 18 G´n´ralement de taille r´duite e e e 19 Langue, type du document, date de cr´ation, etc. e 47
  • 61.
    2.5.2 Outils bas´s sur le paradigme de recherche multi-facettes e Le syst`me du mus´e de l’Universit´ d’Helsinki e e e Les auteurs utilisent le paradigme de recherche multi-facettes pour d´velopper e une interface graphique pour la navigation dans une base de photos. Celles-ci sont extraites ` partir de la base du mus´e de l’Universit´ d’Helsinki. Elles contiennent a e e des personnes, des ´v´nements, des lieux, des objets physiques, etc. Les auteurs pro- e e posent d’utiliser une ontologie pour l’annotation des photos et le d´veloppement de e l’interface. L’ontologie est construite manuellement et son contenu est extrait ` par- a tir de celui des photos. Elle est constitu´e d’un ensemble de cat´gories hi´rarchiques e e e qui correspondent ` des facettes. L’annotation des photos est ´galement effectu´e a e e manuellement en utilisant les instances des concepts de l’ontologie. Fig. 2.3 – Interface d’acc`s multi-vues [38][39] e A travers l’interface, l’utilisateur peut naviguer dans les facettes de l’ontologie pour : i ) formuler son besoin d’information au cas o` il ne connaˆ pas le contenu de u ıt la base ; et ii ) formuler la requˆte correspondante. e L’ontologie est ´galement utilis´e par le syst`me pour “fabriquer” des r´ponses e e e e plus significatives en proposant ` l’utilisateur, non seulement l’image qu’il cherche, a 48
  • 62.
    mais aussi lesimages dont le contenu est proche. Dans la figure 2.3, nous pr´sentons une copie d’´cran de l’interface d´velopp´e e e e e par Hyv¨nen et ses coll`gues. Du cˆt´ gauche de l’´cran, l’utilisateur peut choisir o e oe e les facettes ontologiques (ontological view ) selon lesquelles il veut explorer la base. Ceci s’effectue en choisissant des entr´es depuis le menu d´roulant add more views. e e Ces facettes ontologiques sont celles qui ont ´t´ employ´es pour annoter manuelle- ee e ment les photos. Elles indiquent ` l’utilisateur les termes pertinents li´s aux photos. a e L’utilisateur peut focaliser son besoin d’information en naviguant dans ces facettes. En choisissant des entr´es des facettes ontologiques, un filtrage de la base se fait, e et les photos correspondantes apparaissent sur la partie droite de l’interface. Dans la figure 2.3, le choix est Personne=GarlandBinder et Place=Building. Une photo annot´e par ces deux termes est ainsi affich´e20 . Le syst`me recommande ´galement e e e e d’autres photos en se basant sur leurs annotations et les d´finitions ontologiques. A e titre d’exemple, le syst`me peut recommander des photos o` le mˆme GarlandBinder e u e figure mais pas dans un bˆtiment, ou encore des photos prises dans un bˆtiment mais a a d´crivant d’autres personnes. e La difficult´ principale mentionn´e par les auteurs est l’effort suppl´mentaire e e e n´cessaire pour la cr´ation de l’ontologie et les annotations d´taill´es des photos. Ils e e e e ne pr´sentent aucune ´valuation, ni au niveau des performances de recherche ni au e e niveau de l’utilisabilit´ de leur interface. e Le syst`me Flamenco e Le syst`me Flamenco21 propose une interface (cf. figure 2.4) qui permet ` la fois e a la recherche par mot-cl´s et la navigation dans une base d’images selon plusieurs e facettes [36][105]. La base d’images g´r´es par le syst`me est annot´e manuellement ee e e par des descriptions textuelles. Chaque image est associ´e manuellement ` une ou e a plusieurs facettes qui sont elles-mˆmes fabriqu´es manuellement. Le syst`me permet e e e d’afficher ces facettes (hi´rarchiques ou plates) en proposant des liens hypertextes e sur lesquels l’utilisateur peut cliquer pour faire une recherche. Chaque fois que l’uti- lisateur clique sur un lien, un ensemble d’images est propos´ par le syst`me. Lors de e e 20 Le choix de la photo ` afficher en premier en cas o` plusieurs photos sont annot´es par les a u e mˆmes termes n’a pas ´t´ ´voqu´ par les auteurs. e eee e 21 http ://flamenco.berkeley.edu/ 49
  • 63.
    la recherche parmots-cl´s, la notion de multi-facettes n’est pas prise en compte, et e le syst`me affiche tout simplement les images qui sont annot´es par ces mots22 . e e Fig. 2.4 – Interface multi-facettes du syst`me Flamenco e 2.5.3 Fabrication des dimensions/facettes La plupart des travaux existants construisent les facettes manuellement. Une premi`re m´thode consiste ` diviser une ressource existante (ontologie, th´saurus, e e a e etc.) en diff´rentes hi´rarchies, chacune correspond ` une facette. Cette m´thode a e e a e 22 Le choix de l’ordre dans lequel les images doivent ˆtre affich´es n’est pas discut´ par les auteurs. e e e 50
  • 64.
    ´t´ adopt´e parAussenac-Gilles et Mothe qui ont divis´ manuellement une onto- ee e e logie de domaine en diff´rentes hi´rarchies dans le but de d´velopper une interface e e e d’acc`s multi-facettes [1]. Une autre m´thode consiste a fabriquer individuellement e e ` les facettes. Dans ce cas, elles peuvent ˆtre structur´es s´par´ment ou dans une seule e e e e ontologie [39][52]. En ce qui concerne la construction automatique de facettes, le peu de travaux qui s’int´ressent ` cet aspect n’ont pas encore conduit ` des r´sultats aboutis mais e a a e proposent seulement quelques id´es [101][26][87]. e Dakka et ses coll`gues ont propos´ un algorithme qui permet d’enrichir automa- e e tiquement des facettes existantes [26]. Ils utilisent des techniques de classification supervis´e pour classer des nouveaux termes dans des facettes existantes. Pour ce e faire, ils utilisent une base d’images annot´es manuellement. A chaque image est as- e soci´ un ensemble de mots-cl´s, chacun appartenant ` une des facettes. Pour enrichir e e a une facette F, les auteurs utilisent WordNet pour extraire les synonymes des mots utilis´s pour annoter les images appartenant ` F. Ces synonymes seront ajout´s au e a e vocabulaire de F. Les auteurs utilisent la structure de WordNet pour organiser le vo- cabulaire de chaque facette “enrichie” autour d’une hi´rarchie. Pour cela, ils utilisent e des heuristiques pour extraire automatiquement des relations (g´n´rique/sp´cifique, e e e et ´quivalent) entre les mots du vocabulaire de F. e La limite de cette m´thode est que l’algorithme utilis´ est supervis´, par cons´que- e e e e nt, les facettes doivent ˆtre connues ` l’avance, et aucune nouvelle facette ne peut e a ˆtre d´couverte. Une id´e int´ressante serait de d´couvrir automatiquement des nou- e e e e e velles facettes, ce qui pourrait passer par trois ´tapes : i ) d´couvrir automatique- e e ment, et d’une mani`re non supervis´e, ` partir d’une base textuelle, un ensemble de e e a termes candidats pour le vocabulaire d’une facette ; ii ) regrouper automatiquement les termes qui appartiennent ` la mˆme facette ; iii ) construire la structure de chaque a e facette. Pour franchir la premi`re ´tape, Dakka et ses coll`gues ont propos´ un algorithme e e e e qui se base sur des connaissances externes [101]. L’id´e est que les termes utilis´s e e dans les documents sont sp´cifiques et ne d´crivent g´n´ralement pas la facette. Par e e e e exemple, dans un article de presse, un journaliste va mentionner “Jacques Chirac” 51
  • 65.
    sans dire qu’ils’agit d’un “homme politique” ou qu’il est originaire de “l’Europe” ou mˆme de “France”. Ainsi, pour d´couvrir des termes g´n´riques qui d´crivent e e e e e les facettes, les auteurs utilisent des ressources externes23 pour ´tendre le contenu e des documents. L’id´e de base est d’interroger ces ressources et de voir quels termes e co-occurrent souvent avec les termes de la base. L’hypoth`se est que les termes qui e d´crivent les facettes sont des termes rares dans la base de documents mais qui co- e occurrent fr´quemment dans les ressources externes avec les termes de la base. Le e contenu de chaque document est alors ´tendu en utilisant certains termes de la res- e source externe, et ces documents ´tendus sont par la suite utilis´s pour extraire les e e facettes. Finalement, les auteurs font l’hypoth`se que les termes candidats doivent e ˆtre peu fr´quents dans les documents originaux, mais fr´quents dans les documents e e e ´tendus. Ce travail est en cours d’´laboration, et les auteurs ne pr´sentent aucune e e e ´valuation exp´rimentale. e e Pour franchir la deuxi`me et la troisi`me ´tape, Stoica et Hearst proposent de e e e d´couper WordNet en facettes en utilisant la relation d’hyperonymie (is-a) [87]. e L’algorithme propos´ suppose que chaque document de la collection est annot´ par e e une description textuelle. Celle-ci est utilis´e pour fabriquer les hi´rarchies des fa- e e cettes. Le processus consiste ` s´lectionner un ensemble de termes (selon certains a e crit`res statistiques simples) ` partir des descriptions textuelles. L’ensemble des e a termes s´lectionn´s forme un “noyau d’arbre” (tree core). Ce dernier est enrichi par e e des termes extraits de WordNet. Ces termes appartiennent aux chemins d’hyperony- mie qui existent entre les termes du noyau d’arbre dans WordNet. L’´tape suivante e consiste ` r´duire la taille du noyau d’arbre enrichi. Pour ce faire, les auteurs utilisent a e des crit`res simples comme un concept p`re qui a moins de x fils est ´limin´. Fina- e e e e lement, ils suppriment les nœuds tr`s g´n´riques de sorte ` produire les hi´rarchies e e e a e d´sir´es. Quelques exp´riences ont ´t´ effectu´es afin d’´valuer l’algorithme propos´. e e e ee e e e Comme l’algorithme est destin´ ` ˆtre utilis´ par des architectes d’informations (in- eae e formation architects), son ´valuation a ´t´ effectu´e par des utilisateurs de ce type. e ee e 85% des 34 participants ont souhait´ utiliser l’outil dans leur travail. e 23 Comme WordNet ou Wikipedia. 52
  • 66.
    2.5.4 Discussion La recherche multi-facettes est un paradigme prometteur pour la r´solution des e requˆtes pr´cises. Toutefois, les approches bas´es sur ce paradigme ne peuvent fonc- e e e tionner que dans un cadre limit´. En effet, les documents doivent ˆtre annot´s de e e e pr´f´rence manuellement. Ceci impose donc une limite sur la collection qui doit ˆtre ee e statique et relativement de petite taille, et dont le contenu doit ˆtre homog`ne. e e Vu que la recherche se fait par navigation, une grande taille de la hi´rarchie de e concepts peut repr´senter une surcharge cognitive ` laquelle l’utilisateur doit faire e a face pour choisir les entr´es qui l’int´ressent. Dans ce sens, il y a quelques tentatives e e pour afficher dynamiquement les hi´rarchies de concepts ` l’utilisateur, mais il n’y e a a pas encore de r´sultats aboutis [90]. A notre avis, ceci restera un probl`me d´licat e e e dans le sens o` les requˆtes pr´cises contiennent une terminologie tr`s sp´cifique qui u e e e e demande une navigation profonde dans la hi´rarchie de concepts. e La complexit´ de la structure s´mantique des requˆtes pr´cises repr´sente une e e e e e autre difficult´ que les interfaces multi-facettes n’arrivent pas ` surmonter. En ef- e a fet, ce type de requˆtes peut contenir des op´rateurs, et/ou mettre en relation e e des concepts qu’elles contiennent. Ceci demande un traitement sp´cifique pour in- e terpr´ter la s´mantique v´hicul´e par la structure de la requˆte. e e e e e Les travaux bas´s sur le paradigme de recherche multi-facettes supposent que les e facettes existent, et que les documents leurs sont associ´s manuellement. A notre e connaissance, le seul travail qui associe automatiquement des documents ` des fa- a cettes est celui de Aussenac-Gilles et Mothe [1]. Tel qu’il est utilis´, le paradigme de recherche multi-facettes repr´sente une e e mani`re de structurer une collection de documents sous forme de “bases de donn´es” e e o` les facettes correspondent ` des attributs. Ainsi, pendant la navigation, l’usa- u a ger choisit les attributs qui l’int´ressent et le syst`me lui fournit leurs valeurs. Les e e syst`mes existants n’ont pas ´t´ test´s en termes de performance de recherche. A e ee e notre connaissance, la seule ´valuation a ´t´ effectu´e par Yee et ses coll`gues qui e ee e e ont fait une ´tude d’utilisabilit´ d’une interface multi-facettes sur une base d’images e e [105]. Leurs r´sultats ont montr´ que les utilisateurs pr´f`rent utiliser ce type d’in- e e ee 53
  • 67.
    terface aux interfacesd’interrogation bas´es sur les mots-cl´s. e e 2.6 Conclusion Nous nous sommes int´ress´s aux travaux qui utilisent les ressources externes e e pour prendre en compte la s´mantique v´hicul´e par les documents et les requˆtes. e e e e Ainsi, nous avons pu identifier une classe d’approches qui repr´sentent les documents e (requˆtes) par des concepts au lieu des mots-cl´s. Ces approches n´cessitent un pro- e e e cessus de d´sambigu¨ e ısation afin d’associer des concepts aux termes pr´sents dans les e documents (requˆtes). Les r´sultats obtenus jusqu’` pr´sent ont montr´ les limites e e a e e de ces approches par rapport ` celles bas´es sur les mots-cl´s. Un premier facteur a e e qui influe sur les performances d’un SRI bas´ sur les concepts est la pr´cision du e e d´sambigu¨ e ıseur utilis´. Pour cette raison, nous avons examin´ les travaux les plus e e repr´sentatifs qui s’int´ressent ` l’´valuation des d´sambigu¨ e e a e e ıseurs dans le cadre de la RI. Une telle ´valuation permet de savoir avec pr´cision l’impact de la pr´cision e e e du d´sambigu¨ e ıseur sur les performances de recherche. De cette fa¸on, la plupart des c travaux ont pu conclure que l’ambigu¨ e n’a pas un effet dramatique sur les perfor- ıt´ mances de recherche. Au cas o` un d´sambigu¨ u e ıseur est utilis´, il faut qu’il soit tr`s e e pr´cis (≥90%) pour qu’on puisse avoir des bons r´sultats. e e Un deuxi`me facteur dont d´pend les performances de recherche est le degr´ de e e e couverture de la ressource externe utilis´e par rapport au vocabulaire du corpus. A ce e sujet, les rares travaux qui ont obtenu des r´sultats positifs, sont ceux qui combinent e l’indexation conceptuelle avec l’indexation ` base de mots-cl´s. a e Le troisi`me facteur dont d´pend les performances de recherche est la m´thode e e e utilis´e pour “interpr´ter” le contenu s´mantique du document et du besoin d’infor- e e e mation. Dans les approches existantes, une fois les concepts extraits, les documents (requˆtes) sont consid´r´(e)s comme des sacs de concepts. Par cons´quent, les rela- e ee e tions s´mantiques qui peuvent exister entre les diff´rents concepts qu’ils contiennent e e ne sont pas exploit´es. C’est pourquoi des documents qui ne partagent pas les mˆmes e e concepts avec une requˆte ne pourront pas ˆtre retrouv´s avec ces approches mˆme e e e e s’ils sont pertinents pour cette requˆte. L’expansion de requˆtes repr´sente une so- e e e lution possible ` ce probl`me. Plusieurs travaux se sont int´ress´s ` cet aspect, mais a e e e a 54
  • 68.
    rares sont ceuxqui ont eu des r´sultats positifs. Face ` ces ´checs, des chercheurs ont e a e propos´ d’´tendre les requˆtes d’une mani`re “prudente”. Dans cette direction Baziz e e e e a obtenu des r´sultats positifs. Baziz s’est ´galement int´ress´ ` la repr´sentation des e e e ea e documents par des r´seaux s´mantiques qui mettent en relation les concepts du mˆme e e e document. Cependant, ces r´seaux sont utilis´s seulement pour la d´sambigu¨ e e e ısation et pas durant le processus de RI. Mˆme s’il a propos´ une approche d’expansion e e prudente qui lui a permis d’am´liorer les r´sultats, Baziz consid`re de nouveau la e e e requˆte ´tendue comme un sac de concepts. e e Ces r´sultats nous ont persuad´s que le fait de passer d’un niveau mot ` un niveau e e a concept n’est pas suffisant pour prendre en compte le contenu s´mantique des docu- e ments (requˆtes), et r´soudre ainsi des requˆtes pr´cises. Nous sommes convaincus e e e e que la prise en compte des dimensions de domaine repr´sente un moyen pour at- e teindre ces objectifs. Nous avons donc ´tudi´ les principaux travaux qui s’int´ressent e e e aux dimensions de domaine en RI. Les travaux qui s’int´ressent aux dimensions concernent pour le moment la re- e cherche bas´e sur le paradigme multi-facette. Les approches bas´es sur ce type de re- e e cherche sont prometteuses, mais leur application reste limit´e ` petite ´chelle vu que e a e tout le processus d’annotation des documents est manuel. La complexit´ de la struc- e ture des requˆtes pr´cises repr´sente une difficult´ que les interfaces multi-facettes e e e e n’arrivent pas ` surmonter. De plus, ce type de requˆtes contient une terminologie a e tr`s sp´cifique qui demande une navigation profonde dans les hi´rarchies de concepts e e e qui d´finissent les facettes. Ceci repr´sente une lourde surcharge cognitive pour l’uti- e e lisateur lors du choix des entr´es qui l’int´ressent. e e Pour conclure, nous pouvons constater que, malgr´ les efforts fournis par de e nombreux chercheurs, la prise en compte du contenu s´mantique des documents e (requˆtes) reste encore un probl`me largement ouvert. Nous sommes donc persuad´s e e e que les approches existantes qui consid`rent les documents (requˆtes) comme des e e sacs de concepts ne peuvent pas r´soudre des requˆtes pr´cises. Pour notre part, e e e l’approche que nous avons adopt´e consiste ` utiliser les dimensions de domaines. e a L’utilisation des dimensions en dehors du paradigme multi-facette a pour but d’ex- pliciter la structure s´mantique au niveau de la repr´sentation des documents et des e e requˆtes. Nous utilisons les dimensions afin d’extraire les ´l´ments importants qui e ee 55
  • 69.
    contribuent au d´veloppementdu th`me pr´sent dans le document et dans la requˆte. e e e e En se basant sur ces ´l´ments, nous tentons de repr´senter le contenu des documents ee e (requˆtes) en mettant en exergue la s´mantique qu’ils(elles) v´hiculent. Dans la suite e e e du document, nous pr´sentons en d´tails notre contribution et son apport th´orique e e e et pratique par rapport ` l’´tat de l’art. a e 56
  • 70.
    Chapitre 3 Un Mod`lede RI fond´ sur les e e dimensions de domaine 3.1 Pr´ambule e L’objectif de la Recherche d’Information est de s´lectionner les documents per- e tinents qui traitent du th`me de la requˆte. Pour atteindre cet objectif, l’indexation e e joue un rˆle primordial en d´finissant les descripteurs qui repr´sentent les documents o e e et ` partir desquels ils peuvent ˆtre acc´d´s ou analys´s. Dans les approches exis- a e e e e tantes, les descripteurs utilis´s sont les mots ou les termes ou les concepts. Comme e nous l’avons pr´sent´ dans le premier chapitre, ces descripteurs ne sont pas suffisants e e pour interpr´ter le contenu s´mantique des documents/requˆtes, et prendre correc- e e e tement en compte le th`me lors de l’interrogation. e Dans notre travail, nous proposons une nouvelle approche qui consiste ` utiliser a un nouveau type de descripteurs lors de l’indexation : les dimensions de domaine. L’int´rˆt principal de cette approche est de mettre en exergue les aspects li´s aux ee e descriptions s´mantiques du contenu du document et de la requˆte. Nous utilisons e e les dimensions comme un moyen pour compl´ter l’information partielle transmise e par le contenu brut1 des documents/requˆtes. Ceci permet au syst`me de produire, e e d’une part, une repr´sentation pr´cise du contenu s´mantique des documents, et e e e d’interpr´ter, d’autre part, le besoin de l’utilisateur. Ainsi, le jugement de la perti- e nence d’un document pour une requˆte fait intervenir les aspects li´s aux descriptions e e 1 sac de mots, sac de termes, sac de concepts, etc. 57
  • 71.
    s´mantiques du contenudu document et de la requˆte. e e Notre approche concerne l’acc`s ` un corpus o` plusieurs domaines peuvent co- e a u exister. Selon le dictionnaire de l’Acad´mie fran¸aise, un domaine est tout ce qu’em- e c brasse un art, une science, une facult´ de l’esprit, etc. (exemples : le domaine de e la peinture, de la sculpture, de la politique, etc.). Nous travaillons uniquement sur des domaines “connus”, c’est-`-dire qui ont atteint une certaine notori´t´ et par l` a ee a mˆme une certaine stabilit´ (par opposition ` des domaines “nouveaux” qui corres- e e a pondent ` des th´ories en cours d’´laboration et dont la terminologie n’est pas fix´e). a e e e Pour pouvoir acc´der ` ce corpus, nous faisons coexister des ressources externes e a d´crivant chacun de ces domaines. Si plusieurs ´coles de pens´es/conceptions s’af- e e e frontent ` l’int´rieur d’un domaine, nous pensons qu’il est pr´f´rable de les traiter a e ee comme des domaines s´par´s : le but n’est pas de forcer un consensus artificiel sur e e les d´finitions des concepts d’un domaine. Le rˆle d’une ressource externe n’est pas e o de normaliser un domaine, mais de donner une repr´sentation de l’existant. e Chaque domaine pr´sent dans le corpus est d´crit ` travers la ressource externe e e a par trois types de descripteurs : - Dimensions : une dimension d’un domaine est un concept g´n´ral utilis´ pour e e e exprimer des th`mes dans ce domaine. Par exemple, dans le domaine de la Politique e internationale, un th`me peut ˆtre d´velopp´ par un r´dacteur en faisant r´f´rence e e e e e ee aux dimensions “Lieux g´ographiques”, “Personne”, “Ev´nement”, etc. Une mˆme e e e dimension peut appartenir ` diff´rents domaines ` la fois. Par exemple, la dimension a e a “Lieu g´ographique” peut ˆtre utilis´e pour d´velopper les th`mes du domaine de la e e e e e Politique internationale et du domaine du Sport, etc. - Concepts : un concept correspond ` une signification particuli`re d’un mot a e (ou s´quence de mots). Dans un domaine, chaque dimension contient un ensemble e de concepts. Par exemple, la dimension “Personne” dans le domaine du Sport peut contenir les concepts Joueur, Arbitre, Entraineur, etc. - Termes : un terme est constitu´ d’un mot (ou s´quence de mots) qui sert e e pour d´noter un concept dans un domaine particulier. La signification d’un terme e 58
  • 72.
    est d´termin´e parles concepts qu’il d´note ` l’int´rieur du mˆme domaine. e e e a e e 3.2 Introduction Nous proposons ici de d´finir un mod`le de RI capable de satisafaire des utilisa- e e teurs souhaitant formuler leurs requˆtes de la mani`re suivante : e e R1 : “Donne-moi les documents qui parlent du g´n´ral fran¸ais responsable de la e e c cr´ation de la zone de s´curit´ pendant le conflit des Balkans” ; e e e R2 : “Donne moi des documents qui parlent de Bill Gates et de Steve Jobes et au moins de deux soci´t´s d’informatique” ; ee R3 : “Donne-moi des images de type rayon-x contenant une fracture ou une luxa- tion d’un tibia” ; R4 : “Donne-moi des images de type rayon-x des fractures de tous les os de la jambe” ; R5 : “Donne-moi des images de type rayon-x de f´mur sans fracture” ; e R6 : “Donne-moi des images de la peau de la main sans aucune pathologie” ; etc. Les besoins formul´s ` travers ces requˆtes sont dits “pr´cis”. En effet, un utilisa- e a e e teur fait r´f´rence ` des dimensions de son domaine d’int´rˆt pour d´crire pr´cis´ment ee a ee e e e son besoin d’information en utilisant des concepts et des relations s´mantiques entre e eux. Par exemple, dans la requˆte R1 l’utilisateur cherche un ´l´ment de la dimension e ee Personne, en particulier, le nom d’une personne P. Celle-ci est d´crite ` travers deux e a dimensions, en utilisant les deux concepts suivants : G´n´ral qui est un concept de la e e dimension Personne, et France qui est un concept de la dimension Lieu g´ographique. e En effet, la personne recherch´e est un G´n´ral, et originaire de France. e e e 59
  • 73.
    Lors de laformulation d’une requˆte pr´cise, l’utilisateur pourrait souhaiter e e d´crire davantage son besoin en employant des quantificateurs (au moins deux, e tous, etc.) ou bien des op´rateurs bool´ens ET/OU/NON, etc. e e En consid´rant les exigences de l’utilisateur, un langage expressif de requˆte est e e n´cessaire. Il doit permettre ` l’usager d’utiliser des concepts et des dimensions pour e a d´crire son besoin. Il doit ´galement permettre ` l’utilisateur d’employer des relations e e a entre les descripteurs de sa requˆte. Finalement, l’utilisateur doit pouvoir enrichir la e description de son besoin ` travers des op´rateurs. a e Pour interpr´ter les requˆtes pr´cises ainsi formul´es, un traitement sp´cifique est e e e e e n´cessaire : e - Prise en compte des deux types de descripteurs (concepts et dimensions) pour in- terpr´ter le contenu s´mantique v´hicul´ dans la requˆte ; e e e e e - Prise en compte des relations entre descripteurs de la requˆte ; e - Prise en compte des op´rateurs. e Pour pouvoir r´pondre pr´cis´ment ` ce type de requˆtes, leurs sp´cificit´s doivent e e e a e e e ˆtre prises en compte lors de l’indexation des documents. Pour ˆtre retrouv´, un do- e e e cument doit donc ˆtre repr´sent´ par des concepts et des dimensions, et sa description e e e doit permettre de satisfaire des requˆtes qui contiennent des relations s´mantiques e e ainsi que des op´rateurs. e En se basant sur des ressources externes, nous proposons dans la suite un mod`le, e fond´ sur les dimensions, associant des concepts et des relations s´mantiques dans la e e description du contenu des documents(requˆtes). Ce mod`le s’appuie sur un langage e e d’indexation expressif permettant une description pr´cise du contenu des documents. e Il s’appuie ´galement sur un langage de requˆte expressif permettant ` l’utilisateur e e a d’exprimer des requˆtes pr´cises. Les connaissances du domaine sont utilis´es lors de e e e la d´finition de notre mod`le tout en garantissant une repr´sentation uniforme des e e e documents, des requˆtes et de la ressource externe. Ceci a ´t´ effectu´ en utilisant e ee e 60
  • 74.
    un formalisme derepr´sentation de connaissances ad´quat : il s’agit de la logique e e descriptive. 3.3 Sp´cificit´s du mod`le e e e Usage des dimensions Les dimensions dans notre mod`le peuvent ˆtre vues comme une couche descrip- e e tive qui permet d’associer ` un concept un rˆle particulier lors de la description du a o contenu d’un document ou d’une requˆte. Par exemple, sachant que “Joueur” est un e ´l´ment de la dimension Personne, mˆme s’il ne contient pas le terme “joueur”, un do- ee e cument contenant “Zidane” peut ˆtre retrouv´ comme r´ponse ` la requˆte suivante : e e e a e R7 : “Donne-moi les documents qui parlent du joueur fran¸ais qui a ´t´ ´lu c eee meilleur footballeur en 2004 ”. Usage des relations Nous nous int´ressons aux relations s´mantiques que l’on peut trouver dans la res- e e source externe et qui permettent d’apporter une pr´cision sur une entit´ ambigu¨ du e e e document, comme les relations “est un”, ou “partie de”, etc. Exemple : un document r´ponse ` la requˆte R7 doit contenir le nom d’une e a e personne P. P est un “joueur”, et P est originaire de “France”. En utilisant les relations s´mantiques pr´sentes dans la ressource externe, nous pouvons s´lectionner e e e l’ensemble des joueurs fran¸ais. Les documents qui contiennent un des noms de c ces joueurs est un candidat pour r´pondre ` cette requˆte. Mais pour r´pondre e a e e enti`rement et avec pr´cision, il faut prendre en compte les autres informations de e e la requˆte : la date (2004) et la cons´cration (meilleur footballeur). e e Usage des op´rateurs e Nous nous int´ressons ` une formulation pr´cise du besoin de l’utilisateur. Celui- e a e ci veut exprimer ` travers sa requˆte un besoin tel que : “donne-moi les images qui a e 61
  • 75.
    d´crivent une mainsans aucune pathologie”. Il faut donc permettre ` l’utilisateur e a d’employer un op´rateur de n´gation pour exprimer ce genre de besoin. e e Dans la section suivante, nous pr´sentons avec d´tail des exemples typiques de e e besoins d’informations pr´cis que nous proposons de satisfaire ` travers notre mod`le e a e de recherche. L’expression de ces requˆtes dans notre mod`le est pr´sent´e dans la e e e e section 3.6.2. 3.3.1 Exemples typiques de besoins d’information pr´cis e Le but de cette section est d’analyser ce genre de requˆte afin de proposer un e mod`le de recherche ad´quat. Nous pr´sentons donc un ensemble de requˆtes en e e e e d´taillant leurs sp´cificit´s et en sugg´rant des moyens pour les r´soudre. Nous men- e e e e e tionnons la n´cessit´ d’introduire explicitement les dimensions dans la description e e des documents et des requˆtes, ainsi que la n´cessit´ d’utiliser les op´rateurs sur les e e e e dimensions et pas seulement sur les concepts et les termes comme cela a ´t´ d´j` fait ee ea (ex. dans le mod`le bool´en). e e Pour les besoins des exemples, nous supposons que les dimensions suivantes sont disponibles ` travers une ressource externe : a Personne : contenant des politiciens, des sportifs, des c´l´brit´s, etc. ee e Organisation : contenant des entreprises, des organisations internationales, etc. Lieu g´ographique : contenant l’ensemble des lieux dans le monde (continent, e pays, villes, etc.) ; ´ e Ev´nement : contenant des ´v´nements de la vie courante (guerre en Iraq, raz-de- e e mar´e, etc.) ; e Anatomie : contenant les diff´rents membres du corps humain ; e 62
  • 76.
    Pathologie : contenantl’ensemble des maladies qui peuvent affecter le corps hu- main ; Modalit´ : contenant l’ensemble des types des images m´dicales. e e Voici maintenant quelques exemples de besoins d’information pr´cis. e R8 : “Donne-moi les documents qui parlent de Bill Gates et d’une soci´t´ d’infor- ee matique”. L’utilisateur cherche des documents relatifs ` un ´l´ment de la dimension Per- a ee sonne : Bill Gates et ` un ´l´ment de la dimension Organisation : soci´t´ d’infor- a ee ee matique. Un document pertinent doit traiter des deux ´l´ments de dimensions. Ceci ee se traduit par l’op´rateur bool´en de conjonction ET. e e R9 : “Donne-moi les documents qui parlent de Steve Jobs ou de Apple, Inc.”. L’utilisateur cherche des documents relatifs ` un ´l´ment de la dimension Per- a ee sonne : Steve Jobs ou un ´l´ment de la dimension Organisation : Apple, Inc. Un ee document pertinent doit traiter d’un des deux ´l´ments de dimensions. Ceci se tra- ee duit par l’op´rateur bool´en de disjonction OU. e e R10 : “Donne-moi des images qui montrent un tibia sans aucune pathologie”. L’utilisateur cherche des images qui contiennent un ´l´ment de la dimension Ana- ee tomie : tibia sans aucun ´l´ment de la dimension Pathologie : pas de fracture ou ee luxation, etc. Un document pertinent doit contenir l’´l´ment de la dimension Ana- ee tomie et ne doit pas contenir l’´l´ment de la dimension Pathologie. Ceci se traduit ee par l’op´rateur bool´en de n´gation NON. e e e Il est possible qu’un document pr´sente un tibia sans aucune pathologie, mais e montre aussi une autre partie de l’anatomie avec d’autres pathologies que celles qui 63
  • 77.
    peuvent affecter letibia. Dans ce cas, ce document peut ˆtre consid´r´ pertinent. Il e ee faut donc distinguer, au moment de l’interrogation, qu’il faut exclure seulement les documents qui contiennent des pathologies du tibia. Ceci peut se traduire par une relation entre les ´l´ments de dimensions au moment de la formulation de la requˆte. ee e R1 : “Donne-moi les documents qui parlent du g´n´ral fran¸ais responsable de la e e c cr´ation de la zone de s´curit´ pendant le conflit des Balkans”. e e e Un utilisateur peut pr´ciser ` travers sa requˆte ce dont le document doit obli- e a e gatoirement parler. Il peut ´galement introduire des descripteurs dont le document e r´ponse ne doit pas obligatoirement parler. Par exemple, a travers la requˆte R1, e ` e l’utilisateur cherche un ´l´ment de la dimension Personne, en particulier, le nom ee d’un g´n´ral fran¸ais. Donc un document pertinent doit obligatoirement parler du e e c nom de cette personne. Mˆme si ce document ne parle pas du conflit ou des Bal- e kans, il peut ˆtre consid´r´ pertinent. Donc tandis que l’´l´ment de la dimension e ee ee Personne est obligatoire, les autres ´l´ments de dimensions peuvent ˆtre option- ee e nels (´v´nement et lieu g´ographique). Les op´rateurs bool´ens ne sont pas suffisants e e e e e pour exprimer ces deux notions. En effet, l’emploi d’un op´rateur bool´en implique e e toujours l’utilisation de deux ´l´ments. Ceci ne permet donc pas ` l’utilisateur d’ex- ee a primer qu’il y a un seul ´l´ment qui est obligatoire ou bien un seul ´l´ment qui est ee ee optionnel. D’une part, l’utilisation du ET implique que les deux ´l´ments en ques- ee tion sont obligatoires. D’autre part, l’utilisation du OU implique que l’un des deux ´l´ments en question est optionnel, sans pr´ciser lequel. La notion d’obligation n’est ee e pas nouvelle : certains moteurs de recherche 2 utilisent un tel crit`re (repr´sent´ par e e e le pr´fixe “+”) afin de fournir une syntaxe plus simple et plus intuitive, permet- e tant ainsi de r´soudre la difficult´ rencontr´e par les utilisateurs pour exprimer des e e e requˆtes bool´ennes. e e Ces deux types d’expressions de besoins peuvent ˆtre prises en compte en uti- e lisant des op´rateurs sur les ´l´ments de dimensions pr´sents dans la requˆte. Ces e ee e e op´rateurs peuvent ˆtre : obligatoire ou optionnel. Ils ont ´t´ d´taill´s dans [48][44] e e ee e e dans un contexte o` l’utilisateur a d´j` vu les documents et ne se souvient pas exac- u ea tement de leur contenu. Nous pouvons reprendre ces op´rateurs afin de donner les e 2 ex. Google, Altavista, etc. 64
  • 78.
    moyens ` l’utilisateurde d´crire avec pr´cision son besoin d’information. a e e Il est possible que l’utilisateur n’arrive pas ` utiliser les deux op´rateurs pr´c´dents. a e e e Par exemple, imaginons que l’utilisateur puisse consid´rer que les documents qui e traitent du th`me de sa requˆte sont pertinents, mais en privil´giant ceux qui contien- e e e nent le nom de la personne d’abord, ensuite ceux qui parlent du conflit, ensuite ceux qui parlent des Balkans. Dans ce cas, l’expression de ce besoin peut ˆtre mise en e œuvre avec un op´rateur priorit´. Celui-ci permet ` l’utilisateur d’avoir plus de flexi- e e a bilit´ lors de la d´finition de son besoin. Ainsi, il peut donner la plus grande priorit´ e e e aux documents qui contiennent le nom de la personne recherch´e, et une priorit´ e e moins importante aux documents qui contiennent les autres ´l´ments de dimensions. ee Nous pouvons imaginer un sc´nario o` l’utilisateur veut donner des poids aux e u ´l´ments de dimensions de sa requˆte . La valeur de chaque poids peut ˆtre comprise ee e e entre 0 et 1. 1 ´tant la valeur la plus ´lev´e qui signifie que l’´l´ment de dimension e e e ee correspondant est tr`s importante dans la requˆte et obligatoire, et 0 signifie que e e l’´l´ment de dimension correspondant est optionnel. L’expression de ce besoin peut ee se faire ` travers un op´rateur jauge. Ainsi, l’utilisateur peut pr´ciser explicitement a e e les degr´s d’importance relatifs aux ´l´ments de dimensions pr´sents dans sa requˆte. e ee e e Jusqu’` pr´sent, nous avons vu des cas o` la requˆte contient un seul ´l´ment de a e u e ee chaque dimension. Il est possible que la requˆte contienne plusieurs ´l´ments de la e ee mˆme dimension. La question est donc de savoir quel(s) op´rateur(s) utiliser entre e e les ´l´ments d’une mˆme dimension. Nous essayons de r´pondre ` cette question ` ee e e a a travers les exemples suivants. R11 : “Donne-moi les documents qui parlent de Bill Gates et Steve Jobs et d’une soci´t´ d’informatique”. ee Dans cette requˆte, il y a deux ´l´ments de la dimension Personne : Bill Gates et e ee Steve Jobs, et un ´l´ment de la dimension Organisation : soci´t´ d’informatique. ee ee Un document pertinent doit parler des DEUX ´l´ments de la dimension Personne ee pr´sents dans la requˆte ET d’un ´l´ment de la dimension Organisation. Dans ce e e ee cas, il faut utiliser l’op´rateur ET entre les ´l´ments de la dimension Personne. e ee 65
  • 79.
    R12 : “Donne-moiles images qui montrent une fracture ou une luxation d’un ti- bia”. Deux dimensions sont pr´sentes dans cette requˆte : la dimension Pathologie : frac- e e ture, luxation ; la dimension Anatomie : tibia. Une image pertinente doit contenir une fracture OU une luxation, ET un tibia. Dans ce cas, il suffit d’utiliser l’op´rateur e OU entre les ´l´ments de la dimension Pathologie pour pr´ciser le besoin de l’utili- ee e sateur. R13 : “Donne-moi des images qui montrent un tibia sans fracture”. L’utilisateur cherche des images qui contiennent un ´l´ment de la dimension Anato- ee mie : tibia sans l’´l´ment de la dimension Pathologie : fracture. Il est possible qu’un ee document contenant un autre ´l´ment de la dimension Pathologie (ex. luxation) soit ee pertinent pour cette requˆte. Pour bien pr´ciser ce besoin d’information, il faut uti- e e liser l’op´rateur de n´gation NON sur la pathologie de type fracture seulement et e e pas sur tous les ´l´ments de la dimension Pathologie. ee R2 : “Donne-moi les documents qui parlent de Bill Gates et Steve Jobs et au moins de deux soci´t´s d’informatique”. ee Nous remarquons ` partir de cette requˆte que l’utilisateur cherche un document a e qui parlent de deux ´l´ments de la dimension Personnes : Bill Gates et Steve Jobs, ee dont les noms sont connus ET AU MOINS DE DEUX ´l´ments de la dimension ee Organisation : soci´t´ d’informatique, dont les noms sont inconnus. Par cons´quent, ee e un document qui parlent des deux personnes avec une seule soci´t´ informatique ne ee satisfait pas le besoin de l’utilisateur. Il est donc n´cessaire d’introduire un op´rateur e e quantificateur qui permet ` l’utilisateur de pr´ciser ` travers sa requˆte le nombre a e a e d’´l´ments de dimension recherch´s. L’utilisateur pourra donc pr´ciser qu’il cherche ee e e des documents qui parlent de deux soci´t´s d’informatique ou plus. ee 66
  • 80.
    R14 : “Donne-moiles images qui montrent une hanche sans pathologie”. Nous remarquons que l’utilisateur ne pr´cise pas le nom de l’´l´ment de la dimension e ee Pathologie qu’il cherche. La seule information qu’il fournit est qu’il s’agit d’une pathologie de la hanche. Dans ce cas, il est possible que les documents pertinents ne contiennent pas le terme “pathologie” mais contiennent plutˆt des termes comme o “Fracture” et/ou “Luxation”, etc. Afin que le syst`me puisse bien interpr´ter le e e contenu s´mantique de cette requˆte, il faut qu’il arrive ` inf´rer que “pathologie” e e a e n’est pas le terme recherch´ mais plutˆt une description des ´l´ments recherch´s. Un e o ee e moyen possible est de permettre ` l’utilisateur de faire explicitement cette pr´cision. a e Il peut ainsi sp´cifier qu’un terme de sa requˆte repr´sente une description d’un e e e ´l´ment recherch´. On peut aussi fournir ` l’utilisateur les moyens pour utiliser des ee e a relations s´mantiques. Ainsi, il peut pr´ciser que les ´l´ments recherch´s sont des e e ee e “pathologies qui affectent la hanche”. Ainsi, lors de la recherche, le syst`me ne se e contente pas de rechercher les documents qui contiennent le terme “pathologie”, mais surtout les documents qui contiennent des types de pathologies qui affectent la hanche. 3.3.2 Vers un mod`le de RI orient´ pr´cision e e e Les approches existantes semblent insuffisantes devant les exigences que nous avons pr´sent´es. Elles traitent les documents et les requˆtes comme des sacs de e e e concepts lors de l’indexation et sont donc incapables de r´soudre des requˆtes pr´cises. e e e Le mod`le bool´en repr´sente une solution possible pour prendre en compte les e e e op´rateurs bool´ens, mais il reste toutefois limit´ devant la complexit´ de la struc- e e e e ture s´mantique des requˆtes pr´cises auxquelles nous nous int´ressons. Il faut donc e e e e avoir recours ` de nouveaux formalismes de repr´sentation de connaissances pour a e introduire plus de s´mantique lors de l’indexation. Il faut utiliser une ressource ex- e terne pour repr´senter le contenu s´mantique des documents et requˆte. Il serait ainsi e e e souhaitable d’avoir une repr´sentation uniforme des documents, requˆtes, et de la res- e e source externe. Ceci peut ˆtre atteint en utilisant un formalisme de repr´sentation e e de connaissances commun ` ces trois ´l´ments. Ce formalisme doit aussi proposer a ee une op´ration de comparaison jouant le rˆle de la fonction de correspondance d’un e o SRI. Il doit ´galement prendre en compte les exigences des utilisateurs en termes e d’op´rateurs (bool´ens, quantificateurs, etc.). e e 67
  • 81.
    Plusieurs formalismes ont´t´ exp´riment´s dans ce sens. Nous notons parti- ee e e culi`rement les Arborescences S´mantiques [9], les Graphes Conceptuels [16][63] et e e les Logiques Descriptives [55][56][57]. Le choix du formalisme de repr´sentation de connaissances ad´quat d´pend ´vide- e e e e mment de nos besoins. Nous avons opt´ pour les Logiques Descriptives qui per- e mettent d’exprimer la connaissance d’un domaine particulier et raisonner sur cette derni`re de fa¸on efficace. Ainsi, il est possible que les trois sources de connais- e c sances (repr´sentation du document, de la requˆte, et de la ressource externe) soient e e repr´sent´es par le mˆme formalisme, ce qui assure que toutes ces sources de connais- e e e sances participent au processus de recherche d’une mani`re uniforme. Ce formalisme e dispose par ailleurs d’un niveau d’expressivit´ assez ´lev´ qui convient tr`s bien ` e e e e a la repr´sentation pr´cise des documents et des besoins d’informations. Par exemple, e e il contient tous les op´rateurs dont nous avons besoin dans notre mod`le. Ces rai- e e sons font des Logiques Descriptives une solution particuli`rement appropri´e pour la e e mod´lisation dans notre contexte de RI. e Dans la section suivante, nous introduisons les logiques descriptives, puis nous pr´sentons leurs applications dans notre mod`le de RI. e e 3.4 La logique descriptive La logique descriptive (DL) [2], appel´e ´galement logique terminologique [12] est e e une famille de formalismes de repr´sentation de la connaissance bas´e sur la logique. e e Elle est con¸ue pour repr´senter et raisonner sur la connaissance d’un domaine d’ap- c e plication d’une mani`re structur´e. Elle descend des formalismes plus anciens que e e sont les r´seaux s´mantiques et les “frames”. e e Les notions de base de la DL sont les concepts atomiques et les rˆles atomiques. o Les concepts sont interpr´t´s comme des sous-ensembles d’individus constituant soit ee des entit´s, soit des ´l´ments particuliers du domaine a mod´liser. Dans ce deuxi`me e ee ` e e cas, ils sont appel´s des constantes individuelles. Les rˆles, quant ` eux, repr´sentent e o a e des relations binaires entre des concepts, toujours sur le mˆme domaine. Une majo- e 68
  • 82.
    rit´ de DLspermet d’exprimer qu’une constante individuelle est une instance d’un e concept particulier, ou qu’une paire de constantes individuelles est une instance d’un rˆle donn´. o e Chaque DL est caract´ris´e par les constructeurs qu’elle fournit pour former des e e concepts et rˆles complexes ` partir des concepts et rˆles atomiques. D’abord, deux o a o constructeurs de concepts assez particuliers sont g´n´ralement introduits : il s’agit e e des constructeurs “Top” et “Bottom”, d´notant respectivement, l’ensemble de tous e les individus du domaine de discours et l’ensemble vide. Les deux constructeurs conjonction (⊓) et disjonction (⊔) sont respectivement l’intersection et l’union de concepts. Le quantificateur existentiel typ´ (∃ R.C o` R est un rˆle et C un concept) e u o et le quantificateur universel (∀ R.C) sont tels que : - Pour qu’un objet a soit l’instance de l’ensemble ∃ R.C, il doit exister un objet b, qui est une instance de C et qui est li´ ` a via R ; ea - a est une instance de l’ensemble ∀ R.C, si tous les objets li´s ` a via R sont des e a instances de C. Le composant terminologique de la logique descriptive est la T(erminologique)- Box. Elle est utilis´e pour introduire des noms (abr´viations) pour les concepts e e complexes. Elle permet la d´claration des axiomes g´n´raux d’inclusion de concepts e e e (G´n´ral Concepts Inclusion (GCI) axiomes). Un GCI est de la forme C ⊑ D ou e e C ≡ Do` C et D sont des concepts sans restriction. Une T-Box est donc un en- u semble, qui peut ˆtre vide, de GCI. e Les DL adoptent toutes une s´mantique reposant sur une interpr´tation ensem- e e bliste des termes. Ce proc´d´ est connu sous l’appellation de s´mantique d´notationn- e e e e elle (denotational semantics). Ils introduisent ainsi une interpr´tation I = (∆I , .I ) e qui consiste en un ensemble non vide ∆I appel´ le domaine de discours de I, et en e une fonction . qui associe pour chaque nom de concept C un ensemble C I ⊆ ∆I , et I pour chaque nom de rˆle R, une relation binaire RI ⊆ ∆I × ∆I . o Une interpr´tation I satisfait le GCI C ⊑ D si C I ⊆ D I . I satisfait la T-Box e 69
  • 83.
    T , siI satisfait tous les GCI dans T . Dans ce cas, I est appel´ mod`le de T . Un e e concept C est satisfiable par rapport ` une T-Box T s’il y a un mod`le I de T tel a e que C I = ∅. Ainsi, un algorithme de satisfiabilit´ (consistance) teste si un concept e donn´ peut effectivement ˆtre instanci´. Un ´l´ment d ∈ C I est appel´ une instance e e e ee e de C. Le composant assertionnel de la logique descriptive est la A(ssertion)-Box. Celle- ci contient l’ensemble des assertions. Par exemple, si la T-Box contient le concept Personne, alors la A-Box peut contenir Jacques qui en est une instance. Il existe des algorithmes, pour certaines logiques descriptives, pour calculer la taxonomie de la T-Box : c’est la hi´rarchie de subsomption de tous les concepts e introduits dans la T-Box. Ils offrent une capacit´ de raisonnement qui d´duit de la e e connaissance implicite ` partir de celle qui est donn´e explicitement dans la T-Box T . a e Ainsi, l’algorithme de subsomption d´termine les relations de sous et super-concepts : e un concept C est subsum´ par un concept D (C ⊑T D), si chaque instance de C est e aussi une instance de D, c’est-`-dire, si chaque mod`le I de la T-Box T interpr`te a e e C comme un sous ensemble de l’interpr´tation de D (C I ⊆ D I ). Deux concepts sont e dits ´quivalents s’ils se subsument mutuellement : C ≡ D si C ⊑ D et D ⊑ C. e Il existe plusieurs logiques descriptives, la minimale ´tant le langage AL (Attribut- e ive Langauge). Ce langage ne remplit pas les exigences de notre mod`le, a savoir e ` contenir tous les op´rateurs bool´ens, l’op´rateur de quantification, etc. En fonc- e e e tion de nos besoins, nous avons choisi un langage DL qui a un pouvoir d’expressivit´ e sup´rieur ` AL. Il s’agit du langage ALCQ (Attributive Language with Complements e a and Qualified number restrictions) dont la syntaxe et la s´mantique sont repr´sent´es e e e dans la section suivante. 3.4.1 Syntaxe et s´mantique du langage ALCQ e Les descriptions de concepts sont form´es selon les r`gles syntaxiques pr´sent´es e e e e dans le tableau 3.1. Soient c un concept atomique, r un rˆle atomique et C et D des o descriptions de concepts. L’interpr´tation de concepts complexes est d´finie dans le e e tableau 3.1. 70
  • 84.
    Tab. 3.1 –Syntaxe et s´mantique du langage ALCQ. e Constructeur Syntaxe S´mantique e I Nom de concept c c Top (concept univer- ⊤ ∆I sel) N´gation de concepts ¬C e ¬C I = ∆I C I non n´cessairement e primitifs Bottom ⊥ ∅ Conjonction C ⊓D C I ∩ DI Disjonction C ⊔D C I ∪ DI Quantificateur univer- ∀R.C {d ∈ ∆I |∀ e ∈ ∆I .(RI (d, e) → e ∈ C I )} selle Quantificateur exis- ∃R.C {d ∈ ∆I |∃ e ∈ ∆I .(RI (d, e), e ∈ C I )} tentiel typ´e Restriction de nombre nR.C {d ∈ ∆I ||{e|RI (d, e), e ∈ C I }| n} qualifi´e e Restriction de nombre nR.C {d ∈ ∆I ||{e|RI (d, e), e ∈ C I }| n} qualifi´e e Voici quelques exemples pouvant ˆtre exprim´s en ALCQ : e e Soient P ersonne et F eminin des concepts atomiques. Alors P ersonne ⊓ F eminin ´ ´ (les personnes qui sont f´minines) et P ersonne ⊓ ¬F eminin (les personnes qui ne e ´ sont pas f´minines) sont des concepts ALCQ. e Soit a-enfant un rˆle atomique, nous pouvons alors former les concepts : o - P ersonne ⊓ ∃ a-enfant.⊤ d´note les personnes qui ont un enfant ; e - P ersonne ⊓ ∀ a-enfant.F eminin d´note toutes les personnes dont les enfants sont ´ e des filles ; - P ersonne ⊓ ∀ a-enfant.⊥ d´note les personnes qui n’ont pas d’enfant. e Si F emme ≡ P ersonne ⊓ F eminin, alors : ´ - ¬F emme d´note les individus qui ne sont pas des femmes ; e 71
  • 85.
    - F emme⊓ ∃ a-enfant.P ersonne d´note les m`res ; e e - F emme ⊓ 3a-enfant.P ersonne d´note les m`res qui ont au moins trois enfants. e e 3.4.2 Logique Descriptive et Recherche d’Information L’application de la logique descriptive au domaine de la RI est prometteuse, car il suffit de consid´rer le corpus des documents comme un sous-ensemble du domaine e de discours choisi, et y repr´senter les documents et les requˆtes par des concepts. e e Ainsi, chaque document d (requˆte q) sera repr´sent´(e) dans la T-Box T par son e e e index docI (qI) qui est une expression (concept) ALCQ. docI est une abstraction (repr´sentation) d’un ensemble de documents qui ont le mˆme contenu. Les docu- e e ments physiques repr´sentent alors les instances de docI. Conform´ment ` la termi- e e a nologie des DL, la correspondance entre une requˆte q et un document doc se calcule e ainsi dans la hi´rarchie de subsomption : un document doc est pertinent pour une e requˆte q si le concept docI est subsum´ par le concept qI : docI ⊑T qI (cf. figure 3.1). e e Ainsi, pour r´pondre ` une requˆte q, le SRI s´lectionne les documents dont l’index e a e e docI est subsum´ par le concept qI. Cette id´e s’appuie sur le mod`le logique propos´ e e e e par Van Rijsbergen qui consid`re le processus de recherche comme une ´valuation e e d’une implication logique entre la requˆte q et chaque document doc du corpus, re- e lativement ` un ensemble de connaissances K [93]. Ceci ind´pendemment du choix a e de formalisme de repr´sentation de doc, q et K. Selon la suggestion de Van Rijsber- e gen, seuls doivent ˆtre consid´r´s pertinents, les documents dont on peut d´duire la e ee e requˆte d’une mani`re logique. La correspondance revient donc ` donner une mesure e e a d’incertitude PK (doc → q). Meghini et ses collaborateurs [56] ont propos´ une DL nomm´e MIRTL comme un e e formalisme ad´quat pour la conception des SRI bas´s sur le mod`le logique. La DL e e e ainsi propos´e a ´t´ utilis´e pour la repr´sentation des documents selon diff´rentes e ee e e e caract´ristiques : le contenu du document, la structure, le contexte, etc. Nous allons e nous inspirer de ce travail afin de tirer profit des DL dans notre mod´lisation. e Dans les sections suivantes, nous allons voir comment nous utilisons les DL dans notre contexte de mod´lisation d’un mod`le de RI orient´ pr´cision. e e e e 72
  • 86.
    Fig. 3.1 –Correspondance entre une requˆte et un document repr´sent´s en logique e e e descriptive. 3.5 Mod`le de RI : notation et d´finitions e e Nous d´finissons ici, d’une mani`re g´n´rale, les composantes de notre mod`le de e e e e e Recherche d’Information. 3.5.1 Ressource externe Nous pr´sentons ici le mod`le formel de la ressource externe K d´crivant l’en- e e e semble des connaissances pr´sentes dans le corpus. e Soit C = {c1 . . . cnc } un ensemble de nc concepts atomiques, R = {r1 . . . rnr } un ensemble de nr rˆles. Nous appelons S = (C, R) la signature de K. Une fois que la o signature S est fix´e, une interpr´tation I pour S est une paire I = (∆I , .I ) o` : e e u - ∆I est un ensemble non vide ; - .I est une fonction assignant : ◦ Un sous-ensemble CiI ⊆ ∆I ` chaque concept atomique ci ∈ C ; a ◦ Une relation Ri ⊆ ∆I × ∆I ` chaque rˆle Ri ∈ R ; I a o 73
  • 87.
    Dans notre contextede RI, nous nous int´ressons ` la mod´lisation du contenu des e a e documents et non ` la mod´lisation du monde r´el. Ainsi, la fonction d’interpr´tation a e e e .I d´pend du contenu des documents. C’est-`-dire, l’interpr´tation d’un concept ne e a e repr´sente pas des entit´s du monde r´el, mais plutˆt un ensemble d’instances dans les e e e o documents. Par exemple, l’interpr´tation de “Berlusconi” n’est pas la personne elle- e mˆme dans le monde r´el, mais plutˆt ses apparitions dans les documents. Chaque e e o apparition de “Berlusconi” dans un document diff´rent est une instance : “Berlusconi e en tant que pr´sident du club Milan AC”, “Berlusconi en tant que Premier ministre e de l’Italie”, etc. Pour cette raison, dans notre mod´lisation la A-Box est un ensemble e vide, et les documents et les requˆtes sont repr´sent´s uniquement par des concepts. e e e Par exemple, Zidane, qui est en principe une instance du concept Joueur, donnera lieu au concept Zidane ⊑ Joueur qui sera stock´ dans la T-Box. Comme nous le e verrons dans la suite, ceci ne repr´sente aucune contrainte lors de la repr´sentation e e du contenu des documents et des requˆtes. Bien au contraire, nous aurons un cadre e unifi´ o` la requˆte de l’utilisateur peut faire r´f´rence ` la fois ` des “instances” e u e ee a a (Zidane) et ` des “concepts” (joueur ). De plus, en RI il n’y a pas un besoin ´vident a e de s´parer les concepts des instances. Parfois, afin de bien d´crire un ´l´ment, il est e e ee mˆme n´cessaire d’utiliser dans la mˆme phrase des termes qui d´notent des concepts e e e e et d’autres d´notant des instances. Par exemple, pour chercher des documents qui e parlent de Berlusconi, il est parfois n´cessaire de pr´ciser le besoin d’information e e en utilisant, en plus de l’instance “Berlusconi”, le concept “pr´sident du club Milan e AC” ou bien le concept “Premier ministre de l’Italie”. ´ Etant donn´ le langage de description ALCQ et une signature S, une ressource e externe K dans ALCQ est un quadruple K = (S, T, A, Dim), tel que T est la T-Box, A est la A-Box, et Dim est l’ensemble des dimensions. Pour des contraintes pratiques (l’existence des ressources hi´rarchiques), nous im- e posons une condition n´cessaire pour d´finir une dimension ` travers la hi´rarchie3 e e a e de la ressource externe K. Ainsi, une dimension dimi est d´finie par un concept e rac dimi et tous les concepts qu’il subsume. Formellement une dimension dimi issue d’une ressource K est d´finie comme suit : e 3 D´finie par l’ensemble d’axiomes terminologiques de la forme C ⊑ D, o` C et D sont des e u expressions ALCQ sur la signature S. 74
  • 88.
    dimi = (racdimi , Ci) o` : u - rac dimi ∈ C est le concept racine de la hi´rarchie d´finissant dimi ; e e - Ci = {c ∈ C | c ⊑ rac dimi } est l’ensemble des concepts sp´cifiques ` dimi . e a Ainsi, Dim = {dimi . . . dimnd } forme l’ensemble des nd dimensions d´finies ` e a travers la ressource externe K. Cette d´finition est simplifi´e car elle correspond seulement ` des ressources or- e e a ganis´es autour d’une hi´rarchie de concepts. La r´alit´ peut ˆtre plus complexe, e e e e e notamment en organisant les connaissances d’un domaine dans une ressource non hi´rarchique. Il peut donc exister des dimensions de domaine qui ne font pas partie e de la cat´gorie des dimensions que nous avons d´finies. e e Dans un cas r´el, il est possible qu’il n’y ait pas une sous-hi´rarchie qui d´finisse e e e explicitement la dimension. Dans ce cas, il est possible que la dimension en ques- tion puisse ˆtre d´finie ` travers plusieurs sous hi´rarchies de la ressource externe e e a e utilis´e. Par cons´quent, nous pouvons cr´er manuellement la racine pour regrou- e e e per toutes ces sous-hi´rarchies et d´finir ainsi une dimension. Par exemple, pour e e d´finir les dimensions “Anatomie”, “Pathologie”, et “Modalit´” dans le cadre de nos e e exp´rimentations dans le domaine de l’imagerie m´dicale, nous avions le choix entre e e 4 5 les ressources MeSH et UMLS . Supposons que ces deux ressources aient ´t´ d´crites ee e en DL (les entr´es sont des concepts, et la structure hi´rarchique est form´e par des e e e axiomes de subsomption)6 . Ainsi, dans la premi`re ressource, ces dimensions peuvent e ˆtre d´finies respectivement ` travers les sous hi´rarchies suivantes : Anatomy [A], e e a e Diseases [C], et Analytical, Diagnostic and Therapeutic Techniques and Equipment [E]. En revanche, dans la ressource UMLS nous avons dˆ cr´er manuellement les u e 4 http ://www.nlm.nih.gov/mesh/ 5 http ://www.nlm.nih.gov/research/umls/ 6 En r´alit´, et d’apr`s nos exp´riences, il est tr`s difficile de mod´liser UMLS en DL. En effet, e e e e e e ce m´ta-th´saurus dispose d’une caract´ristique unique qui consiste ` avoir plusieurs hi´rarchies e e e a e parall`les et pas forc´ment compatibles. Pour plus d’informations sur ce sujet, nous invitons le e e lecteur ` lire les travaux de Barry Smith [http ://ontology.buffalo.edu/smith/] a 75
  • 89.
    racines pour regrouperdes sous hi´rarchies de la ressource et d´finir ainsi les di- e e mensions en question. Par exemple, pour d´finir la dimension “Pathologie”, nous e avons cr´´ une racine pour regrouper les sous-hi´rarchies “Disease or Syndrome”, ee e “Finding”, et “Injury or Poisoning”. 3.5.2 Indexation des documents Soit Doc = {doci |1 i nd} l’ensemble des nd documents pr´sents dans le e corpus. Un document doci peut ˆtre un article de presse, un compte-rendu m´dical, e e une image, etc. Dans notre cas, une requˆte repr´sente une description textuelle des documents e e recherch´s. e Vocabulaire d’indexation Le vocabulaire d’indexation VDoc constitue l’ensemble des descripteurs qui servent ` la description du contenu des documents Doc lors de la phase d’indexation. Chaque a document est repr´sent´ par les descripteurs pr´sents dans la ressource externe. e e e VDoc contient donc l’union de l’ensemble des concepts et de l’ensemble des dimen- sions extraits de la ressource externe K. VDoc = (V cDoc ∪ V dimDoc )7 , avec V cDoc = C, V dimDoc = Dim. Collection de documents index´s e Chaque document doc ∈ Doc contient un ensemble de concepts docc = {c ∈ C}. A partir de docc nous pouvons d´duire l’ensemble des dimensions docdim = {dim} e pr´sentes dans doc. e 7 Dans notre mod`le, il est possible de former un besoin d’information en utilisant uniquement e des dimensions. Pour cette raison, nous s´parons ici les dimensions et les concepts mˆme s’ils sont e e reli´s dans la base de connaissances. e 76
  • 90.
    Chaque concept c∈ docc a un poids wc,doc qui caract´rise son degr´ d’importance e e ` d´crire le contenu de doc8 . a e Le contenu s´mantique d’un document doc sera repr´sent´ par l’index docI qui e e e est une expression ALCQ sur le vocabulaire VDoc . La d´finition formelle de docI est e pr´sent´e plus loin dans ce chapitre. e e 3.5.3 Formulation de la requˆte e Vocabulaire d’interrogation Le vocabulaire d’interrogation sert ` la formulation des requˆtes de l’utilisateur. a e Celui-ci peut utiliser le vocabulaire pr´sent dans la ressource externe K. Il peut e pr´ciser davantage son besoin d’information en ajoutant a sa requˆte des op´rateurs e ` e e et des relations s´mantiques entre les descripteurs. e D’une mani`re g´n´rale, nous d´finissons le vocabulaire d’interrogation VQ comme e e e e ´tant le r´sultat d’une combinaison de dimensions, de concepts, de relations et e e d’op´rateurs. Le contenu s´mantique d’une requˆte q est donc repr´sent´e par qI e e e e e qui est une expression ALCQ sur le vocabulaire VQ . La d´finition formelle de qI est e pr´sent´e plus loin dans ce chapitre. e e 3.5.4 Correspondance entre la requˆte et le document e Pour r´pondre ` une requˆte, deux op´rations sont n´cessaires : e a e e e i. La premi`re consiste ` s´lectionner, parmi les documents index´s, ceux qui satis- e a e e font la requˆte. Cette op´ration est effectu´e ` l’aide d’une fonction fSel qui e e e a doit respecter, lors de l’´valuation des documents, les op´rateurs et les relations e e pr´sents dans la requˆte. Nous verrons plus loin que cette fonction est bas´e e e e sur la hi´rarchie de subsomption. En effet, afin de calculer la correspondance e entre un document et une requˆte, nous proc´derons par un premier niveau e e d’indexation bas´ sur la logique descriptive : il s’agit de l’indexation pour la e 8 Dans notre mod´lisation, les poids ne font pas partie de la DL. Nous les utilisons plus loin lors e de l’ordonnancement des documents pertinents pour une requˆte. e 77
  • 91.
    correspondance. ii. La deuxi`meop´ration est effectu´e ` l’aide d’une fonction fOrd qui permet d’or- e e e a ganiser l’ensemble des documents s´lectionn´s (par fSel ) dans leur ordre de e e pertinence par rapport ` la requˆte. La valeur de pertinence d’un document a e d par rapport ` une requˆte q est calcul´e par fOrd en fonction des poids a e e des descripteurs dans d et q. Afin de mettre en œuvre la fonction fOrd , nous proc´derons par un deuxi`me niveau d’indexation : l’indexation pour l’or- e e donnancement. Selon Meghini [56], la complexit´ d’int´gration des pond´rations dans un mod`le e e e e de RI ` base de logique descriptive est tr`s ´lev´e. Pour cette raison, nous avons a e e e d´cid´ de s´parer ces deux niveaux d’indexation de telle sorte que les pond´rations e e e e ne feront pas partie de notre mod`le ` base de logique descriptive. e a Les d´finitions formelles des fonctions fSel et fOrd sont pr´sent´es dans la suite e e e de ce chapitre. 3.6 Mod`le de RI orient´ pr´cision e e e A partir des notations pr´sent´es dans la section pr´c´dente, nous introduisons e e e e ici une description de notre mod`le de Recherche d’Information orient´ pr´cision qui e e e comprend les ´l´ments suivants : ee - Une ressource externe contenant des dimensions, des concepts, et des relations s´mantiques ; e - Les concepts et les dimensions constituent le vocabulaire d’indexation et le voca- bulaire d’interrogation : - Le contenu s´mantique d’un document est d´crit par ces descripteurs mis en e e relations les uns avec les autres ; - La requˆte est repr´sent´e par ces descripteurs mis en relations les uns avec les e e e autres. Elle est ´galement enrichie avec des op´rateurs ; e e 78
  • 92.
    - La correspondanceentre la requˆte et les documents est r´alis´e en utilisant les e e e deux types de descripteurs et en respectant les op´rateurs qui leur sont associ´s e e dans la requˆte. e 3.6.1 Mod`le de document e Nous avons montr´ lors du deuxi`me chapitre que les approches qui consid`rent les e e e documents (requˆtes) comme des sacs de concepts ne permettent pas de r´soudre des e e requˆtes pr´cises. Dans notre approche, nous proposons d’utiliser les dimensions de e e domaine pour mettre en exergue les ´l´ments pertinents qui contribuent ` la descrip- ee a tion du contenu s´mantique des documents et des requˆtes. Ainsi, nous utilisons les e e dimensions, les concepts et les relations pour d´finir une nouvelle unit´ d’indexation e e qui nous permet de produire une repr´sentation pr´cise du contenu des documents et e e des requˆtes tout en consid´rant les aspects li´s ` leur s´mantique. Par cons´quent, e e e a e e au lieu de consid´rer un document qui parle du “pr´sident fran¸ais Jacques Chirac” e e c comme un sac de concepts, nous repr´sentons son contenu par l’´l´ment appartenant e ee ` la dimension “Personne” qui est “Jacques Chirac” et qui est “pr´sident” originaire a e de “France”. De mˆme, lors de l’interrogation, l’utilisateur peut d´crire son besoin e e en identifiant l’´l´ment qu’il recherche (ex. le nom d’un joueur : “Zidane”) et/ou en ee le d´crivant en utilisant un ou plusieurs concepts. De cette mani`re, en voulant cher- e e cher un ´l´ment qui correspond ` un pr´sident fran¸ais, l’utilisateur peut pr´ciser ee a e c e que l’´l´ment appartient ` la dimension “Personne”, et qu’il est “Pr´sident” d´crit ee a e e par le concept “France”9 . L’´l´ment de dimension : une nouvelle unit´ d’indexation ee e Tout concept sp´cifique ` une dimension est susceptible de constituer un ´l´ment e a ee de cette dimension lorsqu’il est utilis´ dans un document ou une requˆte. Un ´l´ment e e ee d’une dimension dimi est une expression ALCQ qui cherche ` correspondre le plus a pr´cis´ment possible au concept sp´cifique de dimi auquel il est fait r´f´rence dans e e e ee un document ou une requˆte. Cette expression est une conjonction dont au moins e un des concepts appartient ` dimi . Elle peut contenir d’autres concepts qui servent a ` “raffiner” la description de l’´l´ment de dimension en question. Formellement, un a ee 9 Deux concepts appartenant chacun ` une dimension diff´rente : “France” appartient ` la di- a e a mension “Lieu g´ographique”, et “Pr´sident” appartient ` la dimension “Personne”. e e a 79
  • 93.
    ´l´ment de ladimension dimi est une expression ALCQ de la forme suivante : ee edimi ≡ cidf e 1 ⊓ . . . ⊓ cidf n ⊓ ∃ d´crit par.cdes 1 ⊓ . . . ⊓ ∃ d´crit par.cdes m e e o` : u - les concepts cidfi appartiennent ` dimi ; a - les concepts cdes j appartiennent ` d’autres dimensions que dimi . a edimi est donc identifi´ par les concepts cidfi , et d´crit par les concepts cdes j . e e e d´crit par est une relation utilis´e uniquement lors de la mod´lisation pour d´crire e e e e un ´l´ment de dimension. Dans la pratique, elle est remplac´e par d’autres relations ee e concr`tes (Par ex. Pr´sident originaire de France, Pathologie affecte F´mur, etc.). e e e Exemple 1 Soit un document qui contient l’´l´ment de la dimension “Personne” SteveJobs ee et l’´l´ment de la dimension “Organisation” Apple, Inc.. Supposons que ces deux ee ´l´ments de dimensions sont repr´sent´s respectivement par edimp et edimo . Nous ee e e aurons ainsi : edimP ≡ Steve Jobs edimO ≡ Apple, Inc Exemple 2 Dans un document qui contient le “G´n´ral fran¸ais Philippe Morillon”, l’´l´ment e e c ee de la dimension “Personne” est identifi´ par “Philippe Morillon” et “G´n´ral”, et e e e d´crit par “France”. Supposons que cet ´l´ment de dimension soit repr´sent´ par e ee e e edimp . Nous aurons ainsi : edimp ≡ P hilippe Morillon ⊓ G´n´ral ⊓ ∃ originaire de.F rance e e 80
  • 94.
    Si l’on indexeun document par l’´l´ment edimp , cela peut paraˆ redondant ee ıtre car P hilippe Morillon ⊑ G´n´ral et P hilippe Morillon ⊑ ∃ originaire de.F rance. e e Mais ca ne l’est pas car la ressource externe ne contient pas forc´ment toutes les ¸ e connaissances pr´sentes dans les documents (on ne sait pas forc´ment que Philippe e e Morillon est originaire de France). Ceci permettra par exemple de r´pondre ` une e a requˆte dont le contenu est repr´sent´ par ∃ originaire de.F rance. e e e Dans notre mod`le de document, les ´l´ments de dimension sont utilis´s afin de e ee e produire une repr´sentation pr´cise du contenu s´mantique des documents. Nous e e e proposons ainsi le rˆle index´ par afin d’associer un ´l´ment de dimension ` un o e ee a document. Soit un document doc contenant d dimensions, pour chacune il existe ni ´l´ments de dimension. La repr´sentation (l’index) docI du contenu s´mantique de ee e e doc est une expression ALCQ sur VDoc ∪ {index´ par} repr´sent´e de la forme sui- e e e vante : docI ≡ ∃ index´ par.edim1 ⊓ . . . ⊓ ∃ index´ par.edim1 ⊓ . . . ⊓ ∃ index´ par.edimi ⊓ e 1 e n1 e 1 . . . ⊓ ∃ index´ par.edimni ⊓ . . . ⊓ ∃ index´ par.edim1 ⊓ . . . ⊓ ∃ index´ par.edimd e i e d e nd Apr`s le processus d’indexation, toutes les repr´sentations docI des documents e e doc sont ajout´es ` la T-Box. Celle-ci contient alors, en plus des connaissances du e a domaine, les index des documents pr´sents dans la collection. e Dans la figure 3.2, nous pr´sentons la repr´sentation graphique de notre mod`le e e e de document. Le contenu s´mantique d’un document physique doc est repr´sent´ par e e e le concept docI qui est une expression ALCQ. docI est d´fini par la conjonction d’un e ensemble d’´l´ments de dimensions edim qui sont reli´s ` docI par le rˆle index´ par. ee e a o e Chaque ´l´ment de dimension edim est identifi´ par un concept de la dimension ` ee e a laquelle il appartient (⊑ cidf ) ou bien sa racine (⊑ rac dim). edim peut ˆtre d´crit e e par z´ros ou plusieurs concepts (∃ d´crit par.cdes ). Notons que les documents phy- e e siques qui ont le mˆme contenu sont repr´sent´s par des concepts (expression ALCQ) e e e 81
  • 95.
    Fig. 3.2 –Repr´sentation graphique du mod`le de document e e ´quivalents. e Exemple Soit un document doc qui parle des “deux soci´t´s d’informatique Microsoft et ee Apple, Inc.” et de “Bill Gates” et “Steve Jobs”. A partir de ce document, nous pou- vons identifier deux ´l´ments de la dimension “Organisation”, que nous appelons res- ee pectivement edimo et edimo , et deux ´l´ments de la dimension “Personne” que nous 1 2 ee appelons respectivement edim1 et edimp . edimo et edim2 sont d´crits par “Soci´t´ p 2 1 o e ee d’informatique” et identifi´s respectivement par “Microsoft” et “Apple, Inc.”. edimp e 1 p et edim2 sont identifi´s respectivement par “Bill Gates” et “Steve Jobs”. Ainsi, ces e ´l´ments seront repr´sent´s comme suit : ee e e edimo ≡ Microsoft ⊓ Soci´t´ d’informatique 1 ee o edim2 ≡ Apple, Inc. ⊓ Soci´t´ d’informatique ee edimp ≡ Bill Gates 1 82
  • 96.
    edimp ≡ SteveJobs 2 Finalement la repr´sentation du contenu s´mantique du document doc dans la e e T-Box est d´finie comme suit : e docI ≡ ∃ index´ par.edimo ⊓ ∃ index´ par.edimo ⊓ ∃ index´ par.edimp ⊓ e 1 e 2 e 1 ∃ index´ par.edimp e 2 Chaque ´l´ment de dimension edimi a un poids wedimi qui caract´rise son ee ni ni e degr´ d’importance ` d´crire le contenu du document auquel il appartient10 . La e a e valeur de wedimi d´pend des poids des concepts qui l’identifie et des concepts qui le ni e d´crivent. En effet, nous supposons que plus le poids des concepts identifiant edimi e ni est grand, plus wedimni est ´lev´. Nous supposons ´galement que plus il y a des i e e e concepts d´crivant edimi , plus la valeur de wedimi est ´lev´e. e ni ni e e 3.6.2 Mod`le de requˆte e e Pr´ambule e Dans les syst`mes de recherche existants, le mode d’interaction typique avec l’uti- e lisateur est bas´ sur les mots-cl´s ou sur le processus de requˆte par l’exemple : dans e e e le premier cas, l’utilisateur introduit une liste de mots-cl´s pour d´crire son besoin e e d’information. A partir de la requˆte, le syst`me essaye d’interpr´ter le besoin de e e e l’utilisateur et r´pondre par un ensemble de documents. Dans le deuxi`me cas, un e e utilisateur propose une image en entr´e du syst`me qui g´n`re une requˆte puis pro- e e e e e pose en sortie les images qui lui sont les plus ’proches’ ou ’similaires’. Ces modes d’interaction souffrent du fait que les besoins de l’utilisateur restent implicites. En effet, le syst`me doit utiliser sa connaissance du contenu de la requˆte e e (mots-cl´s ou image) afin d’extraire l’information explicite et mettre en œuvre les e repr´sentations correspondantes. Ce processus peut aboutir ` des ambigu¨ es et des e a ıt´ r´sultats de recherche peu satisfaisants lorsque le besoin de l’utilisateur est tr`s pr´cis. e e e 10 Dans notre mod´lisation, les poids ne font pas partie de la DL. Nous les utilisons plus loin pour e l’ordonnancement des documents pertinents pour une requˆte. e 83
  • 97.
    Nous proposons iciun mod`le bas´ sur un langage de requˆte textuel expressif e e e dans le sens o` il permet ` l’utilisateur d’exprimer des requˆtes pr´cises en combi- u a e e nant dimensions, concepts et relations de son domaine d’int´rˆt. La requˆte peut ˆtre ee e e enrichie, en cas de besoin, par un ensemble d’op´rateurs. e Ainsi, l’interaction avec l’utilisateur est directe puisque, contrairement aux syst`- e mes existants, l’utilisateur prend en charge le processus de formulation de requˆte e 11 en traduisant ses besoins au syst`me de mani`re explicite et pr´cise . e e e Nous pr´sentons apr`s les ´l´ments de base de notre mod`le de correspondance. e e ee e Nous d´crirons dans un premier temps le langage de requˆtes puis nous aborderons les e e conditions ` v´rifier pour tout couple (q, doc) afin que le document doc soit consid´r´ a e ee pertinent pour la requˆte q selon le processus de correspondance d´fini pour notre e e mod`le de recherche orient´ pr´cision. e e e Langage de requˆtes e Dans notre mod`le de requˆte, les ´l´ments de dimension sont utilis´s afin de e e ee e produire une repr´sentation pr´cise du contenu s´mantique des requˆtes. Ainsi, la e e e e repr´sentation d’une requˆte q est d´finie par la combinaison de crit`res de s´lection e e e e e sur les ´l´ments de dimensions introduit par l’utilisateur pour identifier les docu- ee ments recherch´s. Nous proposons ` l’utilisateur d’employer explicitement des re- e a lations s´mantiques afin d’identifier et/ou d´crire des ´l´ments de dimensions (cf. e e ee section 3.6.1). Formellement, une requˆte est repr´sent´e de la mˆme mani`re qu’un e e e e e document avec en plus les op´rateurs qui permettent ` l’utilisateur de d´crire son e a e besoin avec pr´cision. e Soit une requˆte q contenant d dimensions, pour chacune il existe ni ´l´ments e ee de dimension. La repr´sentation qI du contenu s´mantique de q est une expression e e ALCQ sur VQ ∪ {index´ par}. Le rˆle index´ par, introduit pr´c´demment, permet e o e e e d’associer un ´l´ment de dimension ` une requˆte. ee a e Chaque ´l´ment de dimension edimi peut avoir un poids wedimi qui pond`re ee ni ni e 11 ´ Evidemment, une interface graphique doit ˆtre propos´e a l’utilisateur pour qu’il exprime son e e ` besoin en langue naturel. 84
  • 98.
    son degr´ d’importancepour d´crire le contenu de la requˆte ` laquelle il appartient. e e e a La valeur de wedimi peut ˆtre introduite par l’utilisateur ` travers une interface au ni e a cas o` il le souhaite. u Expression de requˆtes e L’expression de requˆtes a pour but d’extraire un ensemble de documents jug´s e e pertinents par le syst`me. La repr´sentation d’une requˆte q doit donc d´noter l’en- e e e e semble des documents qui lui sont pertinents. De cette mani`re, nous pourrons e s´lectionner tous les documents doc tel que docI est subsum´ par qI. e e Relations d’interrogation Comme dans le mod`le de document, les relations de subsomption, et d´crit par e e sont utilis´es pour l’interrogation. La diff´rence ici par rapport au mod`le de docu- e e e ment est que l’utilisateur doit employer explicitement ces deux relations afin d’iden- tifier et d´crire les ´l´ments de dimension dans sa requˆte. Pour cette raison, nous e ee e fournissons ` l’utilisateur ces deux relations lors du processus de formulation de a requˆtes. L’usage de ces relations peut ˆtre effectu´ d’une mani`re graphique simple e e e e en proposant ` l’utilisateur des zones de texte pour les concepts qui servent ` iden- a a tifier les ´l´ments de dimensions, et d’autres zones de texte pour les concepts qui ee servent ` les d´crire. a e La relation de subsomption L’utilisateur emploie la relation de subsomption (est un) pour identifier un ´l´ment ee de dimension dans sa requˆte. e Exemple Dans la requˆte R9, l’utilisateur est ` la recherche d’un document qui contient un e a ´l´ment de la dimension “Personne” : “Steve Jobs” ou un ´l´ment de la dimension ee ee “Organisation” : “Apple, Inc.”. Dans ce cas, les ´l´ments des dimensions “Person- ee ne” et “Organisation” sont identifi´s respectivement par les concepts “Steve Jobs” e et “Apple, Inc.”. Supposons que ces deux ´l´ments de dimensions soient repr´sent´s ee e e 85
  • 99.
    respectivement par edimpet edimo . Nous aurons ainsi : edimp ≡ Steve Jobs edimo ≡ Apple, Inc. Dans le langage ALCQ, la requˆte R9 se traduit donc par la notation suivante : e R9 ≡ ∃ index´ par.edimp ⊔ ∃ index´ par.edimo e e Le syst`me interpr`te cette requˆte de la mani`re suivante : l’utilisateur est ` la e e e e a recherche d’un document qui contient un ´l´ment de la dimension “Personne” qui ee est “Steve Jobs” ou un ´l´ment de la dimension “Organisation” qui est “Apple, Inc.”. ee La relation d´crit par : e Cette relation est employ´e par l’utilisateur afin de d´crire un ´l´ment de dimen- e e ee sion par un ou plusieurs concepts. Exemple R15 : “Donne-moi les documents qui parlent du joueur fran¸ais qui a eu un c carton rouge lors de la finale de la coupe du monde FIFA 2006 ”. L’utilisateur cherche un document qui contient un ´l´ment de la dimension “Per- ee sonne” : un “Joueur” qui est originaire de “France”. Soit edimp l’´l´ment recherch´ ee e par l’utilisateur. edimp est d´crit par un concept de la dimension “Personne” : e “Joueur”, et un concept de la dimension “Lieu g´ographique” : “France”. Il est e donc repr´sent´ comme suit : e e edimp ≡ Joueur ⊓ ∃ originaire de.F rance La requˆte R15 se traduit donc par la notation suivante : e 86
  • 100.
    R15 ≡ ∃index´ par.edimp e Dans les sections suivantes, nous pr´sentons comment ces relations sont utilis´es e e par le syst`me pour r´pondre ` une requˆte. Mais avant cela, nous introduisons e e a e maintenant les op´rateurs que notre syst`me fournit ` l’utilisateur pour pr´ciser son e e a e besoin. Op´rateurs d’interrogation e En fonction des besoins d’information que nous avons pr´sent´s au d´but de ce e e e chapitre, nous distinguons trois types d’op´rateurs : bool´ens, quantificateurs, jauge. e e Nous d´taillons chacun d’eux dans les sections suivantes. e Op´rateurs bool´ens e e Nous distinguons trois op´rateurs bool´ens : la conjonction not´e ⊓, la disjonc- e e e tion not´e ⊔, et lan´gation mat´rialis´e par ¬. Nous pr´sentons quelques exemples e e e e e de requˆtes afin de montrer l’utilit´ de ces op´rateurs et leur usage dans notre mod`le. e e e e La conjonction Exemple La requˆte R8 met en œuvre un ´l´ment de la dimension “Personne : “Bill Ga- e ee tes” et un ´l´ment de la dimension “Organisation” : “Soci´t´ d’informatique”, par ee ee l’interm´diaire d’une conjonction. Nous repr´sentons ces deux ´l´ments de dimension e e ee respectivement par edimp et edimo . edimp ≡ Bill Gates edimo ≡ Soci´t´ d′ inf ormatique ee La requˆte R8 a donc l’expression suivante dans notre mod`le : e e 87
  • 101.
    R8 ≡ ∃index´ par.edimp ⊓ ∃ index´ par.edimo e e La disjonction Exemple La requˆte R9 met en œuvre un ´l´ment de la dimension “Personne” : “Steve e ee Jobs” et un ´l´ment de la dimension “Organisation” : “Apple, Inc.”, par l’interm´diai- ee e re d’une disjonction. Nous repr´sentons ces deux ´l´ments respectivement par edimp e ee et edimo . edimp ≡ Steve Jobs edimo ≡ Soci´t´ d′ inf ormatique ee La requˆte R9 a donc l’expression suivante dans notre mod`le : e e R9 ≡ ∃ index´ par.edimp ⊔ ∃ index´ par.edimo e e La n´gation e Exemple 1 La requˆte R10 met en œuvre un ´l´ment de la dimension “Anatomie” : “Tibia” et e ee un ´l´ment de la dimension “Pathologie” : “Pathologie du tibia”, par l’interm´diaire ee e d’une n´gation. Nous repr´sentons ces deux ´l´ments respectivement par edima et e e ee edimp . edima ≡ T ibia edimp ≡ rac P athologie ⊓ ∃ af f ecte.T ibia 88
  • 102.
    La requˆte R10a donc l’expression suivante dans notre mod`le : e e R10 ≡ ∃ index´ par.edima ⊓ ¬∃ index´ par.edimp e e Ceci se traduit par le fait qu’un document pertinent doit contenir un tibia et aucune pathologie li´e ` cette partie de l’anatomie. Comme la pathologie dans cette e a requˆte est un ´l´ment g´n´rique, il faut donc identifier tous les types de pathologies e ee e e que l’on peut avoir sur un tibia et les utiliser pour r´pondre ` cette requˆte. e a e Exemple 2 La requˆte R13 met en œuvre un ´l´ment de la dimension “Anatomie” : “Tibia” e ee et un ´l´ment de la dimension “Pathologie” : “Fracture”, par l’interm´diaire d’une ee e n´gation. Nous repr´sentons ces deux ´l´ments respectivement par edima et edimp . e e ee edima ≡ Tibia edimp ≡ Fracture La requˆte R13 a donc la transcription suivante dans notre mod`le : e e R13 ≡ ∃ index´ par.edima ⊓ ¬∃ index´ par.edimp e e Ceci se traduit par le fait qu’un document pertinent doit contenir un tibia sans fracture. Il est possible qu’une image contenant un tibia avec une luxation puisse ˆtre consid´r´e comme pertinente par l’utilisateur. Comme la pathologie dans cette e ee requˆte est identifi´e, l’appariement se fait entre le document et la requˆte en prenant e e e en compte seulement la pathologie “fracture” pour ´liminer les documents corres- e pondants. Combinaisons des op´rateurs bool´ens e e 89
  • 103.
    Exemple La requˆte R12 met en œuvre un ´l´ment de la dimension “Anatomie” : “Tibia”, e ee et deux ´l´ments de la dimension “Pathologie” : “Fracture” ou “Luxation”, par l’in- ee term´diaire d’une conjonction. Nous repr´sentons ces trois ´l´ments respectivement e e ee p p par edima , edim1 , et edim2 . edima ≡ T ibia edimp ≡ F racture 1 edimp ≡ Luxation 2 La requˆte R12 a donc l’expression suivante dans notre mod`le : e e R12 ≡ ∃ index´ par.edima ⊓ (∃ index´ par.edimp ⊔ ∃ index´ par.edimp ) e e 1 e 2 Op´rateur quantificateur e L’op´rateur quantificateur permet ` l’utilisateur de pr´ciser le nombre d’´l´ments e a e ee de dimensions qu’il aimerait trouver dans le document pertinent. Nous distinguons trois valeurs possibles ` cet op´rateur : ´gal mat´rialis´ par “=”, au moins mat´rial- a e e e e e is´e par , et au plus mat´rialis´e par . La restriction de nombre “= nR.C” n’est e e e pas incluse dans le langage ALCQ mais nous pouvons l’exprimer par ( nR.C ⊓ nR.C). Le cas ´gal e Exemple Soit la requˆte R16 “Donne-moi une image qui contient Zinedine Zidane tout e seul”. Cette requˆte contient un ´l´ment de la dimension “Personne” : “Zinedine Zida- e ee ne”, avec une restriction de nombre (tout seul). Nous repr´sentons cet ´l´ment par e ee 90
  • 104.
    edimp . Ledocument pertinent doit contenir un seul ´l´ment de la dimension per- 1 ee sonne. Afin d’exprimer ce besoin d’information, nous avons besoin des deux ´l´ments ee suivants : edimp ≡ Zinedine Zidane 1 p edim2 ≡ rac P ersonne La requˆte R16 a donc l’expression suivante dans notre mod`le : e e R16 ≡ ∃ index´ par.edimp ⊓ ∃ = 1 index´ par.edimp e 1 e 2 Les cas au moins et au plus Exemple La requˆte R2 contient deux ´l´ment de la dimension Personne : Bill Gates et e ee Steve Jobs, et un ´l´ment de la dimension Organisation : Soci´t´ d’informatique. ee ee p p Nous repr´sentons ces trois ´l´ments respectivement par edim1 , edim2 , et edimo . e ee 1 edimp ≡ Bill Gates 1 p edim2 ≡ Steve Jobs edimo ≡ Soci´t´ d’informatique 1 ee Nous remarquons que le document recherch´ doit contenir au moins deux e soci´t´ d’informatique. Ceci se traduit dans notre mod`le par l’op´rateur quanti- ee e e ficateur 2. La requˆte R2 a donc l’expression suivante dans notre mod`le : e e 91
  • 105.
    R2 ≡ ∃index´ par.edimp ⊓ ∃ index´ par.edimp ⊓ e 1 e 2 2 index´ par.edimo e 1 Le cas “au plus” est idem ` ce cas en changeant le symbole “ ” par “ ”. a Op´rateur jauge e Cet op´rateur permet ` l’utilisateur de pr´ciser les degr´s d’importance relatifs e a e e aux ´l´ments de dimension de sa requˆte. Ce degr´ peut ˆtre mat´rialis´ par un poids ee e e e e e qui correspond ` une valeur r´elle appartenant ` l’intervalle [0,1]12 . a e a En effet, comme d´j` discut´, il est possible qu’un utilisateur veuille pr´ciser qu’il ea e e y a des ´l´ments de dimensions de sa requˆte qui sont obligatoires et d’autres qui sont ee e optionnels. En r´alit´, un ´l´ment de dimension marqu´ comme obligatoire dans e e ee e une requˆte doit absolument apparaˆ dans les documents retrouv´s, alors qu’un e ıtre e ´l´ment de dimension optionnel peut y apparaˆ ou non. Cette notion d’obligation ee ıtre n’est pas nouvelle : Kefi et ses collaborateurs [48] ont propos´ d’utiliser les crit`res e e obligatoire et optionnel dans un contexte o` l’utilisateur a d´j` vu les documents u ea et ne se souvient pas exactement de leur contenu. Leur but ´tait de permettre une e formulation pr´cise mais n´anmoins ais´e de la requˆte. Nous nous inspirons ici de e e e e leur travail pour utiliser ces deux crit`res. e Ces deux modalit´s d’expression de besoin peuvent ˆtre prises en compte dans e e notre mod`le en utilisant les poids. Ainsi, un ´l´ment obligatoire doit avoir un poids e ee ´gal ` 1, tandis qu’un ´l´ment optionnel doit avoir un poids ´gal ` 0. e a ee e a Il est possible que l’utilisateur n’arrive pas ` d´cider quels ´l´ments sont obliga- a e ee toires et quels ´l´ments sont optionnels. Dans ce cas, nous lui fournissons ` travers ee a notre mod`le un moyen pour privil´gier certains ´l´ments ` d’autres sans pour autant e e ee a pr´ciser ce qui est obligatoire et ce qui est optionnel. Ceci peut ˆtre mis en œuvre e e par des valeurs de priorit´ que l’utilisateur donne ` chaque ´l´ment de dimension de e a ee sa requˆte. e 12 Nous rappelons que les poids ne sont pas int´gr´ dans notre mod`le ` base de logique descriptive. e e e a Ils sont uniquement utilis´s pour l’ordonnancement des documents pertinents pour une requˆte. e e 92
  • 106.
    L’´l´ment de dimensionqui a une priorit´ i doit apparaˆ dans tous les docu- ee e ıtre ments retrouv´s, sinon, c’est l’´l´ment de dimension qui a une priorit´ i+1. Avec i e ee e est un entier qui appartient ` l’intervalle [2, nd+1], et nd est le nombre d’´l´ments a ee de dimensions pr´sents dans la requˆte. e e Les documents r´ponses ` une requˆte sont class´s en fonction des priorit´s des e a e e e ´l´ments de dimensions qu’ils contiennent. Une classe de documents est cr´´e pour ee ee chaque valeur de priorit´. Comme un document peut contenir plusieurs ´l´ments de e ee dimensions qui ont des priorit´s diff´rentes, il peut appartenir ` plusieurs classes ` e e a a la fois. Les classes des documents r´ponses sont pr´sent´es ` l’utilisateur en fonction e e e a de la valeur de priorit´ de dimension en question : d’abord, la classe des documents e contenant les ´l´ments de dimensions de priorit´ i, ensuite celle des documents conte- ee e nant les ´l´ments de dimensions de priorit´ i+1, ainsi de suite. L’ordre d’affichage ee e des documents au sein d’une mˆme classe est calcul´ ` l’aide de la fonction d’ordon- e ea nancement que nous verrons plus loin dans ce manuscrit. Obligatoire vs optionnel Exemple ` A travers la requˆte R1, l’utilisateur cherche des documents qui parlent d’une per- e sonne. Donc un document pertinent doit obligatoirement contenir l’´l´ment d´crivant ee e cette personne. Mˆme si ce document ne parle pas du conflit ou des Balkans, il peut e ˆtre consid´r´ pertinent. e ee Soit edimp la repr´sentation de l’´l´ment de la dimension “Personne” : “G´n´ral e ee e e fran¸ais”, edime repr´sente l’´l´ment de la dimension “Ev´nement” : “Conflit des c e ee e l l Balkans”, et edim1 et edim2 repr´sentent respectivement les deux ´l´ments de la e ee dimension “Lieu g´ographique”. e edimp ≡ G´n´ral ⊓ ∃ originaire de.F rance e e edime ≡ Conf lit des Balkans ediml ≡ Balkans 1 ediml ≡ Zone de s´curit´ ⊓ ∃ cr´e pendant.Conf lit des Balkans 2 e e e´ 93
  • 107.
    Supposons que l’´l´mentde la dimension “Personne” est obligatoire, et les autres ee ´l´ments sont optionnels. Dans ce cas, la requˆte R1 a la transcription suivante dans ee e notre mod`le : e R1 ≡ ∃ index´ par.edimp e Priorit´ e Supposons maintenant que l’utilisateur veuille pr´ciser des priorit´s sur les ´l´me- e e ee nts de dimension de sa requˆte. Par exemple, l’´l´ment de la dimension “Personne” e ee est le plus prioritaire, et ceux de la dimension “Lieu g´ographique” sont les moins e prioritaires. Formellement, il est relativement compliqu´ de d´finir cet op´rateur dans le lan- e e e gage ALCQ que nous avons adopt´. Mais techniquement, il est tr`s simple de l’ap- e e pliquer. En effet, il suffit de retourner les documents qui contiennent l’´l´ment de ee dimension de priorit´ i, suivis par les documents qui contiennent l’´l´ment de dimen- e ee sion de priorit´ i + 1, et ainsi de suite. e Afin de sp´cifier les crit`res de recherche les plus exigeants dans le processus de e e recherche, il est possible qu’une requˆte combine tous les op´rateurs propos´s dans e e e notre mod`le. e Finalement, comme pour les documents (cf. la figure 3.2), la repr´sentation qI e du contenu s´mantique de q est une expression ALCQ. Lors de l’interrogation, l’ex- e pression qI est ajout´e ` la T-Box qui contient d´j` les connaissances du domaine e a ea ainsi que les index des documents de la collection. Il ne reste donc qu’` ´valuer la ae requˆte. e 94
  • 108.
    3.6.3 ´ Evaluation des requˆtes e Pour ´valuer une requˆte, nous avons besoin d’une fonction qui respecte les e e contraintes impos´es par l’utilisateur pour la correspondance entre un document e et une requˆte. Cette fonction est d´finie au niveau de l’indexation pour la corres- e e pondance qui est bas´e sur la logique descriptive. e Nous avons ´galement besoin d’une fonction qui permette d’organiser les docu- e ments dans leur ordre de pertinence par rapport ` la requˆte. cette fonction est a e d´finie au niveau de l’indexation pour l’ordonnancement que nous pr´sentons dans e e la suite. Nous illustrons dans la suite comment ces deux fonctions sont int´gr´es dans e e notre mod`le. e La fonction de correspondance fSel La fonction de correspondance est bas´e sur le calcul de la subsomption dans la e T-Box. En effet, en logique descriptive, le processus de RI peut ˆtre vu comme la e tˆche de retrouver les documents repr´sent´s par des concepts qui sont subsum´s par a e e e le concept repr´sentant la requˆte. Pour deux concepts C1 et C2 appartenant ` la e e a T-Box T , on consid`re que C1 est subsum´ par C2 dans T (C1 ⊑T C2 ) si et seulement e e I I si, pour chaque mod`le I de T , il est vrai que C1 ⊆ C2 . e Dans la figure 3.3, un document doc et une requˆte q sont repr´sent´s respec- e e e tivement, au niveau de l’indexation pour la correspondance, par docI et qI dans la T-Box. La correspondance entre doc et q se traduit en logique descriptive par la subsomption : doc est consid´r´ pertinent pour q si docI est subsum´ par qI ee e (docI ⊑T qI) (c’est-`-dire, en v´rifiant que docI I ⊆ qI I est vrai). Cette v´rification a e e prend en compte les documents qui satisfont l’op´rateur bool´en, l’op´rateur quan- e e e tificateur, et l’op´rateur jauge qui sont utilis´s pour la d´finition du concept qI e e e repr´sentant la requˆte. e e Finalement, l’ensemble des documents pertinents pour une requˆte q est d´fini e e comme suit : 95
  • 109.
    DP ert ={doc ∈ Doc|docI ⊑K qI} Fig. 3.3 – Calcul de la correspondance entre un document doc et une requˆte q au e niveau de l’indexation pour la correspondance Afin de proposer ` l’utilisateur une liste de documents ordonn´s, nous organi- a e sation l’ensemble DP ert en fonction du degr´ de pertinence de ses documents par e rapport ` la requˆte. Cette ´tape est d´crite dans la section suivante. a e e e La fonction d’ordonnancement fOrd La fonction d’ordonnancement fOrd a pour but d’organiser les documents re- tourn´s pour une requˆte. Comme nous l’avons d´j` mentionn´, cette fonction n’est e e ea e pas mod´lis´e en DL dans notre mod`le. Nous n’avons pas encore abord´ pr´cis´ment e e e e e e ce probl`me d’ordonnancement, c’est pourquoi nous n’avons pas d´fini une fonction e e particuli`re ` cet effet. Il existe plusieurs m´triques dont nous pouvons nous inspirer e a e pour d´finir une fonction d’ordonnancement. e D’une mani`re g´n´rale, la fonction fOrd doit calculer une valeur de pertinence, e e e not´e RSV13 , d’un document doc par rapport ` une requˆte q en tenant compte des e a e 13 Retrieval Status Value. 96
  • 110.
    param`tres suivants : e - Les poids des ´l´ments de dimension dans doc : plus le poids des ´l´ments de di- ee ee mension partag´s par q et doc est grand, plus la valeur de pertinence de doc e est ´lev´e par rapport ` q ; e e a - Les poids des ´l´ments de dimension dans q : plus doc contient des ´l´ments de ee ee dimension dont le poids est ´lev´ dans q, plus la valeur de pertinence de doc e e est grande ; - Les valeurs de priorit´ des ´l´ments de dimension dans q : un document contenant e ee un ´l´ment de dimension dont la valeur de priorit´ est ´gale ` Π est plus per- ee e e a tinent qu’un document contenant un ´l´ment de dimension dont la valeur de ee priorit´ est ´gale ` Π + 1. e e a Fig. 3.4 – Calcul du RSV entre une requˆte et un document au niveau de l’indexation e pour l’ordonnancement Dans nos exp´rimentations (cf. chapitre 4), nous avons utilis´ le mod`le vectoriel e e e pour mettre en œuvre la fonction fOrd . Dans ce cas, comme pr´sent´ dans la figure e e 3.4, un document doc et une requˆte q sont repr´sent´s respectivement, au niveau de e e e −→ l’indexation pour l’ordonnancement, par les vecteurs doc et − . Le RSV entre → q doc et q est calcul´ en appliquant le cosinus sur l’angle form´ par les deux vecteurs e e −→ − →. doc et q 97
  • 111.
    3.7 Conclusion En consid´rant les exigences de l’utilisateur en termes de pr´cision, nous avons e e propos´ un mod`le de Recherche d’Information capable de r´soudre des requˆtes e e e e pr´cises. En se basant sur des connaissances du domaine repr´sent´es ` travers une e e e a ressource externe, nous avons propos´ d’utiliser les dimensions de domaine pour e mettre en exergue les ´l´ments pertinents qui contribuent ` la description du contenu ee a s´mantique des documents et des requˆtes. Ainsi, nous utilisons les dimensions, les e e concepts et les relations pour d´finir une nouvelle unit´ d’indexation : l’´l´ment e e ee de dimension. L’utilisation des ´l´ments de dimension nous permet de produire ee une repr´sentation pr´cise des documents tout en consid´rant les aspects li´s ` leur e e e e a s´mantique. Un langage expressif de requˆte a ´t´ propos´ afin de permettre ` l’usa- e e ee e a ger d’utiliser des ´l´ments de dimensions et des op´rateurs pour d´crire avec pr´cision ee e e e son besoin d’information. Afin de d´finir notre mod`le, nous avons choisi un formalisme de repr´sentation de e e e connaissances ad´quat qui permet la repr´sentation pr´cise du contenu s´mantique e e e e des documents et des requˆtes : il s’agit de la logique descriptive. Ainsi, nous avons e pu incorporer les connaissances du domaine lors de la d´finition de notre mod`le e e tout en garantissant une repr´sentation uniforme des documents, des requˆtes et de e e la ressource externe. Nous avons montr´ que ce formalisme dispose d’un niveau d’ex- e pressivit´ assez ´lev´ qui convient tr`s bien ` la repr´sentation pr´cise du contenu e e e e a e e s´mantique des documents et des requˆtes. Ce formalisme offre ´galement un moyen e e e pour calculer la correspondance entre un document et une requˆte mettant en œuvre e la pertinence syst`me : il s’agit de l’algorithme de calcul de subsomption. e Dans le chapitre suivant, nous montrons, ` travers la mise en œuvre de notre a mod`le, ses apports significatifs par rapport aux approches existantes. Nous pr´sentons e e en particulier, comment le calcul de la subsomption est un moyen efficace pour r´soudre des requˆtes pr´cises repr´sent´es dans notre mod`le. Nous pr´sentons e e e e e e e ´galement l’impact positif de l’utilisation des dimensions de domaine sur les per- e formances d’un Syst`me de Recherche d’Information. e 98
  • 112.
    Chapitre 4 Mise enœuvre du mod`le e 4.1 Introduction La premi`re partie de ce chapitre est consacr´e ` la mise en œuvre de notre mod`le e e a e bas´ sur la logique descriptive. Nous y pr´sentons les ´tapes n´cessaires pour cette e e e e mise en œuvre (Section 4.2) et illustrons leur r´alisation par des exemples concrets e (Section 4.3). La deuxi`me partie quant ` elle est consacr´e aux ´valuations exp´rimentales e a e e e de l’apport de l’usage des dimensions de domaine. D’abord, nous pr´sentons le e contexte dans lequel nous avons men´ nos exp´riences (Section 4.4.1). Ensuite, nous e e exposons les conclusions tir´es de l’application de notre mod`le sur des requˆtes e e e de la collection CLEF-2005 (Section 4.4.2). Dans les sections 4.4.3 et 4.4.4, nous ´valuons exp´rimentalement l’apport de l’utilisation des dimensions de domaine pour e e la r´solution de requˆtes pr´cises (issues du domaine m´dical). Les performances e e e e de notre syst`me sont ainsi ´valu´es en termes de pr´cision moyenne. Enfin, nous e e e e concluons ce chapitre par une synth`se des r´sultats obtenus et quelques perspec- e e tives (Section 4.5). 99
  • 113.
    4.2 ´ Etapes n´cessaires pour la mise en œuvre du e mod`le e Nous pr´sentons dans la figure 4.1 une description graphique des ´tapes n´cessaires e e e pour la mise en œuvre de notre mod`le. e Fig. 4.1 – Repr´sentation graphique des ´tapes n´cessaires pour la mise en œuvre e e e du mod`le e 4.2.1 E1 : Identification des ´l´ments de dimension ee La premi`re ´tape consiste ` identifier les ´l´ments de dimension au niveau des e e a ee documents (requˆtes). Cette ´tape demande l’extraction, ` partir des documents e e a (requˆtes), des concepts et des relations qui servent ` d´finir les ´l´ments de dimen- e a e ee sion. Ce processus peut n´cessiter un traitement automatique de la langue guid´ par e e 100
  • 114.
    l’utilisation des ressourcesexternes. Du cˆt´ des documents, nous n’avons pas encore propos´ une m´thode pour ex- oe e e traire automatiquement les ´l´ments de dimensions. Ceci s’inscrit dans le cadre de ee nos perspectives ` court terme. Dans les exp´riences que nous pr´sentons ici, nous a e e avons fait des simplifications pour identifier les ´l´ments de dimension. En effet, dans ee une premi`re exp´rience, nous d´finissons un ´l´ment de dimension par un simple mot e e e ee (Section 4.4.3). Dans une deuxi`me exp´rience, nous le d´finissons par un concept e e e (Section 4.4.4). Du cˆt´ des requˆtes, le probl`me d’extraction des ´l´ments de dimension ne se oe e e ee pose pas vu qu’une interface graphique doit ˆtre propos´e ` l’utilisateur afin qu’il e e a puisse d´crire son besoin en langue naturelle. Il y aura donc des champs de texte e pour d´crire explicitement les ´l´ments de dimensions. e ee 4.2.2 E2 : Indexation pour la correspondance Lors de cette ´tape, nous utilisons la logique descriptive pour mod´liser la res- e e source externe, les documents, et les requˆtes en se basant respectivement sur le e mod`le de connaissances, le mod`le de document, et le mod`le de requˆte que nous e e e e avons d´fini. Chaque document (requˆte) est repr´sent´(e) par la conjonction (et/ou e e e e la disjonction) d’un ensemble d’´l´ments de dimension. Dans la terminologie de la ee logique descriptive, cette ´tape permet de construire la T-Box. e 4.2.3 E3 : S´lection des documents e La troisi`me ´tape concerne la r´solution des requˆtes. Une requˆte peut conte- e e e e e nir une combinaison de crit`res de s´lection sur les ´l´ments de dimensions d´finis e e ee e par l’utilisateur pour identifier les documents recherch´s. Il n’y a pas de combinai- e son “id´ale” d’op´rateurs pour former une requˆte. C’est ` l’utilisateur de choisir, e e e a en fonction de ses besoins et de son domaine d’int´rˆt, un ou plusieurs op´rateurs ee e parmi ceux que nous proposons dans notre mod`le de requˆte. e e Pour effectuer cette ´tape, nous utilisons une fonction de s´lection (fSel ) qui nous e e permet de s´lectionner les documents pertinents pour une requˆte donn´e. Cette e e e 101
  • 115.
    fonction est bas´esur le calcul de la subsumption dans la T-Box construit lors de e l’´tape E2. e A la fin de cette ´tape, les documents pertinents pour une requˆte sont s´lectionn´s. e e e e En vue de pouvoir les organiser dans leur ordre de pertinence par rapport ` la requˆte, a e nous proc´dons par les deux ´tapes qui suivent. e e 4.2.4 E4 : Indexation pour l’ordonnancement Dans notre mod`le, un ´l´ment de dimension peut avoir un poids qui refl`te son e ee e degr´ de repr´sentativit´ dans un document (requˆte). Cette ´tape est consacr´e donc e e e e e e ` la pond´ration des ´l´ments de dimension au niveau des documents (requˆtes). A a e ee e ` ce niveau, nous n’avons pas encore propos´ une m´thode particuli`re, mais nous e e e envisageons d’utiliser une des m´triques existantes. En l’occurrence, cette ´tape a e e ´t´ effectu´e, lors de nos exp´rimentations, ` l’aide du mod`le vectoriel. ee e e a e 4.2.5 E5 : Ordonnancement des documents La cinqui`me et derni`re ´tape consiste ` organiser, en utilisant la fonction fOrd , e e e a les documents s´lectionn´s (par fSel ) dans leur ordre de pertinence par rapport ` la e e a requˆte en question. Dans notre mod`le, nous n’avons pas d´fini une fonction par- e e e ticuli`re ` cette fin. Nous nous sommes born´s ` utiliser le mod`le vectoriel pour le e a e a e calcul d’une valeur de similarit´ entre une requˆte et un document en prenant en e e compte les poids des ´l´ments de dimensions. ee Nous d´taillons maintenant la r´alisation de ces ´tapes en illustrant par des e e e exemples concrets. 4.3 R´alisation des ´tapes n´cessaires pour la mise e e e en œuvre du mod`le e Nous reprenons ici l’exemple que nous avons pr´sent´ dans la probl´matique (cf. e e e figure 4.2). Nous montrons comment, en disposant d’une ressource externe, d’un document, et d’une requˆte, la T-Box est construite. Par la suite, nous pr´sentons e e 102
  • 116.
    comment le calculde la hi´rarchie de subsomption dans la T-Box est utilis´ pour la e e r´solution de requˆtes. e e Fig. 4.2 – Exemple pour la mise en œuvre du mod`le e 4.3.1 R´alisation des ´tapes E2 & E3 e e Il s’agit ici de construire la T-Box contenant les connaissances trait´es par notre e syst`me. La logique descriptive repr´sente un moyen pour pr´senter des informations e e e ` l’ˆtre humain. Pour que ces informations soient trait´es par des applications, elles a e e doivent ˆtre repr´sent´es dans un langage ad´quat. Dans notre cas, nous avons choisi e e e e d’utiliser le langage OWL1 (Web Ontology Language). Celui-ci a ´t´ propos´ par le ee e 1 http ://www.w3.org/TR/owl-features/ 103
  • 117.
    consortium W3C2 pourˆtre utilis´ par des applications qui doivent traiter des onto- e e logies. Techniquement, la T-Box, contenant la ressource externe K, les repr´sentations e docI des documents et qI des requˆtes, est stock´e dans un fichier que nous appelons e e T-Box.owl (cf. le contenu de ce fichier dans l’annexe). Mod`le de connaissances e Il s’agit ici de traduire une ressource externe, repr´sent´e en logique descriptive, e e en OWL et la stocker dans le fichier T-Box.owl. Dans notre mod`le, nous supposons e que les ressources externes sont d´j` repr´sent´es en logique descriptive. Dans le cas ea e e contraire, nous avons d´velopp´ un outil qui permet de repr´senter une ressource e e e externe existante en logique descriptive et la traduire en format OWL. Nous nous basons sur des heuristiques tr`s simples pour effectuer la traduction : les entr´es de e e la ressource externe sont traduites en concepts, et les relations en rˆles [43][85]. o Pour notre exemple (figure 4.2), voici la description en logique descriptive de la ressource externe. Sa traduction en OWL est pr´sent´e dans l’annexe. e e ⊤ P ersonne ⊑ ⊤ G´n´ral ⊑ P ersonne e e P hilippe Morillon ⊑ G´n´ral e e P hilippe Morillon ≡ ∃Originaire de.F rance Lieu g´ographique ⊑ ⊤ e F rance ⊑ Lieu g´ographique e Balkans ⊑ Lieu g´ographique e Ex-Yougoslavie ⊑ Lieu g´ographique e Ex-Yougoslavie ≡ ∃P artie de.Balkans Zone de s´curit´ ⊑ Lieu g´ographique e e e Serbie ⊑ Ex-Yougoslavie 2 http ://www.w3.org/TR/owl-ref/ 104
  • 118.
    Slov´nie ⊑ Ex-Yougoslavie e Zone de s´curit´ ≡ ∃Cr´e pendant.Conf lit des Balkans e e e´ ´ e Ev´nement ⊑ ⊤ ´ e Guerre civile ⊑ Ev´nement Conf lit des Balkans ⊑ Guerre civile Conf lit des Balkans ≡ ∃A lieu a.Balkans ` A ce niveau, le fichier T-Box.owl contient seulement la ressource externe. Mod`le de documents e Il s’agit ici d’ajouter, ` la T-Box, les repr´sentations des documents tout en res- a e pectant le mod`le de documents (cf. figure 4.3). Ainsi, chaque document doc de la e collection est repr´sent´, dans le fichier T-Box.owl, par un concept docI qui est une e e expression en logique descriptive qui d´crit le contenu de doc. e Fig. 4.3 – Repr´sentation graphique du mod`le de document e e 105
  • 119.
    En supposant queles ´l´ments de dimension ont ´t´ extraits ` partir du docu- ee ee a ment pr´sent´ dans la figure 4.2, leur repr´sentation en logique descriptive est de la e e e mani`re suivante : e edim1 ≡ P hilippe Morillon edim2 ≡ Zone de s´curit´ ⊓ ∃Cr´e pendant.Guerre civile e e e´ edim3 ≡ Ex-Yougoslavie edim4 ≡ Serbie edim5 ≡ Slov´nie e Le document de notre exemple est donc repr´sent´ en logique descriptive par e e l’expression suivante : docI ≡ ∃index´ par.edim1 ⊓ ∃index´ par.edim2 ⊓ ∃index´ par.edim3 ⊓ e e e ∃index´ par.edim4 ⊓ ∃index´ par.edim5 e e Cette expression est ajout´e automatiquement ` la T-Box. En effet, nous avons e a d´velopp´ un outil qui permet de repr´senter un document en logique descriptive et e e e le traduire en format OWL. Cet outil accepte en entr´e un ensemble d’´l´ments de e ee dimensions, et produit en sortie le concept docI et l’ajoute dans le fichier T-Box.owl. Mod`le de requˆtes e e Il s’agit ici d’ajouter ` la T-Box la repr´sentation de la requˆte en respectant a e e le mod`le de requˆte propos´. Ainsi, chaque requˆte est repr´sent´e, dans le fichier e e e e e e T-Box.owl, par un concept qI. En supposant que les ´l´ments de dimensions sont extraits ` partir de la requˆte ee a e de notre exemple (4.2), leur repr´sentation en logique descriptive est la suivante : e edim6 ≡ G´n´ral ⊓ ∃Orginaire de.F rance e e edim7 ≡ Zone de s´curit´ ⊓ ∃Cr´e pendant.Conf lit des Balkans e e e´ 106
  • 120.
    De la mˆmemani`re que pour les documents, notre outil permet de repr´senter e e e une requˆte en logique descriptive et la traduire automatiquement en format OWL. e La requˆte de notre exemple est donc repr´sent´e en logique descriptive par l’ex- e e e pression suivante : qI ≡ ∃index´ par.edim6 ⊓ ∃index´ par.edim7 e e En ajoutant le concept qI au fichier T-Box.owl, la T-Box est construite, et la cor- respondance entre documents et requˆtes peut ˆtre effectu´e. Nous pr´sentons dans la e e e e figure 4.4 une repr´sentation graphique de la T-Box. Les concepts sont pr´sent´s dans e e e l’ordre alphab´tique : d’abord le concept docI, ensuite les concepts de la ressource e ´ e externe K (contenant les dimensions Ev´nement, Lieu g´ographique, et Personne), e enfin le concept qI. Fig. 4.4 – Repr´sentation graphique de la T-Box e 107
  • 121.
    Correspondance La correspondance entre le document et la requˆte se traduit en logique descrip- e tive par la subsomption : le document d est consid´r´ pertinent pour la requˆte q si ee e docI est subsum´ par qI (docI ⊑T qI) (cf. figure 4.5). Techniquement, il faut faire e des inf´rences dans le fichier T-Box.owl et fabriquer la hi´rarchie de subsomption. Il e e existe plusieurs raisonneurs qui permettent d’effectuer cette tˆche (Racer3 , Fact++4 , a etc.). Dans nos exp´rimentations, nous avons choisi le raisonneur Pellet5 . e Fig. 4.5 – Calcul de la correspondance entre un document doc et une requˆte q e Le raisonneur prend en entr´e le fichier T-Box.owl qui est repr´sent´ graphique- e e e ment dans la figure 4.4. En faisant des inf´rences, le raisonneur produit la hi´rarchie e e de subsomption qui est pr´sent´e dans la figure 4.6. Dans celle-ci, nous pouvons e e constater que le concept docI est plus sp´cifique que le concept qI dans la hi´rarchie e e ainsi fabriqu´e. Cette information implique que le concept qI subsume le concept e docI, ce qui veut dire que le document doc peut ˆtre consid´r´ comme une r´ponse e ee e pertinente pour la requˆte q. e ` A ce niveau, notre syst`me arrive ` s´lectionner les documents pertinents pour e a e une requˆte. Il ne reste qu’` les classer dans leur ordre de pertinence par rapport ` e a a la requˆte. Ce processus est d´crit dans la section suivante. e e 3 http ://www.racer-systems.com/ 4 http ://owl.man.ac.uk/factplusplus/ 5 http ://pellet.owldl.com/ 108
  • 122.
    Fig. 4.6 –La hi´rarchie de subsomption fabriqu´e par le raisonneur Pellet e e 4.3.2 R´alisation des ´tapes E4 & E5 e e Nous avons utilis´ le mod`le vectoriel pour mettre en œuvre ces deux ´tapes. e e e Comme pr´sent´ dans la figure 4.7, un document doc et une requˆte q sont repr´sent´s e e e e e −→ − respectivement par les vecteurs doc et →. Le RSV6 entre doc et q est calcul´ en ap- q e −→ − →. pliquant le cosinus sur l’angle form´ par les deux vecteurs doc et q e Dans les exp´riences pr´sent´es ici, nous consid´rons un ´l´ment de dimension e e e e ee comme un concept ou un mot. Ainsi, l’application du mod`le vectoriel est tr`s simple e e car chaque document (requˆte) est repr´sent´(e) par un vecteur de concepts ou mots. e e e Nous pr´sentons maintenant les exp´riences men´es sur la collection CLEF-2005 e e e qui ont pour but d’´valuer l’apport de l’utilisation des dimensions pour la r´solution e e des requˆtes pr´cises. e e 6 Retrieval Status Value. 109
  • 123.
    Fig. 4.7 –Calcul du RSV entre une requˆte et un document au niveau de l’indexation e pour l’ordonnancement 4.4 Exp´rimentations sur la collection CLEF-2005 e Avant d’exposer nos exp´riences, nous pr´sentons d’abord le contexte dans lequel e e elles ont ´t´ men´es. ee e 4.4.1 Contexte des exp´rimentations e Protocole d’´valuation e Nous avons utilis´ une collection de la campagne d’´valuation CLEF-2005. Elle e e a ´t´ utilis´e dans la tˆche de recherche d’images m´dicales (MedIR) [24] qui fait ee e a e partie de la piste ImageCLEF qui concerne la recherche multilingue d’images. Dans la campagne CLEF, les syst`mes sont ´valu´s selon l’approche d’´valuation e e e e caract´ristique des syst`mes de Recherche d’Information. Celle-ci est bas´e sur la e e e notion de pertinence qui consiste en la quantification de la correspondance d’un do- cument par rapport ` une requˆte. Elle repose sur une mesure des performances des a e syst`mes bas´e sur le calcul de deux indicateurs : le rappel et la pr´cision [23]. Un e e e Syst`me de Recherche d’Information de qualit´ maximise ces deux valeurs, bien que e e celles-ci soient g´n´ralement antinomiques. e e La m´thode d’´valuation des syst`mes est faite selon le protocole TREC7 . Pour e e e chaque requˆte, les 1000 premiers documents sont restitu´s par le syst`me et des e e e 7 http ://trec.nist.gov/ 110
  • 124.
    pr´cisions sont calcul´es` diff´rents points (5, 10, 15, 30, 100, et 1000 premiers e e a e documents restitu´s), puis une moyenne Avg Pr de toutes ces pr´cisions est calcul´e. e e e Le corpus Les exp´rimentations sont conduites sur le corpus ImageCLEFmed-2005. Celui-ci e contient 50,026 images avec des annotations en format XML. La majorit´ des anno- e tations sont en anglais, mais il y a un nombre significatif en fran¸ais et en allemand, c avec quelques cas sans aucune annotation. Le corpus comprend ´galement 25 requˆtes contenant chacune une ou plusieurs e e images exemples (positives, n´gatives). Chaque requˆte contient trois courtes des- e e criptions textuelles respectivement en fran¸ais, en anglais, et en allemand. c Dans la figure 4.8, nous pr´sentons un exemple typique d’une requˆte de la col- e e lection ImageCLEFmed-2005 : Fig. 4.8 – Exemple de requˆte de la collection ImageCLEFmed-2005 e 111
  • 125.
    Pourquoi la collectionImageCLEFmed ? Nous pensons que la collection ImageCLEFmed est particuli`rement pertinente e pour ´valuer notre approche. En effet, cette collection contient des requˆtes qui e e expriment des besoins pr´cis de m´decins. A travers ces requˆtes, l’ˆtre humain com- e e e e prend clairement que l’on cherche des images qui contiennent deux ´l´ments en rap- ee port l’un avec l’autre : i ) une partie de l’anatomie du corps humain (ex. f´mur), ii ) e une pathologie li´e ` cette partie de l’anatomie (ex. fracture), iii ) enfin, ces ´l´ments e a ee doivent ˆtre d´crits dans une image d’une modalit´ particuli`re (ex. x-ray). Ces e e e e trois types d’´l´ments d’informations repr´sentent des dimensions du domaine de la ee e m´decine. e Notre d´fi est de r´soudre ces requˆtes pr´cises Nous proposons ainsi de prendre e e e e en compte les dimensions susmentionn´es et montrer que leur utilisation permet d’in- e terpr´ter avec pr´cision les requˆtes de la collection ImageCLEFmed, et d’augmenter e e e ainsi la pr´cision du syst`me. e e Les ressources externes utilis´es e Nous avons utilis´ deux ressources externes pour d´finir les dimensions du do- e e maine m´dical. Nous les pr´sentons bri`vement dans les sections suivantes. e e e Le th´saurus MeSH e MeSH8 (Medical Subject Headings) est un th´saurus d´velopp´ par la “National e e e 9 Library of Medicine ”. Il se compose d’un ensemble de termes de la m´dicine fai- e sant r´f´rence ` des descripteurs organis´s dans une structure hi´rarchique. MeSH ee a e e contenait 22997 descripteurs class´s ` la fois dans une structure alphab´tique et e a e hi´rarchique. Au niveau sup´rieur de la structure hi´rarchique, on trouve des termes e e e tr`s g´n´riques tels que “Anatomy” ou “Diseases”. Des termes plus sp´cifiques tels e e e e que “Femur” et “Cancer” se trouvent ` des niveaux plus bas de la hi´rarchie qui a e contient onze niveaux. Nous pr´sentons, dans la figure 4.9, les premiers niveaux de e la hi´rarchie de MeSH. e 8 http ://www.nlm.nih.gov/mesh/ [visit´ le 19-6-2007] e 9 http ://www.nlm.nih.gov/ [visit´ le 19-6-2007] e 112
  • 126.
    Fig. 4.9 –Premier niveau de la structure hi´rarchique de MeSH e Dans notre exp´rience, nous avons utilis´ la structure hi´rarchique de MeSH e e e pour d´finir les dimensions “Anatomie”, “Pathologie”, et “Modalit´”. Celles-ci sont e e d´finies respectivement par les hi´rarchies suivantes : e e - Anatomy [A] ; - Diseases [C] ; - Analytical, Diagnostic and Therapeutic Techniques and Equipment [E] Le m´ta-th´saurus UMLS e e UMLS (Unified Medical Language System) r´sulte de la fusion de 140 sources de e donn´es terminologiques (UMLS knowledge sources) du domaine m´dical. Il contient e e ´galement des outils linguistiques destin´s ` faciliter les tˆches d’acc`s, de recherche, e e a a e d’int´gration, et d’agr´gation des informations biom´dicales et de sant´. Il est com- e e e e pos´ de trois ´l´ments : le M´ta-thesaurus, le Semantic Network, et le Specialist Lexi- e ee e con. Le M´ta-thesaurus est la partie la plus importante par sa taille et son contenu. e Il regroupe des concepts d´not´s par des termes diff´rents. Ces termes peuvent e e e ´ventuellement provenir de sources diff´rentes. La structure du m´ta-th´saurus com- e e e e prend les quatre niveaux suivants : 113
  • 127.
    - Atome :c’est le plus petit ´l´ment dans la structure. Il repr´sente les instances ee e d’une chaˆ de caract`res venant de diff´rentes sources ; ıne e e - Chaˆ ınes : repr´sente les variations de forme d’une chaˆ de caract`res. C’est le e ıne e regroupement des atomes qui ont la mˆme forme de chaˆ de caract`res ; e ıne e - Terme : repr´sente les variations de d´notation d’un concept. Ce sont donc les e e termes des synonymes qui regroupent un ensemble de chaˆ ; ınes - Concept : repr´sente le sens des termes. C’est le regroupement des synonymes. e UMLS comprend environ 170 types de relations entre les concepts pr´sents dans e le M´ta-th´saurus. La relation de synonymie est repr´sent´e implicitement dans la e e e e structure des concepts. Tous les concepts sont organis´s en 135 cat´gories, appel´es e e e types s´mantiques dans le Semantic Network. Cette structure est un ajout ` la fusion e a des th´saurus. Elle permet de “couvrir” cette fusion d’une classification hi´rarchique. e e C’est pr´cis´ment cette structure que nous utilisons pour d´finir les dimensions. e e e Pour les requˆtes d’ImagCLEFmed-2005, nous avons utilis´ les dimensions Ana- e e tomie, Pathologie, et Modalit´. En analysant manuellement les requˆtes et UMLS, e e nous avons choisi les concepts qui d´finissent chacune de ces dimensions : e - Anatomie “Anatomical Structure”, “Body System”, “Body Space or Junction”, “Body Location or Region” ; - Pathologie “Disease or Syndrome”, “Finding”, “Injury or Poisoning” ; - Modalit´ “Diagnostic Procedure”, “Manufactured Object”. e Les concepts de chaque cat´gorie sont organis´s autour d’une sous-hi´rarchie e e e d’UMLS. Donc, pour d´finir une dimension, nous regroupons les sous-hi´rarchies qui e e correspondent au concept d´finissant cette dimension. e 4.4.2 Mise en œuvre du mod`le ` base de la logique descrip- e a tive sur la collection ImageCLEFmed-2005 L’objectif ` travers cette exp´rience est de tester la faisabilit´ de l’application de a e e notre approche sur des requˆtes extraites d’une collection r´f´rence. Il s’agit princi- e ee palement de savoir ` quel point notre mod`le peut ˆtre appliqu´ et quelles sont les a e e e 114
  • 128.
    limites techniques etformelles qui lui sont li´es. e Nous avons effectu´ des tests sur quelques requˆtes choisies en fonction de leur e e complexit´. Pour chacune de ces requˆtes, nous construisons une T-Box constitu´e e e e de la requˆte elle-mˆme, des documents qui lui sont pertinents et d’une partie de e e UMLS. Ensuite, nous calculons la correspondance ` l’aide du raisonneur Pellet et a comparons le r´sultat avec la correspondance calcul´e par un mod`le de RI classique e e e (i.e. le mod`le vectoriel). e Analyses concernant les donn´es e La premi`re difficult´ concerne la s´lection d’un sous-ensemble de UMLS pour e e e chacune des requˆtes ´tudi´es. Techniquement cette tˆche est assez simple ` r´aliser : e e e a a e il suffit de s´lectionner, ` partir de UMLS, les hi´rarchies auxquelles appartiennent e a e les concepts de la requˆte et les traduire dans un format OWL. Lors du calcul de la e subsomption, ces hi´rarchies sont utilis´es par le raisonneur Pellet afin de retrouver e e les documents pertinents pour la requˆte en question. e Le probl`me majeur ` ce niveau est que UMLS contient plusieurs hi´rarchies pa- e a e rall`les provenant chacune d’une ressource ind´pendante. Ceci repr´sente une diffi- e e e cult´ lors de la repr´sentation de UMLS en logique descriptive. Une solution possible e e est de choisir une seule hi´rarchie (par exemple, provenant d’une ressource parti- e culi`re) et l’utiliser pour le calcul de la subsomption. e Le deuxi`me probl`me rencontr´ consiste en l’extraction automatique des ´l´ments e e e ee de dimension ` partir des documents. Cette tˆche n’est pas facile ` r´aliser. Elle de- a a a e mande une analyse pr´cise de la langue naturelle afin d’extraire les concepts et les e relations qui servent ` d´finir les ´l´ments de dimension. Nous avons simplifi´ le a e ee e mod`le en supposant qu’un ´l´ment de dimension est d´fini par un concept. Du cˆt´ e ee e oe de la requˆte, ce probl`me est mineur vu que l’extraction des ´l´ments de dimension e e ee se fait tr`s facilement d’une mani`re manuelle. e e Le troisi`me probl`me est li´ au contenu des documents de la collection ImageCL- e e e EFmed-2005. Certains de ces documents contiennent un texte (m´ta-donn´es) qui e e ne d´crit pas le contenu de l’image associ´e. En effet, les jugements de pertinence e e 115
  • 129.
    dans la collectionImageCLEFmed-2005 ont ´t´ effectu´s en se basant sur les images ee e et non pas sur les textes qui leur sont associ´s. Ceci repr´sente un handicap lors de e e l’´valuation de la fonction de correspondance, surtout quand le syst`me ne retrouve e e pas les documents pertinents. En effet, dans ce cas, on ne peut pas d´terminer ce qui e a mal fonctionn´ lors de l’exp´rience : est-ce que notre fonction de correspondance ne e e fonctionne vraiment pas bien, ou bien les documents ne contiennent-ils effectivement pas de texte d´crivant l’image. e Analyses concernant le mod`le e La fonction de correspondance Apr`s moult essais, nous avons conclu que la qualit´ de la conception de la res- e e source externe utilis´e a un impact majeur sur la performance de la fonction de e correspondance bas´e sur le calcul de la subsomption. En effet, plus cette ressource e contient des relations de subsomption (is-a), plus la fonction de correspondance est capable de retrouver des documents pertinents ` une requˆte mˆme s’ils ne partagent a e e pas les mˆmes concepts qu’elle. Par exemple, pour une requˆte contenant “Tibia”, e e la correspondance ` base du mod`le vectoriel n’a pu retrouver que 3 documents per- a e tinents alors que notre fonction de correspondance a permis d’en retrouver 12, en utilisant la relation “Tibia is-a Bone”. En effet, ` travers l’algorithme qui calcule a la subsomption, l’utilisation de la Logique Descriptive offre une capacit´ de raison- e nement qui peut d´duire des connaissances implicites ` partir de celles qui sont e a explicitement d´finies dans la T-Box, et permet ainsi de retrouver des documents e pertinents pour une requˆte mˆme s’ils ne partagent aucun concept avec elle. e e Cependant, nous avons rencontr´ quelques probl`mes en utilisant la hi´rarchie de e e e subsomption. En effet, selon le domaine, la ressource externe peut ˆtre organis´e ` e e a travers des hi´rarchies s´mantiques diff´rentes. Par exemple, dans le domaine de la e e e G´ographie, la relation part of est probablement une des relations les plus utilis´es e e dans les hi´rarchies de concepts. Il en est de mˆme pour l’anatomie humaine. Par e e exemple, si un utilisateur cherche ”fracture in the leg”, il va certainement consid´rer e un document contenant “fracture of the hip” comme pertinent. Ainsi, le syst`me de e recherche doit prendre en compte, lors du calcul de la subsomption, la hi´rarchie e part of d´crivant l’anatomie humaine. e 116
  • 130.
    Une fa¸on der´soudre ce probl`me est d’effectuer une expansion guid´e de la c e e e requˆte telle que propos´ par Baziz [4]. Il s’agit de sp´cifier les relations ` utiliser e e e a lors de l’expansion de requˆte. Dans l’exemple pr´c´dent, une expansion possible e e e serait de rechercher les documents qui contiennent “Leg” et les membres de l’ana- ´ tomie qui font partie de “Leg” (Leg ⊔ ∃ part of.Leg). Evidemment, pour que cette solution marche, il faut ´tudier le nombre de niveaux dans la hi´rarchie ` utiliser e e a lors de l’expansion. En l’occurrence, l’expansion doit ˆtre faite d’une fa¸on ` pouvoir e c a ajouter “Hip”, “Femur ”, “Tibia”, etc. Une deuxi`me fa¸on de r´soudre ce probl`me est de “tordre” la relation de sub- e c e e somption et de repr´senter ainsi la hi´rarchie part of comme une hi´rarchie de sub- e e e somption, donc d´clarer implicitement, par exemple, que Hip is a Leg. Avec cette e approche, nous aurions les ´l´ments de dimensions suivants respectivement dans la ee requˆte et le document : e edimq ≡ Fracture ⊓ ∃ affect.Leg edimd ≡ Fracture ⊓ ∃ affect.Hip Ayant d´clar´ que Hip ⊑ Leg, le raisonneur va correctement inf´rer que edimd ⊑ e e e edimq . Dans nos exp´rimentations, nous avons impl´ment´ cette approche “rapide e e e et na¨ ıve”. Cependant, l’utilisation de la subsomption pour mimer une autre relation peut conduire, dans certains cas, ` des d´ductions contre-intuitives impr´vues. Une a e e approche plus “sˆ re et propre” consiste ` d´finir des propri´t´s transitives afin de u a e e e repr´senter les diff´rents types de hi´rarchies qui peuvent exister dans un domaine e e e donn´. Ainsi, les ´l´ments de dimension de l’exemple pr´c´dent seront pr´sent´s e ee e e e e comme suit : edimq ≡ Fracture ⊓ ∃ affect ∃part of .Leg edimd ≡ Fracture ⊓ ∃ affect ∃part of .Hip Si un axiome sp´cifie que part of est transitive, et si la d´finition de Hip est de e e la forme “... ⊓ ∃part of.Leg”, alors le raisonneur peut inf´rer que edimd ⊑ edimq . e 117
  • 131.
    Nous pouvons doncconclure que la fonction de correspondance bas´e sur le calcul e de la subsomption a l’avantage d’ˆtre tr`s flexible dans le sens o` elle permet d’uti- e e u liser n’importe quelle relation pour calculer la correspondance entre un document et une requˆte. Mais, comme nous le verrons dans la section suivante, le prix ` payer e a peut survenir au niveau de la fonction d’ordonnancement. La fonction d’ordonnancement Avec notre fonction de correspondance, un document peut ˆtre retrouv´ comme e e r´ponse ` une requˆte mˆme s’il ne partage pas les mˆmes concepts qu’elle. Dans ce e a e e e cas, il n’est pas possible de calculer (` l’aide du mod`le vectoriel) une valeur de si- a e milarit´ entre un document et une requˆte qui ne partagent pas les mˆmes concepts. e e e Par exemple, pour la requˆte contenant “Tibia” et un document contenant “Bone”, e le mod`le vectoriel a retourn´ une valeur de similarit´ nulle alors que le document e e e est pertinent pour la requˆte en question. e Une solution possible ` ce probl`me consiste ` ´tendre la requˆte ou le docu- a e a e e ment avant de fabriquer leurs vecteurs respectifs et calculer la valeur de similarit´ e entre eux. En effet, lors du calcul de la subsomption, il est possible de savoir quelles sont les relations qui ont ´t´ utilis´es par le raisonneur pour fabriquer la hi´rarchie ee e e de subsomption. Ces relations peuvent ˆtre utilis´es pour ´tendre la requˆte ou ses e e e e documents r´ponses. Par exemple, pour la requˆte contenant “Tibia” et le docu- e e ment contenant “Bone”, nous pouvons utiliser la relation “is-a” pour ´tendre soit la e requˆte par le concept “Bone”, soit le document par le concept “Tibia”. e Suite ` ce probl`me, deux questions m´ritent d’ˆtre pos´es : a e e e e 1. Est-ce que l’ordonnancement dans un contexte de recherche pr´cise est indis- e pensable ? 2. Est-ce que la notion de pertinence dans un contexte de recherche pr´cise est la e mˆme que celle qui est utilis´e dans la recherche g´n´rale ? e e e e Nous pensons que dans une tˆche de recherche pr´cise, l’utilisateur peut se satis- a e 118
  • 132.
    faire de n’importequelle r´ponse pertinente retourn´e par le syst`me. Etant donn´ e e e e que la fonction de correspondance est cens´e ne retourner que des documents tr`s e e pertinents, l’ordonnancement devient moins important que dans un cas de recherche g´n´rale (comme sur le Web par exemple). Cependant, on peut penser que la no- e e tion de pertinence dans un contexte de recherche pr´cise diff`re de celle qui est e e utilis´e dans une recherche g´n´rale. Par exemple, pour une requˆte demandant la e e e e liste des joueurs de l’´quipe de Rugby de France, un document contenant les 15 e joueurs peut ˆtre consid´r´ par l’utilisateur comme plus pertinent qu’un document e ee contenant seulement quelques joueurs. Nous pensons qu’avant de proposer une fonction d’ordonnancement, il faut d’abord d´finir la notion de pertinence dans un contexte de recherche pr´cise. Il est possible e e que la d´finition de cette notion d´pende du domaine d’application consid´r´. Pour e e ee cette raison, il semble souhaitable de collaborer avec des utilisateurs d’un domaine particulier afin de d´finir leur notion de pertinence et proposer par la suite une fonc- e tion d’ordonnancement. Consid´ration des performances en temps de calcul e Il est ´vident que l’utilisation d’un raisonneur pour mettre en œuvre la fonction e de correspondance conduit ` des temps de calcul nettement plus longs que dans le a cas des SRI bas´s sur un index classique. N´anmoins, plusieurs points peuvent ˆtre e e e int´ressants ` ´tudier afin d’am´liorer les performances d’une approche bas´e sur la e ae e e logique descriptive : i ) le contenu des documents est g´n´ralement repr´sent´ par une e e e e simple expression logique en utilisant les constructeurs ⊓ et ∃. Ainsi, nous pouvons imaginer un algorithme de raisonnement plus simple que ceux utilis´s dans le cas e g´n´ral ; ii ) le contenu de la collection est g´n´ralement stable, et peut donc ˆtre e e e e e pr´-trait´ afin de minimiser les calculs au moment de l’interrogation. Par exemple, e e nous pouvons pr´-calculer la hi´rarchie de subsomption, et une fois la requˆte pos´e, e e e e le raisonneur n’a qu’` placer le concept repr´sentant la requˆte au bon endroit de a e e cette hi´rarchie. De plus, il est inutile de calculer la subsomption entre les concepts e repr´sentant les documents ; iii ) en cas o` les requˆtes sont repr´sent´es par des ex- e u e e e pressions logiques simples ou r´guli`res, un traitement sp´cifique peut ˆtre appliqu´ e e e e e afin de faciliter la tˆche du raisonneur et ´viter des calculs inutiles. a e 119
  • 133.
    Apr`s cette analysesur la mise en œuvre du mod`le, nous d´taillons maintenant e e e deux exp´riences pr´liminaires d´di´es ` l’´valuation, en terme de performance de e e e e a e recherche, de l’apport de l’utilisation des dimensions de domaine. Dans chacune de ces deux exp´riences, nous avons utilis´ le syst`me d’exp´rimentation X-IOTA e e e e d´velopp´ par l’´quipe MRIM du laboratoire LIG [17]. e e e 4.4.3 D´finition des ´l´ments de dimensions par des mots e ee Dans cette nouvelle exp´rience10 , nous avons utilis´ le th´saurus MeSH comme e e e ressource externe pour la d´finition des dimensions du domaine m´dical. Nous avons e e ´galement utilis´ les mots pour identifier les ´l´ments de dimensions au niveau des e e ee documents/requˆtes. Le but de cette exp´rience est de montrer comment, en dispo- e e sant d’un th´saurus de petite taille et d’un index ` base de mots-cl´s, l’application e a e de l’usage des dimensions de domaine peut r´soudre des requˆtes pr´cises et d´passer e e e e les approches bas´es sur les mod`les existants. e e Identification et pond´ration des ´l´ments de dimensions e ee Une fois les dimensions d´finies, nous les utilisons pour identifier les ´l´ments e ee de dimension au niveau des documents (requˆtes) du corpus ImageCLEFmed. Nous e avons fait une simplification en d´finissant un ´l´ment de dimension par un simple e ee mot. Donc si un mot appartenant ` un document (requˆte) existe dans une des a e dimensions d´finies, alors il sera consid´r´ comme un ´l´ment de cette dimension. e ee ee Une fois les ´l´ments de dimensions identifi´s, nous les pond´rons en employant le ee e e sch´ma de pond´ration LTC du mod`le vectoriel. e e e S´lection et ordonnancement des documents pertinents pour une requˆte e e Afin de r´soudre les requˆtes du corpus ImageCLEFmed, nous utilisons trois e e crit`res parmi ceux que nous avons propos´s dans notre mod`le : obligatoire, option- e e e nel, et priorit´. e Rappelons qu’un ´l´ment de dimension marqu´ comme obligatoire dans une ee e requˆte doit absolument apparaˆ dans les documents retrouv´s, alors qu’un ´l´ment e ıtre e ee de dimension optionnel peut y apparaˆ ou non. Enfin, un ´l´ment de dimension qui ıtre ee 10 Cette exp´rience a ´t´ men´e en collaboration avec Dr. J-P. Chevallet et Dr. J-W. Lim [20] [19] e ee e 120
  • 134.
    a une priorit´i doit apparaˆ dans les documents retrouv´s, sinon, c’est l’´l´ment e ıtre e ee de dimension qui a une priorit´ i + 1. e En se basant sur ces trois crit`res, nous avons effectu´ quatre tests afin de pou- e e voir interpr´ter le contenu des requˆtes. Nous pr´sentons ces tests dans la section e e e suivante, ainsi que les r´sultats obtenus. e Notre objectif ici n’est pas d’´valuer la fonction de correspondance, bas´e sur le e e calcul de la subsomption, mais plutˆt l’apport de l’utilisation des dimensions pour o la r´solution de requˆtes pr´cises. Ainsi, lors du calcul de la correspondance, nous e e e n’avons pas besoin de faire des inf´rences dans la ressource externe pour le cal- e cul de la subsomption. La correspondance entre une requˆte et un document peut e ˆtre effectu´e avec un mod`le bool´en classique o` les documents (requˆtes) sont e e e e u e repr´sent´(e)s comme une conjonction (et/ou disjonction) d’´l´ments de dimension. e e ee Une fois les documents s´lectionn´s, nous utilisons le mod`le vectoriel pour les e e e ordonner en fonction de leur pertinence par rapport ` la requˆte en question. Comme a e la correspondance a ´t´ effectu´e sans aucune inf´rence dans la ressource externe, ee e e chaque document retrouv´ partage forc´ment les mˆmes ´l´ments de dimension que e e e ee la requˆte. Ainsi, l’application du mod`le vectoriel pour le calcul d’une valeur de e e similarit´ entre un document et une requˆte ne pose aucun probl`me. e e e R´sultats exp´rimentaux e e Nous avons d’abord effectu´ une indexation classique bas´e sur le mod`le vec- e e e toriel (avec le sch´ma de pond´ration LTC) sans prise en compte des dimensions. e e Le r´sultat de cette m´thode d’indexation classique servira de r´f´rence (baseline) e e ee pour ´valuer l’apport de l’usage des dimensions de domaine. La pr´cision moyenne e e (MAP : Mean Average Precision) obtenu avec le baseline est ´gale ` 0.1725. e a Les r´sultats obtenus sont pr´sent´s dans le tableau 4.1, o` les lignes corres- e e e u pondent aux tests, et les valeurs correspondent aux r´sultats et leur taux de variation e compar´ au baseline. e Voici les quatre tests effectu´s lors de nos exp´riences. Evidemment, ce sont de e e 121
  • 135.
    Tab. 4.1 –Comparaison des r´sultats de notre approche avec le baseline. e Tests MAP Comparaison avec le baseline (%) T1 0.1463 -17.90 T2 0.1956 +13.39 T3 0.2075 +20.28 T4 0.2130 +23.47 simples tests sur des cas particuliers qui n’ont pas de port´e g´n´rale. Le but ici ´tant e e e e de montrer comment les op´rateurs que nous avons propos´s peuvent ˆtre utilis´s e e e e pour mieux pr´ciser un besoin d’information. e T1 : “Un document est consid´r´ pertinent s’il contient les trois dimensions pr´sentes e e e dans la requˆte”. e Cette requˆte se traduit par le fait que les ´l´ments des dimensions Anatomie, e ee Pathologie, et Modalit´ sont obligatoires et doivent donc ˆtre pr´sents dans les do- e e e cuments pertinents. Nous nous attendions ` ce que ce test am´liore les r´sultats mais les exp´riences a e e e d´montrent le contraire : une baisse de 17.90%. Apr`s analyse de la collection, nous e e avons remarqu´ que ce r´sultat est dˆ au fait que les documents de ImageCLEFmed- e e u 2005 ne contiennent pas souvent les termes d´crivant la modalit´ des images. Le fait e e que la modalit´ ne soit pas assez explicit´e dans les documents nous paraˆ normal e e ıt car un compte-rendu d´crit une pathologie sur une partie de l’anatomie, et l’informa- e tion sur le type d’image est souvent implicite. Pour cette raison, nous avons propos´ e le test suivant : T2 : “Un document est consid´r´ pertinent s’il contient au moins une des dimen- e e sions de la requˆte”. e Cette requˆte se traduit par le fait que les ´l´ments des dimensions Anatomie, e ee Pathologie, et Modalit´ sont tous optionnels et qu’au moins un d’entre eux doit ˆtre e e pr´sent dans les documents pertinents. e 122
  • 136.
    Avec ce test,nous avons obtenu une am´lioration du r´sultat de 13.39%. Dans e e ce cas, nous avons suppos´ que toutes les dimensions ont la mˆme importance dans e e la requˆte. Cette supposition n’est pas toujours valide. En effet, les termes d´crivant e e 11 la modalit´ dans la requˆte ne sont pas discriminants (ex : une CT peut ˆtre e e e “une image d’un rein” ou “une image d’un emphys`me”, etc.). De mˆme, les termes e e d´crivant la pathologie sont parfois ambigus (ex : une fracture peut ˆtre “une frac- e e ture d’un f´mur ” ou “une fracture d’un crˆne”, etc.). Donc, il nous a sembl´ que e a e l’anatomie est la dimension la plus importante parce qu’elle est discriminante et non ambigu¨. Ceci nous a sugg´r´ le test suivant : e ee T3 : “Un document pertinent doit contenir l’anatomie, sinon la pathologie, sinon la modalit´ ”. e Avec ce test, nous avons am´lior´ les performances de recherche de 20.28%. e e Comme les termes d´crivant la modalit´ ne sont pas souvent pr´sents dans les e e e documents, nous avons consid´r´ dans notre quatri`me test que les ´l´ments des ee e ee dimensions Anatomie et Pathologie sont obligatoires, et que les ´l´ments de la di- ee mension Modalit´ sont optionnels. e T4 : “Un document est consid´r´ pertinent s’il contient les dimensions anatomie et e e pathologie”. Avec ce test, nous avons obtenu une am´lioration des performances de recherche e de 23.47%. Dans la figure 4.10, nous proposons une comparaison graphique des performances de notre syst`me par rapport au baseline. e Nous pr´sentons dans la section suivante la deuxi`me exp´rience que nous avons e e e men´e en se basant sur une indexation conceptuelle. Nous revenons ` la fin de ce e a chapitre aux interpr´tations de ces r´sultats et aux conclusions que l’on peut tirer e e apr`s ces exp´riences. e e 11 Computed Tomography. 123
  • 137.
    Fig. 4.10 –R´sultats exp´rimentaux de la prise en compte des ´l´ments de dimen- e e ee sions d´finis par des mots e 4.4.4 D´finition des ´l´ments de dimensions par des concepts e ee Dans le but de confirmer et consolider12 les r´sultats obtenus dans la premi`re e e exp´rience, nous avons men´ une deuxi`me exp´rience sur la mˆme collection Ima- e e e e e geCLEFmed. Dans cette deuxi`me exp´rience, nous avons utilis´ les concepts pour e e e l’identification des ´l´ments de dimensions au niveau des documents/requˆtes. Nous ee e avons ainsi utilis´ le m´ta-th´saurus UMLS pour l’extraction des concepts ` partir e e e a des documents/requˆte, et pour la d´finition des dimensions du domaine m´dical. La e e e mien en œuvre de cette exp´rience suit les mˆmes ´tapes que nous avons pr´sent´es e e e e e dans la premi`re exp´rience. e e Mise en œuvre de l’indexation conceptuelle Dans le pr´sent travail, l’indexation conceptuelle n’est pas un objectif en soi. Il e s’agit tout simplement d’un moyen pour extraire, ` partir des documents (requˆtes), a e les concepts qui nous servent ` identifier les ´l´ments de dimension. a ee 12 C’est dans le sens o` dans la premi`re exp´rience il y avait une forte simplification en d´finissant u e e e les ´l´ments de dimensions par des simples mots-cl´s. ee e 124
  • 138.
    Voyons bri`vement lamise en œuvre de l’indexation conceptuelle que nous avons e utilis´e. Une description d´taill´e avec tous les r´sultats est disponible dans [73]. e e e e 13 L’outil que nous avons utilis´ est adapt´ aux textes ´crits en anglais. Nous l’avons e e e ´galement utilis´ pour les textes ´crits en allemand et en fran¸ais. e e e c Le principe g´n´ral de l’extraction des termes et des concepts qu’ils d´notent est e e e bas´ sur l’utilisation des outils de TAL traditionnellement utilis´s en RI, guid´s par e e e les donn´es terminologiques de UMLS. Tout d’abord, tous les textes de la collection e sont analys´s ` l’aide de TreeTagger14 qui fournit comme r´sultat des mots segment´s, e a e e ´tiquet´s syntaxiquement et lemmatis´s. Ensuite, une correspondance est faite entre e e e les (groupes de) mots fournis par TreeTagger et les entr´es de UMLS. L’hypoth`se e e sur laquelle se base la mise en œuvre de l’indexation conceptuelle est que seuls les termes pr´sents dans UMLS et retrouv´s, avec seulement des variantes lexicales dans e e les textes, permettent d’identifier un terme. Cette hypoth`se est restrictive car il e est possible que les donn´es terminologiques dans UMLS ne couvrent pas toutes les e formes textuelles possibles. La mise en œuvre de l’indexation conceptuelle est une tˆche difficile. Par exemple, a le m´ta-th´saurus UMLS ne contient pas toutes les formes textuelles possibles qui e e d´notent un concept. Ainsi, la correspondance stricte entre le texte des documents e et les entr´es de UMLS ne permet pas d’extraire tous les concepts. Cette limite peut e ˆtre contourn´e en tenant compte de deux types de variations : e e i ) La variation au niveau de la casse (utiliser les formes en majuscule ou en mi- nuscule) : selon les r´sultats, il semble difficile de pouvoir dire quelle m´thode e e effectue la meilleure correspondance entre les (groupe de) mots des textes et les entr´es de UMLS. En tout cas, d’un point de vue RI, la suppression de la e casse est plus simple ` mettre en œuvre et semble donc plus int´ressante. a e ii ) La variation au niveau lexical (la forme d’origine d’un mot ou sa forme lem- matis´e). A ce niveau il existe un probl`me de non-d´tection des termes qui e e e 13 D´velopp´ par Lo¨ Maisonnasse. e e ıc 14 http ://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html 125
  • 139.
    pourraient d´noter desconcepts dans le texte. Ce type d’erreur provient de e l’analyse lexicale de TreeTagger qui ne permet pas de retrouver les lemmes de tous les mots utilis´s dans le corpus m´dical. Par exemple, le terme “angio- e e grams”, qui est pr´sent dans une requˆte sous la forme au pluriel, ne peut pas e e ˆtre associ´ au concept correspondant car UMLS ne contient que la forme au e e singulier (angiogram) et TreeTagger n’est pas capable de retrouver le lemme correspondant ` “angiograms”. En effet, l’analyseur TreeTagger est un ana- a lyseur g´n´ral et donc non adapt´ au vocabulaire m´dical. L’utilisation d’un e e e e analyseur sp´cialis´ sur le domaine pourrait am´liorer les r´sultats. e e e e Un autre probl`me concerne l’association entre une chaˆ de caract`res et les e ıne e entr´es d’UMLS. Faut-il consid´rer seulement les termes pr´sents dans le texte et qui e e e sont les plus longs (contiennent le plus grand nombre de mots), ou bien consid´rer e tous les termes ind´pendamment de leurs tailles ? Dans le premier cas, notamment e consid´r´ par Baziz [4], le terme pertinent ` extraire de la s´quence “Images of right ee a e middle lobe”, est “right middle lobe” et non pas seulement “lobe”. Les exp´riences que nous avons effectu´es ont montr´ que la correspondance bas´e e e e e sur les termes les plus longs donne des r´sultats inf´rieurs ` ceux qui sont obtenus ` e e a a l’aide des mots. Cette baisse de performance s’explique par l’extrˆme pr´cision des e e concepts extraits. En effet, des concepts d´not´s par “Right middle lobe” ou “Chest e e CT” sont trop pr´cis de sorte que leur utilisation ` la place de leurs constituants e a entraˆ une forte baisse du rappel. D’autres probl`mes tels que la m´tonymie influe ıne e e sur la correspondance entre les concepts. En extrayant les concepts d´not´s par tous les termes pr´sents dans le texte, on e e e obtient une nette am´lioration dans les performances du syst`me, surpassant ainsi e e les r´sultats obtenus par l’indexation bas´e sur les mots cl´s. Cette am´lioration est e e e e la cons´quence d’une augmentation du taux du rappel qui est dˆ ` l’extraction de e ua certains concepts plus g´n´raux. e e Dans la pr´sente exp´rimentation, nous n’avons pas trait´ le probl`me de l’am- e e e e bigu¨ e des termes. Nous avons suppos´ que dans un domaine tr`s sp´cifique, tel que ıt´ e e e la m´decine, le taux d’ambigu¨ e des termes n’est pas ´lev´. Dans ce cas, l’indexation e ıt´ e e 126
  • 140.
    Tab. 4.2 –Comparaison des r´sultats de e notre approche avec le baseline. Tests Documents en Anglais Documents de toute la collection MAP Compar´ au baseline (%) e MAP Compar´ au baseline (%) e T1 0.1335 -10.03 0.1428 -1.61 T2 0.156 +6.19 0.1534 +5.72 T3 0.1617 +10.07 0.1579 +8.82 T4 0.1707 +16.2 0.1742 +20.05 conceptuelle sert principalement ` la prise en compte de la variation terminologique. a R´sultats exp´rimentaux e e Nous avons men´ deux exp´riences : la premi`re est effectu´e sur les seuls docu- e e e e ments en anglais, et la deuxi`me sur toute la collection ImageCLEFmed-2005. Les e r´sultats pr´sent´s plus loin sont compar´s ` deux r´sultats de r´f´rence obtenus e e e e a e ee avec la seule indexation conceptuelle bas´e sur le mod`le vectoriel (avec le sch´ma e e e de pond´ration LTC) sans prise en compte des dimensions. Le premier r´sultat de e e r´f´rence correspond ` l’indexation conceptuelle effectu´e sur les documents en an- ee a e glais : 0,1469 de pr´cision moyenne (MAP) ; le deuxi`me r´sultat de r´f´rence corres- e e e ee pond ` l’indexation conceptuelle effectu´e sur les documents de toute la collection : a e 0,1451 de pr´cision moyenne. Dans la suite, chacun de ces deux r´sultats sera appel´ e e e baseline. Nous remarquons que les valeurs des baselines obtenus avec l’indexation concep- tuelle sont plus faibles que ceux obtenus avec l’indexation bas´e sur les mots-cl´s (cf. e e section 4.4.3). Ceci est dˆ en partie aux difficult´s de la mise en œuvre de l’indexa- u e tion conceptuelle que nous avons ´voqu´es dans la section pr´c´dente. e e e e Comme dans l’exp´rience pr´sent´e dans la section 4.4.3, nous r´utilisons les e e e e quatre tests bas´s sur les crit`res suivants : obligatoire, optionnel, et priorit´. Les e e e nouveaux r´sultats sont pr´sent´s dans le tableau 4.2 o` chaque ligne correspond e e e u ` un test, et les valeurs repr´sentent les r´sultats et leur variation par rapport au a e e baseline correspondant. Ces r´sultats montrent que les quatre tests provoquent les mˆmes variations des e e performances que celles qui ont ´t´ obtenues dans la premi`re exp´rience (cf. tableau ee e e 127
  • 141.
    Tab. 4.3 –Variations des performances de notre syst`me appliqu´ sur trois index e e diff´rents. e Index 1 Index 2 Index 3 T1 -17.90 -10.03 -1.61 T2 +13.39 +6.19 +5.72 T3 +20.28 +10.07 +8.82 T4 +23.47 +16.2 +20.05 4.315 ). Le test T1 provoque une baisse dans les performances, et tous les autres tests conduisent ` des am´liorations dont les meilleures ont ´t´ obtenues par le test T4 : a e ee +16.2% pour les seuls documents en anglais, et +20.05% pour l’ensemble des docu- ments de la collection. Ces r´sultats confirment les conclusions tir´es suite ` la premi`re exp´rience : e e a e e - Les documents de la collection ImageCLEFmed-2005 ne contiennent pas souvent les concepts d´crivant la modalit´ des images. Ainsi, il suffit de consid´rer que e e e les ´l´ments de la dimension modalit´ sont optionnels pour obtenir une forte ee e am´lioration des performances ; e - Les dimensions de domaine n’ont pas toujours la mˆme importance dans la requˆte : e e les ´l´ments de la dimension Anatomie ne sont pas ambigus et il est donc ee b´n´fique de leur donner une priorit´ plus ´lev´e que celles des ´l´ments des e e e e e ee autres dimensions. Le fait de mettre des priorit´s sur les ´l´ments de dimen- e ee sions des requˆtes conduit dans tous les cas ` de nettes am´liorations au niveau e a e des performances de notre syst`me. e La figure 4.11 illustre les variations des performances de notre syst`me en effec- e tuant les tests respectivement sur Index1, Index2, et Index3. 15 o` Idex1 = Documents de toute la collection (´l´ments de dimensions d´finis par des mots-cl´s) ; u ee e e Index2 = Documents en Anglais (´l´ments de dimensions d´finis par des concepts), et Index3 = ee e Documents de toute la collection (´l´ments de dimensions d´finis par des concepts) ee e 128
  • 142.
    Fig. 4.11 –Variations des performances de notre syst`me appliqu´ sur trois index e e diff´rents e 4.5 Conclusion Dans tout ce quatri`me chapitre, nous avons d´taill´ la mise en œuvre de notre e e e mod`le et son application sur des exemples de la collection ImageCLEFmed-2005. e Plus particuli`rement, nous avons montr´ comment le calcul de subsomption est e e utilis´ pour mettre en œuvre la fonction de correspondance ` base de la logique e a descriptive. Ainsi, nous avons pu conclure que la performance de la fonction de cor- respondance d´pend principalement de la qualit´ de la ressource externe utilis´e : e e e plus cette ressource contient de relations de subsomption, plus la fonction de corres- pondance est capable de retrouver des documents pertinents ` une requˆte, mˆme a e e s’ils ne partagent pas les mˆmes concepts qu’elle. e Nous avons montr´ que la fonction de correspondance est tr`s flexible dans le sens e e o` elle permet d’utiliser n’importe quelle relation pour calculer la correspondance u entre un document et une requˆte. Il suffit de sp´cifier des propri´t´s transitives afin e e ee de permettre ` un raisonneur d’utiliser n’importe quel type de relation lors du calcul a de la subsomption. En utilisant les relations lors du calcul de la subsomption, un document peut ˆtre e retrouv´ comme r´ponse ` une requˆte mˆme s’il ne partage pas les mˆmes concepts e e a e e e avec elle. Ceci pose probl`me au niveau de la fonction d’ordonnancement car elle e 129
  • 143.
    est incapable decalculer une valeur de similarit´ entre un document et une requˆte e e qui ne partagent pas les mˆmes concepts. Une solution tr`s simple est d’´tendre la e e e requˆte ou le document durant le calcul de l’ordonnancement. Jusqu’` pr´sent, nous e a e n’avons pas propos´ une fonction d’ordonnancement particuli`re et nous envisageons e e d’´tudier ce probl`me dans nos futurs travaux. En particulier, nous souhaiterions e e d´finir la notion de pertinence dans un contexte de recherche pr´cise. Ceci devrait e e nous permettre de proposer une fonction d’ordonnancement qui soit encore plus en ad´quation avec les besoins pr´cis d’utilisateurs professionnels. e e Apr`s la mise en œuvre du mod`le, nous avons pr´sent´ deux exp´riences pr´limin- e e e e e e aires d´di´es ` l’´valuation, en terme de performance de recherche, de l’apport de e e a e l’utilisation des dimensions de domaine : i ) La premi`re est bas´e sur l’usage d’´l´ments de dimensions repr´sent´s par des e e ee e e mots-cl´s. Dans cette exp´rience, nous avons utilis´ la structure hi´rarchique du e e e e th´saurus MeSH pour d´finir les dimensions. Malgr´ une approche simplifi´e e e e e de la d´finition des ´l´ments de dimension, nous avons r´ussi ` d´passer les e ee e a e performances des syst`mes qui ne prennent pas en compte les dimensions de e domaine. Les r´sultats obtenus lors de cette exp´rience ont clairement montr´ e e e l’avantage de l’usage des dimensions de domaine pour l’interpr´tation des be- e soins pr´cis (une am´lioration de plus de 23% de la pr´cision moyenne). Cette e e e mˆme id´e nous a permis d’obtenir le meilleur r´sultat lors de notre participa- e e e tion16 ` la piste de recherche d’images m´dicales de la campagne d’´valuation a e e CLEF-2005 [20][19] ; ii ) La deuxi`me est bas´e sur l’usage d’´l´ments de dimensions repr´sent´s par des e e ee e e concepts. Dans cette exp´rience, nous avons utilis´ le m´ta-th´saurus UMLS e e e e pour la d´finition des dimensions et la mise en œuvre de l’indexation concep- e tuelle. Les ´l´ments de dimensions ont ´t´ repr´sent´s par les concepts extraits ee ee e e de ce m´ta-th´saurus. Bien que la technique d’extraction des concepts, et donc e e la reconnaissance des dimensions, ne soit pas totalement fiable, nous avons r´ussi ` am´liorer les performances de notre syst`me de 20%. Les r´sultats e a e e e obtenus lors de cette exp´rience consolident ceux obtenus lors de la premi`re e e 16 En collaboration avec Dr. J-P. Chevallet et Dr. J-W. Lim. 130
  • 144.
    exp´rience, et confirmentl’apport significatif de l’usage des dimensions pour la e r´solution des requˆtes pr´cises. e e e L’ensemble des r´sultats obtenus ici nous permet d’affirmer que la prise en compte e des dimensions permet d’augmenter la pr´cision moyenne du SRI. En effet, il s’agit e d’un compl´ment d’information qui permet d’identifier les ´l´ments pertinents qui e ee d´crivent le th`me d´taill´ dans la requˆte (document). En identifiant ces ´l´ments, e e e e e ee que nous avons appel´s ´l´ments de dimensions, notre syst`me arrive ` interpr´ter e ee e a e avec plus de pr´cision le contenu de la requˆte et donc de mieux la r´soudre. Nous e e e avons ´galement propos´ un langage de requˆte expressif qui permet ` l’usager d’uti- e e e a liser des op´rateurs sur les ´l´ments de dimensions de sa requˆte, et de mieux pr´ciser e ee e e son besoin en information. Nos exp´riences ont montr´ l’impact positif de l’usage de e e 17 ces op´rateurs sur la pr´cision du contenu de la requˆte, et sur les performances. e e e Comme notre syst`me s’adresse ` des utilisateurs professionnels qui connaissaient e a bien leur domaine d’int´rˆt, il est relativement facile d’utiliser notre langage de ee requˆte pour d´crire avec pr´cision les besoins d’information. Dans le cas o` l’uti- e e e u lisateur ne souhaiterait pas utiliser notre langage de requˆte, et se contente d’un e texte brut pour d´crire son besoin, il semble n´anmoins que notre syst`me soit ca- e e e pable d’identifier les dimensions et de les prendre en compte lors du processus d’in- terrogation. Dans cette direction, nous avons men´ une exp´rience sur la collection e e imageCLEFmed-2005 sans utiliser explicitement les op´rateurs sur les ´l´ments de di- e ee mensions. La requˆte est alors toujours consid´r´e comme une conjonction d’´l´ments e ee ee de dimensions. Apr`s la s´lection des documents pertinents, nous les organisons dans e e leur ordre de pertinence en fonction du nombre d’´l´ments de dimensions qu’ils par- ee tagent avec la requˆte en question. Ce processus se fait d’une mani`re transparente e e sans aucune intervention humaine. Les r´sultats obtenus lors de cette exp´rience ont e e montr´ une am´lioration sup´rieure ` 12% dans les performances. Ceci prouve en- e e e a core l’apport significatif de l’usage des dimensions lors du processus de RI mˆme e sans aucune intervention de l’utilisateur. Nous pouvons conclure apr`s les r´sultats encourageant obtenus ici que la prise e e en compte des dimensions de domaine est un moyen efficace pour la r´solution des e 17 les crit`res obligatoire, optionnel, et priorit´ e e 131
  • 145.
    requˆtes pr´cises. Cependant,nous consid´rons que les r´sultats pr´sent´s ici ne sont e e e e e e qu’une premi`re ´tape en vue de valider l’apport de l’usage des dimensions dans e e un processus de RI orient´ pr´cision. Afin de quantifier l’apport de notre approche, e e nous projetons de mettre en œuvre l’int´gralit´ de notre mod`le. La prochaine ´tape e e e e consiste donc ` repr´senter les ´l´ments de dimensions tel que nous les avons d´finis. a e ee e C’est-`-dire, ` les repr´senter par un ensemble de concepts et des relations. Une fois a a e les ´l´ments de dimension extraits, il reste seulement ` appliquer la fonction de cor- ee a respondance pour ´valuer l’int´gralit´ de notre approche. Une deuxi`me perspective e e e e est de proposer une fonction d’ordonnancement ad´quate au contexte de recherche e pr´cise. La troisi`me perspective est de d´velopper une interface graphique afin que e e e les utilisateurs puissent tester l’utilisabit´ de notre syst`me. e e 132
  • 146.
    Chapitre 5 Conclusion Nous nous sommes int´ress´s ` un contexte de RI dans des milieux profession- e e a nels, o` les besoins d’information des utilisateurs sont formul´s ` travers des requˆtes u e a e pr´cises. L’objectif de notre travail de th`se a donc ´t´ de d´finir un mod`le de RI e e ee e e capable de r´soudre ce type de requˆtes. Pour ce faire, nous avons opt´ pour l’uti- e e e lisation des connaissances du domaine d’int´rˆt de l’utilisateur afin de consid´rer ee e la s´mantique v´hicul´e par les documents et les requˆtes. Ces connaissances sont e e e e d´crites ` travers des ressources externes, et leur usage a pour but d’“augmenter” e a les connaissances du syst`me sur le domaine trait´ afin qu’il puisse expliciter la e e s´mantique v´hicul´e par le document, et r´soudre ainsi des requˆtes pr´cises. e e e e e e Nous nous sommes int´ress´s aux travaux qui utilisent les ressources externes e e pour la repr´sentation du contenu s´mantique des documents et des requˆtes. Ces e e e travaux concernent principalement l’approche de RI dite “bas´e-concepts” (Concept- e Based Information Retrieval ). L’´tude des travaux les plus significatifs situ´s dans e e cette classe d’approches nous a montr´ leurs limites face aux exigences de l’utilisateur e en termes de pr´cision du syst`me. En effet, ces approches consid`rent les documents e e e et les requˆtes comme des sacs de concepts (pond´r´s), et ne peuvent donc mettre e ee en exergue les aspects li´s aux descriptions s´mantiques du contenu du document et e e de la requˆte. Pour notre part, l’approche que nous avons adopt´e consiste ` utiliser e e a les dimensions de domaine. 133
  • 147.
    5.1 Apport th´orique e Dans notre approche, nous d´finissons d’abord les dimensions de domaine ` tra- e a vers des ressources externes. Il s’agit d’ajouter une structure dans la ressource externe en cr´ant des concepts d´finissant les dimensions. Ensuite, nous utilisons les dimen- e e sions pour mettre en avant les ´l´ments pertinents qui contribuent ` la description ee a du contenu s´mantique des documents et des requˆtes. Ainsi, au lieu de consid´rer e e e les documents et les requˆtes comme des sacs de concepts, nous avons propos´ une e e nouvelle unit´ d’indexation d´finie par des dimensions, des concepts et des relations e e s´mantiques : il s’agit de l’´l´ment de dimension. Nous utilisons cette nouvelle e ee unit´ d’indexation afin de produire une repr´sentation pr´cise des documents et des e e e requˆtes tout en consid´rant les aspects li´s ` leur s´mantique. Ainsi, nous avons e e e a e propos´ un langage de document expressif qui permet une indexation pr´cise du e e contenu s´mantique des documents. Nous avons ´galement propos´ un langage de e e e requˆte expressif permettant ` l’usager d’utiliser ces ´l´ments de dimensions et des e a ee op´rateurs pour d´crire avec pr´cision son besoin d’information. En consid´rant les e e e e exigences de l’utilisateur en termes de pr´cision, nous avons propos´ un mod`le de e e e Recherche d’Information capable de r´soudre des requˆtes pr´cises. e e e Pour d´finir notre mod`le, nous avons choisi un formalisme de repr´sentation de e e e connaissances disposant d’un niveau d’expressivit´ assez ´lev´ qui convient tr`s bien e e e e ` la repr´sentation pr´cise du contenu s´mantique des documents et des requˆtes : il a e e e e s’agit de la logique descriptive. Ainsi, nous avons pu incorporer les connaissances du domaine lors de la d´finition de notre mod`le tout en garantissant une repr´sentation e e e uniforme des documents, des requˆtes et de la ressource externe. Nous avons ´galement e e profit´ de l’algorithme de calcul de subsomption offert par la logique descriptive afin e de d´finir la fonction de correspondance mettant en œuvre la pertinence syst`me. e e 5.2 Apport pratique Dans le but de tester la faisabilit´ de notre approche, nous avons effectu´ une s´rie e e e d’exp´riences sur des requˆtes de la collection ImageCLEFmed-2005. Ces exp´riences e e e nous ont permis de savoir jusqu’` quel point notre mod`le, bas´ sur la logique des- a e e criptive, peut ˆtre appliqu´ et quelles sont les limites formelles et techniques qui lui e e sont li´es. Nous avons principalement conclu que la qualit´ de la conception de la e e 134
  • 148.
    ressource externe, utilis´epour la repr´sentation du contenu des documents et des e e requˆtes, a un impact majeur sur les performances de recherche. En effet, la fonc- e tion de correspondance bas´e sur le calcul de subsomption s’av`re souvent b´n´fique e e e e quand la ressource externe est riche en terme de relation de subsomption (is-a). En effet, c’est surtout ` travers l’algorithme de calcul de subsomption que la logique des- a criptive offre une capacit´ de raisonnement qui permet de d´duire des connaissances e e implicites ` partir de celles repr´sent´es explicitement dans la T-Box, et permet ainsi a e e de retrouver des documents pertinents pour une requˆte mˆme s’ils ne partagent pas e e les mˆmes concepts que cette derni`re. Nos exp´riences ont cependant montr´ que e e e e la relation de subsomption n’est pas suffisante pour calculer la correspondance entre un document et une requˆte. Pour cette raison, nous avons entrepris d’utiliser des e propri´t´s transitives. Ainsi, nous avons rendu notre fonction de correspondance tr`s ee e flexible dans le sens o` elle permet d’utiliser n’importe quel type de relation lors du u calcul de la correspondance entre un document et une requˆte.e Dans le but d’´valuer l’apport de l’usage des dimensions en terme de performance e de recherche, nous avons men´ une deuxi`me s´rie d’exp´riences sur la collection e e e e ImageCLEFmed-2005. L’ensemble des r´sultats encourageant obtenus nous a permis e de conclure que la prise en compte des dimensions de domaine est un moyen efficace pour la r´solution des requˆtes pr´cises. e e e 5.3 Perspectives Avant de pouvoir utiliser les dimensions de domaine, il faut d’abord les construire. Dans les exp´riences pr´sent´es dans ce manuscrit, les dimensions ont ´t´ construites e e e ee manuellement ` travers des ressources externes existantes. Pour nos futures exp´rien- a e ces, nous projetons de les construire automatiquement. Nous avons d´j` commenc´ ea e l’´tude de ce probl`me et con¸u un algorithme pr´liminaire pour cette construction e e c e [69]. La prochaine ´tape consiste ` ´valuer exp´rimentalement cet algorithme. Pour e ae e ce faire, nous allons nous inspirer des travaux de Stoica et Hearst sur la construction automatique des facettes [87]. Les r´sultats pr´sent´s dans ce manuscrit ne sont qu’une premi`re ´tape en vue e e e e e de la validation de l’apport de l’usage des dimensions dans un processus de RI orient´ e 135
  • 149.
    pr´cision. Afin dequantifier plus pr´cis´ment l’apport de notre approche, nous proje- e e e tons de mettre en œuvre l’int´gralit´ de notre mod`le. La prochaine ´tape consistera e e e e donc ` identifier automatiquement les ´l´ments de dimension au niveau des docu- a ee ments. Cette ´tape demande de savoir extraire, ` partir des documents, des concepts e a et des relations qui servent ` d´finir les ´l´ments de dimension. Ce processus peut a e ee n´cessiter un traitement automatique de la langue, guid´ par l’utilisation des res- e e sources externes. Une fois les ´l´ments de dimension extraits, il ne restera plus qu’` ee a appliquer la fonction de correspondance pour ´valuer l’int´gralit´ de notre approche. e e e Une troisi`me perspective est de proposer une fonction d’ordonnancement ad´qu- e e ate au contexte de recherche dans les milieux professionnels. Mais avant de proposer une telle fonction, nous pensons qu’il faut d’abord d´finir la notion de pertinence e dans ce contexte particulier. Il est possible que la d´finition de cette notion puisse e d´pendre du domaine d’application consid´r´. Pour cette raison, il apparaˆ sou- e ee ıt haitable de collaborer avec des utilisateurs d’un domaine particulier afin de d´finir e leur notion de pertinence et proposer par la suite une fonction d’ordonnancement ad´quate. e La fonction d’ordonnancement recherch´e devrait s’appuyer sur les pond´rations e e des ´l´ments de dimension afin de permettre le calcul d’une valeur de pertinence ee d’un document par rapport ` une requˆte. Une quatri`me perspective concerne donc a e e l’´tude de la possibilit´ d’int´grer les pond´rations dans notre mod`le bas´ sur la lo- e e e e e e gique descriptive. Ceci semble n´cessiter l’extension du mod`le actuel par la logique e e floue. La cinqui`me perspective est de d´velopper une interface graphique afin que les e e utilisateurs puissent tester l’utilisabit´ de notre syst`me. Cette interface devrait per- e e mette ` l’utilisateur de tirer pleinement profit de notre mod`le, en particulier, en a e exploitant le langage de requˆte lors de l’expression de son besoin d’information. Le e d´veloppement de cette interface devrait ˆtre centr´ sur les utilisateurs afin qu’elle e e e soit adapt´e ` leur besoin. e a 136
  • 150.
    Bibliographie [1] Nathalie Aussenac-Gillesand Josiane Mothe. Ontologies as Background Know- ledge to Explore Document Collections . In RIAO 2004, Avignon,, pages 129– 142, April 2004. [2] Franz Baader, Diego Calvanese, Deborah L. McGuinness, Daniele Nardi, and Peter F. Patel-Schneider, editors. The description logic handbook : theory, implementation, and applications. Cambridge University Press, New York, NY, USA, 2003. [3] Ricardo A. Baeza-Yates and Berthier Ribeiro-Neto. Modern Information Re- trieval. Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 1999. [4] Mustapha Baziz. Indexation conceptuelle guid´e par ontologie pour la recherche e d’information. Th`se de doctorat, Universit´ Paul Sabatier, Toulouse, France, e e d´cembre 2005. e [5] Mustapha Baziz, Nathalie Aussenac-Gilles, and Mohand Boughanem. D´sambiguisation et Expansion de Requˆtes dans un SRI, Etude de l’apport e e des liens s´mantiques. Revue des Sciences et Technologies de l’Information e (RSTI) s´rie ISI, 8(4/2003) :113–136, d´cembre 2003. e e [6] Mustapha Baziz, Mohand Boughanem, and Nathalie Aussenac-Gilles. IRIT at CLEF 2004 : The English GIRT task . In Carol Peters, Paul Clough, Julio Gonzalo, and Gareth J. F. Jones, editors, Cross Language Evaluation Forum CLEF’2004 Workshop , Bath, UK, 15/09/04-17/09/04, pages 283–291. Lecture Notes in Computer Science LNCS Volume 3491/2005, Springer-Verlag, September 2004. [7] Mustapha Baziz, Mohand Boughanem, Nathalie Aussenac-Gilles, and Claude Chrisment. Semantic cores for representing documents in ir. In SAC’05 : 137
  • 151.
    Proceedings of the2005 ACM symposium on Applied computing, pages 1011– 1017, New York, NY, USA, 2005. ACM. [8] Tim Berners-Lee, James Hendler, and Ora Lasilla. The semantic web. Scientific American, May 2001. [9] Catherine Berrut. Une m´thode d’indexation fond´e sur l’analyse s´mantique e e e de documents sp´cialis´s. Le prototype RIME et son application ` un corpus e e a m´dical. Th`se de doctorat, Universit´ Joseph Fourier, Grenoble, France, 1988. e e e [10] C. Biemann. Semantic indexing with typed terms using rapid annotation. In Proceedings of the TKE-05-Workshop on Methods and Applications of Seman- tic Indexing, Copenhagen, 2005. [11] Richard C. Bodner and Fei Song. Knowledge-based approaches to query ex- pansion in information retrieval. In AI ’96 : Proceedings of the 11th Bien- nial Conference of the Canadian Society for Computational Studies of Intelli- gence on Advances in Artificial Intelligence, pages 146–158, London, UK, 1996. Springer-Verlag. [12] R. J. Brachman and J. G. Schmolze. An overview of the kl-one knowledge representation system. In J. Mylopoulos and M. L. Brodie, editors, Artifi- cial Intelligence & Databases, pages 207–230. Kaufmann Publishers, INC., San Mateo, CA, 1989. [13] Chris Buckley. The smart lab report : The modern smart years (1980-1996). SIGIR Forum, 31(1), 1997. [14] Chris Buckley, Gerard Salton, James Allan, and Amit Singhal. Automatic query expansion using smart : Trec 3. In TREC, pages 0–, 1994. [15] Jean Charlet, Philippe Laublet, and Chantal Reynaud. Web s´mantique : e Rapport final. Technical report, Action sp´cifique 32 CNRS / STIC, December e 2003. [16] Jean-Pierre Chevallet. Un Mod`le Logique de Recherche d’Informations ap- e pliqu´ au formalisme des Graphes Conceptuels. Le prototype ELEN et son e exp´rimentation sur un corpus de composants logiciels. PhD thesis, Univer- e sit´ Joseph Fourier, Grenoble, 1992. e [17] Jean-Pierre Chevallet. X-iota : An open xml framework for ir experimentation application on multiple weighting scheme tests in a bilingual corpus. Lecture 138
  • 152.
    Notes in ComputerScience (LNCS), AIRS’04 Conference Beijing, 3211 :263– 280, 2004. [18] Jean-Pierre Chevallet, Joo-Hwee Lim, and Diem Thi Hoang Le. Domain know- ledge conceptual inter-media indexing : application to multilingual multimedia medical reports. In CIKM, pages 495–504. ACM, 2007. [19] Jean-Pierre Chevallet, Joo-Hwee Lim, and Sa¨ Radhouani. A structured visual ıd learning approach mixed with ontology dimensions for medical queries. In Ca- rol Peters, Fredric C. Gey, Julio Gonzalo, Henning M¨ ller, Gareth J. F. Jones, u Michael Kluck, Bernardo Magnini, and Maarten de Rijke, editors, CLEF, vo- lume 4022 of Lecture Notes in Computer Science, pages 642–651. Springer, 2005. [20] Jean-Pierre Chevallet, Joo-Hwee Lim, and Sa¨ Radhouani. Using ontology ıd dimensions and negative expansion to solve precise queries in clef medical task. In CLEF Workhop, Working Notes Medical Image Track, Vienna, Austria, 21– 23 September 2005. [21] Paul-Alexandru Chirita Christian Kohlsch¨ tter and Wolfgang Nejdl. Using link u analysis to identify aspects in faceted web search. In ACM SIGIR Workshop on Faceted Search, Seattle, USA, August 2006. [22] Martin Chodorow Claudia Leacock and George Miller. Using corpus statis- tics and wordnet relations for sense identification. computational linguistics. Computational Linguistics, 24(1) :147–165, 1998. [23] C. Cleverdon and M. Kean. Factors determining the performance of indexing systems. Aslib Cranfield Research Project, Cranfield, England, 1968. [24] Paul Clough and Henning Muller. The clef cross language image retrieval track 2005. In http ://ir.shef.ac.uk/imageclef2005/, visited on November 2005. [25] Fabio Crestani. Exploiting the similarity of non-matching terms at retrieval time. Information Retrieval, 2(1) :23–43, 2000. [26] Wisam Dakka, Panagiotis G. Ipeirotis, and Kenneth R. Wood. Automatic construction of multifaceted browsing interfaces. In Otthein Herzog, Hans- J¨rg Schek, Norbert Fuhr, Abdur Chowdhury, and Wilfried Teiken, editors, o CIKM, pages 768–775. ACM, 2005. 139
  • 153.
    [27] Claudia LeacockEllen Marie Voorhees and Geoffrey Towell. Learning context to disambiguate word senses. In the 3rd Computational Learning Theory and iVatural Learning Systems Conference. MIT Press, 1992. [28] Christiane Fellbaum, editor. WordNet : an electronic lexical database. Massa- chusetts : The MIT Press, 1998. p.423. [29] Edward Alan Fox. Extending the boolean and vector space models of infor- mation retrieval with p-norm queries and multiple concept types. PhD thesis, Ithaca, NY, USA, 1983. [30] William Gale, Kenneth Ward Church, and David Yarowsky. Estimating upper and lower bounds on the performance of word-sense disambiguation programs. In Proceedings of the 30th annual meeting on Association for Computational Linguistics, pages 249–256, Morristown, NJ, USA, 1992. Association for Com- putational Linguistics. [31] Joseph A. Goguen. What is a concept ? In Frithjof Dau, Marie-Laure Mugnier, and Gerd Stumme, editors, Proceedings of the 13th International Conference on Conceptual Structures (ICCS 2005), volume 3596 of Lecture Notes in Computer Science, pages 52–77. Springer, 2005. [32] Julio Gonzalo, Felisa Verdejo, Irina Chugur, and Juan Cigarran. Indexing with wordnet synsets can improve text retrieval. In Proceedings of the CO- LING/ACL ’98 Workshop on Usage of WordNet for NLP, pages 38–44, Mon- treal, Canada, 1998. [33] Donna Harman. Relevance feedback revisited. In SIGIR ’92 : Proceedings of the 15th annual international ACM SIGIR conference on Research and deve- lopment in information retrieval, pages 1–10, New York, NY, USA, 1992. ACM Press. [34] Donna Harman. The first text retrieval conference (trec-1), rockville, md, usa, 4-6 november 1992. Inf. Process. Manage., 29(4) :411–414, 1993. [35] Philip J. Hayes. Intelligent high-volume text processing using shallow, domain- specific techniques. pages 227–241, 1992. [36] Marti A. Hearst. Clustering versus faceted categories for information explora- tion. Commun. ACM, 49(4) :59–61, 2006. 140
  • 154.
    [37] Marti A.Hearst. Design recommendations for hierarchical faceted search in- terfaces. In ACM SIGIR Workshop on Faceted Search, Seattle, USA, August 2006. [38] Eero Hyv¨nen, Samppa Saarela, Avril Styrman, and Kim Viljanen. Ontology- o based image retrieval. In WWW (Posters), 2003. [39] Eero Hyv¨nen, Avril Styrman, and Samppa Saarela. Ontology-based image o retrieval. In Towards the semantic web and web services, Proceedings of XML Finland 2002 Conference, pages 15–27, October 21–22 2002. [40] Haward Jie and Yi Zhang. Personalized faceted query expansion. In ACM SIGIR Workshop on Faceted Search, Seattle, USA, August 2006. [41] Karen Sparck Jones and C.J. Keith van Rijsbergen. Progress in documentation. Journal of Documentation, 32(1) :59–75, 1976. [42] Uwe Thaden Jorg Diederich and Wolf-Tilo Balke. The semantic growbag de- monstrator for automatically organizing topic facets. In ACM SIGIR Workshop on Faceted Search, Seattle, USA, August 2006. [43] Vipul Kashyap and Alexander Borgida. Representing the umls semantic net- work using owl : (or ”what’s in a semantic web link ?”). In Dieter Fensel, Katia P. Sycara, and John Mylopoulos, editors, International Semantic Web Conference, volume 2870 of Lecture Notes in Computer Science, pages 1–16. Springer, 2003. [44] Leila Kefi. Mod`le g´n´ral de recherche d’information : Application ` la re- e e e a cherche de documents techniques. Th`se de doctorat, Universit´ Joseph Fou- e e rier, Grenoble, France, 2006. [45] Robert Krovetz. Viewing morphology as an inference process. In Proc. of 16th Annual International ACM/SIGIR Conference on Research & Development in Information Retrieval, pages 191–203, 1993. [46] Robert Krovetz. Homonymy and polysemy in information retrieval. In ACL, pages 72–79, 1997. [47] Robert Krovetz and W. Bruce Croft. Lexical ambiguity and information re- trieval. ACM Transactions on Information Systems, 10(2) :115–141, 1992. [48] Catherine Berrut Leila Kefi and Eric Gaussier. un mod`le de ri bas´ sur des e e crit`res d’obligation et de certitude. In CORIA06 COnf´rence en Recherche e e Information, Lyon (France), 15–17 mars 2006. 141
  • 155.
    [49] David DLewis. Representation and learning in information retrieval. Technical report, Amherst, MA, USA, 1991. [50] Dekang Lin. An Information-Theoretic Definition of Similarity. In Proceedings of the 15th International Conference on Machine Learning, pages 296–304. Morgan Kaufmann, San Francisco, CA, 1998. [51] Shuang Liu, Fang Liu, Clement Yu, and Weiyi Meng. An effective approach to document retrieval via utilizing wordnet and recognizing phrases. In SIGIR, 2004. [52] Eetu M¨kel¨, Eero Hyv¨nen, and Samppa Saarela. Ontogator - a semantic a a o view-based search engine service for web applications. In International Se- mantic Web Conference, pages 847–860, 2006. [53] Eetu M¨kel¨, Eero Hyv¨nen, and Teemu Sidoroff. View-based user interfaces a a o for information retrieval on the semantic web. In ISWC-2005 Workshop End User Semantic Web Interaction, November. [54] Mourad Mechkour. A multifacet formal image model for information retrieval. In Ian Ruthven, editor, MIRO, Workshops in Computing. BCS, 1995. [55] Carlo Meghini, Fabrizio Sebastiani, and Umberto Straccia. A model of multi- media information retrieval. J. ACM, 48(5) :909–970, 2001. [56] Carlo Meghini, Fabrizio Sebastiani, Umberto Straccia, and Costantino Thanos. A model of information retrieval based on a terminological logic. In SIGIR ’93 : Proceedings of the 16th annual international ACM SIGIR conference on Research and development in information retrieval, pages 298–307, New York, NY, USA, 1993. [57] Carlo Meghini and Umberto Straccia. A relevance terminological logic for information retrieval. In Hans-Peter Frei, Donna Harman, Peter Schuble, and Ross Wilkinson, editors, SIGIR, pages 197–205. ACM, 1996. [58] Rada Mihalcea and Dan Moldovan. Semantic indexing using wordnet senses. In Proceedings of the ACL-2000 workshop on Recent advances in natural language processing and information retrieval, pages 35–45, Morristown, NJ, USA, 2000. Association for Computational Linguistics. [59] Rada Mihalcea and Dan I. Moldovan. An iterative approach to word sense di- sambiguation. In Proceedings of the Thirteenth International Florida Artificial Intelligence Research Society Conference, pages 219–223. AAAI Press, 2000. 142
  • 156.
    [60] George Miller.Wordnet : an on-line lexical database. International Journal of Lexicography, 4(3), 1990. [61] Dan I. Moldovan, Sanda M. Harabagiu, Marius Pasca, Rada Mihalcea, Richard Goodrum, Roxana Girju, and Vasile Rus. Lasso : A tool for surfing the answer net. In TREC, 1999. [62] Dan I. Moldovan and Rada Mihalcea. Using wordnet and lexical operators to improve internet searches. IEEE Internet Computing, 4(1) :34–43, 2000. [63] Iadh Ounis. Un mod`le d’indexation relationnel pour les graphes conceptuels e fond´ sur une interpr´tation logique. Th`se de doctorat, Universit´ Joseph e e e e Fourier, Grenoble, France, 1998. ¨ [64] Ozlem Uzuner, Boris Katz, and Deniz Yuret. Word sense disambiguation for information retrieval. In AAAI/IAAI, page 985, 1999. [65] Helen J. Peat and Peter Willett. The limitations of term co-occurrence data for query expansion in document retrieval systems. JASIS, 42(5) :378–383, 1991. [66] A Steven Pollitt. The key role of classification and indexing in view-based searching. In Proceedings of the 63rd International Federation of Library As- sociations and Institutions General Conference (IFLA’97), 1997. [67] Paul Procter. Longman Dictionary of Contemporary English. Longman Group, 1978. [68] Yonggang Qiu and Hans-Peter Frei. Concept based query expansion. In Robert Korfhage, Edie M. Rasmussen, and Peter Willett, editors, SIGIR, pages 160– 169. ACM, 1993. [69] Sa¨ Radhouani. Un algorithme pour la construction automatique de dimen- ıd sions ` partir de resources existantes. Technical report, CUI, University of a Geneva, Switzerland, September 2007. [70] Philip Resnik. Semantic similarity in a taxonomy : An information-based mea- sure and its application to problems of ambiguity in natural language. Journal of Artificial Intelligence Research, 11 :95–130, 1999. [71] Ray Richardson and Alan F. Smeaton. Using WordNet in a knowledge-based approach to information retrieval. Technical Report CA-0395, Dublin, Ireland, 1995. 143
  • 157.
    [72] Giovanni MariaSacco. Research results in dynamic taxonomy and faceted search systems. In DEXA Workshops, pages 201–206. IEEE Computer Society, 2007. [73] Joo-Hwee Lim Le Thi-Hoang-Diem Sa¨ Radhouani, Lo¨ Maisonnasse, , and ıd ıc Jean-Pierre Chevallet. Une indexation conceptuelle pour un filtrage par di- mensions, exp´rimentation sur la base m´dicale imageclefmed avec le m´ta- e e e th´saurus umls. In CORIA06 COnf´rence en Recherche d’Information, Lyon e e (France), 15–17 mars 2006. [74] G. Salton. The SMART Retrieval System ;Experiments in Automatic Document Processing. Prentice-Hall, Inc., Upper Saddle River, NJ, USA, 1971. [75] Gerard Salton. Some research problems in automatic information retrieval. In Jennifer J. Kuehn, editor, SIGIR, pages 252–263. ACM, 1983. [76] Gerard Salton and Michael Lesk. Computer evaluation of indexing and text processing. J. ACM, 15(1) :8–36, 1968. [77] Mark Sanderson. Word sense disambiguation and information retrieval. In Proc. of the 17th ACM/SIGIR Conference, pages 142–150, 1994. [78] Mark Sanderson. Word Sense Disambiguation and Information Retrieval. Ph.d. thesis, University of Glasgow, Glasgow G12 8QQ, UK, 1997. [79] Mark Sanderson. Retrieving with good sense. Information Retrieval, 2(1) :45– 65, 2000. [80] Hinrich Sch¨ tze and Jan O. Pedersen. Information Retrieval Based on Word u Senses. In Fourth Annual Symposium on Document Analysis and Information Retrieval, 1995. [81] Satanjeev Banerjee Siddharth Patwardhan and Ted Pedersen. Using measures of semantic relatedness for word sense disambiguation. In Proceedings of the Fourth International Conference on Intelligent Text Processing and Computa- tional Linguistics, pages 241–257, 2003. [82] Malika Sma¨ Raisonnement ` base de cas pour une recherche ´volutive d’in- ıl. a e formation. Th`se de doctorat, Universit´ de Nancy, Nancy, France, 1994. e e [83] Alan F. Smeaton and Ian Quigley. Experiments on using semantic distances between words in image caption retrieval. In Proc. of 19th International Confe- rence on Research and Development in Information Retrieval, Zurich, Switzer- land, 1996. 144
  • 158.
    [84] Alan F.Smeaton and C. J. van Rijsbergen. The retrieval effects of query expansion on a feedback document retrieval system. Comput. J., 26(3) :239– 246, 1983. [85] Lina Fatima Soualmia, Christine Golbreich, and St´fan Jacques Darmoni. Re- e presenting the mesh in owl : Towards a semi-automatic migration. In Udo Hahn, editor, KR-MED, volume 102 of CEUR Workshop Proceedings, pages 81–87. CEUR-WS.org, 2004. [86] J.A. Stein. Alternative methods of indexing legal material : Development of a conceptual index. In Conference ”Law Via the Internet g7”, Sydney, Australia, 1997. [87] Emilia Stoica and Marti A. Hearst. Demonstration : Using wordnet to build hierarchical facet categories. In ACM SIGIR Workshop on Faceted Search, Seattle, USA, August 2006. [88] Michael Sussna. Word sense disambiguation for free-text indexing using a massive semantic network. In Proc. of 2nd International Conference on Infor- mation and Knowledge Management, Arlington, Virginia, 1993. [89] Michael John Sussna. Text retrieval using inference in semantic metanetworks. PhD thesis, University of California at San Diego, La Jolla, CA, USA, 1997. [90] Daniel Tunkelang. Dynamic category sets : An approach for faceted search. In ACM SIGIR Workshop on Faceted Search, Seattle, USA, August 2006. [91] Howard R. Turtle and W. Bruce Croft. Inference networks for document re- trieval. In Jean-Luc Vidick, editor, SIGIR, pages 1–24. ACM, 1990. [92] David Vallet, Miriam Fern´ndez, and Pablo Castells. An ontology-based in- a formation retrieval model. In Asunci´n G´mez-P´rez and J´rˆme Euzenat, o o e eo editors, ESWC, volume 3532 of Lecture Notes in Computer Science, pages 455–470. Springer, 2005. [93] C.J. Keith van Rijsbergen. A new theoretical framework for information re- trieval. In ACM Conference on Research and development in Information Retrieval, Pisa, pages 194–200, 1986. [94] Ellen Marie Voorhees. On expanding query vectors with lexically related words. In TREC, pages 223–232, 1993. 145
  • 159.
    [95] Ellen MarieVoorhees. Using wordnet to disambiguate word senses for text retrieval. In Robert Korfhage, Edie M. Rasmussen, and Peter Willett, editors, SIGIR, pages 171–180. ACM, 1993. [96] Ellen Marie Voorhees. Query expansion using lexical-semantic relations. In SIGIR ’94 : Proceedings of the 17th annual international ACM SIGIR confe- rence on Research and development in information retrieval, pages 61–69, New York, NY, USA, 1994. Springer-Verlag New York, Inc. [97] Ellen Marie Voorhees. Using WordNet for Text Retrieval. In C. Fellbaum, editor, WordNet : an electronic lexical database. MIT Press, 1998. [98] Ellen Marie Voorhees. Natural language processing and information retrie- val. In Maria Teresa Pazienza, editor, SCIE, volume 1714 of Lecture Notes in Computer Science, pages 32–48. Springer, 1999. [99] Peter Wallis. Information retrieval based on paraphrase. In the 1st Pacific Association for Computational Linguistics Conference, 1993. [100] Stephen F. Weiss. Learning to disambiguate. Information Storage and Retrie- val, 9(1) :33–41, 1973. [101] Rishabh Dayal Wisam Dakka and Panagiotis G. Ipeirotis. Automatic discovery of useful facet terms. In ACM SIGIR Workshop on Faceted Search, Seattle, USA, August 2006. [102] Jinxi Xu and W. Bruce Croft. Query expansion using local and global docu- ment analysis. In Hans-Peter Frei, Donna Harman, Peter Sch¨uble, and Ross a Wilkinson, editors, SIGIR, pages 4–11. ACM, 1996. [103] Jinxi Xu and W. Bruce Croft. Improving the effectiveness of information retrieval with local context analysis. ACM Trans. Inf. Syst., 18(1) :79–112, 2000. [104] David Yarowsky. One sense per collocation. In Proceedings ARPA Human Language Technology Workshop, pages 266–271, 1993. [105] Ka-Ping Yee, Kirsten Swearingen, Kevin Li, and Marti Hearst. Faceted meta- data for image search and browsing. In CHI ’03 : Proceedings of the conference on Human factors in computing systems, pages 401–408. ACM Press, 2003. [106] Uri Zernik. Train1 vs. train2 : Tagging word senses in corpus. In Lexical Acquisition : Exploiting On-Line Resources to Build a Lexicon, pages 91–112. Lawrence Erlbaum, Hillsdale, NJ, 1991. 146