SlideShare une entreprise Scribd logo

PhD Dissertation - Manuscrit de thèse de doctorat

Information retrieval, search, vertical search, domain-specific search, faceted search, ontology, Description Logics, Medical Search, CLEF, precision-oriented search,

1  sur  159
Télécharger pour lire hors ligne
´       `
UNIVERSITE DE GENEVE                           ´
                                      UNIVERSITE JOSEPH FOURIER




  Un mod`le de recherche d’information
           e
 orient´ pr´cision fond´ sur les dimensions
       e e             e
                 de domaine
                                 `
                               THESE
                       en co-tutelle pr´sent´e par
                                       e    e


                       Sa¨ RADHOUANI
                         ıd

                       pour l’obtention des titres
Docteur `s sciences ´conomiques et sociales (Universit´ de Gen`ve)
        e           e                                 e       e
                   Mention : Syst`mes d’Information
                                 e
        Docteur en informatique (Universit´ Joseph Fourier)
                                          e


Composition du jury :
           Monsieur Mohand BOUGHANEM, Universit´ de Toulouse
                                               e
           Madame Sylvie CALABRETTO, INSA Lyon
          Messieurs Jean-Pierre CHEVALLET, IPAL Singapour, co-directeur de th`se
                                                                             e
                    Yves CHIARAMELLA, Universit´ de Grenoble, co-directeur de th`se
                                                  e                             e
                    Gilles FALQUET, Universit´ de Gen`ve, co-directeur de th`se
                                             e       e                      e
                    Dimitri KONSTANTAS, Universit´ de Gen`ve, pr´sident du jury
                                                   e        e      e

                             Th`se No 671
                               e
                             Gen`ve, 2008
                                 e
La Facult´ des sciences ´conomiques et sociales, sur pr´avis du jury, a autoris´
            e              e                              e                       e
l’impression de la pr´sente th`se, sans entendre, par l`, ´mettre aucune opinion sur
                     e         e                       a e
les propositions qui s’y trouvent ´nonc´es et qui n’engagent que la responsabilit´ de
                                  e     e                                        e
leur auteur.



                                                           Gen`ve, le 18 juillet 2008
                                                              e




                                                                           Le doyen
                                                                 Bernard MORARD




  Impression d’apr`s le manuscrit de l’auteur.
                  e
c Sa¨ Radhouani 2008. Tous droits r´serv´s.
    ıd                               e    e

                                          i
Remerciements
    C’est un grand plaisir pour moi de remercier toutes les personnes qui ont permis
` ce travail d’ˆtre ce qu’il est.
a              e


   Je remercie tout d’abord M. Dimitri Konstantas qui m’a fait l’honneur de pr´sider
                                                                              e
le jury de cette th`se.
                   e

   Je tiens ensuite ` remercier Mme Sylvie Calabretto ainsi que M. Mohand Bou-
                    a
ghanem pour avoir accept´ de rapporter mon travail de th`se, ainsi que pour l’int´rˆt
                          e                             e                        ee
qu’ils ont manifest´ ` son ´gard.
                   ea      e


   Je tiens ` adresser mes plus vifs remerciements ` M. Yves Chiaramella de m’avoir
            a                                      a
encadr´ pendant mon travail de th`se. Il a su me transmettre sa passion pour le do-
      e                             e
maine de la Recherche d’Information et je lui en suis profond´ment reconnaissant.
                                                             e


    Je voudrais ´galement remercier M. Jean-Pierre Chevallet d’avoir accept´ de co-
                e                                                             e
diriger mon travail de th`se malgr´ les milliers de kilom`tres qui nous s´paraient. Sa
                         e        e                      e               e
patience et ses nombreuses remarques tr`s pertinentes m’ont ´t´ des plus pr´cieuses
                                         e                      ee            e
durant ce travail.


    Durant ma th`se, j’ai eu la toute grande chance de connaˆ et de travailler avec
                 e                                          ıtre
M. Gilles Falquet, un directeur de th`se exceptionnel tant pour ses comp´tences
                                        e                                     e
scientifiques que pour ses qualit´s humaines. Sans sa patience, sa disponibilit´ et son
                                 e                                            e
appui de tous les instants, cette th`se n’aurait probablement jamais vu le jour. Je
                                    e
lui en suis donc tr`s profond´ment reconnaissant.
                   e         e


   Je remercie les membres du laboratoire IPAL-I2R, en particulier Dr. Joo-Hwee
Lim, pour leurs conseils et leurs soutiens tout au long de mon stage ` Singapour.
                                                                     a


   Je remercie aussi les membres de l’´quipe MRIM pour leurs remarques et leurs
                                        e
questions pertinentes lors des r´unions de travail.
                                e


   Un grand merci ` tous les membres du groupe ISI pour les moments agr´ables
                  a                                                    e


                                          ii
que l’on a toujours partag´s : les moments sympathiques pass´s ` “La Petite Italie”,
                          e                                 e a
les pauses th´, les branches Cailler, les ´coles de printemps, et tellement d’autres
              e                            e
choses dont je ne peux faire la liste. Merci tout particuli`rement ` Claire-Lise pour
                                                           e       a
sa disponibilit´, son ´coute, et son soutien permanent. Merci ` Jean-Pierre pour les
               e      e                                        a
corrections multiples de mon manuscrit, et les discussions sur l’histoire et la physique
(dont les fameux trous noirs). Un grand merci ` Jacques pour ses conseils et sa colla-
                                               a
boration qui m’ont ´t´ d’une grande utilit´ pendant mon travail et me seront d’une
                      ee                    e
grande utilit´ dans toute ma vie. Merci ` Mathieu pour les longues discussions que
             e                            a
l’on a eues sur la logique descriptive. Merci aussi ` Claudine, Gabriela, Jean-Claude,
                                                    a
Kaveh, Luka, Mustapha et Patrick pour toutes sortes de raisons qu’il serait trop long
d’´num´rer ici.
  e    e


   Je remercie ´galement Evelyne Kohl, Marie-France Culebras et C´line Marleix-
               e                                                        e
Bardeau pour leur soutien administratif, ainsi que Daniel Agulleiro et Nicolas Mayen-
court, Ing´nieurs syst`me du CUI, pour leur disponibilit´ permanente.
          e           e                                 e


    Je tiens ` adresser mes plus sinc`res remerciements ` toute la famille Falquet en
             a                       e                  a
t´moignage de ma profonde reconnaissance pour son hospitalit´, son encouragement
 e                                                             e
et son soutien permanent tout au long de mon s´jour ` Gen`ve.
                                                  e   a      e


   Je remercie mon oncle Mustapha Kouki en reconnaissance de son interminable
encouragement et de ses pr´cieux conseils.
                          e

   Je remercie ´galement mon instituteur M. Othman Bouzidi, a qui je dois tout ce
               e                                            `
que je suis.


   Je tiens ` remercier mon cousin Badra pour son soutien pendant mon s´jour en
            a                                                          e
France.


   Mes sinc`res remerciements ` Jonas pour sa compr´hension, son soutien, et sa
            e                  a                   e
patience en partageant mes p´riodes difficiles.
                            e


  Je tiens ` remercier toute ma famille pour son encouragement constant ; avec une
           a
mention sp´ciale ` mes parents en t´moignage de ma profonde reconnaissance pour
          e      a                 e
leur patience et tous les sacrifices qu’ils ont consentis ` mon ´gard. Un grand merci
                                                         a     e

                                          iii
` Radhouane, Haykel, Marouane et l’adorable Amira pour leur soutien, encourage-
a
ment, et tellement de merveilleuses choses.

   J’adresse mes sinc`res remerciements ` Takoua qui a su me r´conforter et soute-
                     e                  a                     e
nir pendant la derni`re ligne droite de ma th`se.
                    e                        e


   Je remercie enfin tous mes amis (Isaac, Michael, Ramzi, Rim, . . .) et tous ceux
que j’aime et qui m’aiment.




                                         iv
R´sum´
    e   e
    Nous nous int´ressons ` un contexte de Recherche d’Information (RI) dans des mi-
                 e         a
lieux professionnels, o` les besoins d’information sont formul´s ` travers des requˆtes
                       u                                      e a                  e
pr´cises. Notre travail consiste ` d´finir un mod`le de RI capable de r´soudre ce type
  e                              a e            e                     e
de requˆtes.
        e


   Notre approche est fond´e sur les dimensions de domaine. Celles-ci sont d´finies `
                            e                                                 e      a
travers des ressources externes, et utilis´es pour produire une repr´sentation pr´cise
                                          e                         e            e
du contenu s´mantique des documents et des requˆtes.
            e                                  e


    Nous d´finissons notre mod`le en utilisant la logique de descripton (LD). Nous
           e                  e
profitons de l’algorithme de calcul de subsomption offert par la LD afin de d´finir
                                                                             e
la fonction de correspondance mettant en œuvre la pertinence syst`me. A travers
                                                                    e
cet algorithme, la LD offre une capacit´ de raisonnement qui permet de d´duire
                                        e                                   e
des connaissances implicites ` partir de celles repr´sent´es explicitement dans la
                             a                      e    e
ressource externe, et permet ainsi de retrouver des documents pertinents pour une
requˆte mˆme s’ils ne partagent pas les mˆmes concepts que cette derni`re.
     e    e                               e                           e


    Afin de tester la faisabilit´ de notre approche, une s´rie d’exp´riences a ´t´ ef-
                               e                          e        e          ee
fectu´e sur la collection ImageCLEFmed-2005. Ces exp´riences nous ont permis de
     e                                                  e
savoir jusqu’` quel point notre mod`le peut ˆtre appliqu´, et quelles sont les limites
             a                       e      e           e
formelles et techniques qui lui sont li´es.
                                       e


   Afin d’´valuer l’apport de l’usage des dimensions en termes de performance
          e
de recherche, nous avons men´ une deuxi`me s´rie d’exp´riences sur la collection
                             e          e    e        e
ImageCLEFmed-2005. Les r´sultats obtenus nous ont permis de conclure que la
                           e
prise en compte des dimensions est un moyen efficace pour la r´solution des requˆtes
                                                            e                 e
pr´cises.
  e


   Mots cl´s : Recherche d’Information, requˆtes pr´cises, recherche multi-dimensions
            e                                 e      e
(multi-facettes), dimensions de domaine, ressources externes, indexation s´mantique,
                                                                          e
Logique de description.




                                          v
Publicité

Recommandé

Thèse o.quere ira (instituts régionaux d'administration)
Thèse o.quere ira (instituts régionaux d'administration)Thèse o.quere ira (instituts régionaux d'administration)
Thèse o.quere ira (instituts régionaux d'administration)lepetitelevefonctionnaire
 
Cabal cedric
Cabal cedricCabal cedric
Cabal cedricrom Krom
 
25 exemples de remerciement de mémoire - télécharger ici https://bit.ly/344aObu
25 exemples de remerciement de mémoire - télécharger ici https://bit.ly/344aObu25 exemples de remerciement de mémoire - télécharger ici https://bit.ly/344aObu
25 exemples de remerciement de mémoire - télécharger ici https://bit.ly/344aObuHani sami joga
 
Thèse pierre schoch
Thèse pierre schochThèse pierre schoch
Thèse pierre schochDental Life
 
Colloque académique des CPE 2012
Colloque académique des CPE 2012Colloque académique des CPE 2012
Colloque académique des CPE 2012Christophe Poupet
 
Beyond full-text searches with Lucene and Solr
Beyond full-text searches with Lucene and SolrBeyond full-text searches with Lucene and Solr
Beyond full-text searches with Lucene and SolrBertrand Delacretaz
 
Thèse - CFAR-m - Français
Thèse - CFAR-m - FrançaisThèse - CFAR-m - Français
Thèse - CFAR-m - Françaisbusinessangeleu
 

Contenu connexe

Similaire à PhD Dissertation - Manuscrit de thèse de doctorat

Caractérisation et modélisation numérique de l’effet de site topographique 3D...
Caractérisation et modélisation numérique de l’effet de site topographique 3D...Caractérisation et modélisation numérique de l’effet de site topographique 3D...
Caractérisation et modélisation numérique de l’effet de site topographique 3D...TheJamez
 
Ndour, 2007. Comparaison de populations de poissons en amont/aval barrage ant...
Ndour, 2007. Comparaison de populations de poissons en amont/aval barrage ant...Ndour, 2007. Comparaison de populations de poissons en amont/aval barrage ant...
Ndour, 2007. Comparaison de populations de poissons en amont/aval barrage ant...Ismaila Ndour
 
Manuscrit de thèse giraud
Manuscrit de thèse giraudManuscrit de thèse giraud
Manuscrit de thèse giraudgiraudcolin
 
Approche intégrée de gestion de planification
Approche intégrée de gestion de planificationApproche intégrée de gestion de planification
Approche intégrée de gestion de planificationssuser657f77
 
Les strategies rse des grandes entreprises
Les strategies rse des grandes entreprisesLes strategies rse des grandes entreprises
Les strategies rse des grandes entreprisesBéja
 
Dentaire_Durin_Touati_Sandler_Anne_DUMAS.docx.pdf
Dentaire_Durin_Touati_Sandler_Anne_DUMAS.docx.pdfDentaire_Durin_Touati_Sandler_Anne_DUMAS.docx.pdf
Dentaire_Durin_Touati_Sandler_Anne_DUMAS.docx.pdfssuser25b144
 
69327_PHOMSOUPHA_2016_diffusion.pdf
69327_PHOMSOUPHA_2016_diffusion.pdf69327_PHOMSOUPHA_2016_diffusion.pdf
69327_PHOMSOUPHA_2016_diffusion.pdfJosef321145
 
Calderone_G_PhD_Thesis_Distribuibile
Calderone_G_PhD_Thesis_DistribuibileCalderone_G_PhD_Thesis_Distribuibile
Calderone_G_PhD_Thesis_DistribuibileGiovanni Calderone
 
EVALUATION DE LA SPHERE ORO-FACIALE CHEZ L'ENFANT - LIENS ENTRE ORALITE VERBA...
EVALUATION DE LA SPHERE ORO-FACIALE CHEZ L'ENFANT - LIENS ENTRE ORALITE VERBA...EVALUATION DE LA SPHERE ORO-FACIALE CHEZ L'ENFANT - LIENS ENTRE ORALITE VERBA...
EVALUATION DE LA SPHERE ORO-FACIALE CHEZ L'ENFANT - LIENS ENTRE ORALITE VERBA...CatherineCausse
 
JUAREZ_ Récupération assistée du pétrole .pdf
JUAREZ_ Récupération assistée du pétrole .pdfJUAREZ_ Récupération assistée du pétrole .pdf
JUAREZ_ Récupération assistée du pétrole .pdfmadadimorad
 
risque hémorragique en OC
risque hémorragique en OCrisque hémorragique en OC
risque hémorragique en OCafif bouslama
 

Similaire à PhD Dissertation - Manuscrit de thèse de doctorat (20)

Epdm
EpdmEpdm
Epdm
 
Andiwalala
AndiwalalaAndiwalala
Andiwalala
 
Caractérisation et modélisation numérique de l’effet de site topographique 3D...
Caractérisation et modélisation numérique de l’effet de site topographique 3D...Caractérisation et modélisation numérique de l’effet de site topographique 3D...
Caractérisation et modélisation numérique de l’effet de site topographique 3D...
 
Ndour, 2007. Comparaison de populations de poissons en amont/aval barrage ant...
Ndour, 2007. Comparaison de populations de poissons en amont/aval barrage ant...Ndour, 2007. Comparaison de populations de poissons en amont/aval barrage ant...
Ndour, 2007. Comparaison de populations de poissons en amont/aval barrage ant...
 
50376-2011-Lapierre
50376-2011-Lapierre50376-2011-Lapierre
50376-2011-Lapierre
 
these_altuve
these_altuvethese_altuve
these_altuve
 
Manuscrit de thèse giraud
Manuscrit de thèse giraudManuscrit de thèse giraud
Manuscrit de thèse giraud
 
ThèseMCasagrande
ThèseMCasagrandeThèseMCasagrande
ThèseMCasagrande
 
Thèse_A.Petitjean_2005
Thèse_A.Petitjean_2005Thèse_A.Petitjean_2005
Thèse_A.Petitjean_2005
 
Approche intégrée de gestion de planification
Approche intégrée de gestion de planificationApproche intégrée de gestion de planification
Approche intégrée de gestion de planification
 
these-4601
these-4601these-4601
these-4601
 
These_Maria_Sorokina
These_Maria_SorokinaThese_Maria_Sorokina
These_Maria_Sorokina
 
Les strategies rse des grandes entreprises
Les strategies rse des grandes entreprisesLes strategies rse des grandes entreprises
Les strategies rse des grandes entreprises
 
Labroussaa (2)
Labroussaa (2)Labroussaa (2)
Labroussaa (2)
 
Dentaire_Durin_Touati_Sandler_Anne_DUMAS.docx.pdf
Dentaire_Durin_Touati_Sandler_Anne_DUMAS.docx.pdfDentaire_Durin_Touati_Sandler_Anne_DUMAS.docx.pdf
Dentaire_Durin_Touati_Sandler_Anne_DUMAS.docx.pdf
 
69327_PHOMSOUPHA_2016_diffusion.pdf
69327_PHOMSOUPHA_2016_diffusion.pdf69327_PHOMSOUPHA_2016_diffusion.pdf
69327_PHOMSOUPHA_2016_diffusion.pdf
 
Calderone_G_PhD_Thesis_Distribuibile
Calderone_G_PhD_Thesis_DistribuibileCalderone_G_PhD_Thesis_Distribuibile
Calderone_G_PhD_Thesis_Distribuibile
 
EVALUATION DE LA SPHERE ORO-FACIALE CHEZ L'ENFANT - LIENS ENTRE ORALITE VERBA...
EVALUATION DE LA SPHERE ORO-FACIALE CHEZ L'ENFANT - LIENS ENTRE ORALITE VERBA...EVALUATION DE LA SPHERE ORO-FACIALE CHEZ L'ENFANT - LIENS ENTRE ORALITE VERBA...
EVALUATION DE LA SPHERE ORO-FACIALE CHEZ L'ENFANT - LIENS ENTRE ORALITE VERBA...
 
JUAREZ_ Récupération assistée du pétrole .pdf
JUAREZ_ Récupération assistée du pétrole .pdfJUAREZ_ Récupération assistée du pétrole .pdf
JUAREZ_ Récupération assistée du pétrole .pdf
 
risque hémorragique en OC
risque hémorragique en OCrisque hémorragique en OC
risque hémorragique en OC
 

Plus de Saïd Radhouani

Anatomy of Search Relevance: From Data To Action
Anatomy of Search Relevance: From Data To ActionAnatomy of Search Relevance: From Data To Action
Anatomy of Search Relevance: From Data To ActionSaïd Radhouani
 
PhD Defense Presentation - Soutenance de thèse
PhD Defense Presentation - Soutenance de thèse PhD Defense Presentation - Soutenance de thèse
PhD Defense Presentation - Soutenance de thèse Saïd Radhouani
 
Publication de documents sur le Web
Publication de documents sur le WebPublication de documents sur le Web
Publication de documents sur le WebSaïd Radhouani
 
Introduction à l\'e-learnining
Introduction à l\'e-learniningIntroduction à l\'e-learnining
Introduction à l\'e-learniningSaïd Radhouani
 
Active Server Pages (ASP)
Active Server Pages (ASP)Active Server Pages (ASP)
Active Server Pages (ASP)Saïd Radhouani
 
Introduction aux technologies du Web (2)
Introduction aux technologies du Web (2)Introduction aux technologies du Web (2)
Introduction aux technologies du Web (2)Saïd Radhouani
 
Introduction aux technologies du Web (1)
Introduction aux technologies du Web (1)Introduction aux technologies du Web (1)
Introduction aux technologies du Web (1)Saïd Radhouani
 
Apprendre Solr en deux heures
Apprendre Solr en deux heuresApprendre Solr en deux heures
Apprendre Solr en deux heuresSaïd Radhouani
 
Introduction à la Recherche d'information
Introduction à la Recherche d'informationIntroduction à la Recherche d'information
Introduction à la Recherche d'informationSaïd Radhouani
 

Plus de Saïd Radhouani (18)

Anatomy of Search Relevance: From Data To Action
Anatomy of Search Relevance: From Data To ActionAnatomy of Search Relevance: From Data To Action
Anatomy of Search Relevance: From Data To Action
 
PhD Defense Presentation - Soutenance de thèse
PhD Defense Presentation - Soutenance de thèse PhD Defense Presentation - Soutenance de thèse
PhD Defense Presentation - Soutenance de thèse
 
Conception de sites Web
Conception de sites WebConception de sites Web
Conception de sites Web
 
Publication de documents sur le Web
Publication de documents sur le WebPublication de documents sur le Web
Publication de documents sur le Web
 
Introduction à XML
Introduction à XMLIntroduction à XML
Introduction à XML
 
Introduction à l\'e-learnining
Introduction à l\'e-learniningIntroduction à l\'e-learnining
Introduction à l\'e-learnining
 
Documents intéractifs
Documents intéractifsDocuments intéractifs
Documents intéractifs
 
Introduction à XML
Introduction à XMLIntroduction à XML
Introduction à XML
 
Active Server Pages (ASP)
Active Server Pages (ASP)Active Server Pages (ASP)
Active Server Pages (ASP)
 
Serveur Web (1)
Serveur Web (1)Serveur Web (1)
Serveur Web (1)
 
Serveur Web (2)
Serveur Web (2)Serveur Web (2)
Serveur Web (2)
 
SPIP
SPIPSPIP
SPIP
 
PHP & MySQL
PHP & MySQLPHP & MySQL
PHP & MySQL
 
Introduction à PHP
Introduction à PHPIntroduction à PHP
Introduction à PHP
 
Introduction aux technologies du Web (2)
Introduction aux technologies du Web (2)Introduction aux technologies du Web (2)
Introduction aux technologies du Web (2)
 
Introduction aux technologies du Web (1)
Introduction aux technologies du Web (1)Introduction aux technologies du Web (1)
Introduction aux technologies du Web (1)
 
Apprendre Solr en deux heures
Apprendre Solr en deux heuresApprendre Solr en deux heures
Apprendre Solr en deux heures
 
Introduction à la Recherche d'information
Introduction à la Recherche d'informationIntroduction à la Recherche d'information
Introduction à la Recherche d'information
 

PhD Dissertation - Manuscrit de thèse de doctorat

  • 1. ´ ` UNIVERSITE DE GENEVE ´ UNIVERSITE JOSEPH FOURIER Un mod`le de recherche d’information e orient´ pr´cision fond´ sur les dimensions e e e de domaine ` THESE en co-tutelle pr´sent´e par e e Sa¨ RADHOUANI ıd pour l’obtention des titres Docteur `s sciences ´conomiques et sociales (Universit´ de Gen`ve) e e e e Mention : Syst`mes d’Information e Docteur en informatique (Universit´ Joseph Fourier) e Composition du jury : Monsieur Mohand BOUGHANEM, Universit´ de Toulouse e Madame Sylvie CALABRETTO, INSA Lyon Messieurs Jean-Pierre CHEVALLET, IPAL Singapour, co-directeur de th`se e Yves CHIARAMELLA, Universit´ de Grenoble, co-directeur de th`se e e Gilles FALQUET, Universit´ de Gen`ve, co-directeur de th`se e e e Dimitri KONSTANTAS, Universit´ de Gen`ve, pr´sident du jury e e e Th`se No 671 e Gen`ve, 2008 e
  • 2. La Facult´ des sciences ´conomiques et sociales, sur pr´avis du jury, a autoris´ e e e e l’impression de la pr´sente th`se, sans entendre, par l`, ´mettre aucune opinion sur e e a e les propositions qui s’y trouvent ´nonc´es et qui n’engagent que la responsabilit´ de e e e leur auteur. Gen`ve, le 18 juillet 2008 e Le doyen Bernard MORARD Impression d’apr`s le manuscrit de l’auteur. e c Sa¨ Radhouani 2008. Tous droits r´serv´s. ıd e e i
  • 3. Remerciements C’est un grand plaisir pour moi de remercier toutes les personnes qui ont permis ` ce travail d’ˆtre ce qu’il est. a e Je remercie tout d’abord M. Dimitri Konstantas qui m’a fait l’honneur de pr´sider e le jury de cette th`se. e Je tiens ensuite ` remercier Mme Sylvie Calabretto ainsi que M. Mohand Bou- a ghanem pour avoir accept´ de rapporter mon travail de th`se, ainsi que pour l’int´rˆt e e ee qu’ils ont manifest´ ` son ´gard. ea e Je tiens ` adresser mes plus vifs remerciements ` M. Yves Chiaramella de m’avoir a a encadr´ pendant mon travail de th`se. Il a su me transmettre sa passion pour le do- e e maine de la Recherche d’Information et je lui en suis profond´ment reconnaissant. e Je voudrais ´galement remercier M. Jean-Pierre Chevallet d’avoir accept´ de co- e e diriger mon travail de th`se malgr´ les milliers de kilom`tres qui nous s´paraient. Sa e e e e patience et ses nombreuses remarques tr`s pertinentes m’ont ´t´ des plus pr´cieuses e ee e durant ce travail. Durant ma th`se, j’ai eu la toute grande chance de connaˆ et de travailler avec e ıtre M. Gilles Falquet, un directeur de th`se exceptionnel tant pour ses comp´tences e e scientifiques que pour ses qualit´s humaines. Sans sa patience, sa disponibilit´ et son e e appui de tous les instants, cette th`se n’aurait probablement jamais vu le jour. Je e lui en suis donc tr`s profond´ment reconnaissant. e e Je remercie les membres du laboratoire IPAL-I2R, en particulier Dr. Joo-Hwee Lim, pour leurs conseils et leurs soutiens tout au long de mon stage ` Singapour. a Je remercie aussi les membres de l’´quipe MRIM pour leurs remarques et leurs e questions pertinentes lors des r´unions de travail. e Un grand merci ` tous les membres du groupe ISI pour les moments agr´ables a e ii
  • 4. que l’on a toujours partag´s : les moments sympathiques pass´s ` “La Petite Italie”, e e a les pauses th´, les branches Cailler, les ´coles de printemps, et tellement d’autres e e choses dont je ne peux faire la liste. Merci tout particuli`rement ` Claire-Lise pour e a sa disponibilit´, son ´coute, et son soutien permanent. Merci ` Jean-Pierre pour les e e a corrections multiples de mon manuscrit, et les discussions sur l’histoire et la physique (dont les fameux trous noirs). Un grand merci ` Jacques pour ses conseils et sa colla- a boration qui m’ont ´t´ d’une grande utilit´ pendant mon travail et me seront d’une ee e grande utilit´ dans toute ma vie. Merci ` Mathieu pour les longues discussions que e a l’on a eues sur la logique descriptive. Merci aussi ` Claudine, Gabriela, Jean-Claude, a Kaveh, Luka, Mustapha et Patrick pour toutes sortes de raisons qu’il serait trop long d’´num´rer ici. e e Je remercie ´galement Evelyne Kohl, Marie-France Culebras et C´line Marleix- e e Bardeau pour leur soutien administratif, ainsi que Daniel Agulleiro et Nicolas Mayen- court, Ing´nieurs syst`me du CUI, pour leur disponibilit´ permanente. e e e Je tiens ` adresser mes plus sinc`res remerciements ` toute la famille Falquet en a e a t´moignage de ma profonde reconnaissance pour son hospitalit´, son encouragement e e et son soutien permanent tout au long de mon s´jour ` Gen`ve. e a e Je remercie mon oncle Mustapha Kouki en reconnaissance de son interminable encouragement et de ses pr´cieux conseils. e Je remercie ´galement mon instituteur M. Othman Bouzidi, a qui je dois tout ce e ` que je suis. Je tiens ` remercier mon cousin Badra pour son soutien pendant mon s´jour en a e France. Mes sinc`res remerciements ` Jonas pour sa compr´hension, son soutien, et sa e a e patience en partageant mes p´riodes difficiles. e Je tiens ` remercier toute ma famille pour son encouragement constant ; avec une a mention sp´ciale ` mes parents en t´moignage de ma profonde reconnaissance pour e a e leur patience et tous les sacrifices qu’ils ont consentis ` mon ´gard. Un grand merci a e iii
  • 5. ` Radhouane, Haykel, Marouane et l’adorable Amira pour leur soutien, encourage- a ment, et tellement de merveilleuses choses. J’adresse mes sinc`res remerciements ` Takoua qui a su me r´conforter et soute- e a e nir pendant la derni`re ligne droite de ma th`se. e e Je remercie enfin tous mes amis (Isaac, Michael, Ramzi, Rim, . . .) et tous ceux que j’aime et qui m’aiment. iv
  • 6. R´sum´ e e Nous nous int´ressons ` un contexte de Recherche d’Information (RI) dans des mi- e a lieux professionnels, o` les besoins d’information sont formul´s ` travers des requˆtes u e a e pr´cises. Notre travail consiste ` d´finir un mod`le de RI capable de r´soudre ce type e a e e e de requˆtes. e Notre approche est fond´e sur les dimensions de domaine. Celles-ci sont d´finies ` e e a travers des ressources externes, et utilis´es pour produire une repr´sentation pr´cise e e e du contenu s´mantique des documents et des requˆtes. e e Nous d´finissons notre mod`le en utilisant la logique de descripton (LD). Nous e e profitons de l’algorithme de calcul de subsomption offert par la LD afin de d´finir e la fonction de correspondance mettant en œuvre la pertinence syst`me. A travers e cet algorithme, la LD offre une capacit´ de raisonnement qui permet de d´duire e e des connaissances implicites ` partir de celles repr´sent´es explicitement dans la a e e ressource externe, et permet ainsi de retrouver des documents pertinents pour une requˆte mˆme s’ils ne partagent pas les mˆmes concepts que cette derni`re. e e e e Afin de tester la faisabilit´ de notre approche, une s´rie d’exp´riences a ´t´ ef- e e e ee fectu´e sur la collection ImageCLEFmed-2005. Ces exp´riences nous ont permis de e e savoir jusqu’` quel point notre mod`le peut ˆtre appliqu´, et quelles sont les limites a e e e formelles et techniques qui lui sont li´es. e Afin d’´valuer l’apport de l’usage des dimensions en termes de performance e de recherche, nous avons men´ une deuxi`me s´rie d’exp´riences sur la collection e e e e ImageCLEFmed-2005. Les r´sultats obtenus nous ont permis de conclure que la e prise en compte des dimensions est un moyen efficace pour la r´solution des requˆtes e e pr´cises. e Mots cl´s : Recherche d’Information, requˆtes pr´cises, recherche multi-dimensions e e e (multi-facettes), dimensions de domaine, ressources externes, indexation s´mantique, e Logique de description. v
  • 7. Abstract We are interested in a context of Information Retrieval (IR) in professional envi- ronments, where information needs are expressed through precise queries. Our goal is to define an IR model capable to solve such queries. Our approach is based on domain dimensions. These are defined through external resources, and used to produce a precise representation of the semantic content of documents and queries. We define our model using the description logic (DL). We take advantage of the algorithm for computing subsomption offered by the LD, in order to define the mat- ching function implementing the system’s relevance. Through this algorithm, the DL has a capacity of reasoning which can deduce implicit knowledge from those expli- citly represented in the external resource, and thus find relevant documents for a query even if they do not share the same concepts with this query. In order to test the feasibility of our approach, a series of experiments was carried out on the ImageCLEFmed-2005 collection. These experiences have enabled us to know the extent to which our model can be applied, and what are the formal and technical limits associated with it. In order to evaluate the contribution of the use of dimensions in terms of retrieval performance, we conducted a second series of experiments on the ImageCLEFmed- 2005 collection. The obtained results have shown that taking into account dimensions is an effective way to solve precise queries. Keywords : Information Retrieval, precise queries, multi-dimensional (faceted) search, domain dimensions, external resources, semantic indexing, Description Logic. vi
  • 8. Table des mati`res e 1 Introduction g´n´rale e e 1 1.1 Pr´ambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 1 1.2 Mod`les de RI bas´s sur les mots-cl´s . . . . . . . . . . . . . . . . . . e e e 2 1.3 Mod`les de RI bas´s sur les concepts . . . . . . . . . . . . . . . . . . e e 4 1.4 Vers un mod`le de RI bas´ sur les dimensions de domaine . . . . . . . e e 7 1.5 Probl´matique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 10 1.6 Plan de la th`se . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 14 2 Ressources externes et dimensions de domaine 15 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2 Ressources externes & RI . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2.1 Cr´dibilit´ des approches bas´es sur les ressources externes . . e e e 17 2.2.2 Exemple de ressource externe utilis´e en RI : WordNet . . . . e 18 2.3 Usage des ressources externes pour la repr´sentation des documents . e 19 2.3.1 La d´sambigu¨ e ısation . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.2 Indexation conceptuelle/s´mantique . . . . . . . . . . . . . . . e 23 2.3.3 Evaluation de la d´sambigu¨ e ısation . . . . . . . . . . . . . . . . 33 2.4 Usage des ressources externes pour l’expansion des requˆtes . . . . . . e 39 2.4.1 Expansion de requˆtes bas´e sur les relations lexico-s´mantiques e e e de WordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.4.2 Utilisation de WordNet pour une expansion “guid´e” de requˆtes 43 e e 2.4.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.5 Dimensions & RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.5.1 Le paradigme de la recherche bas´e sur les facettes . . . . . . e 46 2.5.2 Outils bas´s sur le paradigme de recherche multi-facettes . . . e 48 2.5.3 Fabrication des dimensions/facettes . . . . . . . . . . . . . . . 50 vii
  • 9. 2.5.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3 Un Mod`le de RI fond´ sur les dimensions de domaine e e 57 3.1 Pr´ambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 e 3.2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.3 Sp´cificit´s du mod`le . . . . . . . . . . . . . . . . . . . . . . . . . . e e e 61 3.3.1 Exemples typiques de besoins d’information pr´cis . . . . . . . e 62 3.3.2 Vers un mod`le de RI orient´ pr´cision . . . . . . . . . . . . . e e e 67 3.4 La logique descriptive . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.4.1 Syntaxe et s´mantique du langage ALCQ . . . . . . . . . . . . e 70 3.4.2 Logique Descriptive et Recherche d’Information . . . . . . . . 72 3.5 Mod`le de RI : notation et d´finitions . . . . . . . . . . . . . . . . . . e e 73 3.5.1 Ressource externe . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.5.2 Indexation des documents . . . . . . . . . . . . . . . . . . . . 76 3.5.3 Formulation de la requˆte . . . . . . . . . . . . . . . . . . . . e 77 3.5.4 Correspondance entre la requˆte et le document . . . . . . . . e 77 3.6 Mod`le de RI orient´ pr´cision . . . . . . . . . . . . . . . . . . . . . . e e e 78 3.6.1 Mod`le de document . . . . . . . . . . . . . . . . . . . . . . . e 79 3.6.2 Mod`le de requˆte . . . . . . . . . . . . . . . . . . . . . . . . e e 83 3.6.3 ´ Evaluation des requˆtes . . . . . . . . . . . . . . . . . . . . . e 95 3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 4 Mise en œuvre du mod`le e 99 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 ´ 4.2 Etapes n´cessaires pour la mise en œuvre du mod`le . . . . . . . . . . 100 e e 4.2.1 E1 : Identification des ´l´ments de dimension . . . . . . . . . . 100 ee 4.2.2 E2 : Indexation pour la correspondance . . . . . . . . . . . . . 101 4.2.3 E3 : S´lection des documents . . . . . . . . . . . . . . . . . . 101 e 4.2.4 E4 : Indexation pour l’ordonnancement . . . . . . . . . . . . . 102 4.2.5 E5 : Ordonnancement des documents . . . . . . . . . . . . . . 102 4.3 R´alisation des ´tapes n´cessaires pour la mise en œuvre du mod`le . 102 e e e e 4.3.1 R´alisation des ´tapes E2 & E3 . . . . . . . . . . . . . . . . . 103 e e 4.3.2 R´alisation des ´tapes E4 & E5 . . . . . . . . . . . . . . . . . 109 e e 4.4 Exp´rimentations sur la collection CLEF-2005 . . . . . . . . . . . . . 110 e viii
  • 10. 4.4.1 Contexte des exp´rimentations . . . . . . . . . . . . . . . . . . 110 e 4.4.2 Mise en œuvre du mod`le ` base de la logique descriptive sur e a la collection ImageCLEFmed-2005 . . . . . . . . . . . . . . . . 114 4.4.3 D´finition des ´l´ments de dimensions par des mots . . . . . . 120 e ee 4.4.4 D´finition des ´l´ments de dimensions par des concepts . . . . 124 e ee 4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 5 Conclusion 133 5.1 Apport th´orique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 e 5.2 Apport pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 5.3 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 ix
  • 11. Table des figures 1.1 Objectif et processus de la Recherche d’Information . . . . . . . . . . 3 1.2 Sch´ma global de notre approche . . . . . . . . . . . . . . . . . . . . e 12 1.3 Dimensions de domaine stock´es dans une ressource externe . . . . . e 13 2.1 D´notation d’un concept par un ensemble de termes synonymes dans e diff´rentes langues. . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 17 2.2 Enonc´ de la requˆte 122 de la collection TREC-1 . . . . . . . . . . . e e 41 2.3 Interface d’acc`s multi-vues [38][39] . . . . . . . . . . . . . . . . . . . e 48 2.4 Interface multi-facettes du syst`me Flamenco . . . . . . . . . . . . . . e 50 3.1 Correspondance entre une requˆte et un document repr´sent´s en lo- e e e gique descriptive. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.2 Repr´sentation graphique du mod`le de document . . . . . . . . . . . e e 82 3.3 Calcul de la correspondance entre un document doc et une requˆte q e au niveau de l’indexation pour la correspondance . . . . . . . . . . . 96 3.4 Calcul du RSV entre une requˆte et un document au niveau de l’in- e dexation pour l’ordonnancement . . . . . . . . . . . . . . . . . . . . . 97 4.1 Repr´sentation graphique des ´tapes n´cessaires pour la mise en œuvre e e e du mod`le . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 e 4.2 Exemple pour la mise en œuvre du mod`le . . . . . . . . . . . . . . . 103 e 4.3 Repr´sentation graphique du mod`le de document . . . . . . . . . . . 105 e e 4.4 Repr´sentation graphique de la T-Box . . . . . . . . . . . . . . . . . 107 e 4.5 Calcul de la correspondance entre un document doc et une requˆte q . 108 e 4.6 La hi´rarchie de subsomption fabriqu´e par le raisonneur Pellet . . . 109 e e 4.7 Calcul du RSV entre une requˆte et un document au niveau de l’in- e dexation pour l’ordonnancement . . . . . . . . . . . . . . . . . . . . . 110 4.8 Exemple de requˆte de la collection ImageCLEFmed-2005 . . . . . . . 111 e x
  • 12. 4.9 Premier niveau de la structure hi´rarchique de MeSH . . . . . . . . . 113 e 4.10 R´sultats exp´rimentaux de la prise en compte des ´l´ments de di- e e ee mensions d´finis par des mots . . . . . . . . . . . . . . . . . . . . . . 124 e 4.11 Variations des performances de notre syst`me appliqu´ sur trois index e e diff´rents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 e xi
  • 13. Liste des tableaux 2.1 Pourcentage des documents corrects retrouv´s en premi`re position [32] 37 e e 3.1 Syntaxe et s´mantique du langage ALCQ. . . . . . . . . . . . . . . . e 71 4.1 Comparaison des r´sultats de notre approche avec le baseline. . . . . 122 e 4.2 Comparaison des r´sultats de notre approche avec le baseline. . . . . 127 e 4.3 Variations des performances de notre syst`me appliqu´ sur trois index e e diff´rents. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 e xii
  • 14. Chapitre 1 Introduction g´n´rale e e 1.1 Pr´ambule e Depuis l’apparition de l’informatique, les connaissances stock´es sur support e num´rique n’ont cess´ de s’accumuler, et le nombre des documents qui les stockent e e s’accroˆ tr`s rapidement. Nous arrivons ainsi ` une situation parfaitement contradic- ıt e a toire : jamais il n’y a eu autant d’informations disponibles, mais trouver dans cette accumulation, pr´cis´ment ce que l’on recherche, devient de plus en plus ardu. e e Devant le nombre important de documents disponibles, la recherche s´quentielle1 e est bien sˆ r tr`s limit´e et l’acc`s ` l’information bas´ sur une requˆte semble plus u e e e a e e efficace. Ainsi, la Recherche d’Informations (RI) devient davantage cruciale et les Syst`mes de Recherche d’Information (SRI) deviennent une aide inestimable pour e rechercher une information. La RI est un processus qui, ` partir d’une requˆte (expression des besoins en a e information d’un utilisateur), permet de retrouver l’ensemble des documents conte- nant l’information recherch´e. La mise en œuvre de ce processus passe par une e sp´cification d’un mod`le de RI int´grant : i ) une repr´sentation des documents ; e e e e ii ) une repr´sentation de la requˆte ; et iii ) un appariement entre le document et la e e requˆte. Plusieurs mod`les ont ´t´ propos´s dans la litt´rature dont l’objectif com- e e ee e e mun est de satisfaire au mieux les besoins de l’utilisateur. Chacun de ces mod`les se e diff´rencie par sa mani`re de repr´senter les documents et la requˆte, et de les mettre e e e e en correspondance. Ceci d´pend g´n´ralement du contexte de la recherche : la na- e e e 1 En explorant manuellement une collection de documents. 1
  • 15. ture du besoin de l’utilisateur, sa mani`re d’exprimer son besoin, ses exigences, les e connaissances qu’il a sur le domaine2 et les documents, etc. Dans la section suivante, nous d´taillons les principes de base de ces mod`les et pr´sentons leurs limites. e e e 1.2 Mod`les de RI bas´s sur les mots-cl´s e e e L’objectif de la RI est de s´lectionner les documents qui traitent le mieux pos- e sible du th`me de la requˆte (cf. Figure 1.1). A notre connaissance, il n’y pas de e e consensus sur la notion de th`me en RI. Dans notre th`se, nous adoptons la d´finition e e e suivante : un th`me est une id´e, un sujet d´velopp´ dans un discours, un ´crit, un e e e e e 3 ouvrage . Pour atteindre l’objectif pr´cit´, les approches existantes4 en RI textuelle s’ap- e e puyent sur des m´thodes purement statistiques bas´es sur les distributions de mots- e e cl´s, pour calculer la similarit´ entre la requˆte et les documents du corpus. La e e e pertinence d’un document par rapport ` une requˆte est calcul´e en fonction de a e e la similarit´ du vocabulaire et non pas en fonction de la similarit´ th´matique qui e e e existe entre le document et la requˆte. En effet, pour qu’un document soit s´lectionn´ e e e par le syst`me, il doit partager les mˆmes mots (du moins une partie d’entre eux) e e avec la requˆte. Dans le cas du mod`le bool´en, pour ˆtre s´lectionn´, le document e e e e e e doit contenir tous les mots (conjonction) ou une partie des mots (disjonction) de la requˆte. Dans le mod`le vectoriel, plus un document partage des mots avec la requˆte e e e et dans la mˆme proportion de poids, plus il est pertinent pour cette requˆte. En e e r´alit´, un document peut ˆtre pertinent mˆme s’il ne partage pas les mˆmes mots e e e e e avec la requˆte. Par exemple, un document contenant le mot “voiture” peut consti- e tuer une r´ponse pertinente ` une requˆte contenant le mot “automobile”, mˆme si e a e e le mot “automobile” n’existe pas dans le document. Salton a soulign´ ce probl`me e e o` les auteurs de documents et les utilisateurs des SRI utilisent une grande vari´t´ u ee de mots pour d´noter le mˆme concept [75]. Ce probl`me, qualifi´ de term mismatch e e e e ou word mismatch [25][103], est dˆ au fait que l’analyse purement statistique, sur u laquelle est bas´e la fonction de correspondance, permet seulement l’extraction des e 2 Selon le dictionnaire de l’Acad´mie fran¸aise, un domaine est tout ce qu’embrasse un art, une e c science, une facult´ de l’esprit, etc. (exemples : le domaine de la peinture, de la sculpture, de la e politique, etc.). 3 D´finition donn´e par le Centre National de Ressources Textuelles et Lexicales. e e 4 Bas´es sur les mod`les classiques de RI. e e 2
  • 16. descripteurs mais pas leur signification. Fig. 1.1 – Objectif et processus de la Recherche d’Information Ainsi, nous observons un foss´ entre l’objectif de la RI et la m´thode qui la r´alise : e e e les techniques de RI existantes traitent essentiellement le signifiant, mais tr`s peu e le signifi´. En effet, l’objectif de la RI est de retrouver des documents qui traitent e du th`me de la requˆte, c’est-`-dire, dont le contenu s´mantique est similaire ` e e a e a celui de la requˆte. Mais en pratique, la mise en œuvre des SRI est faite de fa¸on ` e c a ce que ces syst`mes recherchent les documents partageant les mˆmes mots avec la e e requˆte. Dans ce cas, soit les mod`les de RI sous-jacents ignorent le sens des mots e e (signifi´), soit ils supposent implicitement qu’il y a une correspondance stricte entre e les mots (signifiants) et les sens (signifi´s). Cette derni`re supposition est erron´e car e e e un signifi´ peut ˆtre exprim´ par diff´rents signifiants, et un signifiant peut expri- e e e e mer plusieurs signifi´s diff´rents (selon le contexte). Par exemple, pour une requˆte e e e contenant le mot “Java” (langage de programmation), le syst`me peut compl`tement e e ignorer le sens du mot Java et retourner des documents qui parlent de l’ˆ de Java ıle situ´e en Indon´sie. e e Il est clair que les SRI bas´s sur les mod`les de RI classiques ont fait beaucoup de e e progr`s pour repr´senter et comparer la requˆte et les documents. Nous avons quand e e e 3
  • 17. mˆme constat´, dans les campagnes d’´valuation (TREC5 , NTCIR6 , CLEF7 , etc.), e e e que la plupart des syst`mes semblent avoir atteint leurs limites de performances, bien e que la marge d’am´lioration semble encore grande (selon les mesures utilis´es pour e e l’´valuation). Ceci est une indication que les optimisations de nature essentiellement e statistiques des mod`les existants ont atteint leurs limites. e Il nous apparaˆ qu’une am´lioration suppl´mentaire des performances des SRI ıt e e 8 requiert l’utilisation de connaissances externes ` celles du corpus, notamment grˆce a a ` la disponibilit´ croissante des ressources qui les stockent (dictionnaire, th´saurus, a e e ontologie, etc.). Un certain nombre de ces ressources ont rencontr´ beaucoup de e succ`s dans le domaine de RI, que ce soit dans des domaines sp´cialis´s (ex. MeSH e e e et UMLS pour le domaine m´dical), ou dans un domaine g´n´raliste (ex. WordNet). e e e Grˆce ` l’apparition de nouvelles ressources dans des domaines de plus en plus divers a a (g´ographie, g´nomique, droit, etc.), cette tendance ne cesse de s’amplifier. e e 1.3 Mod`les de RI bas´s sur les concepts e e Parmi les travaux de recherche qui ont essay´ de surmonter les limites pr´sent´es e e e dans la section pr´c´dente, il existe une approche de RI dite “bas´e-concepts” (Conce- e e e pt-Based Information Retrieval ). Selon les communaut´s (Intelligence Artificielle, Philosophie, Linguistique, Scien- e ce de la cognition, etc.), il existe diff´rentes d´finitions de la notion de concept [31]. e e De fa¸on g´n´rale, un concept est un objet mental (son milieu, c’est l’esprit hu- c e e main) qui peut ˆtre d´fini comme une abstraction g´n´ralis´e ` partir de propri´t´s e e e e e a ee communes ` des objets concrets (leur milieu, c’est la r´alit´ telle qu’on la ren- a e e contre). En d’autres termes, une conceptualisation est une abstraction qui consiste ` analyser la r´alit´ pour en tirer les propri´t´s pertinentes qui permettent de passer a e e ee du particulier au g´n´ral. Un concept poss`de une extension et une compr´hension. e e e e L’extension est l’ensemble des objets qui poss`dent les propri´t´s correspondant au e ee concept. En d’autres termes, c’est la quantit´ de r´alit´ ` laquelle le concept se rap- e e ea 5 http ://trec.nist.gov/ 6 http ://research.nii.ac.jp/ntcir/ 7 http ://www.clef-campaign.org/ 8 “externes” car non pr´sentes dans les documents ` traiter, du moins sous une forme explicite e a et compl`te. e 4
  • 18. porte. Par exemple, le concept “Personne” a une plus grande extension que le concept “Femme”. La compr´hension quant ` elle est l’ensemble des propri´t´s qui donnent e a ee son contenu ` un concept (l’ensemble des propri´t´s qui caract´risent les objets du a ee e concept). Elle varie en fonction inverse de l’extension. Par exemple, le concept “Fem- me” a une compr´hension plus grande que le concept “Personne” (on peut ´num´rer e e e plus de propri´t´s ` son sujet). ee a Un concept est construit par l’ˆtre humain d’une mani`re non-ambigu¨, ind´pen- e e e e damment des langues, des supports et des formalismes de repr´sentation [18]. Mˆme e e s’il est exprim´ ` travers une forme mat´rielle (des mots), le concept n’est pas e a e mat´riel. e En consid´rant cette d´finition, il est tr`s difficile pour une machine d’extraire e e e des concepts ` partir d’une source num´rique. Cependant, il est possible d’associer a e un concept ` des ´l´ments d´crits dans des documents num´riques (textes, images, a ee e e etc.). C’est pour cette raison pratique qu’en RI la notion de concept est souvent li´e au sens des mots : un concept correspond ` une signification particuli`re d’un e a e mot (ou s´quence de mots). De son cˆt´, un terme est une paire (mot ou s´quence e oe e de mots, concept). C’est-`-dire, un terme est constitu´ d’un mot (ou s´quence de a e e mots) qui sert pour d´noter un concept dans un domaine particulier. Le mot, quant e ` lui, est l’unit´ du discours oral ou ´crit. Dans des langues comme le fran¸ais ou a e e c l’anglais ´crits, le mot est repr´sent´ par une s´quence de lettres entre deux blancs. e e e e Pour all´ger l’´criture, nous utilisons “terme” ´galement pour d´signer le mot ou la e e e e s´quence de mots correspondant ` un terme. e a Une approche de RI bas´e-concepts se caract´rise par la notion d’espace concep- e e tuel dans lequel les documents et les requˆtes sont repr´sent´s par opposition ` l’es- e e e a pace de mots simples utilis´s dans les mod`les classiques [3]. Les travaux pr´sent´s e e e e dans le cadre de notre th`se se situent dans cette classe d’approches. e Nous nous int´ressons ici ` l’am´lioration de la pr´cision en RI. A cette fin, nous e a e e ´tudions l’utilisation des connaissances externes pour identifier les th`mes au niveau e e des documents et la requˆte. Plus pr´cis´ment, il s’agit de concevoir des mod`les de e e e e repr´sentation du contenu s´mantique des documents et des requˆtes. e e e 5
  • 19. L’utilisation des connaissances externes a fait l’objet de plusieurs travaux souvent orient´s vers l’am´lioration de la pr´cision (d´sambigu¨ e e e e ısation de termes, indexation conceptuelle), et/ou vers l’am´lioration du rappel (expansion de requˆtes). Dans ce e e contexte, elles servent ` expliciter le sens des termes dans le corpus en identifiant des a concepts et ´ventuellement des relations entre ces concepts. Ceci permet au syst`me e e de prendre en compte la s´mantique sous-jacente aux termes ; d’abord, au moment e de l’indexation, la ressource externe est utilis´e pour extraire des termes faisant e r´f´rence aux entit´s conceptuelles trait´es dans les documents ; ensuite, au moment ee e e de l’interrogation (reformulation de requˆte et correspondance), elle sert ` identifier e a les concepts des documents d´not´s par les descripteurs de la requˆte. Enfin, son e e e utilisation permet d’avoir des informations suppl´mentaires sur la s´mantique as- e e soci´e aux termes issus du contenu (document et requˆte), et d’aider ainsi le SRI ` e e a interpr´ter le contenu s´mantique et ` am´liorer les performances de recherche. e e a e Cette classe d’approches pr´sente plusieurs avantages. L’utilisateur peut faire e usage des connaissances pr´sentes dans la ressource externe ` partir de laquelle le e a corpus a ´t´ index´. Cela peut l’aider ` augmenter sa connaissance par rapport ee e a ` l’information qui lui est disponible dans le corpus. L’utilisateur peut ´galement a e utiliser le vocabulaire contrˆl´, pr´sent dans la ressource externe et utilis´ pour la oe e e repr´sentation des documents, pour mieux exprimer son besoin. Dans ce cas, la e description du besoin d’information a les mˆmes caract´ristiques que celles des do- e e cuments. Nous pouvons dire que le principal avantage des approches bas´es-concepts est e que l’utilisateur et le syst`me arrivent ` “parler” le mˆme langage (celui qui cor- e a e respond au vocabulaire de la ressource externe utilis´e). Cependant, ces approches e consid`rent les documents et requˆtes comme des sacs de concepts. Ainsi, les relations e e s´mantiques qui peuvent exister entre les concepts ne sont pas toujours exploit´es. e e Ceci peut provoquer des probl`mes comme mentionn´s dans la section pr´c´dente : e e e e un document est consid´r´ pertinent seulement s’il partage les mˆmes concepts de la ee e requˆte (requˆte initiale ou ´tendue). Par exemple, pour la requˆte donne-moi les do- e e e e cuments qui parlent du politicien am´ricain qui a eu le prix Nobel de la paix en 2007, e un document pertinent doit contenir le nom Al Gore. Ce document ne peut cepen- dant pas ˆtre retrouv´ par un syst`me qui n’exploite pas les relations s´mantiques. e e e e Pour pouvoir r´soudre cette requˆte, un SRI a besoin de connaissances externes pour e e 6
  • 20. inf´rer que Al Gore est un politicien originaire des Etats Unis, etc. e Nous pensons que le principal probl`me de ces mod`les de RI est qu’ils consid`rent e e e peu la structure s´mantique des documents (requˆtes) lors de l’interpr´tation de e e e leurs contenus [4][58][68][92][96]. Nous sommes convaincus, qu’en plus de d´crire les e connaissances du(des) domaine(s) pr´sent(s) dans le corpus, les ressources externes e peuvent apporter des information utiles pour l’interpr´tation des th`mes d´velopp´s e e e e dans les documents de ce corpus. Nos travaux vont actuellement dans ce sens. 1.4 Vers un mod`le de RI bas´ sur les dimensions e e de domaine Dans notre travail de th`se, nous nous int´ressons ` un processus de RI dont le e e a contexte est pr´cis´ par le domaine d’int´rˆt de l’utilisateur. e e e e Nous avons vu pr´c´demment qu’un document qui partage les mˆmes descrip- e e e teurs (que ce soient des mots ou des concepts) avec la requˆte n’est pas forc´ment e e pertinent pour cette requˆte. Ainsi, la question que nous nous sommes pos´e est : e e “Y a-t-il des ´l´ments, autres que les descripteurs, qu’un document doit ee partager9 avec la requˆte pour qu’il soit consid´r´ pertinent ?” e e e Dans un processus de RI, l’utilisateur souffre d’un manque d’information, mais a une id´e des lacunes de ses connaissances et donc de son besoin en information. Une e premi`re difficult´ majeure ` laquelle doit faire face un SRI est que le besoin d’infor- e e a mation est une chose particuli`re ` l’utilisateur. Comme il est rarement int´gr´ dans e a e e le processus de RI, son besoin d’information est souvent mal interpr´t´. Pour pouvoir ee satisfaire l’utilisateur, le SRI doit d’abord “comprendre” son besoin d’information. Une premi`re question se pose alors : Q1 “comment aider le SRI ` interpr´ter ce que e a e l’utilisateur essaye de d´crire”. Autrement dit, en plus des descripteurs de la requˆte, e e y a-t-il d’autres ´l´ments qui peuvent aider le SRI ` avoir plus d’informations sur le ee a 9 Ce n’est pas seulement une intersection au sens simpliste du terme : ca pourrait ˆtre une ¸ e implication logique, ou une probabilit´, etc. e 7
  • 21. besoin de l’utilisateur ? Une deuxi`me difficult´ ` laquelle doit faire face un SRI est que l’utilisateur juge e ea les documents qui lui sont retourn´s par rapport ` l’interpr´tation de son besoin et e a e non pas par rapport ` l’ensemble des documents du corpus susceptibles de l’int´resser a e [91]. Une deuxi`me question se pose alors : Q2 “comment int´grer l’utilisateur lors e e du processus d’indexation et du calcul de pertinence des documents ?” Pour r´pondre aux questions Q1 et Q2, nous avons choisi d’utiliser les connais- e sances du domaine d’int´rˆt de l’utilisateur qui peuvent ˆtre d´crites ` travers des ee e e a ressources externes. Nous avons suppos´ que ces ressources peuvent : i ) nous ren- e seigner sur les besoins de l’utilisateur pendant sa tˆche de recherche ; et ii ) aider le a SRI ` interpr´ter le contenu s´mantique du document et ` calculer la pertinence en a e e a prenant en compte la similarit´ th´matique entre le document et la requˆte10 . e e e En pratique, nous avons analys´ plusieurs requˆtes extraites de diff´rentes collec- e e e tions des campagnes d’´valuation des SRI (ex. TREC, CLEF, etc.). A titre d’exemple, e nous pr´sentons ici deux requˆtes extraites de deux collections de la campagne CLEF- e e 2005 : la premi`re est extraite de la collection multilingue Multi-8, et la deuxi`me de e e la collection des comptes-rendus m´dicaux ImageCLEFmed. e Requˆte 1 : “Donne-moi les documents qui parlent du g´n´ral fran¸ais responsable e e e c de la cr´ation de la zone de s´curit´ pendant le conflit des Balkans ?” e e e Pour un lecteur humain, il est clair que l’on recherche des documents qui parlent d’une personne : g´n´ral fran¸ais. Un document pertinent, contenant le nom de la e e c personne en question, ne contient pas forc´ment les termes “g´n´ral” et “fran¸ais”. e e e c Pour y rem´dier, une solution possible est de faire une expansion “intelligente” de e la requˆte pour informer le syst`me qu’on est ` la recherche d’une personne et pas e e a seulement des termes “g´n´ral” et “fran¸ais”. Le fait d’identifier l’´l´ment personne e e c ee dans cette requˆte n’est pas suffisant pour la r´soudre. En effet, cet ´l´ment ap- e e ee paraˆ dans un contexte particulier qui est d´crit par d’autres ´l´ments. La personne ıt e ee 10 Nous verrons dans le chapitre de l’´tat de l’art que ces deux hypoth`ses sont inspir´es de e e e certaines id´es qui ont ´t´ d´j` d´velopp´es. e e e ea e e 8
  • 22. que l’on cherche a cr´´ une zone de s´curit´. Celle-ci a ´t´ cr´´e dans un lieu ee e e e e ee g´ographique : les Balkans. Enfin, la cr´ation de cette zone a eu lieu suite ` un e e a ´v´nement : conflit des Balkans. e e Ainsi, pour interpr´ter le besoin d’information formul´ ` travers la requˆte 1, nous e ea e 11 allons supposer qu’il est n´cessaire d’expliciter tous les ´l´ments-cl´s introduits par e ee e l’utilisateur, et de disposer d’un langage de requˆte expressif pour mieux cerner ce e que l’utilisateur recherche. Requˆte 2 : “Show me x-ray images with fractures of femur ” e Pour un ˆtre humain, il est clair que l’on cherche des images qui contiennent un e aspect anatomie (le f´mur ) et un aspect pathologie (fracture). Ces deux ´l´ments, e ee 12 qui sont s´mantiquement reli´s , doivent apparaˆ dans une image dont la moda- e e ıtre lit´ est rayon-x. Ainsi, une image au rayon-x qui contient “une fracture du crˆne” e a ou “un f´mur sans fracture” est suppos´e non pertinente par rapport ` cette requˆte. e e a e De mˆme pour les images contenant “une fracture du f´mur ” dont la modalit´ n’est e e e pas rayon-x. En observant plusieurs documents (requˆtes) de diff´rents domaines13 , nous avons e e remarqu´ une r´gularit´ au niveau des ´l´ments qui d´crivent les th`mes d´velopp´s e e e ee e e e e dans les documents (requˆtes) appartenant ` un mˆme domaine. Par exemple, les e a e th`mes du domaine de la politique internationale peuvent ˆtre d´velopp´s en utili- e e e e sant des ´l´ments tels que Personne, Lieu g´ographique, Epoque, Ev´nement, etc. En ee e e m´decine, un th`me peut ˆtre d´velopp´ en utilisant des ´l´ments tels que Anatomie, e e e e e ee Pathologie, Stade de la maladie, Type de traitement, etc. Ainsi, nous appellerons ces ´l´ments les dimensions de domaine et nous les d´finissons comme suit : ee e “Une dimension d’un domaine est un concept utilis´ pour exprimer des th`mes e e dans ce domaine.” 11 Par exemple, en proc´dant par une expansion “intelligente”. e 12 En m´decine, une fracture est une pathologie d’un os tel que le f´mur. e e 13 M´dical, politique internationale, astronomie, etc. e 9
  • 23. Le concept associ´ ` la dimension est en pratique g´n´ral, c’est-`-dire, poss`de une ea e e a e vaste extension et une compr´hension minimale. Si l’on peut construire une hi´rarchie e e des concepts du domaine, il devrait se trouver pr`s de la racine de la hi´rarchie, c’est- e e `-dire, il aurait de nombreux sous-concepts et peu ou pas de concepts super-ordonn´s. a e L’id´e sous-jacente ` notre approche est qu’un auteur, quand il r´dige son docu- e a e ment, s’int´resse ` un domaine particulier pour d´velopper un th`me. Ainsi, il fait e a e e r´f´rence ` des dimensions de son domaine d’int´rˆt pour d´tailler l’id´e exprim´e ee a ee e e e dans son document. Pour ce faire, il fait r´f´rence aux concepts relatifs aux dimen- ee sions choisies. Pour d´noter ces concepts dans son texte, il utilise des termes de son e domaine d’int´rˆt. ee Par exemple, pour r´diger un compte-rendu m´dical, un m´decin peut faire e e e r´f´rence dans son texte aux dimensions “Pathologie” et “Anatomie”. Ensuite, il ee fait r´f´rence ` des concepts relatifs ` ces dimensions, et enfin il utilise des termes ee a a pour d´noter ces concepts. Par exemple, il peut utiliser les termes “seins” et “can- e cer”, ou “f´mur” et “fracture”, etc. e De la mˆme mani`re, un utilisateur s’int´resse ` un domaine particulier pour e e e a d´crire son besoin d’information. Il fait d’abord r´f´rence ` des dimensions de son e ee a domaine d’int´rˆt. Ensuite, il fait r´f´rence ` des concepts relatifs ` ces dimensions. ee ee a a Enfin, il emploie des termes pour d´noter ces concepts dans la requˆte qui exprime e e son besoin d’information. 1.5 Probl´matique e Nous nous pla¸ons dans un contexte de recherche o` l’utilisateur d´crit un be- c u e soin pr´cis. Ce contexte est typiquement celui des milieux professionnels, o` les e u utilisateurs ont de bonnes connaissances de leur domaine d’int´rˆt, ainsi que des ee documents (comptes-rendus, textes de loi, etc.) qu’ils consultent r´guli`rement. Lors e e d’une tˆche de recherche, les professionnels essayent de compl´ter l’information qu’ils a e ont d´j` mais qui est insuffisante. Leurs besoins dans ce cas sont pr´cis et d´crits ea e e 10
  • 24. ` travers une terminologie sp´cifique ` leurs domaines d’int´rˆt. Par exemple, un a e a ee m´decin d´sirant retrouver un compte-rendu, voudrait pouvoir formuler son besoin e e d’information de la mani`re suivante : e “Je cherche un compte-rendu sur le type de traitements ` effectuer en cas d’un a cancer du sein de stade M0 ”. Nous remarquons, ` partir de cet exemple, que le m´decin connaˆ bien la ter- a e ıt minologie de son domaine, et par cons´quent, que la description de son besoin est e tr`s pr´cise. Nous remarquons ´galement qu’il se sert des dimensions de son domaine e e e pour d´crire son besoin : anatomie, pathologie, traitement, stade de la maladie, etc. e Les professionnels sont des utilisateurs qui s’attendent a trouver une r´ponse ` e pr´cise et de qualit´ ` leur requˆte, leur permettant de r´aliser leur tˆche profession- e ea e e a nelle (´tablir un diagnostic, r´diger un article de presse, se documenter, etc.). Afin e e de permettre au syst`me de retrouver des documents en meilleure ad´quation avec e e le r´el besoin de tels utilisateurs, nous pensons qu’il est n´cessaire de prendre en e e compte les dimensions du domaine d’int´rˆt de l’utilisateur. La question principale ee que nous posons ainsi est : “Comment satisfaire, ` partir de l’information “brute”14 , une requˆte pr´cise a e e formul´e par un utilisateur qui s’int´resse ` un domaine particulier ?” e e a Nous d´notons par le qualificateur “pr´cise” une requˆte qui, au contraire d’une e e e requˆte vague, contient une terminologie tr`s sp´cialis´e. Elle pr´sente une complexit´ e e e e e e au niveau de sa structure s´mantique qui peut ˆtre mat´rialis´e par un ensemble de e e e e 15 relations s´mantiques et d’op´rateurs . Ce type de requˆte semble ˆtre adapt´ ` une e e e e ea indexation relationnelle qui permet de prendre en compte les relations s´mantiques e lors de la repr´sentation du contenu du document ` indexer. e a L’objectif du travail d´crit dans notre th`se est donc de d´finir un mod`le de Re- e e e e cherche d’Information qui soit en ad´quation avec le contexte particulier dans lequel e 14 Sac de mots dans les documents textuels, etc. 15 Bool´ens, quantificateurs, etc. e 11
  • 25. nous nous situons : – L’utilisateur a une forte connaissance sur son domaine d’int´rˆt qui doit ˆtre ee e repr´sent´ au sein du syst`me ; e e e – La formulation de la requˆte est une description pr´cise du document recherch´ e e e par l’utilisateur. Celui-ci d´crit le document qu’il souhaite retrouver en utilisant e une terminologie sp´cifique ` son domaine. Il peut pr´ciser ce qui est important e a e (crit`re obligatoire) ou moins important (crit`re optionnel) que ce document e e contienne. Il peut ´galement utiliser des op´rateurs bool´ens, ou des quantifi- e e e cateurs pour pr´ciser le nombre d’´l´ments que le document doit contenir. e ee Fig. 1.2 – Sch´ma global de notre approche e 12
  • 26. Fig. 1.3 – Dimensions de domaine stock´es dans une ressource externe e Nous proposons d’utiliser les dimensions de domaine afin de mettre en exergue les aspects li´s aux descriptions s´mantiques du contenu des documents (requˆtes), et e e e d’identifier ainsi les th`mes qui y sont d´velopp´s. A cette fin, un mod`le de RI fond´ e e e e e sur les dimensions est propos´. En consid´rant les exigences en termes de pr´cision e e e du syst`me, le langage de document et le langage de requˆte sur lesquels est e e fond´ notre mod`le doivent ˆtre expressifs. Ils permettent d’une part, d’indexer e e e avec pr´cision le contenu s´mantique des documents, et d’autre part, d’interpr´ter le e e e contenu s´mantique des requˆtes pr´cises. Evidemment, notre mod`le doit permettre e e e e ` l’utilisateur d’exprimer son besoin d’information pr´cis ` travers une requˆte. a e a e La mise en œuvre de notre mod`le n´cessite d’abord de d´finir les dimensions de e e e domaine puis de les rep´rer au niveau des documents (requˆtes). Pour rep´rer ces e e e dimensions, il faut identifier les concepts qui leur sont associ´s, et donc les termes e qui les d´notent dans les documents (requˆtes). Ceci peut n´cessiter une ´tape de e e e e d´sambigu¨ e ısation des sens des termes pr´sents dans les documents (requˆtes). e e Nous avons d´cid´ de d´finir les dimensions ` travers une ressource externe16 ` e e e a a large couverture qui associe un ensemble de termes ` un concept. Dans la figure a 1.2, nous pr´sentons le sch´ma global de notre approche. Disposant d’un ensemble e e 16 S´mantique : ontologie, linguistique : th´saurus, terminologique : dictionnaire terminologique, e e etc. 13
  • 27. de dimensions d´finies ` travers une ressource externe (figure 1.3), notre approche e a interpr`te le contenu s´mantique des documents et des requˆtes et les mets en cor- e e e respondance. 1.6 Plan de la th`se e Apr`s ce chapitre introductif exposant notre probl´matique et les id´es que nous e e e d´fendons, nous consacrons chapitre 2 ` l’´tat de l’art. Nous passons en revue e a e les travaux qui utilisent les ressources externes pour la repr´sentation du contenu e s´mantique des documents (requˆtes) lors du processus de RI. Nous ´tudions ´galement e e e e les travaux qui s’int´ressent ` la notion de dimensions de domaine. e a Dans le troisi`me chapitre, nous pr´sentons une d´finition formelle de notre e e e mod`le de RI, et nous discutons plus particuli`rement de mani`re approfondie le e e e mod`le de documents et le mod`le de requˆte. Nous montrons comment, en se basant e e e sur les dimensions de domaines, notre mod`le parvient ` repr´senter avec pr´cision e a e e le contenu s´mantique des documents et satisfaire ainsi des requˆtes pr´cises. e e e Le quatri`me chapitre d´crit les ´tapes n´cessaires ` la mise en œuvre de notre e e e e a mod`le dans le cadre d’application de documents textuels. Il d´crit ´galement une e e e ´valuation exp´rimentale, de l’utilisation des dimensions pour la RI, bas´e sur des e e e crit`res d’´valuation orient´s syst`me [23] op´r´e sur une collection de la campagne e e e e ee CLEF. Le cinqui`me chapitre r´sume les contributions apport´es par ce travail au do- e e e maine de la RI et ´voque ´galement les perspectives de d´veloppement et d’optimi- e e e sation du mod`le propos´. e e 14
  • 28. Chapitre 2 Ressources externes et dimensions de domaine 2.1 Introduction Dans le chapitre pr´c´dent, nous avons pr´sent´ les limites des approches de RI e e e e existantes qui ne prennent pas en compte la s´mantique des documents (requˆtes). e e Devant ces limites, plusieurs travaux, tentant d’incorporer l’information s´mantique e dans le processus de RI, sont apparus en se basant sur la disponibilit´ de ressources e externes telles que les ontologies ou les th´saurus. Dans le cas du processus d’indexa- e tion, nous pouvons principalement identifier l’indexation conceptuelle ou l’indexation s´mantique 1 [10][58]. Pour ce qui est du processus d’interrogation, l’accent a surtout e port´ sur l’expansion de requˆtes. Les ressources externes peuvent ´galement aider e e e ` la formulation du besoin de l’utilisateur ` travers une interface graphique. C’est a a dans cette derni`re direction que Hearts [37] et Hyv¨nen [38] ont propos´ d’utiliser e o e les dimensions de domaines . Dans le but de comprendre comment les ressources externes ont ´t´ utilis´es pour ee e la prise en compte de la s´mantique lors du processus de RI, nous pr´sentons, dans e e la suite de ce chapitre, les approches les plus repr´sentatives dans la litt´rature. e e Ainsi, nous avons ´tudi´ des travaux sur l’indexation conceptuelle/s´mantique, puis e e e des travaux sur l’expansion de requˆtes. Avant de conclure ce chapitre avec une e synth`se des travaux existants, nous y discutons des travaux qui prennent en compte e 1 Ces deux terminologies sont utilis´es parfois par les chercheurs en RI avec quelques confusions. e 15
  • 29. la notion de dimensions lors du processus de RI. Mais commen¸ons d’abord par c d´finir quelques notions sur les ressources externes. e 2.2 Ressources externes & RI De fa¸on g´n´rale, selon les communaut´s (Linguistique, Sciences de la cognition, c e e e Intelligence artificielle, Philosophie, etc.), il existe diff´rentes d´finitions des notions e e que nous pr´sentons ici. Dans la suite, nous pr´sentons les d´finitions telles qu’elles e e e sont utilis´es en Recherche d’Information et telles que nous les utilisons dans notre e approche. Par ressource externe, nous entendons toute structure externe au corpus conte- nant des concepts et des termes qui les d´notent. Cette ressource peut ´galement e e contenir des relations entre les diff´rents concepts ; par extension, nous appelons e connaissances externes toutes les informations stock´es dans la ressource externe e (concept, termes, relations, d´finition, etc.). e Nous avons opt´ pour cette terminologie parce que, dans la communaut´ de RI, e e on utilise les mˆmes notations pour d´signer des ressources diff´rentes. Par exemple, e e e par abus de langage, le mot “ontologie” est utilis´ pour d´signer des ressources telles e e que, les th´saurus, les taxonomies, les hi´rarchies de concepts, etc. [32][51][62]. Nous e e n’allons pas d´tailler ici les d´finitions de ces diff´rents types de ressources ; nous e e e allons seulement d´crire, dans la suite du manuscrit, les caract´ristiques de celle e e dont nous avons besoin pour d´finir notre mod`le de RI. Ensuite, en fonction de nos e e besoins, nous choisissons la ressource qui nous convient le mieux, quelle que soit sa nature. Les concepts correspondent g´n´ralement aux nœuds (entr´es) d’une ressource e e e externe. Ces nœuds peuvent contenir des informations suppl´mentaires telles que la e d´finition du concept, le terme le plus couramment utilis´ pour le d´noter, les termes e e e synonymes qui le d´notent, etc. e Par exemple, dans le m´ta-th´saurus UMLS2 , le concept correspondant au “li- e e 2 http ://www.nlm.nih.gov/research/umls/ 16
  • 30. gament crois´ ant´rieur” est identifi´ par le code “C0630058”, et d´not´, dans le e e e e e domaine m´dical, par un ensemble de termes dans diff´rentes langues naturelles (cf. e e figure 2.1). Fig. 2.1 – D´notation d’un concept par un ensemble de termes synonymes dans e diff´rentes langues. e 2.2.1 Cr´dibilit´ des approches bas´es sur les ressources ex- e e e ternes Nous sommes convaincus que les ambitions des approches bas´es sur les res- e sources externes sont de plus en plus cr´dibles car le spectre d’applications et de e domaines concern´s ne cesse de s’´largir, ce qui favorise le d´veloppement de ces e e e ressources. Parmi celles-ci, nous mentionnons particuli`rement les ontologies qui de- e viennent de plus en plus utiles dans une large famille de syst`mes d’information. e Par exemple, elles sont utilis´es pour d´crire et traiter des ressources multim´dias, e e e permettre l’int´gration de sources h´t´rog`nes d’information, piloter des traitements e ee e automatiques de la langue naturelle, construire des solutions multilingues et inter- culturelles, etc. Ces utilisations se retrouvent dans de nombreux domaines d’applica- tion : Recherche d’Information, int´gration d’informations g´ographiques, commerce e e ´lectronique, enseignement assist´ par ordinateur, suivi m´dical informatis´, etc. e e e e Un cadre d’application particuli`rement prometteur pour le d´veloppement des e e syst`mes ` base d’ontologies est celui du Web s´mantique 3 [8][15]. En effet, dans ce e a e 3 Il s’agit d’une extension du Web actuel, dans laquelle l’information se voit associ´e ` un sens e a bien d´fini, am´liorant la capacit´ des logiciels ` traiter l’information disponible sur le Web. e e e a 17
  • 31. contexte, l’annotation des ressources d’information repose sur des ontologies (elles- mˆmes disponibles et ´chang´es sur le Web). Grˆce au Web s´mantique, l’ontologie e e e a e a trouv´ un formalisme standard ` l’´chelle mondiale et s’int`gre dans de plus en e a e e plus d’applications Web, sans mˆme que les utilisateurs ne le sachent. e De ce fait, de plus en plus d’ontologies de domaines deviennent disponibles : on- tologie m´dicale, ontologie de la g´n´tique, ontologie de la g´om´trie, ontologie pour e e e e e le bˆtiment, ontologie de syst`mes documentaires, ontologie dans le secteur automo- a e bile, etc.4 La croissance du nombre d’ontologies sur le Web a mˆme favoris´ le d´veloppement e e e d’outils sp´cialis´s dans la recherche de ce genre de ressources. A ce sujet, men- e e tionnons par exemple swoogle 5 (semantic Web search engine) qui est un moteur de recherche qui permet de retrouver des ressources ontologiques disponibles sur le Web. Malgr´ toutes ces r´alisations, l’expansion du d´veloppement des ontologies est e e e loin d’ˆtre achev´e. Ainsi, les ontologies qui s’appliquaient essentiellement ` des e e a donn´es (multim´dias) sont d´sormais utilis´es pour d´crire des logiciels (ex. les e e e e e services Web). Elles commencent ´galement ` ˆtre utilis´es pour d´crire l’utilisateur e ae e e en sp´cifiant par exemple son contexte d’interaction (les pr´f´rences de l’utilisateur : e ee langue, goˆ ts, droits, etc. ; les caract´ristiques de son terminal : mobile, vocal, etc. ; sa u e situation g´ographique : l’´tranger, dans une salle avec imprimante, etc. ; l’historique e e d’utilisation, etc.). 2.2.2 Exemple de ressource externe utilis´e en RI : WordNet e WordNet6 est une base lexicale organis´e sous forme hi´rarchique autour de la e e notion de synset (ensemble de synonymes). Un synset regroupe des termes (simples ou compos´s) ayant un mˆme sens dans un contexte donn´. Par d´finition, chaque e e e e synset dans lequel un terme apparaˆ repr´sente un sens diff´rent de ce terme. ıt e e Les synsets sont organis´s par des relations d´finies sur eux, qui diff`rent selon la e e e 4 http ://ontology.buffalo.edu/, http ://www.geneontology.org/, http ://diseaseonto- logy.sourceforge.net/, http ://ontolingua.stanford.edu/, etc. 5 http ://swoogle.umbc.edu/ [visit´ le 08/07/07] e 6 Le choix de pr´senter WordNet est motiv´ par le fait qu’il est largement utilis´e dans la plupart e e e des approches que nous ´tudions dans notre travail, et dans la RI d’une mani`re g´n´rale. e e e e 18
  • 32. cat´gorie grammaticale (Part Of Speech). Les principales relations s´mantiques is- e e sues de WordNet utilis´es en RI sont les suivantes : la synonymie, la m´ronymie7 , e e et l’hyperonymie8 (is-a). Celle-ci est la plus dominante. Elle organise les synsets dans un ensemble de hi´rarchies. e En plus d’ˆtre gratuitement disponible, l’avantage d’utiliser WordNet est qu’il e couvre la majorit´ de la langue anglaise, ce qui la place souvent en ad´quation avec e e les donn´es trait´es en RI dans le cas g´n´ral. e e e e 2.3 Usage des ressources externes pour la repr´se- e ntation des documents Afin de repr´senter le contenu des textes par des concepts, l’indexation concep- e tuelle se base sur des techniques de d´sambigu¨ e ısation qui servent ` identifier les a concepts d´not´s par les termes dans le texte. Dans la section suivante, nous rap- e e pelons quelques techniques de d´sambigu¨ e ısation capable de r´aliser cette tˆche. En- e a suite, nous examinons des approches qui utilisent les ressources externes pour la repr´sentation du contenu des documents. e Nous verrons dans la suite de ce chapitre que les performances d’une approche de RI d´pendent de plusieurs facteurs. Dans notre cas, elles peuvent d´pendre de e e la qualit´ de la ressource externe utilis´e, de la qualit´ du d´sambigu¨ e e e e ıseur utilis´, e du mod`le de RI sous-jacent, etc. Donc, afin de bien ´valuer une approche de RI, e e il est int´ressant d’´valuer l’impact de chacun de ces facteurs sur ses performances. e e De cette fa¸on, nous avons la possibilit´ d’identifier ce qui a bien fonctionn´ et ce c e e qui a mal fonctionn´ lors d’une exp´rimentation de RI. C’est dans cette direction e e que nous pr´sentons un ensemble de travaux sur l’utilisation des ressource externe e et l’utilisation de d´sambigu¨ e ıseur pour la RI. 7 La classe des m´ronymes contient respectivement les concepts constituant des parties du concept e (... is a part of this concept, ... is a member of this concept ), ou dont le concept est une partie (this concept is a part of ... etc.). Exemple : voiture a pour m´ronymes porte, moteur. e 8 La classe des Hyperonymes contient les concepts p`res pour la relation de g´n´ralisation. La e e e relation inverse est l’hyponymie (sp´cialisation). e 19
  • 33. 2.3.1 La d´sambigu¨ e ısation La d´sambigu¨ e ısation automatique des sens des mots est un probl`me qui a ´t´ e ee longuement ´tudi´ : Gale, Church et Yarowsky [30] citent par exemple un travail re- e e montant ` 1950. Dans ce chapitre, nous nous concentrons seulement sur les approches a les plus r´centes. Une revue plus d´taill´e de la d´sambigu¨ e e e e ısation est pr´sent´e par e e Krovetz [47] et Voorhees [27] et plus r´cemment une autre expos´e par Mark San- e e derson [79]. Plusieurs travaux ont ´tudi´ l’utilit´ de la d´sambigu¨ e e e e ısation pour la RI [32][47][77] [78][80]. Ces efforts ont clairement montr´ que la d´sambigu¨ e e ısation est un probl`me e plus subtil que l’on pensait. Une des premi`res tentatives d’utiliser un d´sambigu¨ e e ıseur avec un syst`me de RI a ´t´ faite par Stephen Weiss [100]. En utilisant son d´sambigu¨ e ee e ıs- eur pour r´soudre les sens de cinq mots ambigus extraits ` la main de la collection e a de ADI, Weiss a rapport´ une am´lioration de seulement 1% des performances de e e recherche. Une des recherches les plus approfondies sur l’ambigu¨ e et la RI a ´t´ ıt´ ee effectu´e par Krovetz et Croft [47] qui ont examin´ manuellement deux collections e e test (CACM et TIME) pour ´tudier l’ampleur de l’ambigu¨ e lexicale dans ces col- e ıt´ lections, ainsi que son effet sur la performance de la recherche. Ils ont trouv´ que ces e collections, mˆme si elles sont relativement petites et sp´cialis´es, contiennent des e e e mots utilis´s dans de multiples sens ; ils ont cependant conclu que les performances e de recherche ne sont pas fortement affect´es par l’ambigu¨ e des mots. En effet, les e ıt´ documents qui partagent plusieurs mots avec la requˆte tendent ` utiliser ces mots e a avec les mˆmes sens que ceux de la requˆte. Les auteurs pr´sument n´anmoins que e e e e la d´sambigu¨ e ısation des mots est probablement b´n´fique ` la recherche quand les e e a collections contiennent des th`mes divers, et qu’il y a peu de mots en commun entre e le document et la requˆte [47]. e Selon Mark Sanderson [77], les premiers essais ` grande ´chelle d’application d’un a e d´sambigu¨ e ıseur ` un syst`me de RI ont ´t´ r´alis´s par Voorhees [95] et Wallis [99]. a e ee e e Voorhees a construit un d´sambigu¨ e ıseur de mots bas´ sur WordNet [28][60]. Elle a e appliqu´ le d´sambigu¨ e e ıseur aux collections de CACM, de CISI, de CRAN, de MED et de TIME. Les tests men´s sur ces derni`res collections d´sambigu¨ ees ont eu comme e e e ıs´ cons´quence paradoxale une baisse dans la performance de la RI. Wallis a employ´ e e un d´sambigu¨ e ıseur en tant qu’´l´ment d’une exp´rience plus raffin´e dans laquelle il ee e e 20