PhD Dissertation - Manuscrit de thèse de doctorat

´ `
UNIVERSITE DE GENEVE ´
UNIVERSITE JOSEPH FOURIER

Un mod`le de recherche d’information
e
orient´ prćision fond´ sur les dimensions
e e e
de domaine
`
THESE
en co-tutelle pr´senté par
e e

Sa¨ RADHOUANI
ıd

pour l’obtention des titres
Docteur `s sciences ćonomiques et sociales (Universit´ de Gen`ve)
e e e e
Mention : Syst`mes d’Information
e
Docteur en informatique (Universit´ Joseph Fourier)
e

Composition du jury :
Monsieur Mohand BOUGHANEM, Universit´ de Toulouse
e
Madame Sylvie CALABRETTO, INSA Lyon
Messieurs Jean-Pierre CHEVALLET, IPAL Singapour, co-directeur de th`se
e
Yves CHIARAMELLA, Universit´ de Grenoble, co-directeur de th`se
e e
Gilles FALQUET, Universit´ de Gen`ve, co-directeur de th`se
e e e
Dimitri KONSTANTAS, Universit´ de Gen`ve, pr´sident du jury
e e e

Th`se No 671
e
Gen`ve, 2008
e

La Facult´ des sciences ćonomiques et sociales, sur právis du jury, a autoris´
e e e e
l’impression de la pr´sente th`se, sans entendre, par l`, ´mettre aucune opinion sur
e e a e
les propositions qui s’y trouvent ńoncés et qui n’engagent que la responsabilit´ de
e e e
leur auteur.

Gen`ve, le 18 juillet 2008
e

Le doyen
Bernard MORARD

Impression d’apr`s le manuscrit de l’auteur.
e
c Sa¨ Radhouani 2008. Tous droits r´serv´s.
ıd e e

i

Remerciements
C’est un grand plaisir pour moi de remercier toutes les personnes qui ont permis
` ce travail d’ˆtre ce qu’il est.
a e

Je remercie tout d’abord M. Dimitri Konstantas qui m’a fait l’honneur de pr´sider
e
le jury de cette th`se.
e

Je tiens ensuite ` remercier Mme Sylvie Calabretto ainsi que M. Mohand Bou-
a
ghanem pour avoir accept´ de rapporter mon travail de th`se, ainsi que pour l’int´rˆt
e e ee
qu’ils ont manifest´ ` son ´gard.
ea e

Je tiens ` adresser mes plus vifs remerciements ` M. Yves Chiaramella de m’avoir
a a
encadr´ pendant mon travail de th`se. Il a su me transmettre sa passion pour le do-
e e
maine de la Recherche d’Information et je lui en suis profond´ment reconnaissant.
e

Je voudrais ´galement remercier M. Jean-Pierre Chevallet d’avoir accept´ de co-
e e
diriger mon travail de th`se malgr´ les milliers de kilom`tres qui nous s´paraient. Sa
e e e e
patience et ses nombreuses remarques tr`s pertinentes m’ont ´t´ des plus prćieuses
e ee e
durant ce travail.

Durant ma th`se, j’ai eu la toute grande chance de connaˆ et de travailler avec
e ıtre
M. Gilles Falquet, un directeur de th`se exceptionnel tant pour ses comp´tences
e e
scientifiques que pour ses qualit´s humaines. Sans sa patience, sa disponibilit´ et son
e e
appui de tous les instants, cette th`se n’aurait probablement jamais vu le jour. Je
e
lui en suis donc tr`s profond´ment reconnaissant.
e e

Je remercie les membres du laboratoire IPAL-I2R, en particulier Dr. Joo-Hwee
Lim, pour leurs conseils et leurs soutiens tout au long de mon stage ` Singapour.
a

Je remercie aussi les membres de l’´quipe MRIM pour leurs remarques et leurs
e
questions pertinentes lors des rúnions de travail.
e

Un grand merci ` tous les membres du groupe ISI pour les moments agrábles
a e

ii

que l’on a toujours partag´s : les moments sympathiques pass´s ` “La Petite Italie”,
e e a
les pauses th´, les branches Cailler, les ćoles de printemps, et tellement d’autres
e e
choses dont je ne peux faire la liste. Merci tout particuli`rement ` Claire-Lise pour
e a
sa disponibilit´, son ćoute, et son soutien permanent. Merci ` Jean-Pierre pour les
e e a
corrections multiples de mon manuscrit, et les discussions sur l’histoire et la physique
(dont les fameux trous noirs). Un grand merci ` Jacques pour ses conseils et sa colla-
a
boration qui m’ont ´t´ d’une grande utilit´ pendant mon travail et me seront d’une
ee e
grande utilit´ dans toute ma vie. Merci ` Mathieu pour les longues discussions que
e a
l’on a eues sur la logique descriptive. Merci aussi ` Claudine, Gabriela, Jean-Claude,
a
Kaveh, Luka, Mustapha et Patrick pour toutes sortes de raisons qu’il serait trop long
d’ńum´rer ici.
e e

Je remercie ´galement Evelyne Kohl, Marie-France Culebras et C´line Marleix-
e e
Bardeau pour leur soutien administratif, ainsi que Daniel Agulleiro et Nicolas Mayen-
court, Ingńieurs syst`me du CUI, pour leur disponibilit´ permanente.
e e e

Je tiens ` adresser mes plus sinc`res remerciements ` toute la famille Falquet en
a e a
t´moignage de ma profonde reconnaissance pour son hospitalit´, son encouragement
e e
et son soutien permanent tout au long de mon s´jour ` Gen`ve.
e a e

Je remercie mon oncle Mustapha Kouki en reconnaissance de son interminable
encouragement et de ses prćieux conseils.
e

Je remercie ´galement mon instituteur M. Othman Bouzidi, a qui je dois tout ce
e `
que je suis.

Je tiens ` remercier mon cousin Badra pour son soutien pendant mon s´jour en
a e
France.

Mes sinc`res remerciements ` Jonas pour sa compr´hension, son soutien, et sa
e a e
patience en partageant mes p´riodes difficiles.
e

Je tiens ` remercier toute ma famille pour son encouragement constant ; avec une
a
mention spćiale ` mes parents en t´moignage de ma profonde reconnaissance pour
e a e
leur patience et tous les sacrifices qu’ils ont consentis ` mon ´gard. Un grand merci
a e

iii

` Radhouane, Haykel, Marouane et l’adorable Amira pour leur soutien, encourage-
a
ment, et tellement de merveilleuses choses.

J’adresse mes sinc`res remerciements ` Takoua qui a su me r´conforter et soute-
e a e
nir pendant la derni`re ligne droite de ma th`se.
e e

Je remercie enﬁn tous mes amis (Isaac, Michael, Ramzi, Rim, . . .) et tous ceux
que j’aime et qui m’aiment.

iv

R´sum´
e e
Nous nous int´ressons ` un contexte de Recherche d’Information (RI) dans des mi-
e a
lieux professionnels, o` les besoins d’information sont formul´s ` travers des requˆtes
u e a e
prćises. Notre travail consiste ` d´finir un mod`le de RI capable de r´soudre ce type
e a e e e
de requˆtes.
e

Notre approche est fondé sur les dimensions de domaine. Celles-ci sont d´finies `
e e a
travers des ressources externes, et utilisés pour produire une repr´sentation prćise
e e e
du contenu s´mantique des documents et des requˆtes.
e e

Nous d´finissons notre mod`le en utilisant la logique de descripton (LD). Nous
e e
profitons de l’algorithme de calcul de subsomption offert par la LD afin de d´finir
e
la fonction de correspondance mettant en œuvre la pertinence syst`me. A travers
e
cet algorithme, la LD offre une capacit´ de raisonnement qui permet de d´duire
e e
des connaissances implicites ` partir de celles repr´sentés explicitement dans la
a e e
ressource externe, et permet ainsi de retrouver des documents pertinents pour une
requˆte mˆme s’ils ne partagent pas les mˆmes concepts que cette derni`re.
e e e e

Afin de tester la faisabilit´ de notre approche, une s´rie d’exp´riences a ´t´ ef-
e e e ee
fectué sur la collection ImageCLEFmed-2005. Ces exp´riences nous ont permis de
e e
savoir jusqu’` quel point notre mod`le peut ˆtre appliqu´, et quelles sont les limites
a e e e
formelles et techniques qui lui sont liés.
e

Afin d’´valuer l’apport de l’usage des dimensions en termes de performance
e
de recherche, nous avons men´ une deuxi`me s´rie d’exp´riences sur la collection
e e e e
ImageCLEFmed-2005. Les r´sultats obtenus nous ont permis de conclure que la
e
prise en compte des dimensions est un moyen efficace pour la r´solution des requˆtes
e e
prćises.
e

Mots cl´s : Recherche d’Information, requˆtes prćises, recherche multi-dimensions
e e e
(multi-facettes), dimensions de domaine, ressources externes, indexation s´mantique,
e
Logique de description.

v

Abstract
We are interested in a context of Information Retrieval (IR) in professional envi-
ronments, where information needs are expressed through precise queries. Our goal
is to define an IR model capable to solve such queries.

Our approach is based on domain dimensions. These are defined through external
resources, and used to produce a precise representation of the semantic content of
documents and queries.

We define our model using the description logic (DL). We take advantage of the
algorithm for computing subsomption offered by the LD, in order to define the mat-
ching function implementing the system’s relevance. Through this algorithm, the DL
has a capacity of reasoning which can deduce implicit knowledge from those expli-
citly represented in the external resource, and thus find relevant documents for a
query even if they do not share the same concepts with this query.

In order to test the feasibility of our approach, a series of experiments was carried
out on the ImageCLEFmed-2005 collection. These experiences have enabled us to
know the extent to which our model can be applied, and what are the formal and
technical limits associated with it.

In order to evaluate the contribution of the use of dimensions in terms of retrieval
performance, we conducted a second series of experiments on the ImageCLEFmed-
2005 collection. The obtained results have shown that taking into account dimensions
is an effective way to solve precise queries.

Keywords : Information Retrieval, precise queries, multi-dimensional (faceted)
search, domain dimensions, external resources, semantic indexing, Description Logic.

vi

Table des mati`res
e

1 Introduction gń´rale
e e 1
1.1 Prámbule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
e 1
1.2 Mod`les de RI bas´s sur les mots-cl´s . . . . . . . . . . . . . . . . . .
e e e 2
1.3 Mod`les de RI bas´s sur les concepts . . . . . . . . . . . . . . . . . .
e e 4
1.4 Vers un mod`le de RI bas´ sur les dimensions de domaine . . . . . . .
e e 7
1.5 Probl´matique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
e 10
1.6 Plan de la th`se . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
e 14

2 Ressources externes et dimensions de domaine 15
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Ressources externes & RI . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1 Cr´dibilit´ des approches basés sur les ressources externes . .
e e e 17
2.2.2 Exemple de ressource externe utilisé en RI : WordNet . . . .
e 18
2.3 Usage des ressources externes pour la repr´sentation des documents .
e 19
2.3.1 La d´sambigu¨
e ısation . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.2 Indexation conceptuelle/s´mantique . . . . . . . . . . . . . . .
e 23
2.3.3 Evaluation de la d´sambigu¨
e ısation . . . . . . . . . . . . . . . . 33
2.4 Usage des ressources externes pour l’expansion des requˆtes . . . . . .
e 39
2.4.1 Expansion de requˆtes basé sur les relations lexico-s´mantiques
e e e
de WordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.4.2 Utilisation de WordNet pour une expansion “guidé” de requˆtes 43
e e
2.4.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.5 Dimensions & RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.5.1 Le paradigme de la recherche basé sur les facettes . . . . . .
e 46
2.5.2 Outils bas´s sur le paradigme de recherche multi-facettes . . .
e 48
2.5.3 Fabrication des dimensions/facettes . . . . . . . . . . . . . . . 50

vii

2.5.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3 Un Mod`le de RI fond´ sur les dimensions de domaine
e e 57
3.1 Prámbule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
e
3.2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3 Spćificit´s du mod`le . . . . . . . . . . . . . . . . . . . . . . . . . .
e e e 61
3.3.1 Exemples typiques de besoins d’information prćis . . . . . . .
e 62
3.3.2 Vers un mod`le de RI orient´ prćision . . . . . . . . . . . . .
e e e 67
3.4 La logique descriptive . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.4.1 Syntaxe et s´mantique du langage ALCQ . . . . . . . . . . . .
e 70
3.4.2 Logique Descriptive et Recherche d’Information . . . . . . . . 72
3.5 Mod`le de RI : notation et d´finitions . . . . . . . . . . . . . . . . . .
e e 73
3.5.1 Ressource externe . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.5.2 Indexation des documents . . . . . . . . . . . . . . . . . . . . 76
3.5.3 Formulation de la requˆte . . . . . . . . . . . . . . . . . . . .
e 77
3.5.4 Correspondance entre la requˆte et le document . . . . . . . .
e 77
3.6 Mod`le de RI orient´ prćision . . . . . . . . . . . . . . . . . . . . . .
e e e 78
3.6.1 Mod`le de document . . . . . . . . . . . . . . . . . . . . . . .
e 79
3.6.2 Mod`le de requˆte . . . . . . . . . . . . . . . . . . . . . . . .
e e 83
3.6.3 ´
Evaluation des requˆtes . . . . . . . . . . . . . . . . . . . . .
e 95
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

4 Mise en œuvre du mod`le e 99
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
´
4.2 Etapes nćessaires pour la mise en œuvre du mod`le . . . . . . . . . . 100
e e
4.2.1 E1 : Identification des ´l´ments de dimension . . . . . . . . . . 100
ee
4.2.2 E2 : Indexation pour la correspondance . . . . . . . . . . . . . 101
4.2.3 E3 : S´lection des documents . . . . . . . . . . . . . . . . . . 101
e
4.2.4 E4 : Indexation pour l’ordonnancement . . . . . . . . . . . . . 102
4.2.5 E5 : Ordonnancement des documents . . . . . . . . . . . . . . 102
4.3 Rálisation des ´tapes nćessaires pour la mise en œuvre du mod`le . 102
e e e e
4.3.1 Rálisation des ´tapes E2 & E3 . . . . . . . . . . . . . . . . . 103
e e
4.3.2 Rálisation des ´tapes E4 & E5 . . . . . . . . . . . . . . . . . 109
e e
4.4 Exp´rimentations sur la collection CLEF-2005 . . . . . . . . . . . . . 110
e

viii

4.4.1 Contexte des exp´rimentations . . . . . . . . . . . . . . . . . . 110
e
4.4.2 Mise en œuvre du mod`le ` base de la logique descriptive sur
e a
la collection ImageCLEFmed-2005 . . . . . . . . . . . . . . . . 114
4.4.3 D´finition des ´l´ments de dimensions par des mots . . . . . . 120
e ee
4.4.4 D´finition des ´l´ments de dimensions par des concepts . . . . 124
e ee
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

5 Conclusion 133
5.1 Apport thórique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
e
5.2 Apport pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
5.3 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

ix

Table des figures

1.1 Objectif et processus de la Recherche d’Information . . . . . . . . . . 3
1.2 Sch´ma global de notre approche . . . . . . . . . . . . . . . . . . . .
e 12
1.3 Dimensions de domaine stockés dans une ressource externe . . . . .
e 13

2.1 Dńotation d’un concept par un ensemble de termes synonymes dans
e
diff´rentes langues. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
e 17
2.2 Enonc´ de la requˆte 122 de la collection TREC-1 . . . . . . . . . . .
e e 41
2.3 Interface d’acc`s multi-vues [38][39] . . . . . . . . . . . . . . . . . . .
e 48
2.4 Interface multi-facettes du syst`me Flamenco . . . . . . . . . . . . . .
e 50

3.1 Correspondance entre une requˆte et un document repr´sent´s en lo-
e e e
gique descriptive. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.2 Repr´sentation graphique du mod`le de document . . . . . . . . . . .
e e 82
3.3 Calcul de la correspondance entre un document doc et une requˆte q e
au niveau de l’indexation pour la correspondance . . . . . . . . . . . 96
3.4 Calcul du RSV entre une requˆte et un document au niveau de l’in-
e
dexation pour l’ordonnancement . . . . . . . . . . . . . . . . . . . . . 97

4.1 Repr´sentation graphique des ´tapes nćessaires pour la mise en œuvre
e e e
du mod`le . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
e
4.2 Exemple pour la mise en œuvre du mod`le . . . . . . . . . . . . . . . 103
e
4.3 Repr´sentation graphique du mod`le de document . . . . . . . . . . . 105
e e
4.4 Repr´sentation graphique de la T-Box . . . . . . . . . . . . . . . . . 107
e
4.5 Calcul de la correspondance entre un document doc et une requˆte q . 108
e
4.6 La hi´rarchie de subsomption fabriqué par le raisonneur Pellet . . . 109
e e
4.7 Calcul du RSV entre une requˆte et un document au niveau de l’in-
e
dexation pour l’ordonnancement . . . . . . . . . . . . . . . . . . . . . 110
4.8 Exemple de requˆte de la collection ImageCLEFmed-2005 . . . . . . . 111
e

x

4.9 Premier niveau de la structure hi´rarchique de MeSH . . . . . . . . . 113
e
4.10 R´sultats exp´rimentaux de la prise en compte des ´l´ments de di-
e e ee
mensions d´ﬁnis par des mots . . . . . . . . . . . . . . . . . . . . . . 124
e
4.11 Variations des performances de notre syst`me appliqu´ sur trois index
e e
diﬀ´rents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
e

xi

Liste des tableaux

2.1 Pourcentage des documents corrects retrouv´s en premi`re position [32] 37
e e

3.1 Syntaxe et s´mantique du langage ALCQ. . . . . . . . . . . . . . . .
e 71

4.1 Comparaison des r´sultats de notre approche avec le baseline. . . . . 122
e
4.2 Comparaison des r´sultats de notre approche avec le baseline. . . . . 127
e
4.3 Variations des performances de notre syst`me appliqu´ sur trois index
e e
diﬀ´rents. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
e

xii

Chapitre 1

Introduction gń´rale
e e

1.1 Prámbule
e
Depuis l’apparition de l’informatique, les connaissances stockés sur support
e
num´rique n’ont cess´ de s’accumuler, et le nombre des documents qui les stockent
e e
s’accroˆ tr`s rapidement. Nous arrivons ainsi ` une situation parfaitement contradic-
ıt e a
toire : jamais il n’y a eu autant d’informations disponibles, mais trouver dans cette
accumulation, prćis´ment ce que l’on recherche, devient de plus en plus ardu.
e e
Devant le nombre important de documents disponibles, la recherche s´quentielle1
e
est bien sˆ r tr`s limité et l’acc`s ` l’information bas´ sur une requˆte semble plus
u e e e a e e
efficace. Ainsi, la Recherche d’Informations (RI) devient davantage cruciale et les
Syst`mes de Recherche d’Information (SRI) deviennent une aide inestimable pour
e
rechercher une information.

La RI est un processus qui, ` partir d’une requˆte (expression des besoins en
a e
information d’un utilisateur), permet de retrouver l’ensemble des documents conte-
nant l’information recherché. La mise en œuvre de ce processus passe par une
e
spćification d’un mod`le de RI int´grant : i ) une repr´sentation des documents ;
e e e e
ii ) une repr´sentation de la requˆte ; et iii ) un appariement entre le document et la
e e
requˆte. Plusieurs mod`les ont ´t´ propos´s dans la litt´rature dont l’objectif com-
e e ee e e
mun est de satisfaire au mieux les besoins de l’utilisateur. Chacun de ces mod`les se
e
diff´rencie par sa mani`re de repr´senter les documents et la requˆte, et de les mettre
e e e e
en correspondance. Ceci d´pend gń´ralement du contexte de la recherche : la na-
e e e
1
En explorant manuellement une collection de documents.

1

ture du besoin de l’utilisateur, sa mani`re d’exprimer son besoin, ses exigences, les
e
connaissances qu’il a sur le domaine2 et les documents, etc. Dans la section suivante,
nous d´taillons les principes de base de ces mod`les et pr´sentons leurs limites.
e e e

1.2 Mod`les de RI bas´s sur les mots-cl´s
e e e
L’objectif de la RI est de s´lectionner les documents qui traitent le mieux pos-
e
sible du th`me de la requˆte (cf. Figure 1.1). A notre connaissance, il n’y pas de
e e
consensus sur la notion de th`me en RI. Dans notre th`se, nous adoptons la d´finition
e e e
suivante : un th`me est une idé, un sujet d´velopp´ dans un discours, un ćrit, un
e e e e e
3
ouvrage .

Pour atteindre l’objectif prćit´, les approches existantes4 en RI textuelle s’ap-
e e
puyent sur des m´thodes purement statistiques basés sur les distributions de mots-
e e
cl´s, pour calculer la similarit´ entre la requˆte et les documents du corpus. La
e e e
pertinence d’un document par rapport ` une requˆte est calculé en fonction de
a e e
la similarit´ du vocabulaire et non pas en fonction de la similarit´ th´matique qui
e e e
existe entre le document et la requˆte. En effet, pour qu’un document soit s´lectionn´
e e e
par le syst`me, il doit partager les mˆmes mots (du moins une partie d’entre eux)
e e
avec la requˆte. Dans le cas du mod`le boolén, pour ˆtre s´lectionn´, le document
e e e e e e
doit contenir tous les mots (conjonction) ou une partie des mots (disjonction) de la
requˆte. Dans le mod`le vectoriel, plus un document partage des mots avec la requˆte
e e e
et dans la mˆme proportion de poids, plus il est pertinent pour cette requˆte. En
e e
rálit´, un document peut ˆtre pertinent mˆme s’il ne partage pas les mˆmes mots
e e e e e
avec la requˆte. Par exemple, un document contenant le mot “voiture” peut consti-
e
tuer une r´ponse pertinente ` une requˆte contenant le mot “automobile”, mˆme si
e a e e
le mot “automobile” n’existe pas dans le document. Salton a soulign´ ce probl`me
e e
o` les auteurs de documents et les utilisateurs des SRI utilisent une grande vari´t´
u ee
de mots pour dńoter le mˆme concept [75]. Ce probl`me, qualifi´ de term mismatch
e e e e
ou word mismatch [25][103], est dˆ au fait que l’analyse purement statistique, sur
u
laquelle est basé la fonction de correspondance, permet seulement l’extraction des
e
2
Selon le dictionnaire de l’Acad´mie fran¸aise, un domaine est tout ce qu’embrasse un art, une
e c
science, une facult´ de l’esprit, etc. (exemples : le domaine de la peinture, de la sculpture, de la
e
politique, etc.).
3
D´finition donné par le Centre National de Ressources Textuelles et Lexicales.
e e
4
Basés sur les mod`les classiques de RI.
e e

2

descripteurs mais pas leur signification.

Fig. 1.1 – Objectif et processus de la Recherche d’Information

Ainsi, nous observons un foss´ entre l’objectif de la RI et la m´thode qui la rálise :
e e e
les techniques de RI existantes traitent essentiellement le signifiant, mais tr`s peu
e
le signifi´. En effet, l’objectif de la RI est de retrouver des documents qui traitent
e
du th`me de la requˆte, c’est-`-dire, dont le contenu s´mantique est similaire `
e e a e a
celui de la requˆte. Mais en pratique, la mise en œuvre des SRI est faite de fa¸on `
e c a
ce que ces syst`mes recherchent les documents partageant les mˆmes mots avec la
e e
requˆte. Dans ce cas, soit les mod`les de RI sous-jacents ignorent le sens des mots
e e
(signifi´), soit ils supposent implicitement qu’il y a une correspondance stricte entre
e
les mots (signifiants) et les sens (signifi´s). Cette derni`re supposition est erroné car
e e e
un signifi´ peut ˆtre exprim´ par diff´rents signifiants, et un signifiant peut expri-
e e e e
mer plusieurs signifi´s diff´rents (selon le contexte). Par exemple, pour une requˆte
e e e
contenant le mot “Java” (langage de programmation), le syst`me peut compl`tement
e e
ignorer le sens du mot Java et retourner des documents qui parlent de l’ˆ de Java
ıle
situé en Indon´sie.
e e

Il est clair que les SRI bas´s sur les mod`les de RI classiques ont fait beaucoup de
e e
progr`s pour repr´senter et comparer la requˆte et les documents. Nous avons quand
e e e

3

mˆme constat´, dans les campagnes d’´valuation (TREC5 , NTCIR6 , CLEF7 , etc.),
e e e
que la plupart des syst`mes semblent avoir atteint leurs limites de performances, bien
e
que la marge d’am´lioration semble encore grande (selon les mesures utilisés pour
e e
l’´valuation). Ceci est une indication que les optimisations de nature essentiellement
e
statistiques des mod`les existants ont atteint leurs limites.
e

Il nous apparaˆ qu’une am´lioration suppl´mentaire des performances des SRI
ıt e e
8
requiert l’utilisation de connaissances externes ` celles du corpus, notamment grˆce
a a
` la disponibilit´ croissante des ressources qui les stockent (dictionnaire, th´saurus,
a e e
ontologie, etc.). Un certain nombre de ces ressources ont rencontr´ beaucoup de
e
succ`s dans le domaine de RI, que ce soit dans des domaines spćialis´s (ex. MeSH
e e e
et UMLS pour le domaine m´dical), ou dans un domaine gń´raliste (ex. WordNet).
e e e
Grˆce ` l’apparition de nouvelles ressources dans des domaines de plus en plus divers
a a
(gógraphie, gńomique, droit, etc.), cette tendance ne cesse de s’amplifier.
e e

1.3 Mod`les de RI bas´s sur les concepts
e e
Parmi les travaux de recherche qui ont essay´ de surmonter les limites pr´sentés
e e e
dans la section prć´dente, il existe une approche de RI dite “basé-concepts” (Conce-
e e e
pt-Based Information Retrieval ).

Selon les communaut´s (Intelligence Artificielle, Philosophie, Linguistique, Scien-
e
ce de la cognition, etc.), il existe diff´rentes d´finitions de la notion de concept [31].
e e
De fa¸on gń´rale, un concept est un objet mental (son milieu, c’est l’esprit hu-
c e e
main) qui peut ˆtre d´fini comme une abstraction gń´ralisé ` partir de propri´t´s
e e e e e a ee
communes ` des objets concrets (leur milieu, c’est la rálit´ telle qu’on la ren-
a e e
contre). En d’autres termes, une conceptualisation est une abstraction qui consiste
` analyser la rálit´ pour en tirer les propri´t´s pertinentes qui permettent de passer
a e e ee
du particulier au gń´ral. Un concept poss`de une extension et une compr´hension.
e e e e
L’extension est l’ensemble des objets qui poss`dent les propri´t´s correspondant au
e ee
concept. En d’autres termes, c’est la quantit´ de rálit´ ` laquelle le concept se rap-
e e ea
5
http ://trec.nist.gov/
6
http ://research.nii.ac.jp/ntcir/
7
http ://www.clef-campaign.org/
8
“externes” car non pr´sentes dans les documents ` traiter, du moins sous une forme explicite
e a
et compl`te.
e

4

porte. Par exemple, le concept “Personne” a une plus grande extension que le concept
“Femme”. La compr´hension quant ` elle est l’ensemble des propri´t´s qui donnent
e a ee
son contenu ` un concept (l’ensemble des propri´t´s qui caract´risent les objets du
a ee e
concept). Elle varie en fonction inverse de l’extension. Par exemple, le concept “Fem-
me” a une compr´hension plus grande que le concept “Personne” (on peut ńum´rer
e e e
plus de propri´t´s ` son sujet).
ee a

Un concept est construit par l’ˆtre humain d’une mani`re non-ambigu¨, ind´pen-
e e e e
damment des langues, des supports et des formalismes de repr´sentation [18]. Mˆme
e e
s’il est exprim´ ` travers une forme mat´rielle (des mots), le concept n’est pas
e a e
mat´riel.
e

En consid´rant cette d´finition, il est tr`s difficile pour une machine d’extraire
e e e
des concepts ` partir d’une source num´rique. Cependant, il est possible d’associer
a e
un concept ` des ´l´ments dćrits dans des documents num´riques (textes, images,
a ee e e
etc.). C’est pour cette raison pratique qu’en RI la notion de concept est souvent
lié au sens des mots : un concept correspond ` une signification particuli`re d’un
e a e
mot (ou s´quence de mots). De son cˆt´, un terme est une paire (mot ou s´quence
e oe e
de mots, concept). C’est-`-dire, un terme est constitu´ d’un mot (ou s´quence de
a e e
mots) qui sert pour dńoter un concept dans un domaine particulier. Le mot, quant
e
` lui, est l’unit´ du discours oral ou ćrit. Dans des langues comme le fran¸ais ou
a e e c
l’anglais ćrits, le mot est repr´sent´ par une s´quence de lettres entre deux blancs.
e e e e
Pour all´ger l’ćriture, nous utilisons “terme” ´galement pour d´signer le mot ou la
e e e e
s´quence de mots correspondant ` un terme.
e a

Une approche de RI basé-concepts se caract´rise par la notion d’espace concep-
e e
tuel dans lequel les documents et les requˆtes sont repr´sent´s par opposition ` l’es-
e e e a
pace de mots simples utilis´s dans les mod`les classiques [3]. Les travaux pr´sent´s
e e e e
dans le cadre de notre th`se se situent dans cette classe d’approches.
e

Nous nous int´ressons ici ` l’am´lioration de la prćision en RI. A cette fin, nous
e a e e
´tudions l’utilisation des connaissances externes pour identifier les th`mes au niveau
e e
des documents et la requˆte. Plus prćis´ment, il s’agit de concevoir des mod`les de
e e e e
repr´sentation du contenu s´mantique des documents et des requˆtes.
e e e

5

L’utilisation des connaissances externes a fait l’objet de plusieurs travaux souvent
orient´s vers l’am´lioration de la prćision (d´sambigu¨
e e e e ısation de termes, indexation
conceptuelle), et/ou vers l’am´lioration du rappel (expansion de requˆtes). Dans ce
e e
contexte, elles servent ` expliciter le sens des termes dans le corpus en identifiant des
a
concepts et ´ventuellement des relations entre ces concepts. Ceci permet au syst`me
e e
de prendre en compte la s´mantique sous-jacente aux termes ; d’abord, au moment
e
de l’indexation, la ressource externe est utilisé pour extraire des termes faisant
e
r´f´rence aux entit´s conceptuelles traités dans les documents ; ensuite, au moment
ee e e
de l’interrogation (reformulation de requˆte et correspondance), elle sert ` identifier
e a
les concepts des documents dńot´s par les descripteurs de la requˆte. Enfin, son
e e e
utilisation permet d’avoir des informations suppl´mentaires sur la s´mantique as-
e e
socié aux termes issus du contenu (document et requˆte), et d’aider ainsi le SRI `
e e a
interpr´ter le contenu s´mantique et ` am´liorer les performances de recherche.
e e a e

Cette classe d’approches pr´sente plusieurs avantages. L’utilisateur peut faire
e
usage des connaissances pr´sentes dans la ressource externe ` partir de laquelle le
e a
corpus a ´t´ index´. Cela peut l’aider ` augmenter sa connaissance par rapport
ee e a
` l’information qui lui est disponible dans le corpus. L’utilisateur peut ´galement
a e
utiliser le vocabulaire contrˆl´, pr´sent dans la ressource externe et utilis´ pour la
oe e e
repr´sentation des documents, pour mieux exprimer son besoin. Dans ce cas, la
e
description du besoin d’information a les mˆmes caract´ristiques que celles des do-
e e
cuments.

Nous pouvons dire que le principal avantage des approches basés-concepts est
e
que l’utilisateur et le syst`me arrivent ` “parler” le mˆme langage (celui qui cor-
e a e
respond au vocabulaire de la ressource externe utilisé). Cependant, ces approches
e
consid`rent les documents et requˆtes comme des sacs de concepts. Ainsi, les relations
e e
s´mantiques qui peuvent exister entre les concepts ne sont pas toujours exploités.
e e
Ceci peut provoquer des probl`mes comme mentionn´s dans la section prć´dente :
e e e e
un document est consid´r´ pertinent seulement s’il partage les mˆmes concepts de la
ee e
requˆte (requˆte initiale ou ´tendue). Par exemple, pour la requˆte donne-moi les do-
e e e e
cuments qui parlent du politicien am´ricain qui a eu le prix Nobel de la paix en 2007,
e
un document pertinent doit contenir le nom Al Gore. Ce document ne peut cepen-
dant pas ˆtre retrouv´ par un syst`me qui n’exploite pas les relations s´mantiques.
e e e e
Pour pouvoir r´soudre cette requˆte, un SRI a besoin de connaissances externes pour
e e

6

inf´rer que Al Gore est un politicien originaire des Etats Unis, etc.
e

Nous pensons que le principal probl`me de ces mod`les de RI est qu’ils consid`rent
e e e
peu la structure s´mantique des documents (requˆtes) lors de l’interpr´tation de
e e e
leurs contenus [4][58][68][92][96]. Nous sommes convaincus, qu’en plus de dćrire les
e
connaissances du(des) domaine(s) pr´sent(s) dans le corpus, les ressources externes
e
peuvent apporter des information utiles pour l’interpr´tation des th`mes d´velopp´s
e e e e
dans les documents de ce corpus. Nos travaux vont actuellement dans ce sens.

1.4 Vers un mod`le de RI bas´ sur les dimensions
e e
de domaine
Dans notre travail de th`se, nous nous int´ressons ` un processus de RI dont le
e e a
contexte est prćis´ par le domaine d’int´rˆt de l’utilisateur.
e e e e

Nous avons vu prć´demment qu’un document qui partage les mˆmes descrip-
e e e
teurs (que ce soient des mots ou des concepts) avec la requˆte n’est pas forc´ment
e e
pertinent pour cette requˆte. Ainsi, la question que nous nous sommes posé est :
e e

“Y a-t-il des ´l´ments, autres que les descripteurs, qu’un document doit
ee
partager9 avec la requˆte pour qu’il soit consid´r´ pertinent ?”
e e e

Dans un processus de RI, l’utilisateur souffre d’un manque d’information, mais a
une idé des lacunes de ses connaissances et donc de son besoin en information. Une
e
premi`re difficult´ majeure ` laquelle doit faire face un SRI est que le besoin d’infor-
e e a
mation est une chose particuli`re ` l’utilisateur. Comme il est rarement int´gr´ dans
e a e e
le processus de RI, son besoin d’information est souvent mal interpr´t´. Pour pouvoir
ee
satisfaire l’utilisateur, le SRI doit d’abord “comprendre” son besoin d’information.
Une premi`re question se pose alors : Q1 “comment aider le SRI ` interpr´ter ce que
e a e
l’utilisateur essaye de dćrire”. Autrement dit, en plus des descripteurs de la requˆte,
e e
y a-t-il d’autres ´l´ments qui peuvent aider le SRI ` avoir plus d’informations sur le
ee a
9
Ce n’est pas seulement une intersection au sens simpliste du terme : ca pourrait ˆtre une
¸ e
implication logique, ou une probabilit´, etc.
e

7

besoin de l’utilisateur ?

Une deuxi`me difficult´ ` laquelle doit faire face un SRI est que l’utilisateur juge
e ea
les documents qui lui sont retourn´s par rapport ` l’interpr´tation de son besoin et
e a e
non pas par rapport ` l’ensemble des documents du corpus susceptibles de l’int´resser
a e
[91]. Une deuxi`me question se pose alors : Q2 “comment int´grer l’utilisateur lors
e e
du processus d’indexation et du calcul de pertinence des documents ?”

Pour r´pondre aux questions Q1 et Q2, nous avons choisi d’utiliser les connais-
e
sances du domaine d’int´rˆt de l’utilisateur qui peuvent ˆtre dćrites ` travers des
ee e e a
ressources externes. Nous avons suppos´ que ces ressources peuvent : i ) nous ren-
e
seigner sur les besoins de l’utilisateur pendant sa tˆche de recherche ; et ii ) aider le
a
SRI ` interpr´ter le contenu s´mantique du document et ` calculer la pertinence en
a e e a
prenant en compte la similarit´ th´matique entre le document et la requˆte10 .
e e e

En pratique, nous avons analys´ plusieurs requˆtes extraites de diff´rentes collec-
e e e
tions des campagnes d’´valuation des SRI (ex. TREC, CLEF, etc.). A titre d’exemple,
e
nous pr´sentons ici deux requˆtes extraites de deux collections de la campagne CLEF-
e e
2005 : la premi`re est extraite de la collection multilingue Multi-8, et la deuxi`me de
e e
la collection des comptes-rendus m´dicaux ImageCLEFmed.
e

Requˆte 1 : “Donne-moi les documents qui parlent du gń´ral fran¸ais responsable
e e e c
de la crátion de la zone de sćurit´ pendant le conflit des Balkans ?”
e e e

Pour un lecteur humain, il est clair que l’on recherche des documents qui parlent
d’une personne : gń´ral fran¸ais. Un document pertinent, contenant le nom de la
e e c
personne en question, ne contient pas forc´ment les termes “gń´ral” et “fran¸ais”.
e e e c
Pour y rem´dier, une solution possible est de faire une expansion “intelligente” de
e
la requˆte pour informer le syst`me qu’on est ` la recherche d’une personne et pas
e e a
seulement des termes “gń´ral” et “fran¸ais”. Le fait d’identifier l’´l´ment personne
e e c ee
dans cette requˆte n’est pas suffisant pour la r´soudre. En effet, cet ´l´ment ap-
e e ee
paraˆ dans un contexte particulier qui est dćrit par d’autres ´l´ments. La personne
ıt e ee
10
Nous verrons dans le chapitre de l’´tat de l’art que ces deux hypoth`ses sont inspirés de
e e e
certaines idés qui ont ´t´ d´j` d´veloppés.
e e e ea e e

8

que l’on cherche a cr´´ une zone de sćurit´. Celle-ci a ´t´ cr´é dans un lieu
ee e e e e ee
gógraphique : les Balkans. Enfin, la crátion de cette zone a eu lieu suite ` un
e e a
´vńement : conflit des Balkans.
e e

Ainsi, pour interpr´ter le besoin d’information formul´ ` travers la requˆte 1, nous
e ea e
11
allons supposer qu’il est nćessaire d’expliciter tous les ´l´ments-cl´s introduits par
e ee e
l’utilisateur, et de disposer d’un langage de requˆte expressif pour mieux cerner ce
e
que l’utilisateur recherche.

Requˆte 2 : “Show me x-ray images with fractures of femur ”
e

Pour un ˆtre humain, il est clair que l’on cherche des images qui contiennent un
e
aspect anatomie (le f´mur ) et un aspect pathologie (fracture). Ces deux ´l´ments,
e ee
12
qui sont s´mantiquement reli´s , doivent apparaˆ dans une image dont la moda-
e e ıtre
lit´ est rayon-x. Ainsi, une image au rayon-x qui contient “une fracture du crˆne”
e a
ou “un f´mur sans fracture” est supposé non pertinente par rapport ` cette requˆte.
e e a e
De mˆme pour les images contenant “une fracture du f´mur ” dont la modalit´ n’est
e e e
pas rayon-x.

En observant plusieurs documents (requˆtes) de diff´rents domaines13 , nous avons
e e
remarqu´ une r´gularit´ au niveau des ´l´ments qui dćrivent les th`mes d´velopp´s
e e e ee e e e e
dans les documents (requˆtes) appartenant ` un mˆme domaine. Par exemple, les
e a e
th`mes du domaine de la politique internationale peuvent ˆtre d´velopp´s en utili-
e e e e
sant des ´l´ments tels que Personne, Lieu gógraphique, Epoque, Evńement, etc. En
ee e e
m´decine, un th`me peut ˆtre d´velopp´ en utilisant des ´l´ments tels que Anatomie,
e e e e e ee
Pathologie, Stade de la maladie, Type de traitement, etc. Ainsi, nous appellerons ces
´l´ments les dimensions de domaine et nous les d´finissons comme suit :
ee e

“Une dimension d’un domaine est un concept utilis´ pour exprimer des th`mes
e e
dans ce domaine.”
11
Par exemple, en proc´dant par une expansion “intelligente”.
e
12
En m´decine, une fracture est une pathologie d’un os tel que le f´mur.
e e
13
M´dical, politique internationale, astronomie, etc.
e

9

Le concept associ´ ` la dimension est en pratique gń´ral, c’est-`-dire, poss`de une
ea e e a e
vaste extension et une compr´hension minimale. Si l’on peut construire une hi´rarchie
e e
des concepts du domaine, il devrait se trouver pr`s de la racine de la hi´rarchie, c’est-
e e
`-dire, il aurait de nombreux sous-concepts et peu ou pas de concepts super-ordonn´s.
a e

L’idé sous-jacente ` notre approche est qu’un auteur, quand il r´dige son docu-
e a e
ment, s’int´resse ` un domaine particulier pour d´velopper un th`me. Ainsi, il fait
e a e e
r´f´rence ` des dimensions de son domaine d’int´rˆt pour d´tailler l’idé exprimé
ee a ee e e e
dans son document. Pour ce faire, il fait r´f´rence aux concepts relatifs aux dimen-
ee
sions choisies. Pour dńoter ces concepts dans son texte, il utilise des termes de son
e
domaine d’int´rˆt.
ee

Par exemple, pour r´diger un compte-rendu m´dical, un m´decin peut faire
e e e
r´f´rence dans son texte aux dimensions “Pathologie” et “Anatomie”. Ensuite, il
ee
fait r´f´rence ` des concepts relatifs ` ces dimensions, et enfin il utilise des termes
ee a a
pour dńoter ces concepts. Par exemple, il peut utiliser les termes “seins” et “can-
e
cer”, ou “f´mur” et “fracture”, etc.
e

De la mˆme mani`re, un utilisateur s’int´resse ` un domaine particulier pour
e e e a
dćrire son besoin d’information. Il fait d’abord r´f´rence ` des dimensions de son
e ee a
domaine d’int´rˆt. Ensuite, il fait r´f´rence ` des concepts relatifs ` ces dimensions.
ee ee a a
Enfin, il emploie des termes pour dńoter ces concepts dans la requˆte qui exprime
e e
son besoin d’information.

1.5 Probl´matique
e
Nous nous pla¸ons dans un contexte de recherche o` l’utilisateur dćrit un be-
c u e
soin prćis. Ce contexte est typiquement celui des milieux professionnels, o` les
e u
utilisateurs ont de bonnes connaissances de leur domaine d’int´rˆt, ainsi que des
ee
documents (comptes-rendus, textes de loi, etc.) qu’ils consultent r´guli`rement. Lors
e e
d’une tˆche de recherche, les professionnels essayent de compl´ter l’information qu’ils
a e
ont d´j` mais qui est insuffisante. Leurs besoins dans ce cas sont prćis et dćrits
ea e e

10

` travers une terminologie spćifique ` leurs domaines d’int´rˆt. Par exemple, un
a e a ee
m´decin d´sirant retrouver un compte-rendu, voudrait pouvoir formuler son besoin
e e
d’information de la mani`re suivante :
e

“Je cherche un compte-rendu sur le type de traitements ` effectuer en cas d’un
a
cancer du sein de stade M0 ”.

Nous remarquons, ` partir de cet exemple, que le m´decin connaˆ bien la ter-
a e ıt
minologie de son domaine, et par cons´quent, que la description de son besoin est
e
tr`s prćise. Nous remarquons ´galement qu’il se sert des dimensions de son domaine
e e e
pour dćrire son besoin : anatomie, pathologie, traitement, stade de la maladie, etc.
e

Les professionnels sont des utilisateurs qui s’attendent a trouver une r´ponse
` e
prćise et de qualit´ ` leur requˆte, leur permettant de ráliser leur tˆche profession-
e ea e e a
nelle (´tablir un diagnostic, r´diger un article de presse, se documenter, etc.). Afin
e e
de permettre au syst`me de retrouver des documents en meilleure ad´quation avec
e e
le rél besoin de tels utilisateurs, nous pensons qu’il est nćessaire de prendre en
e e
compte les dimensions du domaine d’int´rˆt de l’utilisateur. La question principale
ee
que nous posons ainsi est :

“Comment satisfaire, ` partir de l’information “brute”14 , une requˆte prćise
a e e
formulé par un utilisateur qui s’int´resse ` un domaine particulier ?”
e e a

Nous dńotons par le qualificateur “prćise” une requˆte qui, au contraire d’une
e e e
requˆte vague, contient une terminologie tr`s spćialisé. Elle pr´sente une complexit´
e e e e e e
au niveau de sa structure s´mantique qui peut ˆtre mat´rialisé par un ensemble de
e e e e
15
relations s´mantiques et d’op´rateurs . Ce type de requˆte semble ˆtre adapt´ ` une
e e e e ea
indexation relationnelle qui permet de prendre en compte les relations s´mantiques
e
lors de la repr´sentation du contenu du document ` indexer.
e a

L’objectif du travail dćrit dans notre th`se est donc de d´finir un mod`le de Re-
e e e e
cherche d’Information qui soit en ad´quation avec le contexte particulier dans lequel
e
14
Sac de mots dans les documents textuels, etc.
15
Booléns, quantificateurs, etc.
e

11

nous nous situons :

– L’utilisateur a une forte connaissance sur son domaine d’int´rˆt qui doit ˆtre
ee e
repr´sent´ au sein du syst`me ;
e e e

– La formulation de la requˆte est une description prćise du document recherch´
e e e
par l’utilisateur. Celui-ci dćrit le document qu’il souhaite retrouver en utilisant
e
une terminologie spćifique ` son domaine. Il peut prćiser ce qui est important
e a e
(crit`re obligatoire) ou moins important (crit`re optionnel) que ce document
e e
contienne. Il peut ´galement utiliser des op´rateurs booléns, ou des quantifi-
e e e
cateurs pour prćiser le nombre d’´l´ments que le document doit contenir.
e ee

Fig. 1.2 – Sch´ma global de notre approche
e

12

Fig. 1.3 – Dimensions de domaine stockés dans une ressource externe
e

Nous proposons d’utiliser les dimensions de domaine afin de mettre en exergue les
aspects li´s aux descriptions s´mantiques du contenu des documents (requˆtes), et
e e e
d’identifier ainsi les th`mes qui y sont d´velopp´s. A cette fin, un mod`le de RI fond´
e e e e e
sur les dimensions est propos´. En consid´rant les exigences en termes de prćision
e e e
du syst`me, le langage de document et le langage de requˆte sur lesquels est
e e
fond´ notre mod`le doivent ˆtre expressifs. Ils permettent d’une part, d’indexer
e e e
avec prćision le contenu s´mantique des documents, et d’autre part, d’interpr´ter le
e e e
contenu s´mantique des requˆtes prćises. Evidemment, notre mod`le doit permettre
e e e e
` l’utilisateur d’exprimer son besoin d’information prćis ` travers une requˆte.
a e a e

La mise en œuvre de notre mod`le nćessite d’abord de d´finir les dimensions de
e e e
domaine puis de les rep´rer au niveau des documents (requˆtes). Pour rep´rer ces
e e e
dimensions, il faut identifier les concepts qui leur sont associ´s, et donc les termes
e
qui les dńotent dans les documents (requˆtes). Ceci peut nćessiter une ´tape de
e e e e
d´sambigu¨
e ısation des sens des termes pr´sents dans les documents (requˆtes).
e e

Nous avons dćid´ de d´finir les dimensions ` travers une ressource externe16 `
e e e a a
large couverture qui associe un ensemble de termes ` un concept. Dans la figure
a
1.2, nous pr´sentons le sch´ma global de notre approche. Disposant d’un ensemble
e e
16
S´mantique : ontologie, linguistique : th´saurus, terminologique : dictionnaire terminologique,
e e
etc.

13

de dimensions d´finies ` travers une ressource externe (figure 1.3), notre approche
e a
interpr`te le contenu s´mantique des documents et des requˆtes et les mets en cor-
e e e
respondance.

1.6 Plan de la th`se
e
Apr`s ce chapitre introductif exposant notre probl´matique et les idés que nous
e e e
d´fendons, nous consacrons chapitre 2 ` l’´tat de l’art. Nous passons en revue
e a e
les travaux qui utilisent les ressources externes pour la repr´sentation du contenu
e
s´mantique des documents (requˆtes) lors du processus de RI. Nous ´tudions ´galement
e e e e
les travaux qui s’int´ressent ` la notion de dimensions de domaine.
e a

Dans le troisi`me chapitre, nous pr´sentons une d´finition formelle de notre
e e e
mod`le de RI, et nous discutons plus particuli`rement de mani`re approfondie le
e e e
mod`le de documents et le mod`le de requˆte. Nous montrons comment, en se basant
e e e
sur les dimensions de domaines, notre mod`le parvient ` repr´senter avec prćision
e a e e
le contenu s´mantique des documents et satisfaire ainsi des requˆtes prćises.
e e e

Le quatri`me chapitre dćrit les ´tapes nćessaires ` la mise en œuvre de notre
e e e e a
mod`le dans le cadre d’application de documents textuels. Il dćrit ´galement une
e e e
´valuation exp´rimentale, de l’utilisation des dimensions pour la RI, basé sur des
e e e
crit`res d’´valuation orient´s syst`me [23] op´ré sur une collection de la campagne
e e e e ee
CLEF.

Le cinqui`me chapitre r´sume les contributions apportés par ce travail au do-
e e e
maine de la RI et ´voque ´galement les perspectives de d´veloppement et d’optimi-
e e e
sation du mod`le propos´.
e e

14

Chapitre 2

Ressources externes et dimensions
de domaine

2.1 Introduction
Dans le chapitre prć´dent, nous avons pr´sent´ les limites des approches de RI
e e e e
existantes qui ne prennent pas en compte la s´mantique des documents (requˆtes).
e e
Devant ces limites, plusieurs travaux, tentant d’incorporer l’information s´mantique
e
dans le processus de RI, sont apparus en se basant sur la disponibilit´ de ressources
e
externes telles que les ontologies ou les th´saurus. Dans le cas du processus d’indexa-
e
tion, nous pouvons principalement identifier l’indexation conceptuelle ou l’indexation
s´mantique 1 [10][58]. Pour ce qui est du processus d’interrogation, l’accent a surtout
e
port´ sur l’expansion de requˆtes. Les ressources externes peuvent ´galement aider
e e e
` la formulation du besoin de l’utilisateur ` travers une interface graphique. C’est
a a
dans cette derni`re direction que Hearts [37] et Hyv¨nen [38] ont propos´ d’utiliser
e o e
les dimensions de domaines .

Dans le but de comprendre comment les ressources externes ont ´t´ utilisés pour
ee e
la prise en compte de la s´mantique lors du processus de RI, nous pr´sentons, dans
e e
la suite de ce chapitre, les approches les plus repr´sentatives dans la litt´rature.
e e
Ainsi, nous avons ´tudi´ des travaux sur l’indexation conceptuelle/s´mantique, puis
e e e
des travaux sur l’expansion de requˆtes. Avant de conclure ce chapitre avec une
e
synth`se des travaux existants, nous y discutons des travaux qui prennent en compte
e
1
Ces deux terminologies sont utilisés parfois par les chercheurs en RI avec quelques confusions.
e

15

la notion de dimensions lors du processus de RI. Mais commen¸ons d’abord par
c
d´finir quelques notions sur les ressources externes.
e

2.2 Ressources externes & RI
De fa¸on gń´rale, selon les communaut´s (Linguistique, Sciences de la cognition,
c e e e
Intelligence artificielle, Philosophie, etc.), il existe diff´rentes d´finitions des notions
e e
que nous pr´sentons ici. Dans la suite, nous pr´sentons les d´finitions telles qu’elles
e e e
sont utilisés en Recherche d’Information et telles que nous les utilisons dans notre
e
approche.

Par ressource externe, nous entendons toute structure externe au corpus conte-
nant des concepts et des termes qui les dńotent. Cette ressource peut ´galement
e e
contenir des relations entre les diff´rents concepts ; par extension, nous appelons
e
connaissances externes toutes les informations stockés dans la ressource externe
e
(concept, termes, relations, d´finition, etc.).
e

Nous avons opt´ pour cette terminologie parce que, dans la communaut´ de RI,
e e
on utilise les mˆmes notations pour d´signer des ressources diff´rentes. Par exemple,
e e e
par abus de langage, le mot “ontologie” est utilis´ pour d´signer des ressources telles
e e
que, les th´saurus, les taxonomies, les hi´rarchies de concepts, etc. [32][51][62]. Nous
e e
n’allons pas d´tailler ici les d´finitions de ces diff´rents types de ressources ; nous
e e e
allons seulement dćrire, dans la suite du manuscrit, les caract´ristiques de celle
e e
dont nous avons besoin pour d´finir notre mod`le de RI. Ensuite, en fonction de nos
e e
besoins, nous choisissons la ressource qui nous convient le mieux, quelle que soit sa
nature.

Les concepts correspondent gń´ralement aux nœuds (entrés) d’une ressource
e e e
externe. Ces nœuds peuvent contenir des informations suppl´mentaires telles que la
e
d´finition du concept, le terme le plus couramment utilis´ pour le dńoter, les termes
e e e
synonymes qui le dńotent, etc.
e

Par exemple, dans le m´ta-th´saurus UMLS2 , le concept correspondant au “li-
e e
2
http ://www.nlm.nih.gov/research/umls/

16

gament crois´ ant´rieur” est identifi´ par le code “C0630058”, et dńot´, dans le
e e e e e
domaine m´dical, par un ensemble de termes dans diff´rentes langues naturelles (cf.
e e
figure 2.1).

Fig. 2.1 – Dńotation d’un concept par un ensemble de termes synonymes dans
e
diff´rentes langues.
e

2.2.1 Cr´dibilit´ des approches basés sur les ressources ex-
e e e
ternes
Nous sommes convaincus que les ambitions des approches basés sur les res-
e
sources externes sont de plus en plus cr´dibles car le spectre d’applications et de
e
domaines concern´s ne cesse de s’´largir, ce qui favorise le d´veloppement de ces
e e e
ressources. Parmi celles-ci, nous mentionnons particuli`rement les ontologies qui de-
e
viennent de plus en plus utiles dans une large famille de syst`mes d’information.
e
Par exemple, elles sont utilisés pour dćrire et traiter des ressources multim´dias,
e e e
permettre l’int´gration de sources h´t´rog`nes d’information, piloter des traitements
e ee e
automatiques de la langue naturelle, construire des solutions multilingues et inter-
culturelles, etc. Ces utilisations se retrouvent dans de nombreux domaines d’applica-
tion : Recherche d’Information, int´gration d’informations gógraphiques, commerce
e e
´lectronique, enseignement assist´ par ordinateur, suivi m´dical informatis´, etc.
e e e e

Un cadre d’application particuli`rement prometteur pour le d´veloppement des
e e
syst`mes ` base d’ontologies est celui du Web s´mantique 3 [8][15]. En effet, dans ce
e a e
3
Il s’agit d’une extension du Web actuel, dans laquelle l’information se voit associé ` un sens
e a
bien d´fini, am´liorant la capacit´ des logiciels ` traiter l’information disponible sur le Web.
e e e a

17

contexte, l’annotation des ressources d’information repose sur des ontologies (elles-
mˆmes disponibles et ćhangés sur le Web). Grˆce au Web s´mantique, l’ontologie
e e e a e
a trouv´ un formalisme standard ` l’ćhelle mondiale et s’int`gre dans de plus en
e a e e
plus d’applications Web, sans mˆme que les utilisateurs ne le sachent.
e

De ce fait, de plus en plus d’ontologies de domaines deviennent disponibles : on-
tologie m´dicale, ontologie de la gń´tique, ontologie de la góm´trie, ontologie pour
e e e e e
le bˆtiment, ontologie de syst`mes documentaires, ontologie dans le secteur automo-
a e
bile, etc.4

La croissance du nombre d’ontologies sur le Web a mˆme favoris´ le d´veloppement
e e e
d’outils spćialis´s dans la recherche de ce genre de ressources. A ce sujet, men-
e e
tionnons par exemple swoogle 5 (semantic Web search engine) qui est un moteur de
recherche qui permet de retrouver des ressources ontologiques disponibles sur le Web.

Malgr´ toutes ces rálisations, l’expansion du d´veloppement des ontologies est
e e e
loin d’ˆtre achevé. Ainsi, les ontologies qui s’appliquaient essentiellement ` des
e e a
donnés (multim´dias) sont d´sormais utilisés pour dćrire des logiciels (ex. les
e e e e e
services Web). Elles commencent ´galement ` ˆtre utilisés pour dćrire l’utilisateur
e ae e e
en spćifiant par exemple son contexte d’interaction (les pr´f´rences de l’utilisateur :
e ee
langue, goˆ ts, droits, etc. ; les caract´ristiques de son terminal : mobile, vocal, etc. ; sa
u e
situation gógraphique : l’´tranger, dans une salle avec imprimante, etc. ; l’historique
e e
d’utilisation, etc.).

2.2.2 Exemple de ressource externe utilisé en RI : WordNet
e
WordNet6 est une base lexicale organisé sous forme hi´rarchique autour de la
e e
notion de synset (ensemble de synonymes). Un synset regroupe des termes (simples
ou compos´s) ayant un mˆme sens dans un contexte donn´. Par d´finition, chaque
e e e e
synset dans lequel un terme apparaˆ repr´sente un sens diff´rent de ce terme.
ıt e e
Les synsets sont organis´s par des relations d´finies sur eux, qui diff`rent selon la
e e e
4
http ://ontology.buffalo.edu/, http ://www.geneontology.org/, http ://diseaseonto-
logy.sourceforge.net/, http ://ontolingua.stanford.edu/, etc.
5
http ://swoogle.umbc.edu/ [visit´ le 08/07/07]
e
6
Le choix de pr´senter WordNet est motiv´ par le fait qu’il est largement utilisé dans la plupart
e e e
des approches que nous ´tudions dans notre travail, et dans la RI d’une mani`re gń´rale.
e e e e

18

cat´gorie grammaticale (Part Of Speech). Les principales relations s´mantiques is-
e e
sues de WordNet utilisés en RI sont les suivantes : la synonymie, la m´ronymie7 ,
e e
et l’hyperonymie8 (is-a). Celle-ci est la plus dominante. Elle organise les synsets
dans un ensemble de hi´rarchies.
e

En plus d’ˆtre gratuitement disponible, l’avantage d’utiliser WordNet est qu’il
e
couvre la majorit´ de la langue anglaise, ce qui la place souvent en ad´quation avec
e e
les donnés traités en RI dans le cas gń´ral.
e e e e

2.3 Usage des ressources externes pour la repr´se-
e
ntation des documents
Afin de repr´senter le contenu des textes par des concepts, l’indexation concep-
e
tuelle se base sur des techniques de d´sambigu¨
e ısation qui servent ` identifier les
a
concepts dńot´s par les termes dans le texte. Dans la section suivante, nous rap-
e e
pelons quelques techniques de d´sambigu¨
e ısation capable de ráliser cette tˆche. En-
e a
suite, nous examinons des approches qui utilisent les ressources externes pour la
repr´sentation du contenu des documents.
e

Nous verrons dans la suite de ce chapitre que les performances d’une approche
de RI d´pendent de plusieurs facteurs. Dans notre cas, elles peuvent d´pendre de
e e
la qualit´ de la ressource externe utilisé, de la qualit´ du d´sambigu¨
e e e e ıseur utilis´,
e
du mod`le de RI sous-jacent, etc. Donc, afin de bien ´valuer une approche de RI,
e e
il est int´ressant d’´valuer l’impact de chacun de ces facteurs sur ses performances.
e e
De cette fa¸on, nous avons la possibilit´ d’identifier ce qui a bien fonctionn´ et ce
c e e
qui a mal fonctionn´ lors d’une exp´rimentation de RI. C’est dans cette direction
e e
que nous pr´sentons un ensemble de travaux sur l’utilisation des ressource externe
e
et l’utilisation de d´sambigu¨
e ıseur pour la RI.
7
La classe des m´ronymes contient respectivement les concepts constituant des parties du concept
e
(... is a part of this concept, ... is a member of this concept ), ou dont le concept est une partie (this
concept is a part of ... etc.). Exemple : voiture a pour m´ronymes porte, moteur.
e
8
La classe des Hyperonymes contient les concepts p`res pour la relation de gń´ralisation. La
e e e
relation inverse est l’hyponymie (spćialisation).
e

19

2.3.1 La d´sambigu¨
e ısation
La d´sambigu¨
e ısation automatique des sens des mots est un probl`me qui a ´t´
e ee
longuement ´tudi´ : Gale, Church et Yarowsky [30] citent par exemple un travail re-
e e
montant ` 1950. Dans ce chapitre, nous nous concentrons seulement sur les approches
a
les plus rćentes. Une revue plus d´taillé de la d´sambigu¨
e e e e ısation est pr´senté par
e e
Krovetz [47] et Voorhees [27] et plus rćemment une autre exposé par Mark San-
e e
derson [79].

Plusieurs travaux ont ´tudi´ l’utilit´ de la d´sambigu¨
e e e e ısation pour la RI [32][47][77]
[78][80]. Ces efforts ont clairement montr´ que la d´sambigu¨
e e ısation est un probl`me
e
plus subtil que l’on pensait. Une des premi`res tentatives d’utiliser un d´sambigu¨
e e ıseur
avec un syst`me de RI a ´t´ faite par Stephen Weiss [100]. En utilisant son d´sambigu¨
e ee e ıs-
eur pour r´soudre les sens de cinq mots ambigus extraits ` la main de la collection
e a
de ADI, Weiss a rapport´ une am´lioration de seulement 1% des performances de
e e
recherche. Une des recherches les plus approfondies sur l’ambigu¨ e et la RI a ´t´
ıt´ ee
effectué par Krovetz et Croft [47] qui ont examin´ manuellement deux collections
e e
test (CACM et TIME) pour ´tudier l’ampleur de l’ambigu¨ e lexicale dans ces col-
e ıt´
lections, ainsi que son effet sur la performance de la recherche. Ils ont trouv´ que ces
e
collections, mˆme si elles sont relativement petites et spćialisés, contiennent des
e e e
mots utilis´s dans de multiples sens ; ils ont cependant conclu que les performances
e
de recherche ne sont pas fortement affectés par l’ambigu¨ e des mots. En effet, les
e ıt´
documents qui partagent plusieurs mots avec la requˆte tendent ` utiliser ces mots
e a
avec les mˆmes sens que ceux de la requˆte. Les auteurs pr´sument nánmoins que
e e e e
la d´sambigu¨
e ısation des mots est probablement bń´fique ` la recherche quand les
e e a
collections contiennent des th`mes divers, et qu’il y a peu de mots en commun entre
e
le document et la requˆte [47].
e

Selon Mark Sanderson [77], les premiers essais ` grande ćhelle d’application d’un
a e
d´sambigu¨
e ıseur ` un syst`me de RI ont ´t´ rális´s par Voorhees [95] et Wallis [99].
a e ee e e
Voorhees a construit un d´sambigu¨
e ıseur de mots bas´ sur WordNet [28][60]. Elle a
e
appliqu´ le d´sambigu¨
e e ıseur aux collections de CACM, de CISI, de CRAN, de MED et
de TIME. Les tests men´s sur ces derni`res collections d´sambigu¨ ees ont eu comme
e e e ıs´
cons´quence paradoxale une baisse dans la performance de la RI. Wallis a employ´
e e
un d´sambigu¨
e ıseur en tant qu’´l´ment d’une exp´rience plus raffiné dans laquelle il
ee e e

20

a remplac´ les mots dans une collection de textes par le texte de leurs d´finitions
e e
issues d’un dictionnaire. Ceci a ´t´ fait de sorte que des mots synonymes (qui ont
ee
des d´finitions similaires) soient repr´sent´s par les mˆmes descripteurs, et donc que
e e e e
les documents contenant ces mots synonymes soient repr´sent´s par les mˆmes des-
e e e
cripteurs. En rempla¸ant un mot par sa d´finition, un d´sambigu¨
c e e ıseur a ´t´ employ´
ee e
pour choisir la d´finition qui repr´sente le mieux le mot. Wallis a rális´ des essais
e e e e
sur les collections CACM et TIME, mais n’a trouv´ aucune am´lioration significative
e e
des performances de recherche.

Les r´sultats de Voorhees et de Wallis sont surprenants car il semble raisonnable
e
que la performance de RI augmente si l’ambigu¨ e est r´solue. Parmi les probl`mes
ıt´ e e
qu’ils ont soulev´s, nous pouvons citer le manque de fiabilit´ au niveau de la perfor-
e e
mance de leurs d´sambigu¨
e ısations : par exemple, Voorhees a signal´ des probl`mes
e e
lors du choix du sens correct de certains des mots dans les requˆtes. De tels probl`mes
e e
ne permettent pas d’´tablir clairement au juste ce qui a mal fonctionn´ lors de
e e
l’exp´rience. Pour cette raison, plusieurs travaux sur l’´valuation des d´sambigu¨
e e e ıseurs
ont ´t´ entrepris.
ee

L’´valuation reste un probl`me majeur de la recherche dans le domaine de la
e e
d´sambigu¨
e ısation car jusqu’` pr´sent l’´valuation d’un d´sambigu¨
a e e e ıseur nćessite une
e
v´rification manuelle de ses propositions. Comme c’est un processus tr`s long, la
e e
plupart des d´sambigu¨
e ıseurs ont ´t´ ´valu´s seulement sur une poigné de mots.
ee e e e
Cependant, Yarowsky a pr´sent´ une technique compl`tement automatique pour
e e e
l’´valuation des d´sambigu¨
e e ıseurs [104] ; elle consiste ` introduire, dans une collection
a
de textes, des mots ambigus cr´´s artificiellement, appel´s des “pseudo-mots”. Cette
ee e
technique consiste ` remplacer toutes les occurrences de deux mots, par exemple
a
“banane” et “kalashnikov ” par un nouveau mot ambigu “banana/kalashnikov ”. Le
d´sambigu¨
e ıseur est alors appliqu´ ` chaque occurrence du nouveau mot. L’´valuation
ea e
de la prćision du d´sambigu¨
e e ıseur est alors facilité car on connaˆ ` l’avance le sens
e ıt a
correct de chaque occurrence des mots. Cependant, comme n’importe quelle simu-
lation, celle-ci a ses limites. La m´thode choisie pour former des pseudo-mots de
e
diff´rents mots consiste ` faire un choix alátoire. Par cons´quent, les divers sens
e a e e
d’un pseudo-mot sont peu susceptibles d’ˆtre ´troitement li´s. Cela diff`re des mots
e e e e
ambigus réls dont les sens peuvent dans certains cas ˆtre reli´s d’une fa¸on quel-
e e e c
conque. La signification de cette diff´rence est peu claire, et donc on ne peut pas
e

21

affirmer que l’ambigu¨ e introduite artificiellement correspond exactement ` l’am-
ıt´ a
bigu¨ e que l’on trouve dans des situations rélles.
ıt´ e

Bien que Yarowsky ait invent´ les pseudo-mots seulement pour l’´valuation des
e e
d´sambigu¨
e ıseurs, sa m´thode semble a priori bien adapté ` l’´tude du rapport entre
e e a e
l’ambigu¨ e des mots et la RI [77][78]. Pour v´rifier cette idé, Sanderson a fait
ıt´ e e
d’abord une premi`re exp´rience pour ´valuer les performances d’un SRI sur une
e e e
collection de test. Ensuite, il a introduit de l’ambigu¨ e dans la collection en utilisant
ıt´
des pseudo-mots. Ainsi, il a pu comparer les performances du SRI sur cette collection
accompagné d’ambigu¨ e avec les performances du syst`me obtenues sur la collection
e ıt´ e
initiale. De cette mani`re, Sanderson peut changer ` volont´ la quantit´ d’ambigu¨ e
e a e e ıt´
dans une collection. Ainsi, par exemple, des niveaux d’ambigu¨ e qui d´passent de
ıt´ e
loin ceux des collections test standards peuvent ˆtre ´tudi´s. Cependant, l’avantage
e e e
principal d’utiliser des pseudo-mots est que la d´sambigu¨
e ısation des pseudo-mots
peut ˆtre contrˆlé avec prćision par l’exp´rimentateur. Par cons´quent, les effets
e oe e e e
d’un d´sambigu¨
e ıseur sur les performances d’un SRI, fonctionnant ` des niveaux va-
a
riables de prćision, peuvent ´galement ˆtre ´tudi´s.
e e e e e

Suite ` ces exp´rimentations, Sanderson a montr´ que l’ambigu¨ e des mots a des
a e e ıt´
effets mineurs sur la prćision de la recherche, confirmant vraisemblablement que
e
les strat´gies d’appariement (matching), entre la requˆte et le document, effectuent
e e
d´j` une d´sambigu¨
ea e ısation implicite. C’est ` dire, quand un ensemble de mots appa-
a
raissent simultan´ment dans un contexte, que la signification approprié de chacun
e e
peut ˆtre d´terminé (mˆme si chacun de ces mots pris individuellement est ambigu).
e e e e
Nous reprenons l’exemple utilis´ par Vooheers o` , dans l’ensemble base, bat, glove,
e u
hit, la plupart des mots ont plusieurs sens. Mais pris conjointement, ces mots font
r´f´rence au jeu du Baseball. Sanderson estime que, si la d´sambigu¨
ee e ısation automa-
tique des mots est effectué avec moins de 90% de prćision, les r´sultats sont plus
e e e
mauvais que si on ne d´sambigu¨
e ısait pas du tout.

Un ´tat de l’art sur cette question de d´sambigu¨
e e ısation des mots dans le cadre
de la RI est pr´sent´ par Sanderson [79]. Les r´sultats obtenus par diff´rents cher-
e e e e
cheurs sont parfois contradictoires. A partir de ces exp´riences, nous pouvons tirer la
e
conclusion que, pour am´liorer les performances d’un SRI, il est nćessaire d’utiliser
e e
un d´sambigu¨
e ıseur fonctionnant avec une grande prćision.
e

22

Sanderson [79] et Zernik [106] ont ´galement conclu que les dictionnaires ne four-
e
nissent pas une bonne source de d´finitions des termes (sens) pour les d´sambigu¨
e e ıseurs,
parce que leurs distinctions entre les d´finitions sont trop fines car souvent basés
e e
sur des crit`res grammaticaux plutˆt que s´mantiques. Heureusement, d’autres res-
e o e
sources externes sont devenues de plus en plus disponibles. Ces ressources repr´sentent
e
le sens de termes ` travers les concepts qu’ils dńotent. En plus, elles offrent des
a e
connaissances en organisant les concepts dans une structure basé sur des relations
e
s´mantiques. Ceci offre des capacit´s non n´gligeables a la RI, mˆme si l’utilisa-
e e e ` e
tion des concepts exige une ´tape de d´sambigu¨
e e ısation des termes qui les dńotent
e
dans le texte. En effet, les connaissances pr´sentes dans la ressource externe peuvent
e
ˆtres utiles tant pour la d´sambigu¨
e e ısation que pour la repr´sentation du contenu
e
s´mantique des textes.
e

Voyons maintenant les travaux les plus repr´sentatifs qui utilisent des ressources
e
externes, principalement WordNet, pour repr´senter le contenu s´mantique des textes.
e e

2.3.2 Indexation conceptuelle/s´mantique
e
Dans la litt´rature, l’indexation conceptuelle (ou l’indexation s´mantique) a ´t´
e e ee
pr´senté comme une solution pour pallier les d´fauts de l’indexation classique basé
e e e e
sur des mots simples. Diff´rentes m´thodes ont ´t´ proposés. Nous pouvons les
e e ee e
r´partir en deux cat´gories qui ne sont pas totalement disjointes :
e e

- Celles qui utilisent seulement les connaissances pr´sentes dans le corpus [80][86][106] ;
e
- Celles qui utilisent les connaissances externes au corpus [64][71][83][88][89][97][98],
utilisent WordNet [60] ; et [45][46][99] utilisent le dictionnaire LDOCE9 [67].

Dans la suite, nous pr´sentons seulement les m´thodes les plus repr´sentatives
e e e
qui utilisent les connaissances externes pour la d´sambigu¨
e ısation [4][58][95]. Nous
pr´sentons ´galement deux approches qui ´tudient l’impact de la d´sambigu¨
e e e e ısation
sur les performances de la RI [32][77].
9
The Longman Dictionary of Contemporary English.

23

Utilisation de WordNet pour la d´sambigu¨
e ısation des sens de mots

Voorhees a exploit´ les connaissances codés dans WordNet pour am´liorer les
e e e
effets que les synonymes et les homographes ont sur les SRI bas´s sur les mots. Au
e
lieu d’utiliser les mots eux-mˆmes, elle a utilis´ les concepts que ces mots dńotent.
e e e
Dans cette direction, elle a essay´ de voir si les synsets de WordNet peuvent ˆtre
e e
utilis´s comme des concepts dans un SRI ` usage non limit´ ` un domaine particu-
e a ea
lier. Ainsi, elle a propos´ une technique pour d´sambigu¨ les mots utilis´s lors du
e e ıser e
processus d’indexation automatique. La technique consiste ` s´lectionner un concept
a e
pour chaque mot ambigu apparaissant dans les textes des documents et des requˆtes.
e
Pour ce faire, l’auteur utilise la base WordNet. Ainsi, l’approche proposé consiste
e
` s´lectionner un synset de WordNet comme un concept dńot´ par un mot. Dans
a e e e
WordNet, les synsets sont li´s par diff´rentes relations. Voorhees utilise l’ensemble
e e
10
des synsets correspondants aux noms ainsi que les relations suivantes : antonymie,
hyperonymie/hyponymie (is-a) et m´ronymie/holonomie (part-of ).
e

La technique de d´sambigu¨
e ısation utilisé dans ce travail est basé sur l’idé qu’un
e e e
ensemble de mots, apparaissant ensemble dans un contexte, d´termine la significa-
e
tion approprié pour un autre mot, en d´pit du fait que chaque mot pr´sent dans
e e e
texte pris individuellement est ambigu (comme montr´ plus haut dans l’exemple des
e
mots dont l’ensemble dńote le baseball ). Pour d´sambigu¨ un mot m, une tech-
e e ıser
nique a ´t´ proposé pour classer les synsets auxquels m appartient. Le classement
ee e
est effectu´ en se basant sur la valeur de cooccurrence calculé entre le contexte du
e e
mot en question et un voisinage contenant les mots du synset dans la hi´rarchie de
e
WordNet (Voorhees l’a appel´ hood ).
e

Pour d´finir le voisinage d’un synset s donn´, Voorhees consid`re l’ensemble des
e e e
synsets et les relations d’Hyponymie dans WordNet comme un ensemble de sommets
et d’arcs dirig´s d’un graphe. Par la suite, le voisinage de s est le plus large sous-
e
graphe connexe qui contient s et seulement les descendants d’un ancˆtre de s, et qui
e
ne contient aucun synset ayant un descendant qui inclut une autre instance d’un
membre (mot) de s. Le synset le mieux class´ est s´lectionn´ comme ´tant le sens
e e e e
du mot m dans le texte. Il est possible qu’un mot ne corresponde ` aucun synset de
a
WordNet. Dans ce cas, aucun synset n’est s´lectionn´.
e e
10
Dans WordNet, il y a quatre cat´gories : les noms, les verbes, les adjectifs et les adverbes.
e

24

Apr`s l’´tape de d´sambigu¨
e e e ısation, vient l’´tape d’indexation qui prend en compte
e
le sens des mots. Voorhees a utilis´ le mod`le vectoriel ´tendu introduit par Fox [29].
e e e
Dans ce mod`le, chaque vecteur est compos´ d’un ensemble de sous-vecteurs de
e e
diff´rents types de concept (appel´s ctypes)11 . Ainsi, un vecteur peut contenir trois
e e
ctypes : les lemmes des mots qui n’apparaissent pas dans WordNet ou qui ne sont
pas des noms, les identificateurs des synsets des noms d´sambigu¨ es, et les lemmes
e ıs´
des noms d´sambigu¨ es.
e ıs´

Dans le mod`le vectoriel ´tendu, la similitude entre un document et une requˆte
e e e
est calculé comme suit :
e

sim(D, Q) = αi simi (Di , Qi ) (2.1)
ctypei

`
Avec simi , la fonction de similarit´ pour le ctypei, Di et Qi sont les iemes sous-
e
vecteurs des vecteurs D et Q, et αi , un nombre rél qui refl`te l’importance du ctypei
e e
relativement aux autres ctypes.

Pour ´valuer son approche, Voorhees a men´ des exp´rimentations sur les col-
e e e
lections CACM [75], CISI, Cranfield 1400, MED, et TIME [41]. Elle a compar´ son e
approche avec une approche basé seulement sur les lemmes de tous les mots du texte.
e
Plusieurs tests ont ´t´ effectu´s en faisant diff´rentes combinaisons avec les ctypes
ee e e
et la valeur de α. Les r´sultats de ces exp´rimentations ont montr´ paradoxalement
e e e
que les performances du SRI diminuent sensiblement dans le cas de l’utilisation des
collections d´sambigu¨ ees.
e ıs´

Voorhees a pu constater que les requˆtes courtes sont difficiles ` d´sambigu¨
e a e ıser
et que ceci est la cause majeure de la d´gradation des performances de recherche.
e
Par cons´quent, elle a ´valu´ son approche en d´sambigu¨
e e e e ısant seulement les mots
dans les documents. En effet, au lieu de s´lectionner un seul sens pour un mot m
e
11
Ce mod`le permet la manipulation d’autres types de concepts que ceux qui sont repr´sent´s
e e e
par les descripteurs du document : les citations, les cocitations, les donnés bibliographiques, etc.
e
Ainsi, chaque sous-vecteur repr´sente un aspect diff´rent des documents de la collection.
e e

25

ambigu appartenant ` la requˆte, elle a ajout´ tous les identificateurs des synsets
a e e
de m au vecteur de la requˆte. Les r´sultats de cette approche ont montr´ que les
e e e
performances du SRI diminuent sensiblement dans la plupart des collections utilisés.
e

Dans ce travail, la qualit´ de la d´sambigu¨
e e ısation n’a pas ´t´ mesuré empi-
ee e
riquement. Une ´valuation subjective a ´t´ effectué par l’auteur qui conclut que
e ee e
l’´tiquetage avec les sens tel qu’il est rális´ n’est pas exact, ce qui est la cause la
e e e
plus probable de la d´gradation des performances. L’auteur mentionne ´galement une
e e
grande difficult´ ` d´sambigu¨ les mots dans des requˆtes courtes. Enfin, elle pense
ea e ıser e
que les relations is-a qui d´finissent une hi´rarchie gń´ralisation/spćialisation ne
e e e e e
sont pas suffisantes pour s´lectionner correctement le sens exact d’un mot ` partir
e a
des sens pr´sents dans WordNet.
e

Combinaison de donnés lexicales et s´mantiques pour la repr´sentation
e e e
des textes

Pour construire une repr´sentation s´mantique de texte, Mihalcea et Moldovan
e e
ajoutent des informations lexicales et s´mantiques aux documents et aux requˆtes
e e
durant une phase de pr´traitement dans laquelle le texte des requˆtes et des docu-
e e
ments est d´sambigu¨ e. Le processus de d´sambigu¨
e ıs´ e ısation se base sur l’information
contextuelle, et sur l’identification des sens des mots ` partir de WordNet. Un nou-
a
veau mot est d´sambigu¨ e en tenant compte de sa relation avec les mots du corpus
e ıs´
qui sont d´j` d´sambigu¨ es. Ce processus it´ratif leur permet d’identifier dans le
ea e ıs´ e
corpus d’origine les mots qui peuvent ˆtre d´sambigu¨ es avec une grande prćision.
e e ıs´ e

e ısation complet12 et peu prćis, ils
Au lieu d’utiliser un algorithme de d´sambigu¨ e
ont opt´ pour un algorithme semi-complet qui d´sambigu¨ environ 55% des noms
e e ıse
et des verbes mais avec un taux de prćision de 92%. La sortie du d´sambigu¨
e e ıseur
est un texte dont les mots ont la forme suivante : Pos|Stem|POS |Offset.

O` : Pos est la position du mot dans le texte ; Stem est le lemme du mot ; POS
u
est la cat´gorie grammaticale du mot, et Offset est l’identifiant du synset de Word-
e
Net dans lequel ce mot apparaˆ Au cas o` aucun sens ne serait attribu´ par le
ıt. u e
d´sambigu¨
e ıseur, ou si le mot ne se trouve pas dans WordNet, le dernier champ reste
12
Qui d´sambigu¨ TOUT le texte.
e ıse

26

vide. Apr`s l’ajout de ces ´tiquettes lexicales et s´mantiques, les documents sont
e e e
index´s. L’index est cr´´ en combinant les mots simples (recherche basé mots), et
e ee e
les ´tiquettes s´mantiques (recherche basé sens).
e e e

Au moment de l’interrogation, chaque requˆte est d´sambigu¨ ee, ensuite elle
e e ıs´
est adapté ` un format spćifique qui incorpore l’information s´mantique, comme
e a e e
trouvé dans l’index, et utilise les op´rateurs AND et OR.
e e

Leur syst`me a ´t´ test´ sur la collection Cranfield. Celle-ci contient 1400 docu-
e ee e
ments du domaine de l’a´rodynamique. Parmi les 225 requˆtes de cette collection,
e e
les auteurs en ont choisi alátoirement 50 et ont construit pour chacune d’entre elles
e
trois types de requˆtes :
e

1) Une requˆte contenant seulement les mots s´lectionn´s a partir de la requˆte
e e e ` e
initiale lemmatisé ;
e
2) Une requˆte contenant les mots cl´s de la requˆte initiale et les synsets qui lui
e e e
sont associ´s ;
e
3) Une requˆte contenant les mots cl´s de la requˆte initiale, les synsets qui leur
e e e
sont associ´s, et les synsets des hyperonymes des mots cl´s.
e e

Nous reprenons ici l’exemple pr´sent´ par les auteurs. Soit la requˆte suivante :
e e e

“Has anyone investigated the effect of surface mass transfer on hypersonic vis-
cous interactions ?”

Apr`s l’´tiquetage lexical et s´mantique, la requˆte se pr´sente comme suite :
e e e e e

Has anyone investigated |VB|535831 the effect|NN|7766144
of surface|NN|3447223 mass|NN|3923435 transfer |NN|132095
on hypersonic|JJ viscous|JJ interactions|NN|7840572|

Les auteurs rapportent que la s´lection des mots-cl´s (les 55%) ` d´sambigu¨
e e a e ıser
(par l’algorithme semi-complet) n’est pas simple, et qu’ils utilisent pour cela huit
heuristiques [61]. Pour chaque requˆte, les trois types de requˆtes prćités sont
e e e e

27

formés en utilisant les op´rateurs booléns AND et OR. Ainsi, pour la requˆte de
e e e e
type 2 par exemple, les auteurs obtiennent :

(effect OR 7766144|NN) AND (surface OR 3447223|NN)
AND (mass OR 3923435|NN) AND (transfer OR 132095|NN)
AND (interaction OR 7840572|NN).

Suite ` leurs exp´rimentations, les auteurs ont pu constater que la combinaison
a e
des mots-cl´s avec les synsets am´liore les performances du syst`me de RI par rapport
e e e
` la recherche basé seulement sur les mots (+16% de rappel et +4% de prćision).
a e e
Nous pensons que ce r´sultat est dˆ au fait que la base WordNet ne couvre pas la
e u
totalit´ du vocabulaire de la collection utilisé. Donc, une combinaison des synsets
e e
avec les mots peut garantir une couverture de tout le vocabulaire en question. Ce
r´sultat est en accord avec d’autres r´sultats positifs obtenus par des chercheurs qui
e e
ont fait une indexation combiné de la sorte [4].
e

En utilisant les hyperonymes, les auteurs ont constat´ une am´lioration de 28%
e e
du rappel mais une baisse de 9% de la prćision. Il est probable que l’augmenta-
e
tion du rappel est dˆ au fait que l’expansion a permis de retrouver des documents
u
pertinents mais qui ne partagent pas exactement les mˆmes termes avec la requˆte.
e e
En revanche, la d´gradation de la prćision pourrait ˆtre expliqué par le fait que
e e e e
l’expansion a ´t´ faite d’une mani`re imprudente, ce qui ajoute parfois des concepts
ee e
` la requˆte qui ne sont pas en rapport avec son th`me. Par cons´quent, le contenu
a e e e
de la requˆte ´tendu devient bruit´ par rapport au contenu original, et les documents
e e e
r´ponses ne sont pas forc´ment pertinents pour la requˆte originale. Nous verrons
e e e
dans la suite des solutions possibles ` ce probl`me d’expansion imprudente [4][68].
a e

Le mod`le DocCore
e

Baziz consid`re que le th`me d´velopp´ dans un document (requˆte) est dćrit
e e e e e e
par un ensemble de concepts. Ainsi, au lieu de repr´senter les documents (requˆtes)
e e
par une liste de mots cl´s, il propose de les repr´senter par des concepts. Pour ce
e e
faire, il utilise une ressource externe pour extraire, ` partir d’un texte, les termes qui
a
font r´f´rences aux concepts dćrits dans ce texte. Une ´tape de d´sambigu¨
ee e e e ısation a

28

´t´ proposé afin d’associer chaque terme ` un seul concept de la ressource externe
ee e a
utilisé.
e

Baziz construit pour chaque document de la collection ce qu’il appelle un R´seau
e
S´mantique de Document. Le mod`le de repr´sentation qu’il propose, DocCore, est
e e e
bas´ sur un processus automatis´ faisant appel ` une ressource externe pour identifier
e e a
les concepts du document et calculer les liens de proximit´ entre eux. Les arcs entre
e
les nœuds du r´seau s´mantique sont pond´r´s en fonction de la proximit´ s´mantique
e e ee e e
que peuvent avoir les deux nœuds correspondants. Le processus de d´sambigu¨
e ısation
propos´ s’accomplit en trois ´tapes :
e e

1) Extraction des concepts candidats : l’objectif de cette ´tape est d’ex-
e
traire tous les termes du document susceptibles de repr´senter des concepts de la
e
13
ressource externe. Ces termes sont extraits en projetant le texte sur la ressource
externe. De ce fait, pour un texte donn´, seuls les mots ou groupes de mots recon-
e
nus comme des entrés dans la ressource externe sont conserv´s. De cette fa¸on, les
e e c
termes repr´sentant les concepts candidats sont extraits. Concernant la combinaison
e
des mots, le terme le plus long qui dńote un concept est retenu. Une fois ces termes
e
extraits du document, un poids leur est affect´ pour d´terminer leur importance dans
e e
ce document. Pour cela, Baziz a propos´ une variante du TF.IDF qui tient compte
e
de la longueur du terme (en nombre de mots). Cette variante est appelé CF.IDF et
e
est calculé de la mani`re suivante :
e e

Length(ST )
cf (T ) = count(T ) + .count(ST ) (2.2)
Length(T )
ST ∈sub terms(T )

o` T est un terme compos´ de n mots, Length(T) repr´sente le nombre de mots
u e e
dans T et sub terms(T) le nombre de tous les sous-termes (qui doivent dńoter `
e a
leur tour des concepts de la ressource externe) d´riv´s de T : sous-termes de n-1
e e
mots, sous-termes de n-2, ... et tous les mots simple de T.

13
Faire un appariement entre le texte et les entrés de la ressource externe.
e

29

Une fois les termes14 importants extraits du document, ils sont utilis´s pour
e
construire le r´seau s´mantique de ce document. Comme chaque terme extrait peut
e e
avoir plusieurs sens, des mesures de similarit´ entre les diff´rents sens des termes sont
e e
calculés en vue de s´lectionner, pour chaque terme, le meilleur sens correspondant
e e
dans la ressource externe.

2) Calcul de similarit´ entre concepts candidats : la mesure de similarit´
e e
entre deux nœuds repr´sente une valeur condensé r´sultant de la comparaison de
e e e
deux sens possibles pour deux termes (donc deux concepts candidats) en utilisant la
distance entre les positions des deux concepts candidats dans la ressource externe,
ou encore les relations s´mantiques de celle-ci. Pour ce faire, Baziz emploie quatre
e
mesures de proximit´ s´mantique connues dans la litt´rature utilisant des structures
e e e
de r´seaux s´mantiques ou hi´rarchiques (Lch [22], Lin [50], Lesk [81] et Resnik [70]).
e e e

3) Construction du r´seau s´mantique : la derni`re ´tape de l’approche
e e e e
concerne la construction du “meilleur” r´seau s´mantique qui repr´sente au mieux
e e e
le contenu du document. Pour chaque terme du document, un score C score est
calcul´ pour chacun des concepts candidats qu’il dńote. Le score d’un concept can-
e e
didat est obtenu en sommant les valeurs de similarit´ qu’il a avec les autres concepts
e
candidats (correspondant aux diff´rents sens des autres termes du document). Cela
e
permet, selon l’auteur, de d´sambigu¨ les termes compte tenu du contexte du do-
e ıser
cument. Les concepts candidats ayant les plus grands scores sont alors s´lectionn´s
e e
pour repr´senter les nœuds du “meilleur” r´seau s´mantique. Les liens (arcs) entre
e e e
ces diff´rents nœuds sont ´tiquet´s alors par les valeurs de similarit´ s´mantique
e e e e e
d´j` calculés dans la phase 2. Enfin, les r´seaux s´mantiques des documents sont
ea e e e
construits pour chacune des quatre mesures (Lch, Lin, Lesk et Rensik ). Lors de l’in-
dexation, les descripteurs des documents ` indexer sont alors les nœuds des r´seaux
a e
s´mantiques.
e

L’auteur ne prćise pas comment il proc`de pour construire les r´seaux s´mantiqu-
e e e e
es des requˆtes. D’apr`s l’exemple pr´sent´, l’auteur ne fait pas de d´sambigu¨
e e e e e ısation
des termes de la requˆte, mais d´tecte seulement le(s) concept(s) dńot´s par les
e e e e
termes les plus longs ` partir de la requˆte en utilisant WordNet.
a e
14
Dńotant les concepts candidats.
e

30

Etant donn´ que les requˆtes sont courtes, il nous semble difficile de construire
e e
un r´seau s´mantique pour chacune d’entre elles. Voorhees, dans sa m´thode de
e e e
d´sambigu¨
e ısation, tient compte du contexte d’un mot pour le d´sambigu¨
e ıser [95].
Elle a d´j` soulev´ le probl`me de la d´sambigu¨
ea e e e ısation des requˆtes courtes. Elle a
e
constat´ qu’il est difficile de d´sambigu¨ les mots des requˆtes courtes, ainsi elle a
e e ıser e
propos´ de d´sambigu¨ seulement les documents.
e e ıser

Baziz a ´valu´ son approche en utilisant une collection issue du projet Much-
e e
More15 [7]. Cette collection contient 7823 documents qui traitent du domaine m´dical
e
et qui contiennent des r´sum´s d’articles extraits de SpringerLink. La collection
e e
contient ´galement 25 topics ` partir desquels les requˆtes sont extraites. L’auteur a
e a e
utilis´ WordNet en consid´rant ses synsets comme des concepts.
e e

Pour les requˆtes, seule la d´tection des termes et leur pond´ration avec CF.IDF
e e e
sont appliqués du fait de leur taille relativement r´duite.
e e

Impact de l’indexation conceptuelle : Seuls les concepts (nœuds) des r´seaux
e
s´mantiques construits sont utilis´s pour indexer les documents. Ces concepts sont
e e
pond´r´s en utilisant la variante CF.IDF. Les r´sultats ont montr´ que cette m´thode
ee e e e
ne permet pas d’am´liorer les r´sultats par rapport la m´thode classique basé sur
e e e e
les mots cl´s. L’auteur justifie ce r´sultat par le fait que WordNet ne couvre pas
e e
tout le vocabulaire utilis´ dans la collection (le taux de couverture repr´sente 87%
e e
du vocabulaire des documents et 77% du vocabulaire utilis´ dans les requˆtes). Par
e e
cons´quent, et afin de couvrir la totalit´ des documents/requˆtes lors de l’indexation,
e e e
Baziz a fait une indexation combiné utilisant les mots cl´s et les concepts. De ce fait,
e e
les concepts des r´seaux s´mantiques pond´r´s avec CF.IDF sont ajout´s aux mots
e e ee e
qui sont r´sultants de l’indexation classique. De cette mani`re, les performances du
e e
syst`me en prćision ont ´t´ am´liorés de 26%.
e e ee e e

Impact de la pond´ration avec les C scores : Baziz a ´galement essay´ d’´valuer
e e e e
l’impact de la pond´ration sur les performances de recherche. Ainsi, au lieu d’utiliser
e
le CF.IDF, il a utilis´ les C scores correspondant aux quatre mesures de similarit´
e e
15
http ://muchmore.dfki.de (visit´ le 15-12-2006).
e

31

s´mantique utilisés. Les documents et les requˆtes sont, dans ce cas, repr´sent´s ` la
e e e e e a
fois par des concepts et des mots cl´s. Lors de l’indexation, si le concept est dńot´ par
e e e
un multi-mots, il est pond´r´ par le C score, sinon il est pond´r´ par le TF.IDF. Les
ee ee
r´sultats ont montr´ que cette m´thode peut am´liorer les performances de recherche.
e e e e

Tout comme Gonzalo [32], Baziz a propos´ une expansion de document en utili-
e
sant les synsets de WordNet. Ainsi, chaque concept du r´seau s´mantique est ´tendu
e e e
par ses synonymes (les termes appartenant au mˆme synset de WordNet que lui).
e
Dans ce cas, deux pond´rations diff´rentes ont ´t´ testés :
e e ee e

1) Les poids des concepts d’origine et de ceux qui sont issus de l’extension sont
calcul´s de la mˆme mani`re : les r´sultats restent globalement meilleurs compar´s
e e e e e
` l’indexation.
a

2) Les synonymes ajout´s ont un poids inf´rieur (multipli´ par 0.5) ` ceux des
e e e a
concepts d’origine : les r´sultats sont meilleurs compar´s ` l’indexation classique, ce
e e a
qui est est en accord avec Voorhees [96] o` un facteur α entre 0 et 1 est utilis´ pour
u e
pond´rer les mots ajout´s (il est report´ que la valeur optimale pour α est 0.5). Ceci
e e e
paraˆ valable aussi pour l’expansion de document [95].
ıt

Baziz a pu conclure que les poids utilisant les mesures de similarit´ donnent
e
des prćisions meilleures que celles obtenues avec CF.IDF. Il a ´galement conclu
e e
que, dans sa m´thode de d´sambigu¨
e e ısation, le choix de la mesure de similarit´ a
e
un impact sur la prćision de la s´lection des concepts ad´quats. En particulier, la
e e e
meilleure mesure, d’apr`s ses r´sultats, est celle de Resnik, suivie par les mesures de
e e
Lin, Lch et Lesk.

Discussion

La plupart des travaux rapport´s ici ne permettent pas une am´lioration signi-
e e
ficative des performances des SRI. Un des facteurs qui influencent les performances
est sans doute la qualit´ de la ressource externe utilisé, et surtout sa couverture
e e
par rapport au vocabulaire du corpus. Dans son exp´rience, Baziz a rapport´ que
e e
WordNet ne couvre pas tout le vocabulaire utilis´ dans la collection (le taux de cou-
e
verture repr´sente 87% du vocabulaire des documents et 77% du vocabulaire utilis´
e e

32

dans les requˆtes) [4]. Par cons´quent, et afin de couvrir la totalit´ du vocabulaire
e e e
des documents/requˆtes, Baziz a fait une indexation combiné utilisant les mots-cl´s
e e e
et les concepts. C’est le seul moyen qui lui a permis d’avoir des r´sultats significatifs.
e
Ces r´sultats sont confirm´s par Mihalcea et Moldovan, et Sch¨ tze et Pederson qui
e e u
ont constat´ qu’une indexation par concepts combiné avec une indexation par mots-
e e
cl´s est plus performante qu’une indexation basé seulement sur les concepts [58][80].
e e

Le deuxi`me facteur duquel d´pendent les performances est la qualit´ (prćision)
e e e e
du d´sambigu¨
e ıseur. Afin de mesurer l’impact de la d´sambigu¨
e ısation sur les perfor-
mances de recherche, il faut ´valuer le d´sambigu¨
e e ıseur utilis´ en termes de prćision.
e e
Nous pr´sentons donc dans la suite, les travaux les plus repr´sentatifs qui se rap-
e e
portent ` ce champ de recherche. Ceci nous permettra de comprendre davantage les
a
raisons d’ćhecs des approches basés sur la d´sambigu¨
e e e ısation des termes.

2.3.3 Evaluation de la d´sambigu¨
e ısation
L’impact de la d´sambigu¨
e ısation des termes sur les performances des SRIs a fait
l’objet de plusieurs travaux de recherche. En voici deux parmi les plus repr´sentatifs.
e

Usage d’une simulation d’ambigu¨ e ` base de pseudo-mots
ıt´ a

Sanderson simule l’ambigu¨ e dans une collection de test en utilisant des pseudo-
ıt´
mots [104]. Un pseudo-mot de taille n a n sens diff´rents. Afin d’´viter de crér une
e e e
ambigu¨ e au niveau des pseudo-mots eux-mˆmes, un mot ne peut ˆtre membre que
ıt´ e e
d’un seul pseudo-mot [77][78].

Dans ses exp´rimentations Sanderson a utilis´ la collection de cat´gorisation
e e e
de texte Reuters (cr´é par Hayes [35] et modifié par Lewis [49]). La principale
ee e
diff´rence entre la collection Reuters et les collections de test de RI est que Reuters
e
ne dispose pas d’ensemble de requˆtes avec les documents pertinents correspondants.
e
Nánmoins, les documents de Reuters sont balis´s par des codes de sujets assign´s
e e e
manuellement. Sanderson se sert de ces codes pour utiliser Reuters comme une col-
lection de test. Ainsi, il divise alátoirement la totalit´ des documents de Reuters
e e
en deux ensembles ´gaux : Q (l’ensemble des requˆtes) et T (l’ensemble des tests).
e e
Ensuite, l’ensemble S est d´fini comme l’ensemble de tous les codes de sujets qui ont
e

33

´t´ assign´s ` au moins un document dans Q et un document de T. Par cons´quent,
ee e a e
une recherche peut ˆtre effectué en s´lectionnant un des codes de sujets de S.
e e e

Par exemple, pour effectuer une recherche pour le code C, Sanderson s´lectionne
e
tous les documents dans Q qui sont ´tiquet´s par C. Ensuite, il effectue une rínjection
e e e
de pertinence (relevance feedback ) en utilisant les documents s´lectionn´s auparavant
e e
pour avoir comme r´sultat le code C, plus des mots des documents s´lectionn´s. Le
e e e
r´sultat produit constitue une requˆte. De cette mani`re, Sanderson a la possibilit´
e e e e
de varier la taille de la requˆte en jouant sur le nombre de mots s´lectionn´s. La
e e e
requˆte est utilisé pour effectuer une recherche sur les documents de l’ensemble T.
e e
Les documents qui sont ´tiquet´s par C sont consid´r´s pertinents pour cette requˆte.
e e ee e
La liste des documents retrouv´s est examiné pour voir ` quel rang apparaissent
e e a
les documents ´tiquet´s par C. En fonction de ce rang, des courbes rappel/prćision
e e e
sont gń´rés.
e ee

Sanderson compare les performances du SRI en effectuant d’abord des exp´riences
e
sur la collection initiale, ensuite des exp´riences sur la mˆme collection en y intro-
e e
duisant de l’ambigu¨ e ` l’aide des pseudo-mots. Ensuite, il ´tudie l’impact de la
ıt´ a e
d´sambigu¨
e ısation des pseudo-mots, avec un d´sambigu¨
e ıseur fonctionnant ` diff´rents
a e
taux de prćision, sur les performances de la RI.
e

Suite ` ses exp´rimentations, Sanderson a pu conclure que quand le d´sambigu¨
a e e ıseur
fonctionne ` un taux d’erreurs de 25%, les performances du SRI sont plus mauvaises
a
que celles qui sont obtenues en utilisant la collection ambigu¨. Avec un taux d’erreurs
e
de 10%, les performances du syst`me sont similaires ` celles qui sont obtenues sur
e a
la collection ambigu¨. Il conclut que la d´sambigu¨
e e ısation peut ˆtre bń´fique ` la RI
e e e a
quand les requˆtes sont courtes (un ou deux mots) et si le d´sambigu¨
e e ıseur ne fait
pas beaucoup d’erreurs (moins de 10%). Ceci confirme la conclusion de Krovetz et
Croft [47] selon qui, l’ambigu¨ e des mots a des effets mineurs sur la prćision de la
ıt´ e
recherche.

Le fait que l’ambigu¨ e des mots pose probl`mes au SRI seulement quand les
ıt´ e
requˆtes sont courtes confirme vraisemblablement que les strat´gies de recouvrement
e e
(matching) entre la requˆte et le document effectuent d´j` une d´sambigu¨
e ea e ısation im-
plicite.

34

Nous pensons que la d´sambigu¨
e ısation partielle est une faiblesse des exp´riences
e
de Sanderson. Par exemple, sa d´sambigu¨
e ısation du mot spring/bank donne le mot
“bank ” ; or ce dernier mot peut ˆtre employ´ dans plus qu’un sens dans le texte de
e e
la collection.

Evaluation de l’impact d’un d´sambigu¨
e ıseur bas´ sur WordNet
e

Gonzalo et ses coll`gues proposent d’´tudier le bń´fice d’une recherche ` par-
e e e e a
tir d’une collection de documents compl`tement d´sambigu¨ ee [32]. Pour ce faire,
e e ıs´
ils ont transform´ une partie du corpus SEMCOR en une collection de test de RI.
e
SEMCOR, un sous-ensemble du corpus Brown, est d´sambigu¨ e manuellement avec
e ıs´
des synsets de WordNet. La collection ainsi construite permet d’´valuer un SRI
e
ind´pendamment des outils de d´sambigu¨
e e ısation. Elle permet ´galement d’´valuer
e e
l’impact de la d´sambigu¨
e ısation des termes sur les performances des SRI et ce en in-
troduisant volontairement des erreurs de d´sambigu¨
e ısation (` diff´rents taux). Ainsi,
a e
les auteurs peuvent d´terminer jusqu’` quel taux d’erreurs le SRI donne de meilleurs
e a
r´sultats.
e

Pour construire la collection test, les auteurs ont pris un ensemble de documents
textuels de SEMCOR. A partir de chaque document, ils ont extrait des fragments de
texte. Chaque fragment contient une portion coh´rente de texte. En tout, 117 frag-
e
ments constituent leur collection test avec en moyenne 1331 mots par fragment. Pour
chaque fragment, un r´sum´ dćrivant le contenu th´matique a ´t´ ćrit manuelle-
e e e e eee
ment. Afin de d´sambigu¨
e ıser les termes des r´sum´s, les auteurs les ont ´tiquet´s
e e e e
manuellement par des synsets de WordNet. Plus prćis´ment, les auteurs utilisent
e e
les num´ros de sens dans WordNet pour ´tiqueter un terme. Chaque ´tiquette est
e e e
composé de la cat´gorie grammaticale (Part Of Speech ou POS), suivie du fichier
e e
de WordNet auquel appartient le terme, suivie du num´ro du sens dans ce fichier.
e
Ainsi, le terme “debate” du fichier 10 de WordNet ayant le sens 1 sera ´tiquet´ par
e e
“debate%1 :10 :1 : :”. Dans ce cas, le sens des termes est consid´r´, mais les termes
ee
synonymes ne sont pas encore identifi´s. Pour ce faire, les auteurs substituent chaque
e
sens par l’identifiant du synset qui lui est associ´. Ainsi, “debate%1 :10 :1 : :” sera
e
substitu´ par l’identifiant du synset “argument, debate” (a discussion in which rea-
e
sons are advanced for and against some proposition or proposal ; “the argument over

35

foreign aid gœs on and on”).

Les r´sum´s ont chacun une taille moyenne de 22 mots. Ils deviennent les requˆtes
e e e
pour la collection. Par cons´quent, pour chaque requˆte, il y a exactement une seule
e e
r´ponse pertinente (le fragment pour lequel le r´sum´ a ´t´ ćrit).
e e e eee

Dans leur ´tude exp´rimentale, les auteurs ont utilis´ le syst`me SMART [74]
e e e e
avec trois espaces d’indexation diff´rents : les mots initiaux des documents, les mots-
e
sens (word-senses) correspondant aux termes des documents (c’est ` dire, la version
a
des documents d´sambigu¨ es manuellement), et les synsets de WordNet correspon-
e ıs´
dant aux termes des documents. En se basant sur ces trois espaces d’indexation, les
auteurs ont men´ 6 exp´riences :
e e

1. Les documents et les requˆtes sont repr´sent´s par des mots simples ;
e e e
2. Les documents et les requˆtes sont repr´sent´s par ce que les auteurs appellent
e e e
les mots-sens (ex. debate et argument seront substitu´s respectivement par
e
“debate%1 :10 :1 : :” et “argument%1 :10 :3 : :)” ;
3. Les documents et les requˆtes sont repr´sent´s par les synsets de WordNet. En
e e e
d’autres termes, les mots-sens ´quivalents seront repr´sent´s par un seul synset
e e e
(ex. “debate%1 :10 :1 : :” et “argument%1 :10 :3 : :)” seront repr´sent´s par
e e
l’identifiant n04616654 du synset correspondant) ;
4. Diff´rentes versions de la collection sont produites en introduisant volontairement
e
des erreurs de d´sambigu¨
e ısation ` diff´rents taux : 5%,10%,20%,30% et 60% ;
a e
5. Pour compl´ter l’exp´rience prć´dente, une version de la collection a ´t´ produite
e e e e ee
en utilisant tous les sens possibles (dans leurs versions mot-sens et synset) pour
chaque terme. Ceci repr´sente une limite pour la d´sambigu¨
e e ısation automa-
tique : on ne doit pas d´sambigu¨ si la performance est plus mauvaise que si
e ıser
l’on consid`re tous les sens possibles ;
e
6. Enfin, les auteurs ont produit une version non-d´sambigu¨ ee pour les requˆtes
e ıs´ e
(avec les deux variantes mots-sens et synsets).

Les r´sultats ainsi obtenus (cf. tableau 2.1) repr´sentent la prćision pour les
e e e
documents retourn´s en premi`re position. Ils montrent que les meilleurs r´sultats
e e e

36

Tab. 2.1 – Pourcentage des documents corrects retrouv´s en premi`re position [32]
e e
Exp´rimentation
e % de documents correct re-
trouv´s en premi`re position
e e
Indexation (Id.) avec les synsets 62.0
Id. avec les mots-sens 53.2
Id. avec les mots simples 48.0
Id. avec les synsets avec 5% de 62.0
taux d’erreurs
Id. avec 10% de taux d’erreurs 60.8
Id. avec tous les synsets possibles 52.6
(pas de d´sambigu¨
e ısation)
Id. avec les synsets avec des 48.5
requˆtes non d´sambigu¨ ees
e e ıs´
Id. avec les mots-Sens avec des 40.9
requˆtes non d´sambigu¨ ees
e e ıs´

sont obtenus avec l’indexation par synsets o` 62% des documents pertinents ont ´t´
u ee
retrouv´s en premi`re position. Ceci repr´sente une am´lioration de 29% par rapport
e e e e
au r´sultat obtenu avec l’indexation par des mots simples qui est de 48%.
e

De son cˆt´, l’indexation par mots-sens a permis de retourner 53.2% de docu-
oe
ments pertinent en premi`re position, am´liorant ainsi les performances de 11% (par
e e
rapport aux mots simples).

Les r´sultats obtenus avec les synsets sont meilleurs que ceux obtenus avec les
e
mots-sens. Ceci peut ˆtre expliqu´ par le fait que la repr´sentation par synset est
e e e
plus riche vu qu’un synset contient les synonymes d’un mot-sens.

Mˆme avec une indexation par les synsets et sans d´sambigu¨
e e ısation manuelle
(chaque terme est repr´sent´ par tous les synsets possibles qui correspondent ` ses
e e a
diﬀ´rents sens), les r´sultats (52.6%) sont sup´rieurs ` ceux qui sont obtenus par
e e e a
la repr´sentation par mots simples (48%). Avec une m´thode aussi simpliste, une
e e
interpr´tation possible de ce r´sultat est que la prise en compte des synonymes, qui
e e
sont regroup´s dans un synset, a un impact positif dans cette situation de recherche.
e

37

En analysant l’impact de la d´sambigu¨
e ısation sur les performances du SRI, Gon-
zalo et al. ont pu conclure que, dans le cas de l’indexation par des synsets, moins de
10% d’erreurs de d´sambigu¨
e ısation n’affecte pas sensiblement les performances. Et
` partir de 10% d’erreurs, les performances commencent ` se d´grader. Ces conclu-
a a e
sions sont en accord avec celles de Sanderson [77]. Nánmoins, l’indexation par des
e
synsets donne de meilleurs r´sultats que ceux de l’indexation par mots simples et
e
ce jusqu’` un taux d’erreurs de 30%. De 30% ` 60%, les r´sultats ne montrent pas
a a e
des diff´rences significatives entre l’indexation par synsets et l’indexation par mots
e
simples. Cette conclusion n’est pas en accord avec celle de Sanderson [77] qui pr´tend
e
qu’il vaut mieux d´sambigu¨ avec au moins une prćision de 90% pour avoir des
e ıser e
bonnes performances. Selon Gonzalo et al., la principale diff´rence entre leur travail
e
et celui de Sanderson [77] est le langage d’indexation utilis´. Tandis que Gonzalo
e
et al. utilisent des synsets qui regroupent les synonymes des mots-sens, Sanderson
utilise des pseudo-mots ambigus cr´´s artificiellement (tels que “bank /spring”). Il
ee
n’est pas garanti que ces pseudo-mots se comportent comme de vrais mots ambi-
gus. D’ailleurs, par d´sambigu¨
e ısation, Sanderson veut dire s´lectionner - ` partir de
e a
l’exemple - bank ou spring qui restent eux-mˆmes des mots ambigus.
e

Discussion

Comme not´ par plusieurs chercheurs ([77], [47]), la principale difficult´ pour
e e
am´liorer les performances de recherche est due ` l’inefficacit´ des d´sambigu¨
e a e e ıseurs
utilis´s. En effet, il est judicieux de penser qu’en utilisant un d´sambigu¨
e e ıseur par-
fait (ayant une prćision de 100%), les performances de recherche seront au moins
e
´gales ` celles d’une indexation basé sur les mots-cl´s. Les ´tudes menés jusqu’`
e a e e e e a
pr´sent ont montr´ que, pour am´liorer les performances de recherche, l’indexation
e e e
ne doit pas ˆtre seulement basé sur les concepts mais ´galement sur les mots, et ce
e e e
en grande partie ` cause des erreurs provoqués par les d´sambigu¨
a e e ıseurs.

Nous pouvons constater, ` partir des travaux existants, que la prise en compte du
a
contenu s´mantique des documents (requˆtes) passe seulement par leur repr´sentation
e e e
par des concepts au lieu de simples mots. En effet, les documents (requˆtes) dans
e
ce cas sont consid´r´s comme des sacs de concepts, et les relations s´mantiques qui
ee e
peuvent exister entre ces concepts ne sont pas exploités. C’est pourquoi les docu-
e

38

ments traitant du mˆme th`me que celui de la requˆte ne pourront pas ˆtre retrouv´s
e e e e e
avec ces approches s’ils ne partagent pas les mˆmes concepts avec cette requˆte. Pour
e e
r´soudre ce probl`me, certains travaux ont propos´ d’utiliser des ressources externes
e e e
pour enrichir la repr´sentation du contenu des requˆtes. Ces travaux sont bas´s sur
e e e
l’expansion de requˆtes et visent ` avoir une repr´sentation ´tendue du contenu de
e a e e
la requˆte afin d’augmenter les chances de sa correspondance avec les documents qui
e
lui sont pertinents. Dans la section suivante, nous pr´sentons les travaux les plus
e
repr´sentatifs qui traitent cet aspect.
e

2.4 Usage des ressources externes pour l’expan-
sion des requˆtes
e
Les techniques d’expansion de requˆtes sont apparues depuis plus de 30 ans [76].
e
En proc´dant par une expansion de requˆtes, on peut augmenter le rappel et/ou la
e e
prćision de recherche. Les techniques d’expansion de requˆtes peuvent ˆtre r´parties
e e e e
en deux cat´gories :
e

- Expansion basé sur les connaissances pr´sentes dans le corpus : cette technique uti-
e e
lise des donnés statistiques extraites de la collection ´tudié (ex. co-occurrences
e e e
de termes [65], th´saurus de similarit´ [68], etc.). Elle peut ˆtre ´galement basé
e e e e e
sur l’injection de pertinence [14][33][84][102]. L’´tape de d´sambigu¨
e e ısation des
mots n’est pas indispensable pour que cette technique fonctionne. Cette ap-
proche n’a pas rencontr´ beaucoup de succ`s ; ainsi, Peat a pu conclure que les
e e
requˆtes ´tendues avec cette m´thode ne sont pas meilleures que les requˆtes
e e e e
d’origine, et que des requˆtes ´tendues avec des mots choisis alátoirement
e e e
donnent des r´sultats parfois meilleurs [65]. Mais avec la disponibilit´ des res-
e e
sources externes, la m´thode suivante a vu le jour ;
e

- Expansion basé sur les ressources externes : [5][7][59][96] utilisent WordNet pour
e
ajouter des termes qui sont s´mantiquement li´s ` ceux pr´sents dans la requˆte
e e a e e
initiale. Cette technique demande une d´sambigu¨
e ısation des mots de la requˆte
e
initiale. Elle peut ˆtre utile si la d´sambigu¨
e e ısation s’av`re performante, notam-
e
ment dans le cas des requˆtes courtes qui sont difficiles ` d´sambigu¨ et qui
e a e ıser

39

exigent donc une expansion [47][78].

Ces deux techniques peuvent ˆtre combinés [11][62]. Par exemple, Bodner et
e e
Song utilisent deux sources de connaissances diff´rentes. La premi`re refl`te les
e e e
connaissances spćifiques au domaine dćrit ` travers la collection utilisé. Il s’agit
e e a e
d’une base de connaissances construite automatiquement en utilisant une m´thodee
statistique. La deuxi`me contient des connaissances universelles et est utilisé pour
e e
compl´ter les lacunes de la premi`re base. Il s’agit d’une adaptation manuelle de
e e
WordNet [11].

2.4.1 Expansion de requˆtes basé sur les relations lexico-
e e
s´mantiques de WordNet
e
Voorhees examine l’utilit´ de l’expansion de requˆte par l’utilisation des rela-
e e
tions lexicales-s´mantiques dans une grande collection contenant plusieurs domaines.
e
Elle utilise la collection TREC [34] o` chaque requˆte contient un ensemble de
u e
champs identifi´s par des balises spćiales. Le champ Narrative fournit une des-
e e
cription d´taillé de ce que constitue un document pertinent ; le champ Concepts
e e
contient des mots et des expressions qui sont li´s au th`me de la requˆte. Le champ
e e e
Description contient une courte description de chaque requˆte gń´ralement sous la
e e e
forme d’une simple phrase ; le champ Topic contient un r´sum´ de la requˆte ; le
e e e
dernier champ d´signe le domaine auquel appartient la requˆte (cf. figure 2.2).
e e

Elle ajoute un nouveau champ ` la requˆte : une liste de synsets de WordNet,
a e
s´lectionn´s ` la main, contenant des mots en rapport avec le sujet de la requˆte
e e a e
(Topic). Le but est de s´lectionner, pour une requˆte particuli`re, les synsets qui ac-
e e e
centuent les concepts importants du sujet. Le choix des synsets a ´t´ fait par l’auteur
ee
en se basant sur sa propre compr´hension de la requˆte enti`re et sur le fait que les
e e e
synsets s´lectionn´s seront utilis´s pour l’expansion.
e e e

Par exemple, concernant la requˆte 122, le synset drug a plusieurs descendants
e
dans WordNet ` travers la hi´rarchie is-a (pharmaceutical, stimulants, intoxicants,
a e
sedatives, etc.) mais qui ne sont pas tous reli´s au concept “cancer fighting”. Dans
e
ce cas, Voorhees ajoute seulement le synset qui est en relation avec les concepts de
la requˆte, c.-`-d. le synset pharmaceutical . La liste compl`te des synsets ajout´s `
e a e e a

40

Fig. 2.2 – Enonc´ de la requˆte 122 de la collection TREC-1
e e

la requˆte 122 est : cancer , skin cancer , and pharmaceutical .
e

Rien n’a ´t´ ajout´ aux requˆtes dont les concepts n’ont pas des synsets corres-
ee e e
pondants dans WordNet.

Une fois les requˆtes ´tendues par des synsets, le reste du processus est auto-
e e
matique. Les champs de la requˆte originale sont d’abord index´s par le syst`me
e e e
SMART [13]. Le processus d’expansion est lanc´ quand le champ de synsets est at-
e
teint.

Pour un synset donn´, il y a un large choix de mots ` ajouter a un vecteur de
e a `
requˆte : on peut ajouter au choix seulement les synonymes pr´sents dans le synset,
e e
ou bien tous les descendants pr´sents dans la hi´rarchie is-a, ou bien tous les syno-
e e
nymes pr´sents dans les synsets qui ont un lien quelconque avec le synset original,
e
etc. Le processus d’expansion est param´tr´ pour faciliter la comparaison de l’eﬃ-
e e
cacit´ d’une vari´t´ de ces sch´mas. Tous les synonymes pr´sents dans les synsets
e ee e e
ajout´s ` la requˆte sont utilis´s lors du processus d’expansion.
e a e e

Voorhees utilise le mod`le vectoriel ´tendu pr´sent´ par Fox [29]. Chaque vecteur
e e e e
de requˆte est compos´ de sous-vecteurs correspondant ` diﬀ´rents types de concepts
e e a e
(appel´s ctypes) o` ctype correspond ` une relation lexicale. Un vecteur de requˆte
e u a e

41

a potentiellement onze ctypes comme par exemple : un pour les mots originaux de
la requˆte, un pour les synonymes, un pour chaque type de relation pr´sent dans la
e e
cat´gorie des noms de WordNet, etc.
e

Lors des exp´rimentations, l’efficacit´ du syst`me a ´t´ ´valué en fonction des
e e e eee e
types de relations utilis´s pendant l’expansion et le poids relatif donn´ ` chaque type
e ea
de relation (les αi dans la fonction de similarit´). Quatre types d’expansion ont ´t´
e ee
effectu´s :
e

1. Seulement par les synonymes ;
2. Par synonymes plus tous les descendants dans la hi´rarchie is-a ;
e
3. Par synonymes plus les parents plus tous les descendants dans la hi´rarchie
e
is-a ;
4. Par synonymes plus tous les synsets li´s directement au synset donn´. La va-
e e
leur de α du sous-vecteur des mots originaux est plus ´lev´ que celles des α des
e e
autres sous-vecteurs.

Les r´sultats ont clairement montr´ qu’aucune des strat´gies d’expansion n’am´liore
e e e e
de mani`re significative les performances de recherche comparés aux requˆtes non
e e e
´
´tendues. Etant donn´ que l’expansion de requˆte telle qu’elle est utilisé ici est
e e e e
une m´thode qui sert ` am´liorer le rappel, il n’est pas ´tonnant que les requˆtes
e a e e e
longues bń´ficient moins du processus d’expansion que les requˆtes courtes. Voo-
e e e
rhees a mentionn´ que certaines requˆtes courtes ont pu bń´ficier du processus
e e e e
d’expansion. Supposant que les requˆtes courtes ont le potentiel d’ˆtre sensiblement
e e
am´lioré par l’expansion, Voorhees a essay´ de voir si ce potentiel peut ˆtre r´v´l´
e e e e e ee
par un proc´d´ compl`tement automatique. Ainsi, elle a propos´ un algorithme d’ex-
e e e e
pansion automatique. De nouveau, les r´sultats n’ont pas ´t´ satisfaisants.
e ee

Voorhees signale que les requˆtes longues sont tr`s sensibles ` l’expansion et
e e a
provoquent des r´sultats n´gatifs. En effet, si l’expansion n’est pas contrˆlé, elle
e e oe
devient “agressive” et produit un bruit dans la requˆte. Dans cette direction, Qiu
e
et Frei [68] ont r´v´l´ comment une expansion peut ˆtre utile quand la requˆte est
e ee e e
´tendue en choisissant soigneusement les mots ` ajouter. Contrairement aux autres
e a
m´thodes, leurs requˆtes sont ´tendues en ajoutant les mots qui sont similaires au
e e e

42

concept de la requˆte 16 , plutˆt que de choisir les mots qui sont similaires aux mots
e o
de la requˆte. Ils proposent un mod`le d’expansion de requˆtes bas´ sur un th´saurus
e e e e e
de similarit´ construit automatiquement. Ce th´saurus refl`te la connaissance du
e e e
domaine dćrit dans la collection de documents ` partir de laquelle il est construit.
e a
Il est repr´sent´ par une matrice contenant des similarit´s mot-mot. Le principe de
e e e
leur m´thode peut ˆtre compar´ ` la traduction d’un texte d’une langue naturelle
e e ea
vers une autre : la consultation des dictionnaires pour un mot ne donne pas souvent
la r´ponse finale. Au contraire, le traducteur qui connaˆ la signification du texte
e ıt
doit choisir le mot appropri´ ` partir d’une liste enti`re de traductions possibles.
e a e
Les exp´rimentations qu’ils ont menés sur les collections MED, CACM et NPL
e e
ont donn´ de bons r´sultats. Les performances ont ´t´ am´liorés respectivement
e e ee e e
de 18.31%, 22.85% et de 29.21%. Dans cette mˆme idé d’´tendre les requˆtes d’une
e e e e
mani`re “contrˆlé”, Baziz prend en compte le contexte de toute la requˆte et suppose
e oe e
que mˆme si chaque mot dans une requˆte est individuellement ambigu, l’ensemble
e e
des mots de cette requˆte pris ensemble contribue ` exprimer une mˆme idé (sens)
e a e e
[4][6].

2.4.2 Utilisation de WordNet pour une expansion “guidé”
e
de requˆtes
e
La d´marche d’expansion de requˆte suivie par Baziz consiste d’abord ` d´tecter
e e a e
les termes de la requˆte qui renvoient ` des concepts d’une ressource externe, puis,
e a
de les ´tendre par des termes repr´sentant d’autres concepts proches de ceux de la
e e
requˆte. Ces termes sont identifi´s grˆce aux liens s´mantiques entre concepts qu’offre
e e a e
l’ontologie. Baziz rapporte que la d´sambigu¨
e ısation s’effectue en mˆme temps que
e
l’expansion, en prenant en compte le contexte de la requˆte et en cherchant ` iden-
e a
tifier les concepts correspondant aux plus longs termes que l’on peut former ` partir
a
des mots de la requˆte [4][6].
e

Baziz a ´tudi´ trois points importants lors du processus d’expansion de requˆte :
e e e

i) L’apport de chaque type de relation s´mantique ;
e
ii) L’impact de la pond´ration des termes ajout´s ;
e e
16
Qui veut dire la requˆte enti`re (selon la propre terminologie des auteurs).
e e

43

iii) La quantit´ de termes ` ajouter.
e a

En ´tudiant l’usage de diff´rents types de relations s´mantiques pour l’expansion
e e e
de requˆte, Baziz a propos´ les trois m´thodes suivantes :
e e e

1) L’expansion aveugle : chaque terme de la requˆte est ´tendu en utilisant les
e e
diff´rentes relations s´mantiques. Le r´sultat de cette expansion est un ensemble de
e e e
concepts candidats (nœuds possibles) reli´s au terme. Une expansion aveugle consiste
e
alors ` ajouter ` la requˆte initiale tous les concepts possibles pour toutes les rela-
a a e
tions.

Une autre mani`re de proc´der est de faire une s´lection des concepts qui sont li´s
e e e e
aux termes de la requˆte initiale. Ainsi, Baziz a propos´ une technique qui permet de
e e
s´lectionner le “meilleur” concept ` ajouter au moment de l’expansion. En se basant
e a
sur cette technique, il a propos´ deux m´thodes d’expansion :
e e

2) L’expansion mod´ré : ajouter pour chaque terme de la requˆte, le meilleur
e e e
(un seul donc) concept par type de relation. Dans ce cas, le nombre de concepts
ajout´s est ´gal au nombre de termes dans la requˆte. Cette approche traduit l’hy-
e e e
poth`se que l’utilisateur utilise diff´rents termes pour faire allusion ` plusieurs concepts
e e a
diff´rents dans sa requˆte.
e e

3) L’expansion prudente : ajouter pour toute la requˆte, le meilleur (un seul
e
donc) concept (pour chaque type de relation). Cette approche traduit l’hypoth`se
e
que mˆme si les termes de la requˆte peuvent dćrire individuellement des concepts
e e e
diff´rents, ensemble ils contribuent ` dńoter un seul concept (idé). Cette idé a
e a e e e
´t´ d´veloppé par Qiu et Frei qui repr´sentent le contenu de la requˆte par un seul
ee e e e e
concept qu’ils app`llent “concept virtuel” [68]. Cependant Qiu et Frei ne consid`rent
e e
pas diff´rents types de relations vu qu’ils utilisent un th´saurus de similarit´ mot-mot.
e e e

Ces trois m´thodes d’expansion ont ´t´ ´valués pour mesurer leurs impacts sur
e eee e
les performances de recherche. Ainsi, Baziz a utilis´ la collection CLEF-2001. Il a
e
´galement utilis´ WordNet pour la d´sambigu¨
e e e ısation et l’utilisation des relations
s´mantiques. Les r´sultats pr´sent´s montrent que les trois m´thodes d’expansion
e e e e e

44

am´liorent les performances de recherche. Les meilleurs r´sultats ont ´t´ obtenus
e e ee
avec l’expansion prudente (+55%). Ceci confirme la conclusion tiré par Qiu et Frei,
e
` savoir qu’une expansion peut ˆtre utile si la requˆte est ´tendue en choisissant
a e e e
soigneusement les mots ` ajouter [68].
a

Baziz a ´galement ´tudi´ l’impact de la pond´ration des termes ajout´s ` la
e e e e e a
requˆte. Les r´sultats obtenus montrent qu’une pond´ration uniforme (´gale ` 1) des
e e e e a
termes d’origine et des termes ajout´s d´grade les performances de recherche de plus
e e
de 80%. Baziz a ´galement remarqu´ que les performances s’am´liorent sensiblement
e e e
d`s qu’il affecte aux termes ajout´s un poids inf´rieur ` celui des termes d’origine.
e e e a
Par exemple, en affectant le poids 0.9 aux termes ajout´s, les performances ont aug-
e
ment´ de plus de 60%. Tout comme Voorhees [94], Baziz a remarqu´ l’existence d’un
e e
poids optimal ` utiliser pour les termes ajout´s (0.5) ce qui a permis d’am´liorer les
a e e
performances de 78%. Voorhees a trouv´ la mˆme valeur (0.5) mais il ne s’agit pas
e e
du poids des termes ajout´s mais plutˆt d’un nombre rél qui refl`te l’importance de
e o e e
termes ajout´s relativement aux termes d’origine.
e

Finalement Baziz a ´tudi´ l’impact du type de relation utilisé lors de l’expan-
e e e
sion sur les performances de recherche. Ainsi, il a pu conclure que l’apport de la
relation d’holonymie, est le moins important, puis vient celui de sa relation inverse,
la m´ronymie. La relation d’hyponymie qui exprime la spćialisation a un meilleur
e e
apport mais vient derri`re sa relation inverse l’hyperonymie. Cette derni`re a re-
e e
tourn´ un r´sultat sup´rieur ` celui de la synonymie.
e e e a

L’effet de plusieurs expansions successives d’une requˆte s’est r´v´l´ n´gatif sur la
e e ee e
prćision du syst`me. En ´tudiant le nombre de termes ` ajouter ` une requˆte lors
e e e a a e
de l’expansion, Baziz a conclu que le nombre de termes, ` retenir dans le processus
a
d’expansion, doit ˆtre limit´ pour ne pas engendrer un bruit trop important.
e e

2.4.3 Discussion
Nous avons montr´ que l’expansion de requˆte peut ˆtre un moyen efficace pour
e e e
avoir une repr´sentation riche du contenu de la requˆte, et am´liorer ainsi la per-
e e e
formance du syst`me. Le point cl´ de la rússite de cette m´thode r´side dans le
e e e e e
choix “prudent” des concepts ` ajouter ` la requˆte initiale. En effet, une expansion
a a e

45

“aveugle” ne fait que d´grader les r´sultats en ajoutant du bruit ` la description
e e a
de la requˆte. Malgr´ l’apport des approches existantes, une limite persiste encore.
e e
En effet, mˆme apr`s l’expansion, la requˆte est toujours consid´ré comme un sac
e e e ee
de concepts. Ceci ne favorise pas la r´solution d’une requˆte prćise qui dispose
e e e
d’une structure s´mantique complexe, et demande ainsi un traitement spćifique
e e
pour mettre en exergue tous les aspects li´s ` son contenu s´mantique. Nous sommes
e a e
convaincus que la prise en compte des dimensions de domaine est une solution pos-
sible pour satisfaire des requˆtes prćises. C’est pourquoi nous ´tudions, dans la
e e e
section suivante, les travaux les plus repr´sentatifs qui s’int´ressent ` la notion de
e e a
dimensions et qui sont proches de notre probl´matique.
e

2.5 Dimensions & RI
A notre connaissance, les travaux qui s’int´ressent ` la notion de dimensions sont
e a
li´s principalement aux d´veloppements d’outils de navigation dans des bases de
e e
documents. Ces outils sont bas´s sur le paradigme de la recherche dite “basé sur
e e
les facettes” (faceted search) [36][54][66][82][105] ou “basé sur les vues” (view-based
e
search) [52][53]. Dans la litt´rature, les termes “facette”, “vue”, et “dimension” sont
e
utilisés pour d´signer la mˆme chose. La recherche basé sur les facettes est un
e e e e
paradigme qui a ´t´ propos´ ` la fin des annés 1920, et qui retrouve un regain
ee e a e
d’int´rˆt (durant la conf´rence SIGIR 2006, il a ´t´ organis´ un atelier17 sur ce
ee e ee e
th`me). Dans la suite, nous dćrivons ce paradigme et nous examinons quelques
e e
travaux qui s’inscrivent dans ce champ de recherche.

2.5.1 Le paradigme de la recherche basé sur les facettes
e
La recherche multi-facettes est un paradigme bas´ sur la classification ` facettes
e a
qui a ´t´ ´laboré par le math´maticien et bibliothćaire S. R. Ranganathan. Celui-ci
e ee e e e
a propos´ ce paradigme comme r´ponse au probl`me suivant : “Comment ranger les
e e e
livres dans une biblioth`que quand on sait qu’il y en a des grands et des petits, des
e
livres d’histoire et des romans, des auteurs qui ont ćrit les deux et des collections
e
reliés qui traitent de tout et que l’on doit y ajouter les dossiers correspondant aux
e
diff´rents sujets ?”
e

17
SIGIR’2006 Workshop on Faceted Search : http ://facetedsearch.googlepages.com/

46

D’un point de vue ´diteur, l’idé derri`re le paradigme de recherche multi-facettes
e e e
est qu’un document, pour ˆtre class´, poss`de gń´ralement diff´rentes caract´ristiques
e e e e e e e
(facettes), chacune peut ˆtre dćrite par une hi´rarchie de concepts diff´rente [72].
e e e e
De cette mani`re, les r´sultats de recherche (les documents) peuvent ˆtre organis´s `
e e e e a
travers des facettes (gń´ralement) orthogonales. Par exemple, dans une biblioth`que
e e e
num´rique, les r´sultats peuvent ˆtre group´s par auteur, anné de publication, th`me,
e e e e e e
etc.

D’un point de vue utilisateur, l’idé est de permettre ` l’usager, ` travers une
e a a
interface graphique, d’avoir plusieurs points d’entré pour explorer une base de do-
e
cuments. Dans ce cas, les facettes offrent diff´rentes hi´rarchies (gń´ralement or-
e e e e
thogonales) que l’utilisateur peut utiliser pour naviguer dans une base. Les facettes
peuvent ainsi ˆtre vues comme une mani`re de cat´goriser le contenu d’une base
e e e
de documents pour permettre des interactions utilisateur intuitives. Les hi´rarchies
e
dćrivant les facettes offrent ` l’usager une vue d’ensemble sur le contenu de la
e a
collection, et un moyen pour le guider ` formuler son besoin et la requˆte correspon-
a e
dante. Elles sont donc utilisables pour la navigation, la recherche, et l’organisation
des r´ponses [53][105].
e

Gń´ralement ce paradigme marche bien dans le cas o` les documents sont an-
e e u
not´s (de pr´f´rence manuellement), la collection est statique et relativement de
e ee
petite taille, et son contenu est homog`ne [42].
e

Bien que d’une mani`re gń´rale la structure d’une facette soit hi´rarchique, il
e e e e
peut y avoir des facettes dont la structure est plate. Dans ce cas, la facette est
repr´senté par un ensemble18 de termes sans aucune structure entre eux [21]. Le
e e
contenu des facettes peut correspondre ` des propri´t´s th´matiques ou ` des pro-
a ee e a
pri´t´s m´ta-donnés19 des documents [40].
ee e e
18
Gń´ralement de taille r´duite
e e e
19
Langue, type du document, date de crátion, etc.
e

47

2.5.2 Outils bas´s sur le paradigme de recherche multi-facettes
e
Le syst`me du musé de l’Universit´ d’Helsinki
e e e

Les auteurs utilisent le paradigme de recherche multi-facettes pour d´velopper
e
une interface graphique pour la navigation dans une base de photos. Celles-ci sont
extraites ` partir de la base du musé de l’Universit´ d’Helsinki. Elles contiennent
a e e
des personnes, des ´vńements, des lieux, des objets physiques, etc. Les auteurs pro-
e e
posent d’utiliser une ontologie pour l’annotation des photos et le d´veloppement de
e
l’interface. L’ontologie est construite manuellement et son contenu est extrait ` par-
a
tir de celui des photos. Elle est constitué d’un ensemble de cat´gories hi´rarchiques
e e e
qui correspondent ` des facettes. L’annotation des photos est ´galement effectué
a e e
manuellement en utilisant les instances des concepts de l’ontologie.

Fig. 2.3 – Interface d’acc`s multi-vues [38][39]
e

A travers l’interface, l’utilisateur peut naviguer dans les facettes de l’ontologie
pour : i ) formuler son besoin d’information au cas o` il ne connaˆ pas le contenu de
u ıt
la base ; et ii ) formuler la requˆte correspondante.
e

L’ontologie est ´galement utilisé par le syst`me pour “fabriquer” des r´ponses
e e e e
plus significatives en proposant ` l’utilisateur, non seulement l’image qu’il cherche,
a

48

mais aussi les images dont le contenu est proche.

Dans la figure 2.3, nous pr´sentons une copie d’ćran de l’interface d´veloppé
e e e e
par Hyv¨nen et ses coll`gues. Du cˆt´ gauche de l’ćran, l’utilisateur peut choisir
o e oe e
les facettes ontologiques (ontological view ) selon lesquelles il veut explorer la base.
Ceci s’effectue en choisissant des entrés depuis le menu d´roulant add more views.
e e
Ces facettes ontologiques sont celles qui ont ´t´ employés pour annoter manuelle-
ee e
ment les photos. Elles indiquent ` l’utilisateur les termes pertinents li´s aux photos.
a e
L’utilisateur peut focaliser son besoin d’information en naviguant dans ces facettes.
En choisissant des entrés des facettes ontologiques, un filtrage de la base se fait,
e
et les photos correspondantes apparaissent sur la partie droite de l’interface. Dans
la figure 2.3, le choix est Personne=GarlandBinder et Place=Building. Une photo
annoté par ces deux termes est ainsi affiché20 . Le syst`me recommande ´galement
e e e e
d’autres photos en se basant sur leurs annotations et les d´finitions ontologiques. A
e
titre d’exemple, le syst`me peut recommander des photos o` le mˆme GarlandBinder
e u e
figure mais pas dans un bˆtiment, ou encore des photos prises dans un bˆtiment mais
a a
dćrivant d’autres personnes.
e

La difficult´ principale mentionné par les auteurs est l’effort suppl´mentaire
e e e
nćessaire pour la crátion de l’ontologie et les annotations d´taillés des photos. Ils
e e e e
ne pr´sentent aucune ´valuation, ni au niveau des performances de recherche ni au
e e
niveau de l’utilisabilit´ de leur interface.
e

Le syst`me Flamenco
e

Le syst`me Flamenco21 propose une interface (cf. figure 2.4) qui permet ` la fois
e a
la recherche par mot-cl´s et la navigation dans une base d’images selon plusieurs
e
facettes [36][105]. La base d’images g´rés par le syst`me est annoté manuellement
ee e e
par des descriptions textuelles. Chaque image est associé manuellement ` une ou
e a
plusieurs facettes qui sont elles-mˆmes fabriqués manuellement. Le syst`me permet
e e e
d’afficher ces facettes (hi´rarchiques ou plates) en proposant des liens hypertextes
e
sur lesquels l’utilisateur peut cliquer pour faire une recherche. Chaque fois que l’uti-
lisateur clique sur un lien, un ensemble d’images est propos´ par le syst`me. Lors de
e e
20
Le choix de la photo ` afficher en premier en cas o` plusieurs photos sont annotés par les
a u e
mˆmes termes n’a pas ´t´ ´voqu´ par les auteurs.
e eee e
21
http ://flamenco.berkeley.edu/

49

la recherche par mots-cl´s, la notion de multi-facettes n’est pas prise en compte, et
e
le syst`me affiche tout simplement les images qui sont annotés par ces mots22 .
e e

Fig. 2.4 – Interface multi-facettes du syst`me Flamenco
e

2.5.3 Fabrication des dimensions/facettes
La plupart des travaux existants construisent les facettes manuellement. Une
premi`re m´thode consiste ` diviser une ressource existante (ontologie, th´saurus,
e e a e
etc.) en diff´rentes hi´rarchies, chacune correspond ` une facette. Cette m´thode a
e e a e
22
Le choix de l’ordre dans lequel les images doivent ˆtre affichés n’est pas discut´ par les auteurs.
e e e

50

´t´ adopté par Aussenac-Gilles et Mothe qui ont divis´ manuellement une onto-
ee e e
logie de domaine en diff´rentes hi´rarchies dans le but de d´velopper une interface
e e e
d’acc`s multi-facettes [1]. Une autre m´thode consiste a fabriquer individuellement
e e `
les facettes. Dans ce cas, elles peuvent ˆtre structurés s´par´ment ou dans une seule
e e e e
ontologie [39][52].

En ce qui concerne la construction automatique de facettes, le peu de travaux
qui s’int´ressent ` cet aspect n’ont pas encore conduit ` des r´sultats aboutis mais
e a a e
proposent seulement quelques idés [101][26][87].
e

Dakka et ses coll`gues ont propos´ un algorithme qui permet d’enrichir automa-
e e
tiquement des facettes existantes [26]. Ils utilisent des techniques de classification
supervisé pour classer des nouveaux termes dans des facettes existantes. Pour ce
e
faire, ils utilisent une base d’images annotés manuellement. A chaque image est as-
e
soci´ un ensemble de mots-cl´s, chacun appartenant ` une des facettes. Pour enrichir
e e a
une facette F, les auteurs utilisent WordNet pour extraire les synonymes des mots
utilis´s pour annoter les images appartenant ` F. Ces synonymes seront ajout´s au
e a e
vocabulaire de F. Les auteurs utilisent la structure de WordNet pour organiser le vo-
cabulaire de chaque facette “enrichie” autour d’une hi´rarchie. Pour cela, ils utilisent
e
des heuristiques pour extraire automatiquement des relations (gń´rique/spćifique,
e e e
et ´quivalent) entre les mots du vocabulaire de F.
e

La limite de cette m´thode est que l’algorithme utilis´ est supervis´, par cons´que-
e e e e
nt, les facettes doivent ˆtre connues ` l’avance, et aucune nouvelle facette ne peut
e a
ˆtre dćouverte. Une idé int´ressante serait de dćouvrir automatiquement des nou-
e e e e e
velles facettes, ce qui pourrait passer par trois ´tapes : i ) dćouvrir automatique-
e e
ment, et d’une mani`re non supervisé, ` partir d’une base textuelle, un ensemble de
e e a
termes candidats pour le vocabulaire d’une facette ; ii ) regrouper automatiquement
les termes qui appartiennent ` la mˆme facette ; iii ) construire la structure de chaque
a e
facette.

Pour franchir la premi`re ´tape, Dakka et ses coll`gues ont propos´ un algorithme
e e e e
qui se base sur des connaissances externes [101]. L’idé est que les termes utilis´s
e e
dans les documents sont spćifiques et ne dćrivent gń´ralement pas la facette. Par
e e e e
exemple, dans un article de presse, un journaliste va mentionner “Jacques Chirac”

51

sans dire qu’il s’agit d’un “homme politique” ou qu’il est originaire de “l’Europe”
ou mˆme de “France”. Ainsi, pour dćouvrir des termes gń´riques qui dćrivent
e e e e e
les facettes, les auteurs utilisent des ressources externes23 pour ´tendre le contenu
e
des documents. L’idé de base est d’interroger ces ressources et de voir quels termes
e
co-occurrent souvent avec les termes de la base. L’hypoth`se est que les termes qui
e
dćrivent les facettes sont des termes rares dans la base de documents mais qui co-
e
occurrent fr´quemment dans les ressources externes avec les termes de la base. Le
e
contenu de chaque document est alors ´tendu en utilisant certains termes de la res-
e
source externe, et ces documents ´tendus sont par la suite utilis´s pour extraire les
e e
facettes. Finalement, les auteurs font l’hypoth`se que les termes candidats doivent
e
ˆtre peu fr´quents dans les documents originaux, mais fr´quents dans les documents
e e e
´tendus. Ce travail est en cours d’´laboration, et les auteurs ne pr´sentent aucune
e e e
´valuation exp´rimentale.
e e

Pour franchir la deuxi`me et la troisi`me ´tape, Stoica et Hearst proposent de
e e e
dćouper WordNet en facettes en utilisant la relation d’hyperonymie (is-a) [87].
e
L’algorithme propos´ suppose que chaque document de la collection est annot´ par
e e
une description textuelle. Celle-ci est utilisé pour fabriquer les hi´rarchies des fa-
e e
cettes. Le processus consiste ` s´lectionner un ensemble de termes (selon certains
a e
crit`res statistiques simples) ` partir des descriptions textuelles. L’ensemble des
e a
termes s´lectionn´s forme un “noyau d’arbre” (tree core). Ce dernier est enrichi par
e e
des termes extraits de WordNet. Ces termes appartiennent aux chemins d’hyperony-
mie qui existent entre les termes du noyau d’arbre dans WordNet. L’´tape suivante
e
consiste ` r´duire la taille du noyau d’arbre enrichi. Pour ce faire, les auteurs utilisent
a e
des crit`res simples comme un concept p`re qui a moins de x fils est ´limin´. Fina-
e e e e
lement, ils suppriment les nœuds tr`s gń´riques de sorte ` produire les hi´rarchies
e e e a e
d´sirés. Quelques exp´riences ont ´t´ effectués afin d’´valuer l’algorithme propos´.
e e e ee e e e
Comme l’algorithme est destin´ ` ˆtre utilis´ par des architectes d’informations (in-
eae e
formation architects), son ´valuation a ´t´ effectué par des utilisateurs de ce type.
e ee e
85% des 34 participants ont souhait´ utiliser l’outil dans leur travail.
e
23
Comme WordNet ou Wikipedia.

52

2.5.4 Discussion
La recherche multi-facettes est un paradigme prometteur pour la r´solution des
e
requˆtes prćises. Toutefois, les approches basés sur ce paradigme ne peuvent fonc-
e e e
tionner que dans un cadre limit´. En effet, les documents doivent ˆtre annot´s de
e e e
pr´f´rence manuellement. Ceci impose donc une limite sur la collection qui doit ˆtre
ee e
statique et relativement de petite taille, et dont le contenu doit ˆtre homog`ne.
e e

Vu que la recherche se fait par navigation, une grande taille de la hi´rarchie de
e
concepts peut repr´senter une surcharge cognitive ` laquelle l’utilisateur doit faire
e a
face pour choisir les entrés qui l’int´ressent. Dans ce sens, il y a quelques tentatives
e e
pour afficher dynamiquement les hi´rarchies de concepts ` l’utilisateur, mais il n’y
e a
a pas encore de r´sultats aboutis [90]. A notre avis, ceci restera un probl`me d´licat
e e e
dans le sens o` les requˆtes prćises contiennent une terminologie tr`s spćifique qui
u e e e e
demande une navigation profonde dans la hi´rarchie de concepts.
e

La complexit´ de la structure s´mantique des requˆtes prćises repr´sente une
e e e e e
autre difficult´ que les interfaces multi-facettes n’arrivent pas ` surmonter. En ef-
e a
fet, ce type de requˆtes peut contenir des op´rateurs, et/ou mettre en relation
e e
des concepts qu’elles contiennent. Ceci demande un traitement spćifique pour in-
e
terpr´ter la s´mantique v´hiculé par la structure de la requˆte.
e e e e e

Les travaux bas´s sur le paradigme de recherche multi-facettes supposent que les
e
facettes existent, et que les documents leurs sont associ´s manuellement. A notre
e
connaissance, le seul travail qui associe automatiquement des documents ` des fa-
a
cettes est celui de Aussenac-Gilles et Mothe [1].

Tel qu’il est utilis´, le paradigme de recherche multi-facettes repr´sente une
e e
mani`re de structurer une collection de documents sous forme de “bases de donnés”
e e
o` les facettes correspondent ` des attributs. Ainsi, pendant la navigation, l’usa-
u a
ger choisit les attributs qui l’int´ressent et le syst`me lui fournit leurs valeurs. Les
e e
syst`mes existants n’ont pas ´t´ test´s en termes de performance de recherche. A
e ee e
notre connaissance, la seule ´valuation a ´t´ effectué par Yee et ses coll`gues qui
e ee e e
ont fait une ´tude d’utilisabilit´ d’une interface multi-facettes sur une base d’images
e e
[105]. Leurs r´sultats ont montr´ que les utilisateurs pr´f`rent utiliser ce type d’in-
e e ee

53

terface aux interfaces d’interrogation basés sur les mots-cl´s.
e e

2.6 Conclusion
Nous nous sommes int´ress´s aux travaux qui utilisent les ressources externes
e e
pour prendre en compte la s´mantique v´hiculé par les documents et les requˆtes.
e e e e
Ainsi, nous avons pu identifier une classe d’approches qui repr´sentent les documents
e
(requˆtes) par des concepts au lieu des mots-cl´s. Ces approches nćessitent un pro-
e e e
cessus de d´sambigu¨
e ısation afin d’associer des concepts aux termes pr´sents dans les
e
documents (requˆtes). Les r´sultats obtenus jusqu’` pr´sent ont montr´ les limites
e e a e e
de ces approches par rapport ` celles basés sur les mots-cl´s. Un premier facteur
a e e
qui influe sur les performances d’un SRI bas´ sur les concepts est la prćision du
e e
d´sambigu¨
e ıseur utilis´. Pour cette raison, nous avons examin´ les travaux les plus
e e
repr´sentatifs qui s’int´ressent ` l’´valuation des d´sambigu¨
e e a e e ıseurs dans le cadre de
la RI. Une telle ´valuation permet de savoir avec prćision l’impact de la prćision
e e e
du d´sambigu¨
e ıseur sur les performances de recherche. De cette fa¸on, la plupart des
c
travaux ont pu conclure que l’ambigu¨ e n’a pas un effet dramatique sur les perfor-
ıt´
mances de recherche. Au cas o` un d´sambigu¨
u e ıseur est utilis´, il faut qu’il soit tr`s
e e
prćis (≥90%) pour qu’on puisse avoir des bons r´sultats.
e e

Un deuxi`me facteur dont d´pend les performances de recherche est le degr´ de
e e e
couverture de la ressource externe utilisé par rapport au vocabulaire du corpus. A ce
e
sujet, les rares travaux qui ont obtenu des r´sultats positifs, sont ceux qui combinent
e
l’indexation conceptuelle avec l’indexation ` base de mots-cl´s.
a e

Le troisi`me facteur dont d´pend les performances de recherche est la m´thode
e e e
utilisé pour “interpr´ter” le contenu s´mantique du document et du besoin d’infor-
e e e
mation. Dans les approches existantes, une fois les concepts extraits, les documents
(requˆtes) sont consid´r´(e)s comme des sacs de concepts. Par cons´quent, les rela-
e ee e
tions s´mantiques qui peuvent exister entre les diff´rents concepts qu’ils contiennent
e e
ne sont pas exploités. C’est pourquoi des documents qui ne partagent pas les mˆmes
e e
concepts avec une requˆte ne pourront pas ˆtre retrouv´s avec ces approches mˆme
e e e e
s’ils sont pertinents pour cette requˆte. L’expansion de requˆtes repr´sente une so-
e e e
lution possible ` ce probl`me. Plusieurs travaux se sont int´ress´s ` cet aspect, mais
a e e e a

54

rares sont ceux qui ont eu des r´sultats positifs. Face ` ces ćhecs, des chercheurs ont
e a e
propos´ d’´tendre les requˆtes d’une mani`re “prudente”. Dans cette direction Baziz
e e e e
a obtenu des r´sultats positifs. Baziz s’est ´galement int´ress´ ` la repr´sentation des
e e e ea e
documents par des r´seaux s´mantiques qui mettent en relation les concepts du mˆme
e e e
document. Cependant, ces r´seaux sont utilis´s seulement pour la d´sambigu¨
e e e ısation
et pas durant le processus de RI. Mˆme s’il a propos´ une approche d’expansion
e e
prudente qui lui a permis d’am´liorer les r´sultats, Baziz consid`re de nouveau la
e e e
requˆte ´tendue comme un sac de concepts.
e e

Ces r´sultats nous ont persuad´s que le fait de passer d’un niveau mot ` un niveau
e e a
concept n’est pas suffisant pour prendre en compte le contenu s´mantique des docu-
e
ments (requˆtes), et r´soudre ainsi des requˆtes prćises. Nous sommes convaincus
e e e e
que la prise en compte des dimensions de domaine repr´sente un moyen pour at-
e
teindre ces objectifs. Nous avons donc ´tudi´ les principaux travaux qui s’int´ressent
e e e
aux dimensions de domaine en RI.

Les travaux qui s’int´ressent aux dimensions concernent pour le moment la re-
e
cherche basé sur le paradigme multi-facette. Les approches basés sur ce type de re-
e e
cherche sont prometteuses, mais leur application reste limité ` petite ćhelle vu que
e a e
tout le processus d’annotation des documents est manuel. La complexit´ de la struc-
e
ture des requˆtes prćises repr´sente une difficult´ que les interfaces multi-facettes
e e e e
n’arrivent pas ` surmonter. De plus, ce type de requˆtes contient une terminologie
a e
tr`s spćifique qui demande une navigation profonde dans les hi´rarchies de concepts
e e e
qui d´finissent les facettes. Ceci repr´sente une lourde surcharge cognitive pour l’uti-
e e
lisateur lors du choix des entrés qui l’int´ressent.
e e

Pour conclure, nous pouvons constater que, malgr´ les efforts fournis par de
e
nombreux chercheurs, la prise en compte du contenu s´mantique des documents
e
(requˆtes) reste encore un probl`me largement ouvert. Nous sommes donc persuad´s
e e e
que les approches existantes qui consid`rent les documents (requˆtes) comme des
e e
sacs de concepts ne peuvent pas r´soudre des requˆtes prćises. Pour notre part,
e e e
l’approche que nous avons adopté consiste ` utiliser les dimensions de domaines.
e a
L’utilisation des dimensions en dehors du paradigme multi-facette a pour but d’ex-
pliciter la structure s´mantique au niveau de la repr´sentation des documents et des
e e
requˆtes. Nous utilisons les dimensions afin d’extraire les ´l´ments importants qui
e ee

55

contribuent au d´veloppement du th`me pr´sent dans le document et dans la requˆte.
e e e e
En se basant sur ces ´l´ments, nous tentons de repr´senter le contenu des documents
ee e
(requˆtes) en mettant en exergue la s´mantique qu’ils(elles) v´hiculent. Dans la suite
e e e
du document, nous pr´sentons en d´tails notre contribution et son apport th´orique
e e e
et pratique par rapport ` l’´tat de l’art.
a e

56

Chapitre 3

Un Mod`le de RI fond´ sur les
e e
dimensions de domaine

3.1 Prámbule
e
L’objectif de la Recherche d’Information est de s´lectionner les documents per-
e
tinents qui traitent du th`me de la requˆte. Pour atteindre cet objectif, l’indexation
e e
joue un rˆle primordial en d´finissant les descripteurs qui repr´sentent les documents
o e e
et ` partir desquels ils peuvent ˆtre acc´d´s ou analys´s. Dans les approches exis-
a e e e e
tantes, les descripteurs utilis´s sont les mots ou les termes ou les concepts. Comme
e
nous l’avons pr´sent´ dans le premier chapitre, ces descripteurs ne sont pas suffisants
e e
pour interpr´ter le contenu s´mantique des documents/requˆtes, et prendre correc-
e e e
tement en compte le th`me lors de l’interrogation.
e

Dans notre travail, nous proposons une nouvelle approche qui consiste ` utiliser
a
un nouveau type de descripteurs lors de l’indexation : les dimensions de domaine.
L’int´rˆt principal de cette approche est de mettre en exergue les aspects li´s aux
ee e
descriptions s´mantiques du contenu du document et de la requˆte. Nous utilisons
e e
les dimensions comme un moyen pour compl´ter l’information partielle transmise
e
par le contenu brut1 des documents/requˆtes. Ceci permet au syst`me de produire,
e e
d’une part, une repr´sentation prćise du contenu s´mantique des documents, et
e e e
d’interpr´ter, d’autre part, le besoin de l’utilisateur. Ainsi, le jugement de la perti-
e
nence d’un document pour une requˆte fait intervenir les aspects li´s aux descriptions
e e
1
sac de mots, sac de termes, sac de concepts, etc.

57

s´mantiques du contenu du document et de la requˆte.
e e

Notre approche concerne l’acc`s ` un corpus o` plusieurs domaines peuvent co-
e a u
exister. Selon le dictionnaire de l’Acad´mie fran¸aise, un domaine est tout ce qu’em-
e c
brasse un art, une science, une facult´ de l’esprit, etc. (exemples : le domaine de
e
la peinture, de la sculpture, de la politique, etc.). Nous travaillons uniquement sur
des domaines “connus”, c’est-`-dire qui ont atteint une certaine notori´t´ et par l`
a ee a
mˆme une certaine stabilit´ (par opposition ` des domaines “nouveaux” qui corres-
e e a
pondent ` des thóries en cours d’´laboration et dont la terminologie n’est pas fixé).
a e e e

Pour pouvoir acc´der ` ce corpus, nous faisons coexister des ressources externes
e a
dćrivant chacun de ces domaines. Si plusieurs ćoles de pensés/conceptions s’af-
e e e
frontent ` l’int´rieur d’un domaine, nous pensons qu’il est pr´f´rable de les traiter
a e ee
comme des domaines s´par´s : le but n’est pas de forcer un consensus artificiel sur
e e
les d´finitions des concepts d’un domaine. Le rˆle d’une ressource externe n’est pas
e o
de normaliser un domaine, mais de donner une repr´sentation de l’existant.
e

Chaque domaine pr´sent dans le corpus est dćrit ` travers la ressource externe
e e a
par trois types de descripteurs :

- Dimensions : une dimension d’un domaine est un concept gń´ral utilis´ pour
e e e
exprimer des th`mes dans ce domaine. Par exemple, dans le domaine de la Politique
e
internationale, un th`me peut ˆtre d´velopp´ par un r´dacteur en faisant r´f´rence
e e e e e ee
aux dimensions “Lieux gógraphiques”, “Personne”, “Evńement”, etc. Une mˆme
e e e
dimension peut appartenir ` diff´rents domaines ` la fois. Par exemple, la dimension
a e a
“Lieu gógraphique” peut ˆtre utilisé pour d´velopper les th`mes du domaine de la
e e e e e
Politique internationale et du domaine du Sport, etc.

- Concepts : un concept correspond ` une signification particuli`re d’un mot
a e
(ou s´quence de mots). Dans un domaine, chaque dimension contient un ensemble
e
de concepts. Par exemple, la dimension “Personne” dans le domaine du Sport peut
contenir les concepts Joueur, Arbitre, Entraineur, etc.

- Termes : un terme est constitu´ d’un mot (ou s´quence de mots) qui sert
e e
pour dńoter un concept dans un domaine particulier. La signification d’un terme
e

58

est d´terminé par les concepts qu’il dńote ` l’int´rieur du mˆme domaine.
e e e a e e

3.2 Introduction
Nous proposons ici de d´finir un mod`le de RI capable de satisafaire des utilisa-
e e
teurs souhaitant formuler leurs requˆtes de la mani`re suivante :
e e

R1 : “Donne-moi les documents qui parlent du gń´ral fran¸ais responsable de la
e e c
crátion de la zone de sćurit´ pendant le conflit des Balkans” ;
e e e

R2 : “Donne moi des documents qui parlent de Bill Gates et de Steve Jobes et au
moins de deux soci´t´s d’informatique” ;
ee

R3 : “Donne-moi des images de type rayon-x contenant une fracture ou une luxa-
tion d’un tibia” ;

R4 : “Donne-moi des images de type rayon-x des fractures de tous les os de la
jambe” ;

R5 : “Donne-moi des images de type rayon-x de f´mur sans fracture” ;
e

R6 : “Donne-moi des images de la peau de la main sans aucune pathologie” ;

etc.
Les besoins formul´s ` travers ces requˆtes sont dits “prćis”. En effet, un utilisa-
e a e e
teur fait r´f´rence ` des dimensions de son domaine d’int´rˆt pour dćrire prćis´ment
ee a ee e e e
son besoin d’information en utilisant des concepts et des relations s´mantiques entre
e
eux. Par exemple, dans la requˆte R1 l’utilisateur cherche un ´l´ment de la dimension
e ee
Personne, en particulier, le nom d’une personne P. Celle-ci est dćrite ` travers deux
e a
dimensions, en utilisant les deux concepts suivants : Gń´ral qui est un concept de la
e e
dimension Personne, et France qui est un concept de la dimension Lieu gógraphique.
e
En effet, la personne recherché est un Gń´ral, et originaire de France.
e e e

59

Lors de la formulation d’une requˆte prćise, l’utilisateur pourrait souhaiter
e e
dćrire davantage son besoin en employant des quantificateurs (au moins deux,
e
tous, etc.) ou bien des op´rateurs booléns ET/OU/NON, etc.
e e

En consid´rant les exigences de l’utilisateur, un langage expressif de requˆte est
e e
nćessaire. Il doit permettre ` l’usager d’utiliser des concepts et des dimensions pour
e a
dćrire son besoin. Il doit ´galement permettre ` l’utilisateur d’employer des relations
e e a
entre les descripteurs de sa requˆte. Finalement, l’utilisateur doit pouvoir enrichir la
e
description de son besoin ` travers des op´rateurs.
a e

Pour interpr´ter les requˆtes prćises ainsi formulés, un traitement spćifique est
e e e e e
nćessaire :
e

- Prise en compte des deux types de descripteurs (concepts et dimensions) pour in-
terpr´ter le contenu s´mantique v´hicul´ dans la requˆte ;
e e e e e

- Prise en compte des relations entre descripteurs de la requˆte ;
e

- Prise en compte des op´rateurs.
e

Pour pouvoir r´pondre prćis´ment ` ce type de requˆtes, leurs spćificit´s doivent
e e e a e e e
ˆtre prises en compte lors de l’indexation des documents. Pour ˆtre retrouv´, un do-
e e e
cument doit donc ˆtre repr´sent´ par des concepts et des dimensions, et sa description
e e e
doit permettre de satisfaire des requˆtes qui contiennent des relations s´mantiques
e e
ainsi que des op´rateurs.
e

En se basant sur des ressources externes, nous proposons dans la suite un mod`le,
e
fond´ sur les dimensions, associant des concepts et des relations s´mantiques dans la
e e
description du contenu des documents(requˆtes). Ce mod`le s’appuie sur un langage
e e
d’indexation expressif permettant une description prćise du contenu des documents.
e
Il s’appuie ´galement sur un langage de requˆte expressif permettant ` l’utilisateur
e e a
d’exprimer des requˆtes prćises. Les connaissances du domaine sont utilisés lors de
e e e
la d´finition de notre mod`le tout en garantissant une repr´sentation uniforme des
e e e
documents, des requˆtes et de la ressource externe. Ceci a ´t´ effectu´ en utilisant
e ee e

60

un formalisme de repr´sentation de connaissances ad´quat : il s’agit de la logique
e e
descriptive.

3.3 Spćificit´s du mod`le
e e e
Usage des dimensions

Les dimensions dans notre mod`le peuvent ˆtre vues comme une couche descrip-
e e
tive qui permet d’associer ` un concept un rˆle particulier lors de la description du
a o
contenu d’un document ou d’une requˆte. Par exemple, sachant que “Joueur” est un
e
´l´ment de la dimension Personne, mˆme s’il ne contient pas le terme “joueur”, un do-
ee e
cument contenant “Zidane” peut ˆtre retrouv´ comme r´ponse ` la requˆte suivante :
e e e a e

R7 : “Donne-moi les documents qui parlent du joueur fran¸ais qui a ´t´ ´lu
c eee
meilleur footballeur en 2004 ”.

Usage des relations

Nous nous int´ressons aux relations s´mantiques que l’on peut trouver dans la res-
e e
source externe et qui permettent d’apporter une prćision sur une entit´ ambigu¨ du
e e e
document, comme les relations “est un”, ou “partie de”, etc.

Exemple : un document r´ponse ` la requˆte R7 doit contenir le nom d’une
e a e
personne P. P est un “joueur”, et P est originaire de “France”. En utilisant les
relations s´mantiques pr´sentes dans la ressource externe, nous pouvons s´lectionner
e e e
l’ensemble des joueurs fran¸ais. Les documents qui contiennent un des noms de
c
ces joueurs est un candidat pour r´pondre ` cette requˆte. Mais pour r´pondre
e a e e
enti`rement et avec prćision, il faut prendre en compte les autres informations de
e e
la requˆte : la date (2004) et la consćration (meilleur footballeur).
e e

Usage des op´rateurs
e

Nous nous int´ressons ` une formulation prćise du besoin de l’utilisateur. Celui-
e a e
ci veut exprimer ` travers sa requˆte un besoin tel que : “donne-moi les images qui
a e

61

dćrivent une main sans aucune pathologie”. Il faut donc permettre ` l’utilisateur
e a
d’employer un op´rateur de n´gation pour exprimer ce genre de besoin.
e e

Dans la section suivante, nous pr´sentons avec d´tail des exemples typiques de
e e
besoins d’informations prćis que nous proposons de satisfaire ` travers notre mod`le
e a e
de recherche. L’expression de ces requˆtes dans notre mod`le est pr´senté dans la
e e e e
section 3.6.2.

3.3.1 Exemples typiques de besoins d’information prćis
e
Le but de cette section est d’analyser ce genre de requˆte afin de proposer un
e
mod`le de recherche ad´quat. Nous pr´sentons donc un ensemble de requˆtes en
e e e e
d´taillant leurs spćificit´s et en sugg´rant des moyens pour les r´soudre. Nous men-
e e e e e
tionnons la nćessit´ d’introduire explicitement les dimensions dans la description
e e
des documents et des requˆtes, ainsi que la nćessit´ d’utiliser les op´rateurs sur les
e e e e
dimensions et pas seulement sur les concepts et les termes comme cela a ´t´ d´j` fait
ee ea
(ex. dans le mod`le boolén).
e e

Pour les besoins des exemples, nous supposons que les dimensions suivantes sont
disponibles ` travers une ressource externe :
a

Personne : contenant des politiciens, des sportifs, des c´l´brit´s, etc.
ee e

Organisation : contenant des entreprises, des organisations internationales, etc.

Lieu gógraphique : contenant l’ensemble des lieux dans le monde (continent,
e
pays, villes, etc.) ;

´ e
Evńement : contenant des ´vńements de la vie courante (guerre en Iraq, raz-de-
e e
maré, etc.) ;
e

Anatomie : contenant les diff´rents membres du corps humain ;
e

62

Pathologie : contenant l’ensemble des maladies qui peuvent affecter le corps hu-
main ;

Modalit´ : contenant l’ensemble des types des images m´dicales.
e e

Voici maintenant quelques exemples de besoins d’information prćis.
e

R8 : “Donne-moi les documents qui parlent de Bill Gates et d’une soci´t´ d’infor-
ee
matique”.

L’utilisateur cherche des documents relatifs ` un ´l´ment de la dimension Per-
a ee
sonne : Bill Gates et ` un ´l´ment de la dimension Organisation : soci´t´ d’infor-
a ee ee
matique. Un document pertinent doit traiter des deux ´l´ments de dimensions. Ceci
ee
se traduit par l’op´rateur boolén de conjonction ET.
e e

R9 : “Donne-moi les documents qui parlent de Steve Jobs ou de Apple, Inc.”.

L’utilisateur cherche des documents relatifs ` un ´l´ment de la dimension Per-
a ee
sonne : Steve Jobs ou un ´l´ment de la dimension Organisation : Apple, Inc. Un
ee
document pertinent doit traiter d’un des deux ´l´ments de dimensions. Ceci se tra-
ee
duit par l’op´rateur boolén de disjonction OU.
e e

R10 : “Donne-moi des images qui montrent un tibia sans aucune pathologie”.

L’utilisateur cherche des images qui contiennent un ´l´ment de la dimension Ana-
ee
tomie : tibia sans aucun ´l´ment de la dimension Pathologie : pas de fracture ou
ee
luxation, etc. Un document pertinent doit contenir l’´l´ment de la dimension Ana-
ee
tomie et ne doit pas contenir l’´l´ment de la dimension Pathologie. Ceci se traduit
ee
par l’op´rateur boolén de n´gation NON.
e e e

Il est possible qu’un document pr´sente un tibia sans aucune pathologie, mais
e
montre aussi une autre partie de l’anatomie avec d’autres pathologies que celles qui

63

peuvent affecter le tibia. Dans ce cas, ce document peut ˆtre consid´r´ pertinent. Il
e ee
faut donc distinguer, au moment de l’interrogation, qu’il faut exclure seulement les
documents qui contiennent des pathologies du tibia. Ceci peut se traduire par une
relation entre les ´l´ments de dimensions au moment de la formulation de la requˆte.
ee e

R1 : “Donne-moi les documents qui parlent du gń´ral fran¸ais responsable de la
e e c
crátion de la zone de sćurit´ pendant le conflit des Balkans”.
e e e

Un utilisateur peut prćiser ` travers sa requˆte ce dont le document doit obli-
e a e
gatoirement parler. Il peut ´galement introduire des descripteurs dont le document
e
r´ponse ne doit pas obligatoirement parler. Par exemple, a travers la requˆte R1,
e ` e
l’utilisateur cherche un ´l´ment de la dimension Personne, en particulier, le nom
ee
d’un gń´ral fran¸ais. Donc un document pertinent doit obligatoirement parler du
e e c
nom de cette personne. Mˆme si ce document ne parle pas du conflit ou des Bal-
e
kans, il peut ˆtre consid´r´ pertinent. Donc tandis que l’´l´ment de la dimension
e ee ee
Personne est obligatoire, les autres ´l´ments de dimensions peuvent ˆtre option-
ee e
nels (´vńement et lieu gógraphique). Les op´rateurs booléns ne sont pas suffisants
e e e e e
pour exprimer ces deux notions. En effet, l’emploi d’un op´rateur boolén implique
e e
toujours l’utilisation de deux ´l´ments. Ceci ne permet donc pas ` l’utilisateur d’ex-
ee a
primer qu’il y a un seul ´l´ment qui est obligatoire ou bien un seul ´l´ment qui est
ee ee
optionnel. D’une part, l’utilisation du ET implique que les deux ´l´ments en ques-
ee
tion sont obligatoires. D’autre part, l’utilisation du OU implique que l’un des deux
´l´ments en question est optionnel, sans prćiser lequel. La notion d’obligation n’est
ee e
pas nouvelle : certains moteurs de recherche 2 utilisent un tel crit`re (repr´sent´ par
e e e
le pr´fixe “+”) afin de fournir une syntaxe plus simple et plus intuitive, permet-
e
tant ainsi de r´soudre la difficult´ rencontré par les utilisateurs pour exprimer des
e e e
requˆtes boolénnes.
e e

Ces deux types d’expressions de besoins peuvent ˆtre prises en compte en uti-
e
lisant des op´rateurs sur les ´l´ments de dimensions pr´sents dans la requˆte. Ces
e ee e e
op´rateurs peuvent ˆtre : obligatoire ou optionnel. Ils ont ´t´ d´taill´s dans [48][44]
e e ee e e
dans un contexte o` l’utilisateur a d´j` vu les documents et ne se souvient pas exac-
u ea
tement de leur contenu. Nous pouvons reprendre ces op´rateurs afin de donner les
e
2
ex. Google, Altavista, etc.

64

moyens ` l’utilisateur de dćrire avec prćision son besoin d’information.
a e e

Il est possible que l’utilisateur n’arrive pas ` utiliser les deux op´rateurs prć´dents.
a e e e
Par exemple, imaginons que l’utilisateur puisse consid´rer que les documents qui
e
traitent du th`me de sa requˆte sont pertinents, mais en privil´giant ceux qui contien-
e e e
nent le nom de la personne d’abord, ensuite ceux qui parlent du conflit, ensuite ceux
qui parlent des Balkans. Dans ce cas, l’expression de ce besoin peut ˆtre mise en
e
œuvre avec un op´rateur priorit´. Celui-ci permet ` l’utilisateur d’avoir plus de flexi-
e e a
bilit´ lors de la d´finition de son besoin. Ainsi, il peut donner la plus grande priorit´
e e e
aux documents qui contiennent le nom de la personne recherché, et une priorit´
e e
moins importante aux documents qui contiennent les autres ´l´ments de dimensions.
ee

Nous pouvons imaginer un scńario o` l’utilisateur veut donner des poids aux
e u
´l´ments de dimensions de sa requˆte . La valeur de chaque poids peut ˆtre comprise
ee e e
entre 0 et 1. 1 ´tant la valeur la plus ´levé qui signifie que l’´l´ment de dimension
e e e ee
correspondant est tr`s importante dans la requˆte et obligatoire, et 0 signifie que
e e
l’´l´ment de dimension correspondant est optionnel. L’expression de ce besoin peut
ee
se faire ` travers un op´rateur jauge. Ainsi, l’utilisateur peut prćiser explicitement
a e e
les degr´s d’importance relatifs aux ´l´ments de dimensions pr´sents dans sa requˆte.
e ee e e

Jusqu’` pr´sent, nous avons vu des cas o` la requˆte contient un seul ´l´ment de
a e u e ee
chaque dimension. Il est possible que la requˆte contienne plusieurs ´l´ments de la
e ee
mˆme dimension. La question est donc de savoir quel(s) op´rateur(s) utiliser entre
e e
les ´l´ments d’une mˆme dimension. Nous essayons de r´pondre ` cette question `
ee e e a a
travers les exemples suivants.

R11 : “Donne-moi les documents qui parlent de Bill Gates et Steve Jobs et d’une
soci´t´ d’informatique”.
ee

Dans cette requˆte, il y a deux ´l´ments de la dimension Personne : Bill Gates et
e ee
Steve Jobs, et un ´l´ment de la dimension Organisation : soci´t´ d’informatique.
ee ee
Un document pertinent doit parler des DEUX ´l´ments de la dimension Personne
ee
pr´sents dans la requˆte ET d’un ´l´ment de la dimension Organisation. Dans ce
e e ee
cas, il faut utiliser l’op´rateur ET entre les ´l´ments de la dimension Personne.
e ee

65

R12 : “Donne-moi les images qui montrent une fracture ou une luxation d’un ti-
bia”.

Deux dimensions sont pr´sentes dans cette requˆte : la dimension Pathologie : frac-
e e
ture, luxation ; la dimension Anatomie : tibia. Une image pertinente doit contenir
une fracture OU une luxation, ET un tibia. Dans ce cas, il suffit d’utiliser l’op´rateur
e
OU entre les ´l´ments de la dimension Pathologie pour prćiser le besoin de l’utili-
ee e
sateur.

R13 : “Donne-moi des images qui montrent un tibia sans fracture”.

L’utilisateur cherche des images qui contiennent un ´l´ment de la dimension Anato-
ee
mie : tibia sans l’´l´ment de la dimension Pathologie : fracture. Il est possible qu’un
ee
document contenant un autre ´l´ment de la dimension Pathologie (ex. luxation) soit
ee
pertinent pour cette requˆte. Pour bien prćiser ce besoin d’information, il faut uti-
e e
liser l’op´rateur de n´gation NON sur la pathologie de type fracture seulement et
e e
pas sur tous les ´l´ments de la dimension Pathologie.
ee

R2 : “Donne-moi les documents qui parlent de Bill Gates et Steve Jobs et au
moins de deux soci´t´s d’informatique”.
ee

Nous remarquons ` partir de cette requˆte que l’utilisateur cherche un document
a e
qui parlent de deux ´l´ments de la dimension Personnes : Bill Gates et Steve Jobs,
ee
dont les noms sont connus ET AU MOINS DE DEUX ´l´ments de la dimension
ee
Organisation : soci´t´ d’informatique, dont les noms sont inconnus. Par cons´quent,
ee e
un document qui parlent des deux personnes avec une seule soci´t´ informatique ne
ee
satisfait pas le besoin de l’utilisateur. Il est donc nćessaire d’introduire un op´rateur
e e
quantificateur qui permet ` l’utilisateur de prćiser ` travers sa requˆte le nombre
a e a e
d’´l´ments de dimension recherch´s. L’utilisateur pourra donc prćiser qu’il cherche
ee e e
des documents qui parlent de deux soci´t´s d’informatique ou plus.
ee

66

R14 : “Donne-moi les images qui montrent une hanche sans pathologie”.

Nous remarquons que l’utilisateur ne prćise pas le nom de l’´l´ment de la dimension
e ee
Pathologie qu’il cherche. La seule information qu’il fournit est qu’il s’agit d’une
pathologie de la hanche. Dans ce cas, il est possible que les documents pertinents
ne contiennent pas le terme “pathologie” mais contiennent plutˆt des termes comme
o
“Fracture” et/ou “Luxation”, etc. Afin que le syst`me puisse bien interpr´ter le
e e
contenu s´mantique de cette requˆte, il faut qu’il arrive ` inf´rer que “pathologie”
e e a e
n’est pas le terme recherch´ mais plutˆt une description des ´l´ments recherch´s. Un
e o ee e
moyen possible est de permettre ` l’utilisateur de faire explicitement cette prćision.
a e
Il peut ainsi spćifier qu’un terme de sa requˆte repr´sente une description d’un
e e e
´l´ment recherch´. On peut aussi fournir ` l’utilisateur les moyens pour utiliser des
ee e a
relations s´mantiques. Ainsi, il peut prćiser que les ´l´ments recherch´s sont des
e e ee e
“pathologies qui affectent la hanche”. Ainsi, lors de la recherche, le syst`me ne se
e
contente pas de rechercher les documents qui contiennent le terme “pathologie”,
mais surtout les documents qui contiennent des types de pathologies qui affectent la
hanche.

3.3.2 Vers un mod`le de RI orient´ prćision
e e e
Les approches existantes semblent insuffisantes devant les exigences que nous
avons pr´sentés. Elles traitent les documents et les requˆtes comme des sacs de
e e e
concepts lors de l’indexation et sont donc incapables de r´soudre des requˆtes prćises.
e e e
Le mod`le boolén repr´sente une solution possible pour prendre en compte les
e e e
op´rateurs booléns, mais il reste toutefois limit´ devant la complexit´ de la struc-
e e e e
ture s´mantique des requˆtes prćises auxquelles nous nous int´ressons. Il faut donc
e e e e
avoir recours ` de nouveaux formalismes de repr´sentation de connaissances pour
a e
introduire plus de s´mantique lors de l’indexation. Il faut utiliser une ressource ex-
e
terne pour repr´senter le contenu s´mantique des documents et requˆte. Il serait ainsi
e e e
souhaitable d’avoir une repr´sentation uniforme des documents, requˆtes, et de la res-
e e
source externe. Ceci peut ˆtre atteint en utilisant un formalisme de repr´sentation
e e
de connaissances commun ` ces trois ´l´ments. Ce formalisme doit aussi proposer
a ee
une op´ration de comparaison jouant le rˆle de la fonction de correspondance d’un
e o
SRI. Il doit ´galement prendre en compte les exigences des utilisateurs en termes
e
d’op´rateurs (booléns, quantificateurs, etc.).
e e

67

Plusieurs formalismes ont ´t´ exp´riment´s dans ce sens. Nous notons parti-
ee e e
culi`rement les Arborescences S´mantiques [9], les Graphes Conceptuels [16][63] et
e e
les Logiques Descriptives [55][56][57].

Le choix du formalisme de repr´sentation de connaissances ad´quat d´pend ´vide-
e e e e
mment de nos besoins. Nous avons opt´ pour les Logiques Descriptives qui per-
e
mettent d’exprimer la connaissance d’un domaine particulier et raisonner sur cette
derni`re de fa¸on efficace. Ainsi, il est possible que les trois sources de connais-
e c
sances (repr´sentation du document, de la requˆte, et de la ressource externe) soient
e e
repr´sentés par le mˆme formalisme, ce qui assure que toutes ces sources de connais-
e e e
sances participent au processus de recherche d’une mani`re uniforme. Ce formalisme
e
dispose par ailleurs d’un niveau d’expressivit´ assez ´lev´ qui convient tr`s bien `
e e e e a
la repr´sentation prćise des documents et des besoins d’informations. Par exemple,
e e
il contient tous les op´rateurs dont nous avons besoin dans notre mod`le. Ces rai-
e e
sons font des Logiques Descriptives une solution particuli`rement approprié pour la
e e
mod´lisation dans notre contexte de RI.
e

Dans la section suivante, nous introduisons les logiques descriptives, puis nous
pr´sentons leurs applications dans notre mod`le de RI.
e e

3.4 La logique descriptive
La logique descriptive (DL) [2], appelé ´galement logique terminologique [12] est
e e
une famille de formalismes de repr´sentation de la connaissance basé sur la logique.
e e
Elle est con¸ue pour repr´senter et raisonner sur la connaissance d’un domaine d’ap-
c e
plication d’une mani`re structuré. Elle descend des formalismes plus anciens que
e e
sont les r´seaux s´mantiques et les “frames”.
e e

Les notions de base de la DL sont les concepts atomiques et les rˆles atomiques.
o
Les concepts sont interpr´t´s comme des sous-ensembles d’individus constituant soit
ee
des entit´s, soit des ´l´ments particuliers du domaine a mod´liser. Dans ce deuxi`me
e ee ` e e
cas, ils sont appel´s des constantes individuelles. Les rˆles, quant ` eux, repr´sentent
e o a e
des relations binaires entre des concepts, toujours sur le mˆme domaine. Une majo-
e

68

rit´ de DLs permet d’exprimer qu’une constante individuelle est une instance d’un
e
concept particulier, ou qu’une paire de constantes individuelles est une instance d’un
rˆle donn´.
o e

Chaque DL est caract´risé par les constructeurs qu’elle fournit pour former des
e e
concepts et rˆles complexes ` partir des concepts et rˆles atomiques. D’abord, deux
o a o
constructeurs de concepts assez particuliers sont gń´ralement introduits : il s’agit
e e
des constructeurs “Top” et “Bottom”, dńotant respectivement, l’ensemble de tous
e
les individus du domaine de discours et l’ensemble vide. Les deux constructeurs
conjonction (⊓) et disjonction (⊔) sont respectivement l’intersection et l’union de
concepts. Le quantificateur existentiel typ´ (∃ R.C o` R est un rˆle et C un concept)
e u o
et le quantificateur universel (∀ R.C) sont tels que :

- Pour qu’un objet a soit l’instance de l’ensemble ∃ R.C, il doit exister un objet b,
qui est une instance de C et qui est li´ ` a via R ;
ea

- a est une instance de l’ensemble ∀ R.C, si tous les objets li´s ` a via R sont des
e a
instances de C.

Le composant terminologique de la logique descriptive est la T(erminologique)-
Box. Elle est utilisé pour introduire des noms (abr´viations) pour les concepts
e e
complexes. Elle permet la dćlaration des axiomes gń´raux d’inclusion de concepts
e e e
(Gń´ral Concepts Inclusion (GCI) axiomes). Un GCI est de la forme C ⊑ D ou
e e
C ≡ Do` C et D sont des concepts sans restriction. Une T-Box est donc un en-
u
semble, qui peut ˆtre vide, de GCI.
e

Les DL adoptent toutes une s´mantique reposant sur une interpr´tation ensem-
e e
bliste des termes. Ce proc´d´ est connu sous l’appellation de s´mantique dńotationn-
e e e e
elle (denotational semantics). Ils introduisent ainsi une interpr´tation I = (∆I , .I )
e
qui consiste en un ensemble non vide ∆I appel´ le domaine de discours de I, et en
e
une fonction . qui associe pour chaque nom de concept C un ensemble C I ⊆ ∆I , et
I

pour chaque nom de rˆle R, une relation binaire RI ⊆ ∆I × ∆I .
o

Une interpr´tation I satisfait le GCI C ⊑ D si C I ⊆ D I . I satisfait la T-Box
e

69

T , si I satisfait tous les GCI dans T . Dans ce cas, I est appel´ mod`le de T . Un
e e
concept C est satisfiable par rapport ` une T-Box T s’il y a un mod`le I de T tel
a e
que C I = ∅. Ainsi, un algorithme de satisfiabilit´ (consistance) teste si un concept
e
donn´ peut effectivement ˆtre instanci´. Un ´l´ment d ∈ C I est appel´ une instance
e e e ee e
de C.

Le composant assertionnel de la logique descriptive est la A(ssertion)-Box. Celle-
ci contient l’ensemble des assertions. Par exemple, si la T-Box contient le concept
Personne, alors la A-Box peut contenir Jacques qui en est une instance.

Il existe des algorithmes, pour certaines logiques descriptives, pour calculer la
taxonomie de la T-Box : c’est la hi´rarchie de subsomption de tous les concepts
e
introduits dans la T-Box. Ils offrent une capacit´ de raisonnement qui d´duit de la
e e
connaissance implicite ` partir de celle qui est donné explicitement dans la T-Box T .
a e
Ainsi, l’algorithme de subsomption d´termine les relations de sous et super-concepts :
e
un concept C est subsum´ par un concept D (C ⊑T D), si chaque instance de C est
e
aussi une instance de D, c’est-`-dire, si chaque mod`le I de la T-Box T interpr`te
a e e
C comme un sous ensemble de l’interpr´tation de D (C I ⊆ D I ). Deux concepts sont
e
dits ´quivalents s’ils se subsument mutuellement : C ≡ D si C ⊑ D et D ⊑ C.
e

Il existe plusieurs logiques descriptives, la minimale ´tant le langage AL (Attribut-
e
ive Langauge). Ce langage ne remplit pas les exigences de notre mod`le, a savoir
e `
contenir tous les op´rateurs booléns, l’op´rateur de quantification, etc. En fonc-
e e e
tion de nos besoins, nous avons choisi un langage DL qui a un pouvoir d’expressivit´
e
sup´rieur ` AL. Il s’agit du langage ALCQ (Attributive Language with Complements
e a
and Qualified number restrictions) dont la syntaxe et la s´mantique sont repr´sentés
e e e
dans la section suivante.

3.4.1 Syntaxe et s´mantique du langage ALCQ
e
Les descriptions de concepts sont formés selon les r`gles syntaxiques pr´sentés
e e e e
dans le tableau 3.1. Soient c un concept atomique, r un rˆle atomique et C et D des
o
descriptions de concepts. L’interpr´tation de concepts complexes est d´finie dans le
e e
tableau 3.1.

70

Tab. 3.1 – Syntaxe et s´mantique du langage ALCQ.
e
Constructeur Syntaxe S´mantique
e
I
Nom de concept c c
Top (concept univer- ⊤ ∆I
sel)
N´gation de concepts ¬C
e ¬C I = ∆I C I
non nćessairement
e
primitifs
Bottom ⊥ ∅
Conjonction C ⊓D C I ∩ DI
Disjonction C ⊔D C I ∪ DI
Quantificateur univer- ∀R.C {d ∈ ∆I |∀ e ∈ ∆I .(RI (d, e) → e ∈ C I )}
selle
Quantificateur exis- ∃R.C {d ∈ ∆I |∃ e ∈ ∆I .(RI (d, e), e ∈ C I )}
tentiel typé
Restriction de nombre nR.C {d ∈ ∆I ||{e|RI (d, e), e ∈ C I }| n}
qualifié
e
Restriction de nombre nR.C {d ∈ ∆I ||{e|RI (d, e), e ∈ C I }| n}
qualifié
e

Voici quelques exemples pouvant ˆtre exprim´s en ALCQ :
e e

Soient P ersonne et F eminin des concepts atomiques. Alors P ersonne ⊓ F eminin
´ ´
(les personnes qui sont f´minines) et P ersonne ⊓ ¬F eminin (les personnes qui ne
e ´
sont pas f´minines) sont des concepts ALCQ.
e

Soit a-enfant un rˆle atomique, nous pouvons alors former les concepts :
o

- P ersonne ⊓ ∃ a-enfant.⊤ dńote les personnes qui ont un enfant ;
e
- P ersonne ⊓ ∀ a-enfant.F eminin dńote toutes les personnes dont les enfants sont
´ e
des filles ;
- P ersonne ⊓ ∀ a-enfant.⊥ dńote les personnes qui n’ont pas d’enfant.
e

Si F emme ≡ P ersonne ⊓ F eminin, alors :
´

- ¬F emme dńote les individus qui ne sont pas des femmes ;
e

71

- F emme ⊓ ∃ a-enfant.P ersonne dńote les m`res ;
e e
- F emme ⊓ 3a-enfant.P ersonne dńote les m`res qui ont au moins trois enfants.
e e

3.4.2 Logique Descriptive et Recherche d’Information
L’application de la logique descriptive au domaine de la RI est prometteuse, car
il suffit de consid´rer le corpus des documents comme un sous-ensemble du domaine
e
de discours choisi, et y repr´senter les documents et les requˆtes par des concepts.
e e
Ainsi, chaque document d (requˆte q) sera repr´sent´(e) dans la T-Box T par son
e e e
index docI (qI) qui est une expression (concept) ALCQ. docI est une abstraction
(repr´sentation) d’un ensemble de documents qui ont le mˆme contenu. Les docu-
e e
ments physiques repr´sentent alors les instances de docI. Conform´ment ` la termi-
e e a
nologie des DL, la correspondance entre une requˆte q et un document doc se calcule
e
ainsi dans la hi´rarchie de subsomption : un document doc est pertinent pour une
e
requˆte q si le concept docI est subsum´ par le concept qI : docI ⊑T qI (cf. figure 3.1).
e e
Ainsi, pour r´pondre ` une requˆte q, le SRI s´lectionne les documents dont l’index
e a e e
docI est subsum´ par le concept qI. Cette idé s’appuie sur le mod`le logique propos´
e e e e
par Van Rijsbergen qui consid`re le processus de recherche comme une ´valuation
e e
d’une implication logique entre la requˆte q et chaque document doc du corpus, re-
e
lativement ` un ensemble de connaissances K [93]. Ceci ind´pendemment du choix
a e
de formalisme de repr´sentation de doc, q et K. Selon la suggestion de Van Rijsber-
e
gen, seuls doivent ˆtre consid´r´s pertinents, les documents dont on peut d´duire la
e ee e
requˆte d’une mani`re logique. La correspondance revient donc ` donner une mesure
e e a
d’incertitude PK (doc → q).

Meghini et ses collaborateurs [56] ont propos´ une DL nommé MIRTL comme un
e e
formalisme ad´quat pour la conception des SRI bas´s sur le mod`le logique. La DL
e e e
ainsi proposé a ´t´ utilisé pour la repr´sentation des documents selon diff´rentes
e ee e e e
caract´ristiques : le contenu du document, la structure, le contexte, etc. Nous allons
e
nous inspirer de ce travail afin de tirer profit des DL dans notre mod´lisation.
e

Dans les sections suivantes, nous allons voir comment nous utilisons les DL dans
notre contexte de mod´lisation d’un mod`le de RI orient´ prćision.
e e e e

72

Fig. 3.1 – Correspondance entre une requˆte et un document repr´sent´s en logique
e e e
descriptive.

3.5 Mod`le de RI : notation et d´finitions
e e
Nous d´finissons ici, d’une mani`re gń´rale, les composantes de notre mod`le de
e e e e e
Recherche d’Information.

3.5.1 Ressource externe
Nous pr´sentons ici le mod`le formel de la ressource externe K dćrivant l’en-
e e e
semble des connaissances pr´sentes dans le corpus.
e

Soit C = {c1 . . . cnc } un ensemble de nc concepts atomiques, R = {r1 . . . rnr } un
ensemble de nr rˆles. Nous appelons S = (C, R) la signature de K. Une fois que la
o
signature S est fixé, une interpr´tation I pour S est une paire I = (∆I , .I ) o` :
e e u

- ∆I est un ensemble non vide ;
- .I est une fonction assignant :
◦ Un sous-ensemble CiI ⊆ ∆I ` chaque concept atomique ci ∈ C ;
a
◦ Une relation Ri ⊆ ∆I × ∆I ` chaque rˆle Ri ∈ R ;
I
a o

73

Dans notre contexte de RI, nous nous int´ressons ` la mod´lisation du contenu des
e a e
documents et non ` la mod´lisation du monde rél. Ainsi, la fonction d’interpr´tation
a e e e
.I d´pend du contenu des documents. C’est-`-dire, l’interpr´tation d’un concept ne
e a e
repr´sente pas des entit´s du monde rél, mais plutˆt un ensemble d’instances dans les
e e e o
documents. Par exemple, l’interpr´tation de “Berlusconi” n’est pas la personne elle-
e
mˆme dans le monde rél, mais plutˆt ses apparitions dans les documents. Chaque
e e o
apparition de “Berlusconi” dans un document diff´rent est une instance : “Berlusconi
e
en tant que pr´sident du club Milan AC”, “Berlusconi en tant que Premier ministre
e
de l’Italie”, etc. Pour cette raison, dans notre mod´lisation la A-Box est un ensemble
e
vide, et les documents et les requˆtes sont repr´sent´s uniquement par des concepts.
e e e
Par exemple, Zidane, qui est en principe une instance du concept Joueur, donnera
lieu au concept Zidane ⊑ Joueur qui sera stock´ dans la T-Box. Comme nous le
e
verrons dans la suite, ceci ne repr´sente aucune contrainte lors de la repr´sentation
e e
du contenu des documents et des requˆtes. Bien au contraire, nous aurons un cadre
e
unifi´ o` la requˆte de l’utilisateur peut faire r´f´rence ` la fois ` des “instances”
e u e ee a a
(Zidane) et ` des “concepts” (joueur ). De plus, en RI il n’y a pas un besoin ´vident
a e
de s´parer les concepts des instances. Parfois, afin de bien dćrire un ´l´ment, il est
e e ee
mˆme nćessaire d’utiliser dans la mˆme phrase des termes qui dńotent des concepts
e e e e
et d’autres dńotant des instances. Par exemple, pour chercher des documents qui
e
parlent de Berlusconi, il est parfois nćessaire de prćiser le besoin d’information
e e
en utilisant, en plus de l’instance “Berlusconi”, le concept “pr´sident du club Milan
e
AC” ou bien le concept “Premier ministre de l’Italie”.

´
Etant donn´ le langage de description ALCQ et une signature S, une ressource
e
externe K dans ALCQ est un quadruple K = (S, T, A, Dim), tel que T est la T-Box,
A est la A-Box, et Dim est l’ensemble des dimensions.

Pour des contraintes pratiques (l’existence des ressources hi´rarchiques), nous im-
e
posons une condition nćessaire pour d´finir une dimension ` travers la hi´rarchie3
e e a e
de la ressource externe K. Ainsi, une dimension dimi est d´finie par un concept
e
rac dimi et tous les concepts qu’il subsume. Formellement une dimension dimi issue
d’une ressource K est d´finie comme suit :
e

3
D´finie par l’ensemble d’axiomes terminologiques de la forme C ⊑ D, o` C et D sont des
e u
expressions ALCQ sur la signature S.

74

dimi = (rac dimi , Ci)

o` :
u

- rac dimi ∈ C est le concept racine de la hi´rarchie d´finissant dimi ;
e e
- Ci = {c ∈ C | c ⊑ rac dimi } est l’ensemble des concepts spćifiques ` dimi .
e a

Ainsi, Dim = {dimi . . . dimnd } forme l’ensemble des nd dimensions d´finies `
e a
travers la ressource externe K.

Cette d´finition est simplifié car elle correspond seulement ` des ressources or-
e e a
ganisés autour d’une hi´rarchie de concepts. La rálit´ peut ˆtre plus complexe,
e e e e e
notamment en organisant les connaissances d’un domaine dans une ressource non
hi´rarchique. Il peut donc exister des dimensions de domaine qui ne font pas partie
e
de la cat´gorie des dimensions que nous avons d´finies.
e e

Dans un cas rél, il est possible qu’il n’y ait pas une sous-hi´rarchie qui d´finisse
e e e
explicitement la dimension. Dans ce cas, il est possible que la dimension en ques-
tion puisse ˆtre d´finie ` travers plusieurs sous hi´rarchies de la ressource externe
e e a e
utilisé. Par cons´quent, nous pouvons crér manuellement la racine pour regrou-
e e e
per toutes ces sous-hi´rarchies et d´finir ainsi une dimension. Par exemple, pour
e e
d´finir les dimensions “Anatomie”, “Pathologie”, et “Modalit´” dans le cadre de nos
e e
exp´rimentations dans le domaine de l’imagerie m´dicale, nous avions le choix entre
e e
4 5
les ressources MeSH et UMLS . Supposons que ces deux ressources aient ´t´ dćrites
ee e
en DL (les entrés sont des concepts, et la structure hi´rarchique est formé par des
e e e
axiomes de subsomption)6 . Ainsi, dans la premi`re ressource, ces dimensions peuvent
e
ˆtre d´finies respectivement ` travers les sous hi´rarchies suivantes : Anatomy [A],
e e a e
Diseases [C], et Analytical, Diagnostic and Therapeutic Techniques and Equipment
[E]. En revanche, dans la ressource UMLS nous avons dˆ crér manuellement les
u e
4
http ://www.nlm.nih.gov/mesh/
5
http ://www.nlm.nih.gov/research/umls/
6
En rálit´, et d’apr`s nos exp´riences, il est tr`s difficile de mod´liser UMLS en DL. En effet,
e e e e e e
ce m´ta-th´saurus dispose d’une caract´ristique unique qui consiste ` avoir plusieurs hi´rarchies
e e e a e
parall`les et pas forc´ment compatibles. Pour plus d’informations sur ce sujet, nous invitons le
e e
lecteur ` lire les travaux de Barry Smith [http ://ontology.buffalo.edu/smith/]
a

75

racines pour regrouper des sous hi´rarchies de la ressource et d´ﬁnir ainsi les di-
e e
mensions en question. Par exemple, pour d´ﬁnir la dimension “Pathologie”, nous
e
avons cr´´ une racine pour regrouper les sous-hi´rarchies “Disease or Syndrome”,
ee e
“Finding”, et “Injury or Poisoning”.

3.5.2 Indexation des documents
Soit Doc = {doci |1 i nd} l’ensemble des nd documents pr´sents dans le
e
corpus. Un document doci peut ˆtre un article de presse, un compte-rendu m´dical,
e e
une image, etc.

Dans notre cas, une requˆte repr´sente une description textuelle des documents
e e
recherch´s.
e

Vocabulaire d’indexation

Le vocabulaire d’indexation VDoc constitue l’ensemble des descripteurs qui servent
` la description du contenu des documents Doc lors de la phase d’indexation. Chaque
a
document est repr´sent´ par les descripteurs pr´sents dans la ressource externe.
e e e

VDoc contient donc l’union de l’ensemble des concepts et de l’ensemble des dimen-
sions extraits de la ressource externe K.

VDoc = (V cDoc ∪ V dimDoc )7 , avec V cDoc = C, V dimDoc = Dim.

Collection de documents index´s
e

Chaque document doc ∈ Doc contient un ensemble de concepts docc = {c ∈ C}.
A partir de docc nous pouvons d´duire l’ensemble des dimensions docdim = {dim}
e
pr´sentes dans doc.
e

7
Dans notre mod`le, il est possible de former un besoin d’information en utilisant uniquement
e
des dimensions. Pour cette raison, nous s´parons ici les dimensions et les concepts mˆme s’ils sont
e e
reli´s dans la base de connaissances.
e

76

Chaque concept c ∈ docc a un poids wc,doc qui caract´rise son degr´ d’importance
e e
` dćrire le contenu de doc8 .
a e

Le contenu s´mantique d’un document doc sera repr´sent´ par l’index docI qui
e e e
est une expression ALCQ sur le vocabulaire VDoc . La d´finition formelle de docI est
e
pr´senté plus loin dans ce chapitre.
e e

3.5.3 Formulation de la requˆte
e
Vocabulaire d’interrogation

Le vocabulaire d’interrogation sert ` la formulation des requˆtes de l’utilisateur.
a e
Celui-ci peut utiliser le vocabulaire pr´sent dans la ressource externe K. Il peut
e
prćiser davantage son besoin d’information en ajoutant a sa requˆte des op´rateurs
e ` e e
et des relations s´mantiques entre les descripteurs.
e

D’une mani`re gń´rale, nous d´finissons le vocabulaire d’interrogation VQ comme
e e e e
´tant le r´sultat d’une combinaison de dimensions, de concepts, de relations et
e e
d’op´rateurs. Le contenu s´mantique d’une requˆte q est donc repr´senté par qI
e e e e e
qui est une expression ALCQ sur le vocabulaire VQ . La d´finition formelle de qI est
e
pr´senté plus loin dans ce chapitre.
e e

3.5.4 Correspondance entre la requˆte et le document
e
Pour r´pondre ` une requˆte, deux op´rations sont nćessaires :
e a e e e

i. La premi`re consiste ` s´lectionner, parmi les documents index´s, ceux qui satis-
e a e e
font la requˆte. Cette op´ration est effectué ` l’aide d’une fonction fSel qui
e e e a
doit respecter, lors de l’´valuation des documents, les op´rateurs et les relations
e e
pr´sents dans la requˆte. Nous verrons plus loin que cette fonction est basé
e e e
sur la hi´rarchie de subsomption. En effet, afin de calculer la correspondance
e
entre un document et une requˆte, nous proc´derons par un premier niveau
e e
d’indexation bas´ sur la logique descriptive : il s’agit de l’indexation pour la
e
8
Dans notre mod´lisation, les poids ne font pas partie de la DL. Nous les utilisons plus loin lors
e
de l’ordonnancement des documents pertinents pour une requˆte. e

77

correspondance.

ii. La deuxi`me op´ration est effectué ` l’aide d’une fonction fOrd qui permet d’or-
e e e a
ganiser l’ensemble des documents s´lectionn´s (par fSel ) dans leur ordre de
e e
pertinence par rapport ` la requˆte. La valeur de pertinence d’un document
a e
d par rapport ` une requˆte q est calculé par fOrd en fonction des poids
a e e
des descripteurs dans d et q. Afin de mettre en œuvre la fonction fOrd , nous
proc´derons par un deuxi`me niveau d’indexation : l’indexation pour l’or-
e e
donnancement.

Selon Meghini [56], la complexit´ d’int´gration des pond´rations dans un mod`le
e e e e
de RI ` base de logique descriptive est tr`s ´levé. Pour cette raison, nous avons
a e e e
dćid´ de s´parer ces deux niveaux d’indexation de telle sorte que les pond´rations
e e e e
ne feront pas partie de notre mod`le ` base de logique descriptive.
e a

Les d´finitions formelles des fonctions fSel et fOrd sont pr´sentés dans la suite
e e e
de ce chapitre.

3.6 Mod`le de RI orient´ prćision
e e e
A partir des notations pr´sentés dans la section prć´dente, nous introduisons
e e e e
ici une description de notre mod`le de Recherche d’Information orient´ prćision qui
e e e
comprend les ´l´ments suivants :
ee

- Une ressource externe contenant des dimensions, des concepts, et des relations
s´mantiques ;
e
- Les concepts et les dimensions constituent le vocabulaire d’indexation et le voca-
bulaire d’interrogation :
- Le contenu s´mantique d’un document est dćrit par ces descripteurs mis en
e e
relations les uns avec les autres ;
- La requˆte est repr´senté par ces descripteurs mis en relations les uns avec les
e e e
autres. Elle est ´galement enrichie avec des op´rateurs ;
e e

78

- La correspondance entre la requˆte et les documents est rálisé en utilisant les
e e e
deux types de descripteurs et en respectant les op´rateurs qui leur sont associ´s
e e
dans la requˆte.
e

3.6.1 Mod`le de document
e
Nous avons montr´ lors du deuxi`me chapitre que les approches qui consid`rent les
e e e
documents (requˆtes) comme des sacs de concepts ne permettent pas de r´soudre des
e e
requˆtes prćises. Dans notre approche, nous proposons d’utiliser les dimensions de
e e
domaine pour mettre en exergue les ´l´ments pertinents qui contribuent ` la descrip-
ee a
tion du contenu s´mantique des documents et des requˆtes. Ainsi, nous utilisons les
e e
dimensions, les concepts et les relations pour d´finir une nouvelle unit´ d’indexation
e e
qui nous permet de produire une repr´sentation prćise du contenu des documents et
e e
des requˆtes tout en consid´rant les aspects li´s ` leur s´mantique. Par cons´quent,
e e e a e e
au lieu de consid´rer un document qui parle du “pr´sident fran¸ais Jacques Chirac”
e e c
comme un sac de concepts, nous repr´sentons son contenu par l’´l´ment appartenant
e ee
` la dimension “Personne” qui est “Jacques Chirac” et qui est “pr´sident” originaire
a e
de “France”. De mˆme, lors de l’interrogation, l’utilisateur peut dćrire son besoin
e e
en identifiant l’´l´ment qu’il recherche (ex. le nom d’un joueur : “Zidane”) et/ou en
ee
le dćrivant en utilisant un ou plusieurs concepts. De cette mani`re, en voulant cher-
e e
cher un ´l´ment qui correspond ` un pr´sident fran¸ais, l’utilisateur peut prćiser
ee a e c e
que l’´l´ment appartient ` la dimension “Personne”, et qu’il est “Pr´sident” dćrit
ee a e e
par le concept “France”9 .

L’´l´ment de dimension : une nouvelle unit´ d’indexation
ee e

Tout concept spćifique ` une dimension est susceptible de constituer un ´l´ment
e a ee
de cette dimension lorsqu’il est utilis´ dans un document ou une requˆte. Un ´l´ment
e e ee
d’une dimension dimi est une expression ALCQ qui cherche ` correspondre le plus
a
prćis´ment possible au concept spćifique de dimi auquel il est fait r´f´rence dans
e e e ee
un document ou une requˆte. Cette expression est une conjonction dont au moins
e
un des concepts appartient ` dimi . Elle peut contenir d’autres concepts qui servent
a
` “raffiner” la description de l’´l´ment de dimension en question. Formellement, un
a ee
9
Deux concepts appartenant chacun ` une dimension diff´rente : “France” appartient ` la di-
a e a
mension “Lieu gógraphique”, et “Pr´sident” appartient ` la dimension “Personne”.
e e a

79

´l´ment de la dimension dimi est une expression ALCQ de la forme suivante :
ee

edimi ≡ cidf
e 1 ⊓ . . . ⊓ cidf n ⊓ ∃ dćrit par.cdes 1 ⊓ . . . ⊓ ∃ dćrit par.cdes m
e e

o` :
u

- les concepts cidfi appartiennent ` dimi ;
a
- les concepts cdes j appartiennent ` d’autres dimensions que dimi .
a

edimi est donc identifi´ par les concepts cidfi , et dćrit par les concepts cdes j .
e e e
dćrit par est une relation utilisé uniquement lors de la mod´lisation pour dćrire
e e e e
un ´l´ment de dimension. Dans la pratique, elle est remplacé par d’autres relations
ee e
concr`tes (Par ex. Pr´sident originaire de France, Pathologie affecte F´mur, etc.).
e e e

Exemple 1

Soit un document qui contient l’´l´ment de la dimension “Personne” SteveJobs
ee
et l’´l´ment de la dimension “Organisation” Apple, Inc.. Supposons que ces deux
ee
´l´ments de dimensions sont repr´sent´s respectivement par edimp et edimo . Nous
ee e e
aurons ainsi :

edimP ≡ Steve Jobs
edimO ≡ Apple, Inc

Exemple 2

Dans un document qui contient le “Gń´ral fran¸ais Philippe Morillon”, l’´l´ment
e e c ee
de la dimension “Personne” est identifi´ par “Philippe Morillon” et “Gń´ral”, et
e e e
dćrit par “France”. Supposons que cet ´l´ment de dimension soit repr´sent´ par
e ee e e
edimp . Nous aurons ainsi :

edimp ≡ P hilippe Morillon ⊓ Gń´ral ⊓ ∃ originaire de.F rance
e e

80

Si l’on indexe un document par l’´l´ment edimp , cela peut paraˆ redondant
ee ıtre
car P hilippe Morillon ⊑ Gń´ral et P hilippe Morillon ⊑ ∃ originaire de.F rance.
e e
Mais ca ne l’est pas car la ressource externe ne contient pas forc´ment toutes les
¸ e
connaissances pr´sentes dans les documents (on ne sait pas forc´ment que Philippe
e e
Morillon est originaire de France). Ceci permettra par exemple de r´pondre ` une
e a
requˆte dont le contenu est repr´sent´ par ∃ originaire de.F rance.
e e e

Dans notre mod`le de document, les ´l´ments de dimension sont utilis´s afin de
e ee e
produire une repr´sentation prćise du contenu s´mantique des documents. Nous
e e e
proposons ainsi le rˆle index´ par afin d’associer un ´l´ment de dimension ` un
o e ee a
document. Soit un document doc contenant d dimensions, pour chacune il existe ni
´l´ments de dimension. La repr´sentation (l’index) docI du contenu s´mantique de
ee e e
doc est une expression ALCQ sur VDoc ∪ {index´ par} repr´senté de la forme sui-
e e e
vante :

docI ≡ ∃ index´ par.edim1 ⊓ . . . ⊓ ∃ index´ par.edim1 ⊓ . . . ⊓ ∃ index´ par.edimi ⊓
e 1 e n1 e 1
. . . ⊓ ∃ index´ par.edimni ⊓ . . . ⊓ ∃ index´ par.edim1 ⊓ . . . ⊓ ∃ index´ par.edimd
e i
e d
e nd

Apr`s le processus d’indexation, toutes les repr´sentations docI des documents
e e
doc sont ajoutés ` la T-Box. Celle-ci contient alors, en plus des connaissances du
e a
domaine, les index des documents pr´sents dans la collection.
e

Dans la figure 3.2, nous pr´sentons la repr´sentation graphique de notre mod`le
e e e
de document. Le contenu s´mantique d’un document physique doc est repr´sent´ par
e e e
le concept docI qui est une expression ALCQ. docI est d´fini par la conjonction d’un
e
ensemble d’´l´ments de dimensions edim qui sont reli´s ` docI par le rˆle index´ par.
ee e a o e
Chaque ´l´ment de dimension edim est identifi´ par un concept de la dimension `
ee e a
laquelle il appartient (⊑ cidf ) ou bien sa racine (⊑ rac dim). edim peut ˆtre dćrit
e e
par z´ros ou plusieurs concepts (∃ dćrit par.cdes ). Notons que les documents phy-
e e
siques qui ont le mˆme contenu sont repr´sent´s par des concepts (expression ALCQ)
e e e

81

Fig. 3.2 – Repr´sentation graphique du mod`le de document
e e

´quivalents.
e

Exemple

Soit un document doc qui parle des “deux soci´t´s d’informatique Microsoft et
ee
Apple, Inc.” et de “Bill Gates” et “Steve Jobs”. A partir de ce document, nous pou-
vons identifier deux ´l´ments de la dimension “Organisation”, que nous appelons res-
ee
pectivement edimo et edimo , et deux ´l´ments de la dimension “Personne” que nous
1 2 ee
appelons respectivement edim1 et edimp . edimo et edim2 sont dćrits par “Soci´t´
p
2 1
o
e ee
d’informatique” et identifi´s respectivement par “Microsoft” et “Apple, Inc.”. edimp
e 1
p
et edim2 sont identifi´s respectivement par “Bill Gates” et “Steve Jobs”. Ainsi, ces
e
´l´ments seront repr´sent´s comme suit :
ee e e

edimo ≡ Microsoft ⊓ Soci´t´ d’informatique
1 ee
o
edim2 ≡ Apple, Inc. ⊓ Soci´t´ d’informatique
ee
edimp ≡ Bill Gates
1

82

edimp ≡ Steve Jobs
2

Finalement la repr´sentation du contenu s´mantique du document doc dans la
e e
T-Box est d´finie comme suit :
e

docI ≡ ∃ index´ par.edimo ⊓ ∃ index´ par.edimo ⊓ ∃ index´ par.edimp ⊓
e 1 e 2 e 1
∃ index´ par.edimp
e 2

Chaque ´l´ment de dimension edimi a un poids wedimi qui caract´rise son
ee ni ni
e
degr´ d’importance ` dćrire le contenu du document auquel il appartient10 . La
e a e
valeur de wedimi d´pend des poids des concepts qui l’identifie et des concepts qui le
ni
e
dćrivent. En effet, nous supposons que plus le poids des concepts identifiant edimi
e ni
est grand, plus wedimni est ´lev´. Nous supposons ´galement que plus il y a des
i e e e
concepts dćrivant edimi , plus la valeur de wedimi est ´levé.
e ni ni
e e

3.6.2 Mod`le de requˆte
e e
Prámbule
e

Dans les syst`mes de recherche existants, le mode d’interaction typique avec l’uti-
e
lisateur est bas´ sur les mots-cl´s ou sur le processus de requˆte par l’exemple : dans
e e e
le premier cas, l’utilisateur introduit une liste de mots-cl´s pour dćrire son besoin
e e
d’information. A partir de la requˆte, le syst`me essaye d’interpr´ter le besoin de
e e e
l’utilisateur et r´pondre par un ensemble de documents. Dans le deuxi`me cas, un
e e
utilisateur propose une image en entré du syst`me qui gń`re une requˆte puis pro-
e e e e e
pose en sortie les images qui lui sont les plus ’proches’ ou ’similaires’.

Ces modes d’interaction souffrent du fait que les besoins de l’utilisateur restent
implicites. En effet, le syst`me doit utiliser sa connaissance du contenu de la requˆte
e e
(mots-cl´s ou image) afin d’extraire l’information explicite et mettre en œuvre les
e
repr´sentations correspondantes. Ce processus peut aboutir ` des ambigu¨ es et des
e a ıt´
r´sultats de recherche peu satisfaisants lorsque le besoin de l’utilisateur est tr`s prćis.
e e e

10
Dans notre mod´lisation, les poids ne font pas partie de la DL. Nous les utilisons plus loin pour
e
l’ordonnancement des documents pertinents pour une requˆte. e

83

Nous proposons ici un mod`le bas´ sur un langage de requˆte textuel expressif
e e e
dans le sens o` il permet ` l’utilisateur d’exprimer des requˆtes prćises en combi-
u a e e
nant dimensions, concepts et relations de son domaine d’int´rˆt. La requˆte peut ˆtre
ee e e
enrichie, en cas de besoin, par un ensemble d’op´rateurs.
e

Ainsi, l’interaction avec l’utilisateur est directe puisque, contrairement aux syst`-
e
mes existants, l’utilisateur prend en charge le processus de formulation de requˆte
e
11
en traduisant ses besoins au syst`me de mani`re explicite et prćise .
e e e

Nous pr´sentons apr`s les ´l´ments de base de notre mod`le de correspondance.
e e ee e
Nous dćrirons dans un premier temps le langage de requˆtes puis nous aborderons les
e e
conditions ` v´rifier pour tout couple (q, doc) afin que le document doc soit consid´r´
a e ee
pertinent pour la requˆte q selon le processus de correspondance d´fini pour notre
e e
mod`le de recherche orient´ prćision.
e e e

Langage de requˆtes
e

Dans notre mod`le de requˆte, les ´l´ments de dimension sont utilis´s afin de
e e ee e
produire une repr´sentation prćise du contenu s´mantique des requˆtes. Ainsi, la
e e e e
repr´sentation d’une requˆte q est d´finie par la combinaison de crit`res de s´lection
e e e e e
sur les ´l´ments de dimensions introduit par l’utilisateur pour identifier les docu-
ee
ments recherch´s. Nous proposons ` l’utilisateur d’employer explicitement des re-
e a
lations s´mantiques afin d’identifier et/ou dćrire des ´l´ments de dimensions (cf.
e e ee
section 3.6.1). Formellement, une requˆte est repr´senté de la mˆme mani`re qu’un
e e e e e
document avec en plus les op´rateurs qui permettent ` l’utilisateur de dćrire son
e a e
besoin avec prćision.
e

Soit une requˆte q contenant d dimensions, pour chacune il existe ni ´l´ments
e ee
de dimension. La repr´sentation qI du contenu s´mantique de q est une expression
e e
ALCQ sur VQ ∪ {index´ par}. Le rˆle index´ par, introduit prć´demment, permet
e o e e e
d’associer un ´l´ment de dimension ` une requˆte.
ee a e

Chaque ´l´ment de dimension edimi peut avoir un poids wedimi qui pond`re
ee ni ni
e
11 ´
Evidemment, une interface graphique doit ˆtre proposé a l’utilisateur pour qu’il exprime son
e e `
besoin en langue naturel.

84

son degr´ d’importance pour dćrire le contenu de la requˆte ` laquelle il appartient.
e e e a
La valeur de wedimi peut ˆtre introduite par l’utilisateur ` travers une interface au
ni
e a
cas o` il le souhaite.
u

Expression de requˆtes
e

L’expression de requˆtes a pour but d’extraire un ensemble de documents jug´s
e e
pertinents par le syst`me. La repr´sentation d’une requˆte q doit donc dńoter l’en-
e e e e
semble des documents qui lui sont pertinents. De cette mani`re, nous pourrons
e
s´lectionner tous les documents doc tel que docI est subsum´ par qI.
e e

Relations d’interrogation

Comme dans le mod`le de document, les relations de subsomption, et dćrit par
e e
sont utilisés pour l’interrogation. La diff´rence ici par rapport au mod`le de docu-
e e e
ment est que l’utilisateur doit employer explicitement ces deux relations afin d’iden-
tifier et dćrire les ´l´ments de dimension dans sa requˆte. Pour cette raison, nous
e ee e
fournissons ` l’utilisateur ces deux relations lors du processus de formulation de
a
requˆtes. L’usage de ces relations peut ˆtre effectu´ d’une mani`re graphique simple
e e e e
en proposant ` l’utilisateur des zones de texte pour les concepts qui servent ` iden-
a a
tifier les ´l´ments de dimensions, et d’autres zones de texte pour les concepts qui
ee
servent ` les dćrire.
a e

La relation de subsomption

L’utilisateur emploie la relation de subsomption (est un) pour identifier un ´l´ment
ee
de dimension dans sa requˆte.
e

Exemple

Dans la requˆte R9, l’utilisateur est ` la recherche d’un document qui contient un
e a
´l´ment de la dimension “Personne” : “Steve Jobs” ou un ´l´ment de la dimension
ee ee
“Organisation” : “Apple, Inc.”. Dans ce cas, les ´l´ments des dimensions “Person-
ee
ne” et “Organisation” sont identifi´s respectivement par les concepts “Steve Jobs”
e
et “Apple, Inc.”. Supposons que ces deux ´l´ments de dimensions soient repr´sent´s
ee e e

85

respectivement par edimp et edimo . Nous aurons ainsi :

edimo ≡ Apple, Inc.

Dans le langage ALCQ, la requˆte R9 se traduit donc par la notation suivante :
e

R9 ≡ ∃ index´ par.edimp ⊔ ∃ index´ par.edimo
e e

Le syst`me interpr`te cette requˆte de la mani`re suivante : l’utilisateur est ` la
e e e e a
recherche d’un document qui contient un ´l´ment de la dimension “Personne” qui
ee
est “Steve Jobs” ou un ´l´ment de la dimension “Organisation” qui est “Apple, Inc.”.
ee

La relation dćrit par :
e

Cette relation est employé par l’utilisateur afin de dćrire un ´l´ment de dimen-
e e ee
sion par un ou plusieurs concepts.

Exemple

R15 : “Donne-moi les documents qui parlent du joueur fran¸ais qui a eu un
c
carton rouge lors de la finale de la coupe du monde FIFA 2006 ”.

L’utilisateur cherche un document qui contient un ´l´ment de la dimension “Per-
ee
sonne” : un “Joueur” qui est originaire de “France”. Soit edimp l’´l´ment recherch´
ee e
par l’utilisateur. edimp est dćrit par un concept de la dimension “Personne” :
e
“Joueur”, et un concept de la dimension “Lieu gógraphique” : “France”. Il est
e
donc repr´sent´ comme suit :
e e

edimp ≡ Joueur ⊓ ∃ originaire de.F rance

La requˆte R15 se traduit donc par la notation suivante :
e

86

R15 ≡ ∃ index´ par.edimp
e

Dans les sections suivantes, nous pr´sentons comment ces relations sont utilisés
e e
par le syst`me pour r´pondre ` une requˆte. Mais avant cela, nous introduisons
e e a e
maintenant les op´rateurs que notre syst`me fournit ` l’utilisateur pour prćiser son
e e a e
besoin.

Op´rateurs d’interrogation
e

En fonction des besoins d’information que nous avons pr´sent´s au d´but de ce
e e e
chapitre, nous distinguons trois types d’op´rateurs : booléns, quantificateurs, jauge.
e e
Nous d´taillons chacun d’eux dans les sections suivantes.
e

Op´rateurs booléns
e e

Nous distinguons trois op´rateurs booléns : la conjonction noté ⊓, la disjonc-
e e e
tion noté ⊔, et lan´gation mat´rialisé par ¬. Nous pr´sentons quelques exemples
e e e e e
de requˆtes afin de montrer l’utilit´ de ces op´rateurs et leur usage dans notre mod`le.
e e e e

La conjonction

Exemple

La requˆte R8 met en œuvre un ´l´ment de la dimension “Personne : “Bill Ga-
e ee
tes” et un ´l´ment de la dimension “Organisation” : “Soci´t´ d’informatique”, par
ee ee
l’interm´diaire d’une conjonction. Nous repr´sentons ces deux ´l´ments de dimension
e e ee
respectivement par edimp et edimo .

edimo ≡ Soci´t´ d′ inf ormatique
ee

La requˆte R8 a donc l’expression suivante dans notre mod`le :
e e

87

R8 ≡ ∃ index´ par.edimp ⊓ ∃ index´ par.edimo
e e

La disjonction

Exemple

La requˆte R9 met en œuvre un ´l´ment de la dimension “Personne” : “Steve
e ee
Jobs” et un ´l´ment de la dimension “Organisation” : “Apple, Inc.”, par l’interm´diai-
ee e
re d’une disjonction. Nous repr´sentons ces deux ´l´ments respectivement par edimp
e ee
et edimo .

edimo ≡ Soci´t´ d′ inf ormatique
ee

e e

R9 ≡ ∃ index´ par.edimp ⊔ ∃ index´ par.edimo
e e

La n´gation
e

Exemple 1

La requˆte R10 met en œuvre un ´l´ment de la dimension “Anatomie” : “Tibia” et
e ee
un ´l´ment de la dimension “Pathologie” : “Pathologie du tibia”, par l’interm´diaire
ee e
d’une n´gation. Nous repr´sentons ces deux ´l´ments respectivement par edima et
e e ee
edimp .

edima ≡ T ibia
edimp ≡ rac P athologie ⊓ ∃ af f ecte.T ibia

88

e e

R10 ≡ ∃ index´ par.edima ⊓ ¬∃ index´ par.edimp
e e

Ceci se traduit par le fait qu’un document pertinent doit contenir un tibia et
aucune pathologie lié ` cette partie de l’anatomie. Comme la pathologie dans cette
e a
requˆte est un ´l´ment gń´rique, il faut donc identifier tous les types de pathologies
e ee e e
que l’on peut avoir sur un tibia et les utiliser pour r´pondre ` cette requˆte.
e a e

Exemple 2

La requˆte R13 met en œuvre un ´l´ment de la dimension “Anatomie” : “Tibia”
e ee
et un ´l´ment de la dimension “Pathologie” : “Fracture”, par l’interm´diaire d’une
ee e
n´gation. Nous repr´sentons ces deux ´l´ments respectivement par edima et edimp .
e e ee

edima ≡ Tibia
edimp ≡ Fracture

La requˆte R13 a donc la transcription suivante dans notre mod`le :
e e

R13 ≡ ∃ index´ par.edima ⊓ ¬∃ index´ par.edimp
e e

Ceci se traduit par le fait qu’un document pertinent doit contenir un tibia sans
fracture. Il est possible qu’une image contenant un tibia avec une luxation puisse
ˆtre consid´ré comme pertinente par l’utilisateur. Comme la pathologie dans cette
e ee
requˆte est identifié, l’appariement se fait entre le document et la requˆte en prenant
e e e
en compte seulement la pathologie “fracture” pour ´liminer les documents corres-
e
pondants.

Combinaisons des op´rateurs booléns
e e

89

Exemple

La requˆte R12 met en œuvre un ´l´ment de la dimension “Anatomie” : “Tibia”,
e ee
et deux ´l´ments de la dimension “Pathologie” : “Fracture” ou “Luxation”, par l’in-
ee
term´diaire d’une conjonction. Nous repr´sentons ces trois ´l´ments respectivement
e e ee
p p
par edima , edim1 , et edim2 .

edima ≡ T ibia
edimp ≡ F racture
1
edimp ≡ Luxation
2

e e

R12 ≡ ∃ index´ par.edima ⊓ (∃ index´ par.edimp ⊔ ∃ index´ par.edimp )
e e 1 e 2

Op´rateur quantificateur
e

L’op´rateur quantificateur permet ` l’utilisateur de prćiser le nombre d’´l´ments
e a e ee
de dimensions qu’il aimerait trouver dans le document pertinent. Nous distinguons
trois valeurs possibles ` cet op´rateur : ´gal mat´rialis´ par “=”, au moins mat´rial-
a e e e e e
isé par , et au plus mat´rialisé par . La restriction de nombre “= nR.C” n’est
e e e
pas incluse dans le langage ALCQ mais nous pouvons l’exprimer par ( nR.C ⊓
nR.C).

Le cas ´gal
e

Exemple

Soit la requˆte R16 “Donne-moi une image qui contient Zinedine Zidane tout
e
seul”.

Cette requˆte contient un ´l´ment de la dimension “Personne” : “Zinedine Zida-
e ee
ne”, avec une restriction de nombre (tout seul). Nous repr´sentons cet ´l´ment par
e ee

90

edimp . Le document pertinent doit contenir un seul ´l´ment de la dimension per-
1 ee
sonne. Aﬁn d’exprimer ce besoin d’information, nous avons besoin des deux ´l´ments
ee
suivants :

edimp ≡ Zinedine Zidane
1
p
edim2 ≡ rac P ersonne

e e

R16 ≡ ∃ index´ par.edimp ⊓ ∃ = 1 index´ par.edimp
e 1 e 2

Les cas au moins et au plus

Exemple

La requˆte R2 contient deux ´l´ment de la dimension Personne : Bill Gates et
e ee
Steve Jobs, et un ´l´ment de la dimension Organisation : Soci´t´ d’informatique.
ee ee
p p
Nous repr´sentons ces trois ´l´ments respectivement par edim1 , edim2 , et edimo .
e ee 1

1
p
edim2 ≡ Steve Jobs

edimo ≡ Soci´t´ d’informatique
1 ee

Nous remarquons que le document recherch´ doit contenir au moins deux
e
soci´t´ d’informatique. Ceci se traduit dans notre mod`le par l’op´rateur quanti-
ee e e
ﬁcateur 2.

e e

91

R2 ≡ ∃ index´ par.edimp ⊓ ∃ index´ par.edimp ⊓
e 1 e 2 2 index´ par.edimo
e 1

Le cas “au plus” est idem ` ce cas en changeant le symbole “ ” par “ ”.
a

Op´rateur jauge
e

Cet op´rateur permet ` l’utilisateur de prćiser les degr´s d’importance relatifs
e a e e
aux ´l´ments de dimension de sa requˆte. Ce degr´ peut ˆtre mat´rialis´ par un poids
ee e e e e e
qui correspond ` une valeur rélle appartenant ` l’intervalle [0,1]12 .
a e a

En effet, comme d´j` discut´, il est possible qu’un utilisateur veuille prćiser qu’il
ea e e
y a des ´l´ments de dimensions de sa requˆte qui sont obligatoires et d’autres qui sont
ee e
optionnels. En rálit´, un ´l´ment de dimension marqu´ comme obligatoire dans
e e ee e
une requˆte doit absolument apparaˆ dans les documents retrouv´s, alors qu’un
e ıtre e
´l´ment de dimension optionnel peut y apparaˆ ou non. Cette notion d’obligation
ee ıtre
n’est pas nouvelle : Kefi et ses collaborateurs [48] ont propos´ d’utiliser les crit`res
e e
obligatoire et optionnel dans un contexte o` l’utilisateur a d´j` vu les documents
u ea
et ne se souvient pas exactement de leur contenu. Leur but ´tait de permettre une
e
formulation prćise mais nánmoins aisé de la requˆte. Nous nous inspirons ici de
e e e e
leur travail pour utiliser ces deux crit`res.
e

Ces deux modalit´s d’expression de besoin peuvent ˆtre prises en compte dans
e e
notre mod`le en utilisant les poids. Ainsi, un ´l´ment obligatoire doit avoir un poids
e ee
´gal ` 1, tandis qu’un ´l´ment optionnel doit avoir un poids ´gal ` 0.
e a ee e a

Il est possible que l’utilisateur n’arrive pas ` dćider quels ´l´ments sont obliga-
a e ee
toires et quels ´l´ments sont optionnels. Dans ce cas, nous lui fournissons ` travers
ee a
notre mod`le un moyen pour privil´gier certains ´l´ments ` d’autres sans pour autant
e e ee a
prćiser ce qui est obligatoire et ce qui est optionnel. Ceci peut ˆtre mis en œuvre
e e
par des valeurs de priorit´ que l’utilisateur donne ` chaque ´l´ment de dimension de
e a ee
sa requˆte.
e
12
Nous rappelons que les poids ne sont pas int´gr´ dans notre mod`le ` base de logique descriptive.
e e e a
Ils sont uniquement utilis´s pour l’ordonnancement des documents pertinents pour une requˆte.
e e

92

L’´l´ment de dimension qui a une priorit´ i doit apparaˆ dans tous les docu-
ee e ıtre
ments retrouv´s, sinon, c’est l’´l´ment de dimension qui a une priorit´ i+1. Avec i
e ee e
est un entier qui appartient ` l’intervalle [2, nd+1], et nd est le nombre d’´l´ments
a ee
de dimensions pr´sents dans la requˆte.
e e

Les documents r´ponses ` une requˆte sont class´s en fonction des priorit´s des
e a e e e
´l´ments de dimensions qu’ils contiennent. Une classe de documents est cr´é pour
ee ee
chaque valeur de priorit´. Comme un document peut contenir plusieurs ´l´ments de
e ee
dimensions qui ont des priorit´s diff´rentes, il peut appartenir ` plusieurs classes `
e e a a
la fois. Les classes des documents r´ponses sont pr´sentés ` l’utilisateur en fonction
e e e a
de la valeur de priorit´ de dimension en question : d’abord, la classe des documents
e
contenant les ´l´ments de dimensions de priorit´ i, ensuite celle des documents conte-
ee e
nant les ´l´ments de dimensions de priorit´ i+1, ainsi de suite. L’ordre d’affichage
ee e
des documents au sein d’une mˆme classe est calcul´ ` l’aide de la fonction d’ordon-
e ea
nancement que nous verrons plus loin dans ce manuscrit.

Obligatoire vs optionnel

Exemple

`
A travers la requˆte R1, l’utilisateur cherche des documents qui parlent d’une per-
e
sonne. Donc un document pertinent doit obligatoirement contenir l’´l´ment dćrivant
ee e
cette personne. Mˆme si ce document ne parle pas du conflit ou des Balkans, il peut
e
ˆtre consid´r´ pertinent.
e ee

Soit edimp la repr´sentation de l’´l´ment de la dimension “Personne” : “Gń´ral
e ee e e
fran¸ais”, edime repr´sente l’´l´ment de la dimension “Evńement” : “Conflit des
c e ee e
l l
Balkans”, et edim1 et edim2 repr´sentent respectivement les deux ´l´ments de la
e ee
dimension “Lieu gógraphique”.
e

edimp ≡ Gń´ral ⊓ ∃ originaire de.F rance
e e
edime ≡ Conf lit des Balkans
ediml ≡ Balkans
1
ediml ≡ Zone de sćurit´ ⊓ ∃ cré pendant.Conf lit des Balkans
2 e e e´

93

Supposons que l’´l´ment de la dimension “Personne” est obligatoire, et les autres
ee
´l´ments sont optionnels. Dans ce cas, la requˆte R1 a la transcription suivante dans
ee e
notre mod`le :
e

R1 ≡ ∃ index´ par.edimp
e

Priorit´
e

Supposons maintenant que l’utilisateur veuille prćiser des priorit´s sur les ´l´me-
e e ee
nts de dimension de sa requˆte. Par exemple, l’´l´ment de la dimension “Personne”
e ee
est le plus prioritaire, et ceux de la dimension “Lieu gógraphique” sont les moins
e
prioritaires.

Formellement, il est relativement compliqu´ de d´finir cet op´rateur dans le lan-
e e e
gage ALCQ que nous avons adopt´. Mais techniquement, il est tr`s simple de l’ap-
e e
pliquer. En effet, il suffit de retourner les documents qui contiennent l’´l´ment de
ee
dimension de priorit´ i, suivis par les documents qui contiennent l’´l´ment de dimen-
e ee
sion de priorit´ i + 1, et ainsi de suite.
e

Afin de spćifier les crit`res de recherche les plus exigeants dans le processus de
e e
recherche, il est possible qu’une requˆte combine tous les op´rateurs propos´s dans
e e e
notre mod`le.
e

Finalement, comme pour les documents (cf. la figure 3.2), la repr´sentation qI
e
du contenu s´mantique de q est une expression ALCQ. Lors de l’interrogation, l’ex-
e
pression qI est ajouté ` la T-Box qui contient d´j` les connaissances du domaine
e a ea
ainsi que les index des documents de la collection. Il ne reste donc qu’` ´valuer la
ae
requˆte.
e

94

3.6.3 ´
Evaluation des requˆtes
e
Pour ´valuer une requˆte, nous avons besoin d’une fonction qui respecte les
e e
contraintes imposés par l’utilisateur pour la correspondance entre un document
e
et une requˆte. Cette fonction est d´finie au niveau de l’indexation pour la corres-
e e
pondance qui est basé sur la logique descriptive.
e

Nous avons ´galement besoin d’une fonction qui permette d’organiser les docu-
e
ments dans leur ordre de pertinence par rapport ` la requˆte. cette fonction est
a e
d´finie au niveau de l’indexation pour l’ordonnancement que nous pr´sentons dans
e e
la suite.

Nous illustrons dans la suite comment ces deux fonctions sont int´grés dans
e e
notre mod`le.
e

La fonction de correspondance fSel

La fonction de correspondance est basé sur le calcul de la subsomption dans la
e
T-Box. En effet, en logique descriptive, le processus de RI peut ˆtre vu comme la
e
tˆche de retrouver les documents repr´sent´s par des concepts qui sont subsum´s par
a e e e
le concept repr´sentant la requˆte. Pour deux concepts C1 et C2 appartenant ` la
e e a
T-Box T , on consid`re que C1 est subsum´ par C2 dans T (C1 ⊑T C2 ) si et seulement
e e
I I
si, pour chaque mod`le I de T , il est vrai que C1 ⊆ C2 .
e

Dans la figure 3.3, un document doc et une requˆte q sont repr´sent´s respec-
e e e
tivement, au niveau de l’indexation pour la correspondance, par docI et qI
dans la T-Box. La correspondance entre doc et q se traduit en logique descriptive
par la subsomption : doc est consid´r´ pertinent pour q si docI est subsum´ par qI
ee e
(docI ⊑T qI) (c’est-`-dire, en v´rifiant que docI I ⊆ qI I est vrai). Cette v´rification
a e e
prend en compte les documents qui satisfont l’op´rateur boolén, l’op´rateur quan-
e e e
tificateur, et l’op´rateur jauge qui sont utilis´s pour la d´finition du concept qI
e e e
repr´sentant la requˆte.
e e

Finalement, l’ensemble des documents pertinents pour une requˆte q est d´fini
e e
comme suit :

95

DP ert = {doc ∈ Doc|docI ⊑K qI}

Fig. 3.3 – Calcul de la correspondance entre un document doc et une requˆte q au
e
niveau de l’indexation pour la correspondance

Afin de proposer ` l’utilisateur une liste de documents ordonn´s, nous organi-
a e
sation l’ensemble DP ert en fonction du degr´ de pertinence de ses documents par
e
rapport ` la requˆte. Cette ´tape est dćrite dans la section suivante.
a e e e

La fonction d’ordonnancement fOrd

La fonction d’ordonnancement fOrd a pour but d’organiser les documents re-
tourn´s pour une requˆte. Comme nous l’avons d´j` mentionn´, cette fonction n’est
e e ea e
pas mod´lisé en DL dans notre mod`le. Nous n’avons pas encore abord´ prćis´ment
e e e e e e
ce probl`me d’ordonnancement, c’est pourquoi nous n’avons pas d´fini une fonction
e e
particuli`re ` cet effet. Il existe plusieurs m´triques dont nous pouvons nous inspirer
e a e
pour d´finir une fonction d’ordonnancement.
e

D’une mani`re gń´rale, la fonction fOrd doit calculer une valeur de pertinence,
e e e
noté RSV13 , d’un document doc par rapport ` une requˆte q en tenant compte des
e a e
13
Retrieval Status Value.

96

param`tres suivants :
e

- Les poids des ´l´ments de dimension dans doc : plus le poids des ´l´ments de di-
ee ee
mension partag´s par q et doc est grand, plus la valeur de pertinence de doc
e
est ´lev´e par rapport ` q ;
e e a

- Les poids des ´l´ments de dimension dans q : plus doc contient des ´l´ments de
ee ee
dimension dont le poids est ´lev´ dans q, plus la valeur de pertinence de doc
e e
est grande ;

- Les valeurs de priorit´ des ´l´ments de dimension dans q : un document contenant
e ee
un ´l´ment de dimension dont la valeur de priorit´ est ´gale ` Π est plus per-
ee e e a
tinent qu’un document contenant un ´l´ment de dimension dont la valeur de
ee
priorit´ est ´gale ` Π + 1.
e e a

Fig. 3.4 – Calcul du RSV entre une requˆte et un document au niveau de l’indexation
e
pour l’ordonnancement

Dans nos exp´rimentations (cf. chapitre 4), nous avons utilis´ le mod`le vectoriel
e e e
pour mettre en œuvre la fonction fOrd . Dans ce cas, comme pr´sent´ dans la ﬁgure
e e
3.4, un document doc et une requˆte q sont repr´sent´s respectivement, au niveau de
e e e
−→
l’indexation pour l’ordonnancement, par les vecteurs doc et − . Le RSV entre
→
q
doc et q est calcul´ en appliquant le cosinus sur l’angle form´ par les deux vecteurs
e e
−→ − →.
doc et q

97

3.7 Conclusion
En consid´rant les exigences de l’utilisateur en termes de prćision, nous avons
e e
propos´ un mod`le de Recherche d’Information capable de r´soudre des requˆtes
e e e e
prćises. En se basant sur des connaissances du domaine repr´sentés ` travers une
e e e a
ressource externe, nous avons propos´ d’utiliser les dimensions de domaine pour
e
mettre en exergue les ´l´ments pertinents qui contribuent ` la description du contenu
ee a
s´mantique des documents et des requˆtes. Ainsi, nous utilisons les dimensions, les
e e
concepts et les relations pour d´finir une nouvelle unit´ d’indexation : l’´l´ment
e e ee
de dimension. L’utilisation des ´l´ments de dimension nous permet de produire
ee
une repr´sentation prćise des documents tout en consid´rant les aspects li´s ` leur
e e e e a
s´mantique. Un langage expressif de requˆte a ´t´ propos´ afin de permettre ` l’usa-
e e ee e a
ger d’utiliser des ´l´ments de dimensions et des op´rateurs pour dćrire avec prćision
ee e e e
son besoin d’information.

Afin de d´finir notre mod`le, nous avons choisi un formalisme de repr´sentation de
e e e
connaissances ad´quat qui permet la repr´sentation prćise du contenu s´mantique
e e e e
des documents et des requˆtes : il s’agit de la logique descriptive. Ainsi, nous avons
e
pu incorporer les connaissances du domaine lors de la d´finition de notre mod`le
e e
tout en garantissant une repr´sentation uniforme des documents, des requˆtes et de
e e
la ressource externe. Nous avons montr´ que ce formalisme dispose d’un niveau d’ex-
e
pressivit´ assez ´lev´ qui convient tr`s bien ` la repr´sentation prćise du contenu
e e e e a e e
s´mantique des documents et des requˆtes. Ce formalisme offre ´galement un moyen
e e e
pour calculer la correspondance entre un document et une requˆte mettant en œuvre
e
la pertinence syst`me : il s’agit de l’algorithme de calcul de subsomption.
e

Dans le chapitre suivant, nous montrons, ` travers la mise en œuvre de notre
a
mod`le, ses apports significatifs par rapport aux approches existantes. Nous pr´sentons
e e
en particulier, comment le calcul de la subsomption est un moyen efficace pour
r´soudre des requˆtes prćises repr´sentés dans notre mod`le. Nous pr´sentons
e e e e e e e
´galement l’impact positif de l’utilisation des dimensions de domaine sur les per-
e
formances d’un Syst`me de Recherche d’Information.
e

98

Chapitre 4

Mise en œuvre du mod`le
e

4.1 Introduction
La premi`re partie de ce chapitre est consacré ` la mise en œuvre de notre mod`le
e e a e
bas´ sur la logique descriptive. Nous y pr´sentons les ´tapes nćessaires pour cette
e e e e
mise en œuvre (Section 4.2) et illustrons leur rálisation par des exemples concrets
e
(Section 4.3).

La deuxi`me partie quant ` elle est consacré aux ´valuations exp´rimentales
e a e e e
de l’apport de l’usage des dimensions de domaine. D’abord, nous pr´sentons le
e
contexte dans lequel nous avons men´ nos exp´riences (Section 4.4.1). Ensuite, nous
e e
exposons les conclusions tirés de l’application de notre mod`le sur des requˆtes
e e e
de la collection CLEF-2005 (Section 4.4.2). Dans les sections 4.4.3 et 4.4.4, nous
´valuons exp´rimentalement l’apport de l’utilisation des dimensions de domaine pour
e e
la r´solution de requˆtes prćises (issues du domaine m´dical). Les performances
e e e e
de notre syst`me sont ainsi ´valués en termes de prćision moyenne. Enfin, nous
e e e e
concluons ce chapitre par une synth`se des r´sultats obtenus et quelques perspec-
e e
tives (Section 4.5).

99

4.2 ´
Etapes nćessaires pour la mise en œuvre du
e
mod`le
e
Nous pr´sentons dans la figure 4.1 une description graphique des ´tapes nćessaires
e e e
pour la mise en œuvre de notre mod`le.
e

Fig. 4.1 – Repr´sentation graphique des ´tapes nćessaires pour la mise en œuvre
e e e
du mod`le
e

4.2.1 E1 : Identification des ´l´ments de dimension
ee
La premi`re ´tape consiste ` identifier les ´l´ments de dimension au niveau des
e e a ee
documents (requˆtes). Cette ´tape demande l’extraction, ` partir des documents
e e a
(requˆtes), des concepts et des relations qui servent ` d´finir les ´l´ments de dimen-
e a e ee
sion. Ce processus peut nćessiter un traitement automatique de la langue guid´ par
e e

100

l’utilisation des ressources externes.

Du cˆt´ des documents, nous n’avons pas encore propos´ une m´thode pour ex-
oe e e
traire automatiquement les ´l´ments de dimensions. Ceci s’inscrit dans le cadre de
ee
nos perspectives ` court terme. Dans les exp´riences que nous pr´sentons ici, nous
a e e
avons fait des simplifications pour identifier les ´l´ments de dimension. En effet, dans
ee
une premi`re exp´rience, nous d´finissons un ´l´ment de dimension par un simple mot
e e e ee
(Section 4.4.3). Dans une deuxi`me exp´rience, nous le d´finissons par un concept
e e e
(Section 4.4.4).

Du cˆt´ des requˆtes, le probl`me d’extraction des ´l´ments de dimension ne se
oe e e ee
pose pas vu qu’une interface graphique doit ˆtre proposé ` l’utilisateur afin qu’il
e e a
puisse dćrire son besoin en langue naturelle. Il y aura donc des champs de texte
e
pour dćrire explicitement les ´l´ments de dimensions.
e ee

4.2.2 E2 : Indexation pour la correspondance
Lors de cette ´tape, nous utilisons la logique descriptive pour mod´liser la res-
e e
source externe, les documents, et les requˆtes en se basant respectivement sur le
e
mod`le de connaissances, le mod`le de document, et le mod`le de requˆte que nous
e e e e
avons d´fini. Chaque document (requˆte) est repr´sent´(e) par la conjonction (et/ou
e e e e
la disjonction) d’un ensemble d’´l´ments de dimension. Dans la terminologie de la
ee
logique descriptive, cette ´tape permet de construire la T-Box.
e

4.2.3 E3 : S´lection des documents
e
La troisi`me ´tape concerne la r´solution des requˆtes. Une requˆte peut conte-
e e e e e
nir une combinaison de crit`res de s´lection sur les ´l´ments de dimensions d´finis
e e ee e
par l’utilisateur pour identifier les documents recherch´s. Il n’y a pas de combinai-
e
son “idále” d’op´rateurs pour former une requˆte. C’est ` l’utilisateur de choisir,
e e e a
en fonction de ses besoins et de son domaine d’int´rˆt, un ou plusieurs op´rateurs
ee e
parmi ceux que nous proposons dans notre mod`le de requˆte.
e e

Pour effectuer cette ´tape, nous utilisons une fonction de s´lection (fSel ) qui nous
e e
permet de s´lectionner les documents pertinents pour une requˆte donné. Cette
e e e

101

fonction est basé sur le calcul de la subsumption dans la T-Box construit lors de
e
l’´tape E2.
e

A la fin de cette ´tape, les documents pertinents pour une requˆte sont s´lectionn´s.
e e e e
En vue de pouvoir les organiser dans leur ordre de pertinence par rapport ` la requˆte,
a e
nous proc´dons par les deux ´tapes qui suivent.
e e

4.2.4 E4 : Indexation pour l’ordonnancement
Dans notre mod`le, un ´l´ment de dimension peut avoir un poids qui refl`te son
e ee e
degr´ de repr´sentativit´ dans un document (requˆte). Cette ´tape est consacré donc
e e e e e e
` la pond´ration des ´l´ments de dimension au niveau des documents (requˆtes). A
a e ee e `
ce niveau, nous n’avons pas encore propos´ une m´thode particuli`re, mais nous
e e e
envisageons d’utiliser une des m´triques existantes. En l’occurrence, cette ´tape a
e e
´t´ effectué, lors de nos exp´rimentations, ` l’aide du mod`le vectoriel.
ee e e a e

4.2.5 E5 : Ordonnancement des documents
La cinqui`me et derni`re ´tape consiste ` organiser, en utilisant la fonction fOrd ,
e e e a
les documents s´lectionn´s (par fSel ) dans leur ordre de pertinence par rapport ` la
e e a
requˆte en question. Dans notre mod`le, nous n’avons pas d´fini une fonction par-
e e e
ticuli`re ` cette fin. Nous nous sommes born´s ` utiliser le mod`le vectoriel pour le
e a e a e
calcul d’une valeur de similarit´ entre une requˆte et un document en prenant en
e e
compte les poids des ´l´ments de dimensions.
ee

Nous d´taillons maintenant la rálisation de ces ´tapes en illustrant par des
e e e
exemples concrets.

4.3 Rálisation des ´tapes nćessaires pour la mise
e e e
en œuvre du mod`le
e
Nous reprenons ici l’exemple que nous avons pr´sent´ dans la probl´matique (cf.
e e e
figure 4.2). Nous montrons comment, en disposant d’une ressource externe, d’un
document, et d’une requˆte, la T-Box est construite. Par la suite, nous pr´sentons
e e

102

comment le calcul de la hi´rarchie de subsomption dans la T-Box est utilis´ pour la
e e
r´solution de requˆtes.
e e

Fig. 4.2 – Exemple pour la mise en œuvre du mod`le
e

4.3.1 Rálisation des ´tapes E2 & E3
e e
Il s’agit ici de construire la T-Box contenant les connaissances traités par notre
e
syst`me. La logique descriptive repr´sente un moyen pour pr´senter des informations
e e e
` l’ˆtre humain. Pour que ces informations soient traités par des applications, elles
a e e
doivent ˆtre repr´sentés dans un langage ad´quat. Dans notre cas, nous avons choisi
e e e e
d’utiliser le langage OWL1 (Web Ontology Language). Celui-ci a ´t´ propos´ par le
ee e
1
http ://www.w3.org/TR/owl-features/

103

consortium W3C2 pour ˆtre utilis´ par des applications qui doivent traiter des onto-
e e
logies.

Techniquement, la T-Box, contenant la ressource externe K, les repr´sentations
e
docI des documents et qI des requˆtes, est stocké dans un fichier que nous appelons
e e
T-Box.owl (cf. le contenu de ce fichier dans l’annexe).

Mod`le de connaissances
e

Il s’agit ici de traduire une ressource externe, repr´senté en logique descriptive,
e e
en OWL et la stocker dans le fichier T-Box.owl. Dans notre mod`le, nous supposons
e
que les ressources externes sont d´j` repr´sentés en logique descriptive. Dans le cas
ea e e
contraire, nous avons d´velopp´ un outil qui permet de repr´senter une ressource
e e e
externe existante en logique descriptive et la traduire en format OWL. Nous nous
basons sur des heuristiques tr`s simples pour effectuer la traduction : les entrés de
e e
la ressource externe sont traduites en concepts, et les relations en rˆles [43][85].
o

Pour notre exemple (figure 4.2), voici la description en logique descriptive de la
ressource externe. Sa traduction en OWL est pr´senté dans l’annexe.
e e

⊤

P ersonne ⊑ ⊤
Gń´ral ⊑ P ersonne
e e
P hilippe Morillon ⊑ Gń´ral
e e
P hilippe Morillon ≡ ∃Originaire de.F rance

Lieu gógraphique ⊑ ⊤
e
F rance ⊑ Lieu gógraphique
e
Balkans ⊑ Lieu gógraphique
e
Ex-Yougoslavie ⊑ Lieu gógraphique
e
Ex-Yougoslavie ≡ ∃P artie de.Balkans
Zone de sćurit´ ⊑ Lieu gógraphique
e e e
Serbie ⊑ Ex-Yougoslavie
2
http ://www.w3.org/TR/owl-ref/

104

Slovńie ⊑ Ex-Yougoslavie
e
Zone de sćurit´ ≡ ∃Cré pendant.Conf lit des Balkans
e e e´

´ e
Evńement ⊑ ⊤
´ e
Guerre civile ⊑ Evńement
Conf lit des Balkans ⊑ Guerre civile
Conf lit des Balkans ≡ ∃A lieu a.Balkans
`

A ce niveau, le fichier T-Box.owl contient seulement la ressource externe.

Mod`le de documents
e

Il s’agit ici d’ajouter, ` la T-Box, les repr´sentations des documents tout en res-
a e
pectant le mod`le de documents (cf. figure 4.3). Ainsi, chaque document doc de la
e
collection est repr´sent´, dans le fichier T-Box.owl, par un concept docI qui est une
e e
expression en logique descriptive qui dćrit le contenu de doc.
e

Fig. 4.3 – Repr´sentation graphique du mod`le de document
e e

105

En supposant que les ´l´ments de dimension ont ´t´ extraits ` partir du docu-
ee ee a
ment pr´sent´ dans la figure 4.2, leur repr´sentation en logique descriptive est de la
e e e
mani`re suivante :
e

edim1 ≡ P hilippe Morillon
edim2 ≡ Zone de sćurit´ ⊓ ∃Cré pendant.Guerre civile
e e e´
edim3 ≡ Ex-Yougoslavie
edim4 ≡ Serbie
edim5 ≡ Slovńie
e

Le document de notre exemple est donc repr´sent´ en logique descriptive par
e e
l’expression suivante :

docI ≡ ∃index´ par.edim1 ⊓ ∃index´ par.edim2 ⊓ ∃index´ par.edim3 ⊓
e e e
∃index´ par.edim4 ⊓ ∃index´ par.edim5
e e

Cette expression est ajouté automatiquement ` la T-Box. En effet, nous avons
e a
d´velopp´ un outil qui permet de repr´senter un document en logique descriptive et
e e e
le traduire en format OWL. Cet outil accepte en entré un ensemble d’´l´ments de
e ee
dimensions, et produit en sortie le concept docI et l’ajoute dans le fichier T-Box.owl.

Mod`le de requˆtes
e e

Il s’agit ici d’ajouter ` la T-Box la repr´sentation de la requˆte en respectant
a e e
le mod`le de requˆte propos´. Ainsi, chaque requˆte est repr´senté, dans le fichier
e e e e e e
T-Box.owl, par un concept qI.

En supposant que les ´l´ments de dimensions sont extraits ` partir de la requˆte
ee a e
de notre exemple (4.2), leur repr´sentation en logique descriptive est la suivante :
e

edim6 ≡ Gń´ral ⊓ ∃Orginaire de.F rance
e e
edim7 ≡ Zone de sćurit´ ⊓ ∃Cré pendant.Conf lit des Balkans
e e e´

106

De la mˆme mani`re que pour les documents, notre outil permet de repr´senter
e e e
une requˆte en logique descriptive et la traduire automatiquement en format OWL.
e

La requˆte de notre exemple est donc repr´senté en logique descriptive par l’ex-
e e e
pression suivante :

qI ≡ ∃index´ par.edim6 ⊓ ∃index´ par.edim7
e e

En ajoutant le concept qI au fichier T-Box.owl, la T-Box est construite, et la cor-
respondance entre documents et requˆtes peut ˆtre effectué. Nous pr´sentons dans la
e e e e
figure 4.4 une repr´sentation graphique de la T-Box. Les concepts sont pr´sent´s dans
e e e
l’ordre alphab´tique : d’abord le concept docI, ensuite les concepts de la ressource
e
´ e
externe K (contenant les dimensions Evńement, Lieu gógraphique, et Personne),
e
enfin le concept qI.

Fig. 4.4 – Repr´sentation graphique de la T-Box
e

107

Correspondance

La correspondance entre le document et la requˆte se traduit en logique descrip-
e
tive par la subsomption : le document d est consid´r´ pertinent pour la requˆte q si
ee e
docI est subsum´ par qI (docI ⊑T qI) (cf. figure 4.5). Techniquement, il faut faire
e
des inf´rences dans le fichier T-Box.owl et fabriquer la hi´rarchie de subsomption. Il
e e
existe plusieurs raisonneurs qui permettent d’effectuer cette tˆche (Racer3 , Fact++4 ,
a
etc.). Dans nos exp´rimentations, nous avons choisi le raisonneur Pellet5 .
e

Fig. 4.5 – Calcul de la correspondance entre un document doc et une requˆte q
e

Le raisonneur prend en entré le fichier T-Box.owl qui est repr´sent´ graphique-
e e e
ment dans la figure 4.4. En faisant des inf´rences, le raisonneur produit la hi´rarchie
e e
de subsomption qui est pr´senté dans la figure 4.6. Dans celle-ci, nous pouvons
e e
constater que le concept docI est plus spćifique que le concept qI dans la hi´rarchie
e e
ainsi fabriqué. Cette information implique que le concept qI subsume le concept
e
docI, ce qui veut dire que le document doc peut ˆtre consid´r´ comme une r´ponse
e ee e
pertinente pour la requˆte q.
e

`
A ce niveau, notre syst`me arrive ` s´lectionner les documents pertinents pour
e a e
une requˆte. Il ne reste qu’` les classer dans leur ordre de pertinence par rapport `
e a a
la requˆte. Ce processus est dćrit dans la section suivante.
e e
3
http ://www.racer-systems.com/
4
http ://owl.man.ac.uk/factplusplus/
5
http ://pellet.owldl.com/

108

Fig. 4.6 – La hi´rarchie de subsomption fabriqué par le raisonneur Pellet
e e

4.3.2 Rálisation des ´tapes E4 & E5
e e
Nous avons utilis´ le mod`le vectoriel pour mettre en œuvre ces deux ´tapes.
e e e
Comme pr´sent´ dans la figure 4.7, un document doc et une requˆte q sont repr´sent´s
e e e e e
−→ −
respectivement par les vecteurs doc et →. Le RSV6 entre doc et q est calcul´ en ap-
q e
−→ − →.
pliquant le cosinus sur l’angle form´ par les deux vecteurs doc et q
e

Dans les exp´riences pr´sentés ici, nous consid´rons un ´l´ment de dimension
e e e e ee
comme un concept ou un mot. Ainsi, l’application du mod`le vectoriel est tr`s simple
e e
car chaque document (requˆte) est repr´sent´(e) par un vecteur de concepts ou mots.
e e e

Nous pr´sentons maintenant les exp´riences menés sur la collection CLEF-2005
e e e
qui ont pour but d’´valuer l’apport de l’utilisation des dimensions pour la r´solution
e e
des requˆtes prćises.
e e
6
Retrieval Status Value.

109

Fig. 4.7 – Calcul du RSV entre une requˆte et un document au niveau de l’indexation
e
pour l’ordonnancement

4.4 Exp´rimentations sur la collection CLEF-2005
e
Avant d’exposer nos exp´riences, nous pr´sentons d’abord le contexte dans lequel
e e
elles ont ´t´ menés.
ee e

4.4.1 Contexte des exp´rimentations
e
Protocole d’´valuation
e

Nous avons utilis´ une collection de la campagne d’´valuation CLEF-2005. Elle
e e
a ´t´ utilisé dans la tˆche de recherche d’images m´dicales (MedIR) [24] qui fait
ee e a e
partie de la piste ImageCLEF qui concerne la recherche multilingue d’images.

Dans la campagne CLEF, les syst`mes sont ´valu´s selon l’approche d’´valuation
e e e e
caract´ristique des syst`mes de Recherche d’Information. Celle-ci est basé sur la
e e e
notion de pertinence qui consiste en la quantification de la correspondance d’un do-
cument par rapport ` une requˆte. Elle repose sur une mesure des performances des
a e
syst`mes basé sur le calcul de deux indicateurs : le rappel et la prćision [23]. Un
e e e
Syst`me de Recherche d’Information de qualit´ maximise ces deux valeurs, bien que
e e
celles-ci soient gń´ralement antinomiques.
e e

La m´thode d’´valuation des syst`mes est faite selon le protocole TREC7 . Pour
e e e
chaque requˆte, les 1000 premiers documents sont restitu´s par le syst`me et des
e e e
7
http ://trec.nist.gov/

110

prćisions sont calculés ` diff´rents points (5, 10, 15, 30, 100, et 1000 premiers
e e a e
documents restitu´s), puis une moyenne Avg Pr de toutes ces prćisions est calculé.
e e e

Le corpus

Les exp´rimentations sont conduites sur le corpus ImageCLEFmed-2005. Celui-ci
e
contient 50,026 images avec des annotations en format XML. La majorit´ des anno-
e
tations sont en anglais, mais il y a un nombre significatif en fran¸ais et en allemand,
c
avec quelques cas sans aucune annotation.

Le corpus comprend ´galement 25 requˆtes contenant chacune une ou plusieurs
e e
images exemples (positives, n´gatives). Chaque requˆte contient trois courtes des-
e e
criptions textuelles respectivement en fran¸ais, en anglais, et en allemand.
c

Dans la figure 4.8, nous pr´sentons un exemple typique d’une requˆte de la col-
e e
lection ImageCLEFmed-2005 :

Fig. 4.8 – Exemple de requˆte de la collection ImageCLEFmed-2005
e

111

Pourquoi la collection ImageCLEFmed ?

Nous pensons que la collection ImageCLEFmed est particuli`rement pertinente
e
pour ´valuer notre approche. En effet, cette collection contient des requˆtes qui
e e
expriment des besoins prćis de m´decins. A travers ces requˆtes, l’ˆtre humain com-
e e e e
prend clairement que l’on cherche des images qui contiennent deux ´l´ments en rap-
ee
port l’un avec l’autre : i ) une partie de l’anatomie du corps humain (ex. f´mur), ii )
e
une pathologie lié ` cette partie de l’anatomie (ex. fracture), iii ) enfin, ces ´l´ments
e a ee
doivent ˆtre dćrits dans une image d’une modalit´ particuli`re (ex. x-ray). Ces
e e e e
trois types d’´l´ments d’informations repr´sentent des dimensions du domaine de la
ee e
m´decine.
e

Notre d´fi est de r´soudre ces requˆtes prćises Nous proposons ainsi de prendre
e e e e
en compte les dimensions susmentionnés et montrer que leur utilisation permet d’in-
e
terpr´ter avec prćision les requˆtes de la collection ImageCLEFmed, et d’augmenter
e e e
ainsi la prćision du syst`me.
e e

Les ressources externes utilisés
e

Nous avons utilis´ deux ressources externes pour d´finir les dimensions du do-
e e
maine m´dical. Nous les pr´sentons bri`vement dans les sections suivantes.
e e e

Le th´saurus MeSH
e

MeSH8 (Medical Subject Headings) est un th´saurus d´velopp´ par la “National
e e e
9
Library of Medicine ”. Il se compose d’un ensemble de termes de la m´dicine fai-
e
sant r´f´rence ` des descripteurs organis´s dans une structure hi´rarchique. MeSH
ee a e e
contenait 22997 descripteurs class´s ` la fois dans une structure alphab´tique et
e a e
hi´rarchique. Au niveau sup´rieur de la structure hi´rarchique, on trouve des termes
e e e
tr`s gń´riques tels que “Anatomy” ou “Diseases”. Des termes plus spćifiques tels
e e e e
que “Femur” et “Cancer” se trouvent ` des niveaux plus bas de la hi´rarchie qui
a e
contient onze niveaux. Nous pr´sentons, dans la figure 4.9, les premiers niveaux de
e
la hi´rarchie de MeSH.
e

8
http ://www.nlm.nih.gov/mesh/ [visit´ le 19-6-2007]
e
9
http ://www.nlm.nih.gov/ [visit´ le 19-6-2007]
e

112

Fig. 4.9 – Premier niveau de la structure hi´rarchique de MeSH
e

Dans notre exp´rience, nous avons utilis´ la structure hi´rarchique de MeSH
e e e
pour d´finir les dimensions “Anatomie”, “Pathologie”, et “Modalit´”. Celles-ci sont
e e
d´finies respectivement par les hi´rarchies suivantes :
e e

- Anatomy [A] ;
- Diseases [C] ;
- Analytical, Diagnostic and Therapeutic Techniques and Equipment [E]

Le m´ta-th´saurus UMLS
e e

UMLS (Unified Medical Language System) r´sulte de la fusion de 140 sources de
e
donnés terminologiques (UMLS knowledge sources) du domaine m´dical. Il contient
e e
´galement des outils linguistiques destin´s ` faciliter les tˆches d’acc`s, de recherche,
e e a a e
d’int´gration, et d’agr´gation des informations biom´dicales et de sant´. Il est com-
e e e e
pos´ de trois ´l´ments : le M´ta-thesaurus, le Semantic Network, et le Specialist Lexi-
e ee e
con. Le M´ta-thesaurus est la partie la plus importante par sa taille et son contenu.
e
Il regroupe des concepts dńot´s par des termes diff´rents. Ces termes peuvent
e e e
´ventuellement provenir de sources diff´rentes. La structure du m´ta-th´saurus com-
e e e e
prend les quatre niveaux suivants :

113

- Atome : c’est le plus petit ´l´ment dans la structure. Il repr´sente les instances
ee e
d’une chaˆ de caract`res venant de diff´rentes sources ;
ıne e e
- Chaˆ
ınes : repr´sente les variations de forme d’une chaˆ de caract`res. C’est le
e ıne e
regroupement des atomes qui ont la mˆme forme de chaˆ de caract`res ;
e ıne e
- Terme : repr´sente les variations de dńotation d’un concept. Ce sont donc les
e e
termes des synonymes qui regroupent un ensemble de chaˆ ;
ınes
- Concept : repr´sente le sens des termes. C’est le regroupement des synonymes.
e

UMLS comprend environ 170 types de relations entre les concepts pr´sents dans
e
le M´ta-th´saurus. La relation de synonymie est repr´senté implicitement dans la
e e e e
structure des concepts. Tous les concepts sont organis´s en 135 cat´gories, appelés
e e e
types s´mantiques dans le Semantic Network. Cette structure est un ajout ` la fusion
e a
des th´saurus. Elle permet de “couvrir” cette fusion d’une classification hi´rarchique.
e e
C’est prćis´ment cette structure que nous utilisons pour d´finir les dimensions.
e e e

Pour les requˆtes d’ImagCLEFmed-2005, nous avons utilis´ les dimensions Ana-
e e
tomie, Pathologie, et Modalit´. En analysant manuellement les requˆtes et UMLS,
e e
nous avons choisi les concepts qui d´finissent chacune de ces dimensions :
e

- Anatomie “Anatomical Structure”, “Body System”, “Body Space or Junction”,
“Body Location or Region” ;
- Pathologie “Disease or Syndrome”, “Finding”, “Injury or Poisoning” ;
- Modalit´ “Diagnostic Procedure”, “Manufactured Object”.
e

Les concepts de chaque cat´gorie sont organis´s autour d’une sous-hi´rarchie
e e e
d’UMLS. Donc, pour d´finir une dimension, nous regroupons les sous-hi´rarchies qui
e e
correspondent au concept d´finissant cette dimension.
e

4.4.2 Mise en œuvre du mod`le ` base de la logique descrip-
e a
tive sur la collection ImageCLEFmed-2005
L’objectif ` travers cette exp´rience est de tester la faisabilit´ de l’application de
a e e
notre approche sur des requˆtes extraites d’une collection r´f´rence. Il s’agit princi-
e ee
palement de savoir ` quel point notre mod`le peut ˆtre appliqu´ et quelles sont les
a e e e

114

limites techniques et formelles qui lui sont liés.
e

Nous avons effectu´ des tests sur quelques requˆtes choisies en fonction de leur
e e
complexit´. Pour chacune de ces requˆtes, nous construisons une T-Box constitué
e e e
de la requˆte elle-mˆme, des documents qui lui sont pertinents et d’une partie de
e e
UMLS. Ensuite, nous calculons la correspondance ` l’aide du raisonneur Pellet et
a
comparons le r´sultat avec la correspondance calculé par un mod`le de RI classique
e e e
(i.e. le mod`le vectoriel).
e

Analyses concernant les donnés
e

La premi`re difficult´ concerne la s´lection d’un sous-ensemble de UMLS pour
e e e
chacune des requˆtes ´tudiés. Techniquement cette tˆche est assez simple ` ráliser :
e e e a a e
il suffit de s´lectionner, ` partir de UMLS, les hi´rarchies auxquelles appartiennent
e a e
les concepts de la requˆte et les traduire dans un format OWL. Lors du calcul de la
e
subsomption, ces hi´rarchies sont utilisés par le raisonneur Pellet afin de retrouver
e e
les documents pertinents pour la requˆte en question.
e

Le probl`me majeur ` ce niveau est que UMLS contient plusieurs hi´rarchies pa-
e a e
rall`les provenant chacune d’une ressource ind´pendante. Ceci repr´sente une diffi-
e e e
cult´ lors de la repr´sentation de UMLS en logique descriptive. Une solution possible
e e
est de choisir une seule hi´rarchie (par exemple, provenant d’une ressource parti-
e
culi`re) et l’utiliser pour le calcul de la subsomption.
e

Le deuxi`me probl`me rencontr´ consiste en l’extraction automatique des ´l´ments
e e e ee
de dimension ` partir des documents. Cette tˆche n’est pas facile ` ráliser. Elle de-
a a a e
mande une analyse prćise de la langue naturelle afin d’extraire les concepts et les
e
relations qui servent ` d´finir les ´l´ments de dimension. Nous avons simplifi´ le
a e ee e
mod`le en supposant qu’un ´l´ment de dimension est d´fini par un concept. Du cˆt´
e ee e oe
de la requˆte, ce probl`me est mineur vu que l’extraction des ´l´ments de dimension
e e ee
se fait tr`s facilement d’une mani`re manuelle.
e e

Le troisi`me probl`me est li´ au contenu des documents de la collection ImageCL-
e e e
EFmed-2005. Certains de ces documents contiennent un texte (m´ta-donnés) qui
e e
ne dćrit pas le contenu de l’image associé. En effet, les jugements de pertinence
e e

115

dans la collection ImageCLEFmed-2005 ont ´t´ effectu´s en se basant sur les images
ee e
et non pas sur les textes qui leur sont associ´s. Ceci repr´sente un handicap lors de
e e
l’´valuation de la fonction de correspondance, surtout quand le syst`me ne retrouve
e e
pas les documents pertinents. En effet, dans ce cas, on ne peut pas d´terminer ce qui
e
a mal fonctionn´ lors de l’exp´rience : est-ce que notre fonction de correspondance ne
e e
fonctionne vraiment pas bien, ou bien les documents ne contiennent-ils effectivement
pas de texte dćrivant l’image.
e

Analyses concernant le mod`le
e

La fonction de correspondance

Apr`s moult essais, nous avons conclu que la qualit´ de la conception de la res-
e e
source externe utilisé a un impact majeur sur la performance de la fonction de
e
correspondance basé sur le calcul de la subsomption. En effet, plus cette ressource
e
contient des relations de subsomption (is-a), plus la fonction de correspondance est
capable de retrouver des documents pertinents ` une requˆte mˆme s’ils ne partagent
a e e
pas les mˆmes concepts qu’elle. Par exemple, pour une requˆte contenant “Tibia”,
e e
la correspondance ` base du mod`le vectoriel n’a pu retrouver que 3 documents per-
a e
tinents alors que notre fonction de correspondance a permis d’en retrouver 12, en
utilisant la relation “Tibia is-a Bone”. En effet, ` travers l’algorithme qui calcule
a
la subsomption, l’utilisation de la Logique Descriptive offre une capacit´ de raison-
e
nement qui peut d´duire des connaissances implicites ` partir de celles qui sont
e a
explicitement d´finies dans la T-Box, et permet ainsi de retrouver des documents
e
pertinents pour une requˆte mˆme s’ils ne partagent aucun concept avec elle.
e e

Cependant, nous avons rencontr´ quelques probl`mes en utilisant la hi´rarchie de
e e e
subsomption. En effet, selon le domaine, la ressource externe peut ˆtre organisé `
e e a
travers des hi´rarchies s´mantiques diff´rentes. Par exemple, dans le domaine de la
e e e
Gógraphie, la relation part of est probablement une des relations les plus utilisés
e e
dans les hi´rarchies de concepts. Il en est de mˆme pour l’anatomie humaine. Par
e e
exemple, si un utilisateur cherche ”fracture in the leg”, il va certainement consid´rer
e
un document contenant “fracture of the hip” comme pertinent. Ainsi, le syst`me de
e
recherche doit prendre en compte, lors du calcul de la subsomption, la hi´rarchie
e
part of dćrivant l’anatomie humaine.
e

116

Une fa¸on de r´soudre ce probl`me est d’effectuer une expansion guidé de la
c e e e
requˆte telle que propos´ par Baziz [4]. Il s’agit de spćifier les relations ` utiliser
e e e a
lors de l’expansion de requˆte. Dans l’exemple prć´dent, une expansion possible
e e e
serait de rechercher les documents qui contiennent “Leg” et les membres de l’ana-
´
tomie qui font partie de “Leg” (Leg ⊔ ∃ part of.Leg). Evidemment, pour que cette
solution marche, il faut ´tudier le nombre de niveaux dans la hi´rarchie ` utiliser
e e a
lors de l’expansion. En l’occurrence, l’expansion doit ˆtre faite d’une fa¸on ` pouvoir
e c a
ajouter “Hip”, “Femur ”, “Tibia”, etc.

Une deuxi`me fa¸on de r´soudre ce probl`me est de “tordre” la relation de sub-
e c e e
somption et de repr´senter ainsi la hi´rarchie part of comme une hi´rarchie de sub-
e e e
somption, donc dćlarer implicitement, par exemple, que Hip is a Leg. Avec cette
e
approche, nous aurions les ´l´ments de dimensions suivants respectivement dans la
ee
requˆte et le document :
e

edimq ≡ Fracture ⊓ ∃ affect.Leg
edimd ≡ Fracture ⊓ ∃ affect.Hip

Ayant dćlar´ que Hip ⊑ Leg, le raisonneur va correctement inf´rer que edimd ⊑
e e e
edimq . Dans nos exp´rimentations, nous avons impl´ment´ cette approche “rapide
e e e
et na¨
ıve”. Cependant, l’utilisation de la subsomption pour mimer une autre relation
peut conduire, dans certains cas, ` des d´ductions contre-intuitives impr´vues. Une
a e e
approche plus “sˆ re et propre” consiste ` d´finir des propri´t´s transitives afin de
u a e e e
repr´senter les diff´rents types de hi´rarchies qui peuvent exister dans un domaine
e e e
donn´. Ainsi, les ´l´ments de dimension de l’exemple prć´dent seront pr´sent´s
e ee e e e e
comme suit :

edimq ≡ Fracture ⊓ ∃ affect ∃part of .Leg
edimd ≡ Fracture ⊓ ∃ affect ∃part of .Hip

Si un axiome spćifie que part of est transitive, et si la d´finition de Hip est de
e e
la forme “... ⊓ ∃part of.Leg”, alors le raisonneur peut inf´rer que edimd ⊑ edimq .
e

117

Nous pouvons donc conclure que la fonction de correspondance basé sur le calcul
e
de la subsomption a l’avantage d’ˆtre tr`s flexible dans le sens o` elle permet d’uti-
e e u
liser n’importe quelle relation pour calculer la correspondance entre un document et
une requˆte. Mais, comme nous le verrons dans la section suivante, le prix ` payer
e a
peut survenir au niveau de la fonction d’ordonnancement.

La fonction d’ordonnancement

Avec notre fonction de correspondance, un document peut ˆtre retrouv´ comme
e e
r´ponse ` une requˆte mˆme s’il ne partage pas les mˆmes concepts qu’elle. Dans ce
e a e e e
cas, il n’est pas possible de calculer (` l’aide du mod`le vectoriel) une valeur de si-
a e
milarit´ entre un document et une requˆte qui ne partagent pas les mˆmes concepts.
e e e
Par exemple, pour la requˆte contenant “Tibia” et un document contenant “Bone”,
e
le mod`le vectoriel a retourn´ une valeur de similarit´ nulle alors que le document
e e e
est pertinent pour la requˆte en question.
e

Une solution possible ` ce probl`me consiste ` ´tendre la requˆte ou le docu-
a e a e e
ment avant de fabriquer leurs vecteurs respectifs et calculer la valeur de similarit´ e
entre eux. En effet, lors du calcul de la subsomption, il est possible de savoir quelles
sont les relations qui ont ´t´ utilisés par le raisonneur pour fabriquer la hi´rarchie
ee e e
de subsomption. Ces relations peuvent ˆtre utilisés pour ´tendre la requˆte ou ses
e e e e
documents r´ponses. Par exemple, pour la requˆte contenant “Tibia” et le docu-
e e
ment contenant “Bone”, nous pouvons utiliser la relation “is-a” pour ´tendre soit la
e
requˆte par le concept “Bone”, soit le document par le concept “Tibia”.
e

Suite ` ce probl`me, deux questions m´ritent d’ˆtre posés :
a e e e e

1. Est-ce que l’ordonnancement dans un contexte de recherche prćise est indis-
e
pensable ?

2. Est-ce que la notion de pertinence dans un contexte de recherche prćise est la
e
mˆme que celle qui est utilisé dans la recherche gń´rale ?
e e e e

Nous pensons que dans une tˆche de recherche prćise, l’utilisateur peut se satis-
a e

118

faire de n’importe quelle r´ponse pertinente retourné par le syst`me. Etant donn´
e e e e
que la fonction de correspondance est censé ne retourner que des documents tr`s
e e
pertinents, l’ordonnancement devient moins important que dans un cas de recherche
gń´rale (comme sur le Web par exemple). Cependant, on peut penser que la no-
e e
tion de pertinence dans un contexte de recherche prćise diff`re de celle qui est
e e
utilisé dans une recherche gń´rale. Par exemple, pour une requˆte demandant la
e e e e
liste des joueurs de l’´quipe de Rugby de France, un document contenant les 15
e
joueurs peut ˆtre consid´r´ par l’utilisateur comme plus pertinent qu’un document
e ee
contenant seulement quelques joueurs.

Nous pensons qu’avant de proposer une fonction d’ordonnancement, il faut d’abord
d´finir la notion de pertinence dans un contexte de recherche prćise. Il est possible
e e
que la d´finition de cette notion d´pende du domaine d’application consid´r´. Pour
e e ee
cette raison, il semble souhaitable de collaborer avec des utilisateurs d’un domaine
particulier afin de d´finir leur notion de pertinence et proposer par la suite une fonc-
e
tion d’ordonnancement.

Consid´ration des performances en temps de calcul
e

Il est ´vident que l’utilisation d’un raisonneur pour mettre en œuvre la fonction
e
de correspondance conduit ` des temps de calcul nettement plus longs que dans le
a
cas des SRI bas´s sur un index classique. Nánmoins, plusieurs points peuvent ˆtre
e e e
int´ressants ` ´tudier afin d’am´liorer les performances d’une approche basé sur la
e ae e e
logique descriptive : i ) le contenu des documents est gń´ralement repr´sent´ par une
e e e e
simple expression logique en utilisant les constructeurs ⊓ et ∃. Ainsi, nous pouvons
imaginer un algorithme de raisonnement plus simple que ceux utilis´s dans le cas
e
gń´ral ; ii ) le contenu de la collection est gń´ralement stable, et peut donc ˆtre
e e e e e
pr´-trait´ afin de minimiser les calculs au moment de l’interrogation. Par exemple,
e e
nous pouvons pr´-calculer la hi´rarchie de subsomption, et une fois la requˆte posé,
e e e e
le raisonneur n’a qu’` placer le concept repr´sentant la requˆte au bon endroit de
a e e
cette hi´rarchie. De plus, il est inutile de calculer la subsomption entre les concepts
e
repr´sentant les documents ; iii ) en cas o` les requˆtes sont repr´sentés par des ex-
e u e e e
pressions logiques simples ou r´guli`res, un traitement spćifique peut ˆtre appliqu´
e e e e e
afin de faciliter la tˆche du raisonneur et ´viter des calculs inutiles.
a e

119

Apr`s cette analyse sur la mise en œuvre du mod`le, nous d´taillons maintenant
e e e
deux exp´riences pr´liminaires d´diés ` l’´valuation, en terme de performance de
e e e e a e
recherche, de l’apport de l’utilisation des dimensions de domaine. Dans chacune
de ces deux exp´riences, nous avons utilis´ le syst`me d’exp´rimentation X-IOTA
e e e e
d´velopp´ par l’´quipe MRIM du laboratoire LIG [17].
e e e

4.4.3 D´finition des ´l´ments de dimensions par des mots
e ee
Dans cette nouvelle exp´rience10 , nous avons utilis´ le th´saurus MeSH comme
e e e
ressource externe pour la d´finition des dimensions du domaine m´dical. Nous avons
e e
´galement utilis´ les mots pour identifier les ´l´ments de dimensions au niveau des
e e ee
documents/requˆtes. Le but de cette exp´rience est de montrer comment, en dispo-
e e
sant d’un th´saurus de petite taille et d’un index ` base de mots-cl´s, l’application
e a e
de l’usage des dimensions de domaine peut r´soudre des requˆtes prćises et d´passer
e e e e
les approches basés sur les mod`les existants.
e e

Identification et pond´ration des ´l´ments de dimensions
e ee

Une fois les dimensions d´finies, nous les utilisons pour identifier les ´l´ments
e ee
de dimension au niveau des documents (requˆtes) du corpus ImageCLEFmed. Nous
e
avons fait une simplification en d´finissant un ´l´ment de dimension par un simple
e ee
mot. Donc si un mot appartenant ` un document (requˆte) existe dans une des
a e
dimensions d´finies, alors il sera consid´r´ comme un ´l´ment de cette dimension.
e ee ee
Une fois les ´l´ments de dimensions identifi´s, nous les pond´rons en employant le
ee e e
sch´ma de pond´ration LTC du mod`le vectoriel.
e e e

S´lection et ordonnancement des documents pertinents pour une requˆte
e e

Afin de r´soudre les requˆtes du corpus ImageCLEFmed, nous utilisons trois
e e
crit`res parmi ceux que nous avons propos´s dans notre mod`le : obligatoire, option-
e e e
nel, et priorit´.
e

Rappelons qu’un ´l´ment de dimension marqu´ comme obligatoire dans une
ee e
requˆte doit absolument apparaˆ dans les documents retrouv´s, alors qu’un ´l´ment
e ıtre e ee
de dimension optionnel peut y apparaˆ ou non. Enfin, un ´l´ment de dimension qui
ıtre ee
10
Cette exp´rience a ´t´ mené en collaboration avec Dr. J-P. Chevallet et Dr. J-W. Lim [20] [19]
e ee e

120

a une priorit´ i doit apparaˆ dans les documents retrouv´s, sinon, c’est l’´l´ment
e ıtre e ee
de dimension qui a une priorit´ i + 1.
e

En se basant sur ces trois crit`res, nous avons effectu´ quatre tests afin de pou-
e e
voir interpr´ter le contenu des requˆtes. Nous pr´sentons ces tests dans la section
e e e
suivante, ainsi que les r´sultats obtenus.
e

Notre objectif ici n’est pas d’´valuer la fonction de correspondance, basé sur le
e e
calcul de la subsomption, mais plutˆt l’apport de l’utilisation des dimensions pour
o
la r´solution de requˆtes prćises. Ainsi, lors du calcul de la correspondance, nous
e e e
n’avons pas besoin de faire des inf´rences dans la ressource externe pour le cal-
e
cul de la subsomption. La correspondance entre une requˆte et un document peut
e
ˆtre effectué avec un mod`le boolén classique o` les documents (requˆtes) sont
e e e e u e
repr´sent´(e)s comme une conjonction (et/ou disjonction) d’´l´ments de dimension.
e e ee

Une fois les documents s´lectionn´s, nous utilisons le mod`le vectoriel pour les
e e e
ordonner en fonction de leur pertinence par rapport ` la requˆte en question. Comme
a e
la correspondance a ´t´ effectué sans aucune inf´rence dans la ressource externe,
ee e e
chaque document retrouv´ partage forc´ment les mˆmes ´l´ments de dimension que
e e e ee
la requˆte. Ainsi, l’application du mod`le vectoriel pour le calcul d’une valeur de
e e
similarit´ entre un document et une requˆte ne pose aucun probl`me.
e e e

R´sultats exp´rimentaux
e e

Nous avons d’abord effectu´ une indexation classique basé sur le mod`le vec-
e e e
toriel (avec le sch´ma de pond´ration LTC) sans prise en compte des dimensions.
e e
Le r´sultat de cette m´thode d’indexation classique servira de r´f´rence (baseline)
e e ee
pour ´valuer l’apport de l’usage des dimensions de domaine. La prćision moyenne
e e
(MAP : Mean Average Precision) obtenu avec le baseline est ´gale ` 0.1725.
e a

Les r´sultats obtenus sont pr´sent´s dans le tableau 4.1, o` les lignes corres-
e e e u
pondent aux tests, et les valeurs correspondent aux r´sultats et leur taux de variation
e
compar´ au baseline.
e

Voici les quatre tests effectu´s lors de nos exp´riences. Evidemment, ce sont de
e e

121

Tab. 4.1 – Comparaison des r´sultats de notre approche avec le baseline.
e
Tests MAP Comparaison avec le baseline (%)
T1 0.1463 -17.90
T2 0.1956 +13.39
T3 0.2075 +20.28
T4 0.2130 +23.47

simples tests sur des cas particuliers qui n’ont pas de porté gń´rale. Le but ici ´tant
e e e e
de montrer comment les op´rateurs que nous avons propos´s peuvent ˆtre utilis´s
e e e e
pour mieux prćiser un besoin d’information.
e

T1 : “Un document est consid´r´ pertinent s’il contient les trois dimensions pr´sentes
e e e
dans la requˆte”.
e

Cette requˆte se traduit par le fait que les ´l´ments des dimensions Anatomie,
e ee
Pathologie, et Modalit´ sont obligatoires et doivent donc ˆtre pr´sents dans les do-
e e e
cuments pertinents.

Nous nous attendions ` ce que ce test am´liore les r´sultats mais les exp´riences
a e e e
d´montrent le contraire : une baisse de 17.90%. Apr`s analyse de la collection, nous
e e
avons remarqu´ que ce r´sultat est dˆ au fait que les documents de ImageCLEFmed-
e e u
2005 ne contiennent pas souvent les termes dćrivant la modalit´ des images. Le fait
e e
que la modalit´ ne soit pas assez explicité dans les documents nous paraˆ normal
e e ıt
car un compte-rendu dćrit une pathologie sur une partie de l’anatomie, et l’informa-
e
tion sur le type d’image est souvent implicite. Pour cette raison, nous avons propos´
e
le test suivant :

T2 : “Un document est consid´r´ pertinent s’il contient au moins une des dimen-
e e
sions de la requˆte”.
e

Cette requˆte se traduit par le fait que les ´l´ments des dimensions Anatomie,
e ee
Pathologie, et Modalit´ sont tous optionnels et qu’au moins un d’entre eux doit ˆtre
e e
pr´sent dans les documents pertinents.
e

122

Avec ce test, nous avons obtenu une am´lioration du r´sultat de 13.39%. Dans
e e
ce cas, nous avons suppos´ que toutes les dimensions ont la mˆme importance dans
e e
la requˆte. Cette supposition n’est pas toujours valide. En effet, les termes dćrivant
e e
11
la modalit´ dans la requˆte ne sont pas discriminants (ex : une CT peut ˆtre
e e e
“une image d’un rein” ou “une image d’un emphys`me”, etc.). De mˆme, les termes
e e
dćrivant la pathologie sont parfois ambigus (ex : une fracture peut ˆtre “une frac-
e e
ture d’un f´mur ” ou “une fracture d’un crˆne”, etc.). Donc, il nous a sembl´ que
e a e
l’anatomie est la dimension la plus importante parce qu’elle est discriminante et non
ambigu¨. Ceci nous a sugg´r´ le test suivant :
e ee

T3 : “Un document pertinent doit contenir l’anatomie, sinon la pathologie, sinon la
modalit´ ”.
e

Avec ce test, nous avons am´lior´ les performances de recherche de 20.28%.
e e

Comme les termes dćrivant la modalit´ ne sont pas souvent pr´sents dans les
e e e
documents, nous avons consid´r´ dans notre quatri`me test que les ´l´ments des
ee e ee
dimensions Anatomie et Pathologie sont obligatoires, et que les ´l´ments de la di-
ee
mension Modalit´ sont optionnels.
e

T4 : “Un document est consid´r´ pertinent s’il contient les dimensions anatomie et
e e
pathologie”.

Avec ce test, nous avons obtenu une am´lioration des performances de recherche
e
de 23.47%.

Dans la figure 4.10, nous proposons une comparaison graphique des performances
de notre syst`me par rapport au baseline.
e

Nous pr´sentons dans la section suivante la deuxi`me exp´rience que nous avons
e e e
mené en se basant sur une indexation conceptuelle. Nous revenons ` la fin de ce
e a
chapitre aux interpr´tations de ces r´sultats et aux conclusions que l’on peut tirer
e e
apr`s ces exp´riences.
e e
11
Computed Tomography.

123

Fig. 4.10 – R´sultats exp´rimentaux de la prise en compte des ´l´ments de dimen-
e e ee
sions d´finis par des mots
e

4.4.4 D´finition des ´l´ments de dimensions par des concepts
e ee
Dans le but de confirmer et consolider12 les r´sultats obtenus dans la premi`re
e e
exp´rience, nous avons men´ une deuxi`me exp´rience sur la mˆme collection Ima-
e e e e e
geCLEFmed. Dans cette deuxi`me exp´rience, nous avons utilis´ les concepts pour
e e e
l’identification des ´l´ments de dimensions au niveau des documents/requˆtes. Nous
ee e
avons ainsi utilis´ le m´ta-th´saurus UMLS pour l’extraction des concepts ` partir
e e e a
des documents/requˆte, et pour la d´finition des dimensions du domaine m´dical. La
e e e
mien en œuvre de cette exp´rience suit les mˆmes ´tapes que nous avons pr´sentés
e e e e e
dans la premi`re exp´rience.
e e

Mise en œuvre de l’indexation conceptuelle

Dans le pr´sent travail, l’indexation conceptuelle n’est pas un objectif en soi. Il
e
s’agit tout simplement d’un moyen pour extraire, ` partir des documents (requˆtes),
a e
les concepts qui nous servent ` identifier les ´l´ments de dimension.
a ee
12
C’est dans le sens o` dans la premi`re exp´rience il y avait une forte simplification en d´finissant
u e e e
les ´l´ments de dimensions par des simples mots-cl´s.
ee e

124

Voyons bri`vement la mise en œuvre de l’indexation conceptuelle que nous avons
e
utilisé. Une description d´taillé avec tous les r´sultats est disponible dans [73].
e e e e
13
L’outil que nous avons utilis´ est adapt´ aux textes ćrits en anglais. Nous l’avons
e e e
´galement utilis´ pour les textes ćrits en allemand et en fran¸ais.
e e e c

Le principe gń´ral de l’extraction des termes et des concepts qu’ils dńotent est
e e e
bas´ sur l’utilisation des outils de TAL traditionnellement utilis´s en RI, guid´s par
e e e
les donnés terminologiques de UMLS. Tout d’abord, tous les textes de la collection
e
sont analys´s ` l’aide de TreeTagger14 qui fournit comme r´sultat des mots segment´s,
e a e e
´tiquet´s syntaxiquement et lemmatis´s. Ensuite, une correspondance est faite entre
e e e
les (groupes de) mots fournis par TreeTagger et les entrés de UMLS. L’hypoth`se
e e
sur laquelle se base la mise en œuvre de l’indexation conceptuelle est que seuls les
termes pr´sents dans UMLS et retrouv´s, avec seulement des variantes lexicales dans
e e
les textes, permettent d’identifier un terme. Cette hypoth`se est restrictive car il
e
est possible que les donnés terminologiques dans UMLS ne couvrent pas toutes les
e
formes textuelles possibles.

La mise en œuvre de l’indexation conceptuelle est une tˆche difficile. Par exemple,
a
le m´ta-th´saurus UMLS ne contient pas toutes les formes textuelles possibles qui
e e
dńotent un concept. Ainsi, la correspondance stricte entre le texte des documents
e
et les entrés de UMLS ne permet pas d’extraire tous les concepts. Cette limite peut
e
ˆtre contourné en tenant compte de deux types de variations :
e e

i ) La variation au niveau de la casse (utiliser les formes en majuscule ou en mi-
nuscule) : selon les r´sultats, il semble difficile de pouvoir dire quelle m´thode
e e
effectue la meilleure correspondance entre les (groupe de) mots des textes et
les entrés de UMLS. En tout cas, d’un point de vue RI, la suppression de la
e
casse est plus simple ` mettre en œuvre et semble donc plus int´ressante.
a e

ii ) La variation au niveau lexical (la forme d’origine d’un mot ou sa forme lem-
matisé). A ce niveau il existe un probl`me de non-d´tection des termes qui
e e e
13
D´velopp´ par Lo¨ Maisonnasse.
e e ıc
14
http ://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html

125

pourraient dńoter des concepts dans le texte. Ce type d’erreur provient de
e
l’analyse lexicale de TreeTagger qui ne permet pas de retrouver les lemmes de
tous les mots utilis´s dans le corpus m´dical. Par exemple, le terme “angio-
e e
grams”, qui est pr´sent dans une requˆte sous la forme au pluriel, ne peut pas
e e
ˆtre associ´ au concept correspondant car UMLS ne contient que la forme au
e e
singulier (angiogram) et TreeTagger n’est pas capable de retrouver le lemme
correspondant ` “angiograms”. En effet, l’analyseur TreeTagger est un ana-
a
lyseur gń´ral et donc non adapt´ au vocabulaire m´dical. L’utilisation d’un
e e e e
analyseur spćialis´ sur le domaine pourrait am´liorer les r´sultats.
e e e e

Un autre probl`me concerne l’association entre une chaˆ de caract`res et les
e ıne e
entrés d’UMLS. Faut-il consid´rer seulement les termes pr´sents dans le texte et qui
e e e
sont les plus longs (contiennent le plus grand nombre de mots), ou bien consid´rer
e
tous les termes ind´pendamment de leurs tailles ? Dans le premier cas, notamment
e
consid´r´ par Baziz [4], le terme pertinent ` extraire de la s´quence “Images of right
ee a e
middle lobe”, est “right middle lobe” et non pas seulement “lobe”.

Les exp´riences que nous avons effectués ont montr´ que la correspondance basé
e e e e
sur les termes les plus longs donne des r´sultats inf´rieurs ` ceux qui sont obtenus `
e e a a
l’aide des mots. Cette baisse de performance s’explique par l’extrˆme prćision des
e e
concepts extraits. En effet, des concepts dńot´s par “Right middle lobe” ou “Chest
e e
CT” sont trop prćis de sorte que leur utilisation ` la place de leurs constituants
e a
entraˆ une forte baisse du rappel. D’autres probl`mes tels que la m´tonymie influe
ıne e e
sur la correspondance entre les concepts.

En extrayant les concepts dńot´s par tous les termes pr´sents dans le texte, on
e e e
obtient une nette am´lioration dans les performances du syst`me, surpassant ainsi
e e
les r´sultats obtenus par l’indexation basé sur les mots cl´s. Cette am´lioration est
e e e e
la cons´quence d’une augmentation du taux du rappel qui est dˆ ` l’extraction de
e ua
certains concepts plus gń´raux.
e e

Dans la pr´sente exp´rimentation, nous n’avons pas trait´ le probl`me de l’am-
e e e e
bigu¨ e des termes. Nous avons suppos´ que dans un domaine tr`s spćifique, tel que
ıt´ e e e
la m´decine, le taux d’ambigu¨ e des termes n’est pas ´lev´. Dans ce cas, l’indexation
e ıt´ e e

126

Tab. 4.2 – Comparaison des r´sultats de
e notre approche avec le baseline.
Tests Documents en Anglais Documents de toute la collection
MAP Compar´ au baseline (%)
e MAP Compar´ au baseline (%)
e
T1 0.1335 -10.03 0.1428 -1.61
T2 0.156 +6.19 0.1534 +5.72
T3 0.1617 +10.07 0.1579 +8.82
T4 0.1707 +16.2 0.1742 +20.05

conceptuelle sert principalement ` la prise en compte de la variation terminologique.
a

R´sultats exp´rimentaux
e e

Nous avons men´ deux exp´riences : la premi`re est effectué sur les seuls docu-
e e e e
ments en anglais, et la deuxi`me sur toute la collection ImageCLEFmed-2005. Les
e
r´sultats pr´sent´s plus loin sont compar´s ` deux r´sultats de r´f´rence obtenus
e e e e a e ee
avec la seule indexation conceptuelle basé sur le mod`le vectoriel (avec le sch´ma
e e e
de pond´ration LTC) sans prise en compte des dimensions. Le premier r´sultat de
e e
r´f´rence correspond ` l’indexation conceptuelle effectué sur les documents en an-
ee a e
glais : 0,1469 de prćision moyenne (MAP) ; le deuxi`me r´sultat de r´f´rence corres-
e e e ee
pond ` l’indexation conceptuelle effectué sur les documents de toute la collection :
a e
0,1451 de prćision moyenne. Dans la suite, chacun de ces deux r´sultats sera appel´
e e e
baseline.

Nous remarquons que les valeurs des baselines obtenus avec l’indexation concep-
tuelle sont plus faibles que ceux obtenus avec l’indexation basé sur les mots-cl´s (cf.
e e
section 4.4.3). Ceci est dˆ en partie aux difficult´s de la mise en œuvre de l’indexa-
u e
tion conceptuelle que nous avons ´voqués dans la section prć´dente.
e e e e

Comme dans l’exp´rience pr´senté dans la section 4.4.3, nous rútilisons les
e e e e
quatre tests bas´s sur les crit`res suivants : obligatoire, optionnel, et priorit´. Les
e e e
nouveaux r´sultats sont pr´sent´s dans le tableau 4.2 o` chaque ligne correspond
e e e u
` un test, et les valeurs repr´sentent les r´sultats et leur variation par rapport au
a e e
baseline correspondant.

Ces r´sultats montrent que les quatre tests provoquent les mˆmes variations des
e e
performances que celles qui ont ´t´ obtenues dans la premi`re exp´rience (cf. tableau
ee e e

127

Tab. 4.3 – Variations des performances de notre syst`me appliqu´ sur trois index
e e
diff´rents.
e
Index 1 Index 2 Index 3
T1 -17.90 -10.03 -1.61
T2 +13.39 +6.19 +5.72
T3 +20.28 +10.07 +8.82
T4 +23.47 +16.2 +20.05

4.315 ). Le test T1 provoque une baisse dans les performances, et tous les autres tests
conduisent ` des am´liorations dont les meilleures ont ´t´ obtenues par le test T4 :
a e ee
+16.2% pour les seuls documents en anglais, et +20.05% pour l’ensemble des docu-
ments de la collection.

Ces r´sultats confirment les conclusions tirés suite ` la premi`re exp´rience :
e e a e e

- Les documents de la collection ImageCLEFmed-2005 ne contiennent pas souvent
les concepts dćrivant la modalit´ des images. Ainsi, il suffit de consid´rer que
e e e
les ´l´ments de la dimension modalit´ sont optionnels pour obtenir une forte
ee e
am´lioration des performances ;
e

- Les dimensions de domaine n’ont pas toujours la mˆme importance dans la requˆte :
e e
les ´l´ments de la dimension Anatomie ne sont pas ambigus et il est donc
ee
bń´fique de leur donner une priorit´ plus ´levé que celles des ´l´ments des
e e e e e ee
autres dimensions. Le fait de mettre des priorit´s sur les ´l´ments de dimen-
e ee
sions des requˆtes conduit dans tous les cas ` de nettes am´liorations au niveau
e a e
des performances de notre syst`me.
e

La figure 4.11 illustre les variations des performances de notre syst`me en effec-
e
tuant les tests respectivement sur Index1, Index2, et Index3.

15
o` Idex1 = Documents de toute la collection (´l´ments de dimensions d´finis par des mots-cl´s) ;
u ee e e
Index2 = Documents en Anglais (´l´ments de dimensions d´finis par des concepts), et Index3 =
ee e
Documents de toute la collection (´l´ments de dimensions d´finis par des concepts)
ee e

128

Fig. 4.11 – Variations des performances de notre syst`me appliqu´ sur trois index
e e
diff´rents
e

4.5 Conclusion
Dans tout ce quatri`me chapitre, nous avons d´taill´ la mise en œuvre de notre
e e e
mod`le et son application sur des exemples de la collection ImageCLEFmed-2005.
e
Plus particuli`rement, nous avons montr´ comment le calcul de subsomption est
e e
utilis´ pour mettre en œuvre la fonction de correspondance ` base de la logique
e a
descriptive. Ainsi, nous avons pu conclure que la performance de la fonction de cor-
respondance d´pend principalement de la qualit´ de la ressource externe utilisé :
e e e
plus cette ressource contient de relations de subsomption, plus la fonction de corres-
pondance est capable de retrouver des documents pertinents ` une requˆte, mˆme
a e e
s’ils ne partagent pas les mˆmes concepts qu’elle.
e

Nous avons montr´ que la fonction de correspondance est tr`s flexible dans le sens
e e
o` elle permet d’utiliser n’importe quelle relation pour calculer la correspondance
u
entre un document et une requˆte. Il suffit de spćifier des propri´t´s transitives afin
e e ee
de permettre ` un raisonneur d’utiliser n’importe quel type de relation lors du calcul
a
de la subsomption.

En utilisant les relations lors du calcul de la subsomption, un document peut ˆtre
e
retrouv´ comme r´ponse ` une requˆte mˆme s’il ne partage pas les mˆmes concepts
e e a e e e
avec elle. Ceci pose probl`me au niveau de la fonction d’ordonnancement car elle
e

129

est incapable de calculer une valeur de similarit´ entre un document et une requˆte
e e
qui ne partagent pas les mˆmes concepts. Une solution tr`s simple est d’´tendre la
e e e
requˆte ou le document durant le calcul de l’ordonnancement. Jusqu’` pr´sent, nous
e a e
n’avons pas propos´ une fonction d’ordonnancement particuli`re et nous envisageons
e e
d’´tudier ce probl`me dans nos futurs travaux. En particulier, nous souhaiterions
e e
d´finir la notion de pertinence dans un contexte de recherche prćise. Ceci devrait
e e
nous permettre de proposer une fonction d’ordonnancement qui soit encore plus en
ad´quation avec les besoins prćis d’utilisateurs professionnels.
e e

Apr`s la mise en œuvre du mod`le, nous avons pr´sent´ deux exp´riences pr´limin-
e e e e e e
aires d´diés ` l’´valuation, en terme de performance de recherche, de l’apport de
e e a e
l’utilisation des dimensions de domaine :

i ) La premi`re est basé sur l’usage d’´l´ments de dimensions repr´sent´s par des
e e ee e e
mots-cl´s. Dans cette exp´rience, nous avons utilis´ la structure hi´rarchique du
e e e e
th´saurus MeSH pour d´finir les dimensions. Malgr´ une approche simplifié
e e e e
de la d´finition des ´l´ments de dimension, nous avons rússi ` d´passer les
e ee e a e
performances des syst`mes qui ne prennent pas en compte les dimensions de
e
domaine. Les r´sultats obtenus lors de cette exp´rience ont clairement montr´
e e e
l’avantage de l’usage des dimensions de domaine pour l’interpr´tation des be-
e
soins prćis (une am´lioration de plus de 23% de la prćision moyenne). Cette
e e e
mˆme idé nous a permis d’obtenir le meilleur r´sultat lors de notre participa-
e e e
tion16 ` la piste de recherche d’images m´dicales de la campagne d’´valuation
a e e
CLEF-2005 [20][19] ;

ii ) La deuxi`me est basé sur l’usage d’´l´ments de dimensions repr´sent´s par des
e e ee e e
concepts. Dans cette exp´rience, nous avons utilis´ le m´ta-th´saurus UMLS
e e e e
pour la d´finition des dimensions et la mise en œuvre de l’indexation concep-
e
tuelle. Les ´l´ments de dimensions ont ´t´ repr´sent´s par les concepts extraits
ee ee e e
de ce m´ta-th´saurus. Bien que la technique d’extraction des concepts, et donc
e e
la reconnaissance des dimensions, ne soit pas totalement fiable, nous avons
rússi ` am´liorer les performances de notre syst`me de 20%. Les r´sultats
e a e e e
obtenus lors de cette exp´rience consolident ceux obtenus lors de la premi`re
e e
16
En collaboration avec Dr. J-P. Chevallet et Dr. J-W. Lim.

130

exp´rience, et confirment l’apport significatif de l’usage des dimensions pour la
e
r´solution des requˆtes prćises.
e e e

L’ensemble des r´sultats obtenus ici nous permet d’affirmer que la prise en compte
e
des dimensions permet d’augmenter la prćision moyenne du SRI. En effet, il s’agit
e
d’un compl´ment d’information qui permet d’identifier les ´l´ments pertinents qui
e ee
dćrivent le th`me d´taill´ dans la requˆte (document). En identifiant ces ´l´ments,
e e e e e ee
que nous avons appel´s ´l´ments de dimensions, notre syst`me arrive ` interpr´ter
e ee e a e
avec plus de prćision le contenu de la requˆte et donc de mieux la r´soudre. Nous
e e e
avons ´galement propos´ un langage de requˆte expressif qui permet ` l’usager d’uti-
e e e a
liser des op´rateurs sur les ´l´ments de dimensions de sa requˆte, et de mieux prćiser
e ee e e
son besoin en information. Nos exp´riences ont montr´ l’impact positif de l’usage de
e e
17
ces op´rateurs sur la prćision du contenu de la requˆte, et sur les performances.
e e e

Comme notre syst`me s’adresse ` des utilisateurs professionnels qui connaissaient
e a
bien leur domaine d’int´rˆt, il est relativement facile d’utiliser notre langage de
ee
requˆte pour dćrire avec prćision les besoins d’information. Dans le cas o` l’uti-
e e e u
lisateur ne souhaiterait pas utiliser notre langage de requˆte, et se contente d’un
e
texte brut pour dćrire son besoin, il semble nánmoins que notre syst`me soit ca-
e e e
pable d’identifier les dimensions et de les prendre en compte lors du processus d’in-
terrogation. Dans cette direction, nous avons men´ une exp´rience sur la collection
e e
imageCLEFmed-2005 sans utiliser explicitement les op´rateurs sur les ´l´ments de di-
e ee
mensions. La requˆte est alors toujours consid´ré comme une conjonction d’´l´ments
e ee ee
de dimensions. Apr`s la s´lection des documents pertinents, nous les organisons dans
e e
leur ordre de pertinence en fonction du nombre d’´l´ments de dimensions qu’ils par-
ee
tagent avec la requˆte en question. Ce processus se fait d’une mani`re transparente
e e
sans aucune intervention humaine. Les r´sultats obtenus lors de cette exp´rience ont
e e
montr´ une am´lioration sup´rieure ` 12% dans les performances. Ceci prouve en-
e e e a
core l’apport significatif de l’usage des dimensions lors du processus de RI mˆme
e
sans aucune intervention de l’utilisateur.

Nous pouvons conclure apr`s les r´sultats encourageant obtenus ici que la prise
e e
en compte des dimensions de domaine est un moyen efficace pour la r´solution des
e
17
les crit`res obligatoire, optionnel, et priorit´
e e

131

requˆtes prćises. Cependant, nous consid´rons que les r´sultats pr´sent´s ici ne sont
e e e e e e
qu’une premi`re ´tape en vue de valider l’apport de l’usage des dimensions dans
e e
un processus de RI orient´ prćision. Afin de quantifier l’apport de notre approche,
e e
nous projetons de mettre en œuvre l’int´gralit´ de notre mod`le. La prochaine ´tape
e e e e
consiste donc ` repr´senter les ´l´ments de dimensions tel que nous les avons d´finis.
a e ee e
C’est-`-dire, ` les repr´senter par un ensemble de concepts et des relations. Une fois
a a e
les ´l´ments de dimension extraits, il reste seulement ` appliquer la fonction de cor-
ee a
respondance pour ´valuer l’int´gralit´ de notre approche. Une deuxi`me perspective
e e e e
est de proposer une fonction d’ordonnancement ad´quate au contexte de recherche
e
prćise. La troisi`me perspective est de d´velopper une interface graphique afin que
e e e
les utilisateurs puissent tester l’utilisabit´ de notre syst`me.
e e

132

Chapitre 5

Conclusion

Nous nous sommes int´ress´s ` un contexte de RI dans des milieux profession-
e e a
nels, o` les besoins d’information des utilisateurs sont formul´s ` travers des requˆtes
u e a e
prćises. L’objectif de notre travail de th`se a donc ´t´ de d´finir un mod`le de RI
e e ee e e
capable de r´soudre ce type de requˆtes. Pour ce faire, nous avons opt´ pour l’uti-
e e e
lisation des connaissances du domaine d’int´rˆt de l’utilisateur afin de consid´rer
ee e
la s´mantique v´hiculé par les documents et les requˆtes. Ces connaissances sont
e e e e
dćrites ` travers des ressources externes, et leur usage a pour but d’“augmenter”
e a
les connaissances du syst`me sur le domaine trait´ afin qu’il puisse expliciter la
e e
s´mantique v´hiculé par le document, et r´soudre ainsi des requˆtes prćises.
e e e e e e

Nous nous sommes int´ress´s aux travaux qui utilisent les ressources externes
e e
pour la repr´sentation du contenu s´mantique des documents et des requˆtes. Ces
e e e
travaux concernent principalement l’approche de RI dite “basé-concepts” (Concept-
e
Based Information Retrieval ). L’´tude des travaux les plus significatifs situ´s dans
e e
cette classe d’approches nous a montr´ leurs limites face aux exigences de l’utilisateur
e
en termes de prćision du syst`me. En effet, ces approches consid`rent les documents
e e e
et les requˆtes comme des sacs de concepts (pond´r´s), et ne peuvent donc mettre
e ee
en exergue les aspects li´s aux descriptions s´mantiques du contenu du document et
e e
de la requˆte. Pour notre part, l’approche que nous avons adopté consiste ` utiliser
e e a
les dimensions de domaine.

133

5.1 Apport thórique
e
Dans notre approche, nous d´finissons d’abord les dimensions de domaine ` tra-
e a
vers des ressources externes. Il s’agit d’ajouter une structure dans la ressource externe
en cránt des concepts d´finissant les dimensions. Ensuite, nous utilisons les dimen-
e e
sions pour mettre en avant les ´l´ments pertinents qui contribuent ` la description
ee a
du contenu s´mantique des documents et des requˆtes. Ainsi, au lieu de consid´rer
e e e
les documents et les requˆtes comme des sacs de concepts, nous avons propos´ une
e e
nouvelle unit´ d’indexation d´finie par des dimensions, des concepts et des relations
e e
s´mantiques : il s’agit de l’´l´ment de dimension. Nous utilisons cette nouvelle
e ee
unit´ d’indexation afin de produire une repr´sentation prćise des documents et des
e e e
requˆtes tout en consid´rant les aspects li´s ` leur s´mantique. Ainsi, nous avons
e e e a e
propos´ un langage de document expressif qui permet une indexation prćise du
e e
contenu s´mantique des documents. Nous avons ´galement propos´ un langage de
e e e
requˆte expressif permettant ` l’usager d’utiliser ces ´l´ments de dimensions et des
e a ee
op´rateurs pour dćrire avec prćision son besoin d’information. En consid´rant les
e e e e
exigences de l’utilisateur en termes de prćision, nous avons propos´ un mod`le de
e e e
Recherche d’Information capable de r´soudre des requˆtes prćises.
e e e

Pour d´finir notre mod`le, nous avons choisi un formalisme de repr´sentation de
e e e
connaissances disposant d’un niveau d’expressivit´ assez ´lev´ qui convient tr`s bien
e e e e
` la repr´sentation prćise du contenu s´mantique des documents et des requˆtes : il
a e e e e
s’agit de la logique descriptive. Ainsi, nous avons pu incorporer les connaissances du
domaine lors de la d´finition de notre mod`le tout en garantissant une repr´sentation
e e e
uniforme des documents, des requˆtes et de la ressource externe. Nous avons ´galement
e e
profit´ de l’algorithme de calcul de subsomption offert par la logique descriptive afin
e
de d´finir la fonction de correspondance mettant en œuvre la pertinence syst`me.
e e

5.2 Apport pratique
Dans le but de tester la faisabilit´ de notre approche, nous avons effectu´ une s´rie
e e e
d’exp´riences sur des requˆtes de la collection ImageCLEFmed-2005. Ces exp´riences
e e e
nous ont permis de savoir jusqu’` quel point notre mod`le, bas´ sur la logique des-
a e e
criptive, peut ˆtre appliqu´ et quelles sont les limites formelles et techniques qui lui
e e
sont liés. Nous avons principalement conclu que la qualit´ de la conception de la
e e

134

ressource externe, utilisé pour la repr´sentation du contenu des documents et des
e e
requˆtes, a un impact majeur sur les performances de recherche. En effet, la fonc-
e
tion de correspondance basé sur le calcul de subsomption s’av`re souvent bń´fique
e e e e
quand la ressource externe est riche en terme de relation de subsomption (is-a). En
effet, c’est surtout ` travers l’algorithme de calcul de subsomption que la logique des-
a
criptive offre une capacit´ de raisonnement qui permet de d´duire des connaissances
e e
implicites ` partir de celles repr´sentés explicitement dans la T-Box, et permet ainsi
a e e
de retrouver des documents pertinents pour une requˆte mˆme s’ils ne partagent pas
e e
les mˆmes concepts que cette derni`re. Nos exp´riences ont cependant montr´ que
e e e e
la relation de subsomption n’est pas suffisante pour calculer la correspondance entre
un document et une requˆte. Pour cette raison, nous avons entrepris d’utiliser des
e
propri´t´s transitives. Ainsi, nous avons rendu notre fonction de correspondance tr`s
ee e
flexible dans le sens o` elle permet d’utiliser n’importe quel type de relation lors du
u
calcul de la correspondance entre un document et une requˆte.e

Dans le but d’´valuer l’apport de l’usage des dimensions en terme de performance
e
de recherche, nous avons men´ une deuxi`me s´rie d’exp´riences sur la collection
e e e e
ImageCLEFmed-2005. L’ensemble des r´sultats encourageant obtenus nous a permis
e
de conclure que la prise en compte des dimensions de domaine est un moyen efficace
pour la r´solution des requˆtes prćises.
e e e

5.3 Perspectives
Avant de pouvoir utiliser les dimensions de domaine, il faut d’abord les construire.
Dans les exp´riences pr´sentés dans ce manuscrit, les dimensions ont ´t´ construites
e e e ee
manuellement ` travers des ressources externes existantes. Pour nos futures exp´rien-
a e
ces, nous projetons de les construire automatiquement. Nous avons d´j` commenc´
ea e
l’´tude de ce probl`me et con¸u un algorithme pr´liminaire pour cette construction
e e c e
[69]. La prochaine ´tape consiste ` ´valuer exp´rimentalement cet algorithme. Pour
e ae e
ce faire, nous allons nous inspirer des travaux de Stoica et Hearst sur la construction
automatique des facettes [87].

Les r´sultats pr´sent´s dans ce manuscrit ne sont qu’une premi`re ´tape en vue
e e e e e
de la validation de l’apport de l’usage des dimensions dans un processus de RI orient´
e

135

prćision. Afin de quantifier plus prćis´ment l’apport de notre approche, nous proje-
e e e
tons de mettre en œuvre l’int´gralit´ de notre mod`le. La prochaine ´tape consistera
e e e e
donc ` identifier automatiquement les ´l´ments de dimension au niveau des docu-
a ee
ments. Cette ´tape demande de savoir extraire, ` partir des documents, des concepts
e a
et des relations qui servent ` d´finir les ´l´ments de dimension. Ce processus peut
a e ee
nćessiter un traitement automatique de la langue, guid´ par l’utilisation des res-
e e
sources externes. Une fois les ´l´ments de dimension extraits, il ne restera plus qu’`
ee a
appliquer la fonction de correspondance pour ´valuer l’int´gralit´ de notre approche.
e e e

Une troisi`me perspective est de proposer une fonction d’ordonnancement ad´qu-
e e
ate au contexte de recherche dans les milieux professionnels. Mais avant de proposer
une telle fonction, nous pensons qu’il faut d’abord d´finir la notion de pertinence
e
dans ce contexte particulier. Il est possible que la d´finition de cette notion puisse
e
d´pendre du domaine d’application consid´r´. Pour cette raison, il apparaˆ sou-
e ee ıt
haitable de collaborer avec des utilisateurs d’un domaine particulier afin de d´finir
e
leur notion de pertinence et proposer par la suite une fonction d’ordonnancement
ad´quate.
e

La fonction d’ordonnancement recherché devrait s’appuyer sur les pond´rations
e e
des ´l´ments de dimension afin de permettre le calcul d’une valeur de pertinence
ee
d’un document par rapport ` une requˆte. Une quatri`me perspective concerne donc
a e e
l’´tude de la possibilit´ d’int´grer les pond´rations dans notre mod`le bas´ sur la lo-
e e e e e e
gique descriptive. Ceci semble nćessiter l’extension du mod`le actuel par la logique
e e
floue.

La cinqui`me perspective est de d´velopper une interface graphique afin que les
e e
utilisateurs puissent tester l’utilisabit´ de notre syst`me. Cette interface devrait per-
e e
mette ` l’utilisateur de tirer pleinement profit de notre mod`le, en particulier, en
a e
exploitant le langage de requˆte lors de l’expression de son besoin d’information. Le
e
d´veloppement de cette interface devrait ˆtre centr´ sur les utilisateurs afin qu’elle
e e e
soit adapté ` leur besoin.
e a

136

Bibliographie

[1] Nathalie Aussenac-Gilles and Josiane Mothe. Ontologies as Background Know-
ledge to Explore Document Collections . In RIAO 2004, Avignon,, pages 129–
142, April 2004.
[2] Franz Baader, Diego Calvanese, Deborah L. McGuinness, Daniele Nardi, and
Peter F. Patel-Schneider, editors. The description logic handbook : theory,
implementation, and applications. Cambridge University Press, New York,
NY, USA, 2003.
[3] Ricardo A. Baeza-Yates and Berthier Ribeiro-Neto. Modern Information Re-
trieval. Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA,
1999.
[4] Mustapha Baziz. Indexation conceptuelle guidé par ontologie pour la recherche
e
d’information. Th`se de doctorat, Universit´ Paul Sabatier, Toulouse, France,
e e
dćembre 2005.
e
[5] Mustapha Baziz, Nathalie Aussenac-Gilles, and Mohand Boughanem.
D´sambiguisation et Expansion de Requˆtes dans un SRI, Etude de l’apport
e e
des liens s´mantiques. Revue des Sciences et Technologies de l’Information
e
(RSTI) s´rie ISI, 8(4/2003) :113–136, dćembre 2003.
e e
[6] Mustapha Baziz, Mohand Boughanem, and Nathalie Aussenac-Gilles. IRIT
at CLEF 2004 : The English GIRT task . In Carol Peters, Paul Clough,
Julio Gonzalo, and Gareth J. F. Jones, editors, Cross Language Evaluation
Forum CLEF’2004 Workshop , Bath, UK, 15/09/04-17/09/04, pages 283–291.
Lecture Notes in Computer Science LNCS Volume 3491/2005, Springer-Verlag,
September 2004.
[7] Mustapha Baziz, Mohand Boughanem, Nathalie Aussenac-Gilles, and Claude
Chrisment. Semantic cores for representing documents in ir. In SAC’05 :

137

Proceedings of the 2005 ACM symposium on Applied computing, pages 1011–
1017, New York, NY, USA, 2005. ACM.
[8] Tim Berners-Lee, James Hendler, and Ora Lasilla. The semantic web. Scientific
American, May 2001.
[9] Catherine Berrut. Une m´thode d’indexation fondé sur l’analyse s´mantique
e e e
de documents spćialis´s. Le prototype RIME et son application ` un corpus
e e a
m´dical. Th`se de doctorat, Universit´ Joseph Fourier, Grenoble, France, 1988.
e e e
[10] C. Biemann. Semantic indexing with typed terms using rapid annotation. In
Proceedings of the TKE-05-Workshop on Methods and Applications of Seman-
tic Indexing, Copenhagen, 2005.
[11] Richard C. Bodner and Fei Song. Knowledge-based approaches to query ex-
pansion in information retrieval. In AI ’96 : Proceedings of the 11th Bien-
nial Conference of the Canadian Society for Computational Studies of Intelli-
gence on Advances in Artificial Intelligence, pages 146–158, London, UK, 1996.
Springer-Verlag.
[12] R. J. Brachman and J. G. Schmolze. An overview of the kl-one knowledge
representation system. In J. Mylopoulos and M. L. Brodie, editors, Artifi-
cial Intelligence & Databases, pages 207–230. Kaufmann Publishers, INC., San
Mateo, CA, 1989.
[13] Chris Buckley. The smart lab report : The modern smart years (1980-1996).
SIGIR Forum, 31(1), 1997.
[14] Chris Buckley, Gerard Salton, James Allan, and Amit Singhal. Automatic
query expansion using smart : Trec 3. In TREC, pages 0–, 1994.
[15] Jean Charlet, Philippe Laublet, and Chantal Reynaud. Web s´mantique :
e
Rapport final. Technical report, Action spćifique 32 CNRS / STIC, December
e
2003.
[16] Jean-Pierre Chevallet. Un Mod`le Logique de Recherche d’Informations ap-
e
pliqu´ au formalisme des Graphes Conceptuels. Le prototype ELEN et son
e
exp´rimentation sur un corpus de composants logiciels. PhD thesis, Univer-
e
sit´ Joseph Fourier, Grenoble, 1992.
e
[17] Jean-Pierre Chevallet. X-iota : An open xml framework for ir experimentation
application on multiple weighting scheme tests in a bilingual corpus. Lecture

138

Notes in Computer Science (LNCS), AIRS’04 Conference Beijing, 3211 :263–
280, 2004.
[18] Jean-Pierre Chevallet, Joo-Hwee Lim, and Diem Thi Hoang Le. Domain know-
ledge conceptual inter-media indexing : application to multilingual multimedia
medical reports. In CIKM, pages 495–504. ACM, 2007.
[19] Jean-Pierre Chevallet, Joo-Hwee Lim, and Sa¨ Radhouani. A structured visual
ıd
learning approach mixed with ontology dimensions for medical queries. In Ca-
rol Peters, Fredric C. Gey, Julio Gonzalo, Henning M¨ ller, Gareth J. F. Jones,
u
Michael Kluck, Bernardo Magnini, and Maarten de Rijke, editors, CLEF, vo-
lume 4022 of Lecture Notes in Computer Science, pages 642–651. Springer,
2005.
[20] Jean-Pierre Chevallet, Joo-Hwee Lim, and Sa¨ Radhouani. Using ontology
ıd
dimensions and negative expansion to solve precise queries in clef medical task.
In CLEF Workhop, Working Notes Medical Image Track, Vienna, Austria, 21–
23 September 2005.
[21] Paul-Alexandru Chirita Christian Kohlsch¨ tter and Wolfgang Nejdl. Using link
u
analysis to identify aspects in faceted web search. In ACM SIGIR Workshop
on Faceted Search, Seattle, USA, August 2006.
[22] Martin Chodorow Claudia Leacock and George Miller. Using corpus statis-
tics and wordnet relations for sense identification. computational linguistics.
Computational Linguistics, 24(1) :147–165, 1998.
[23] C. Cleverdon and M. Kean. Factors determining the performance of indexing
systems. Aslib Cranfield Research Project, Cranfield, England, 1968.
[24] Paul Clough and Henning Muller. The clef cross language image retrieval track
2005. In http ://ir.shef.ac.uk/imageclef2005/, visited on November 2005.
[25] Fabio Crestani. Exploiting the similarity of non-matching terms at retrieval
time. Information Retrieval, 2(1) :23–43, 2000.
[26] Wisam Dakka, Panagiotis G. Ipeirotis, and Kenneth R. Wood. Automatic
construction of multifaceted browsing interfaces. In Otthein Herzog, Hans-
J¨rg Schek, Norbert Fuhr, Abdur Chowdhury, and Wilfried Teiken, editors,
o
CIKM, pages 768–775. ACM, 2005.

139

[27] Claudia Leacock Ellen Marie Voorhees and Geoffrey Towell. Learning context
to disambiguate word senses. In the 3rd Computational Learning Theory and
iVatural Learning Systems Conference. MIT Press, 1992.
[28] Christiane Fellbaum, editor. WordNet : an electronic lexical database. Massa-
chusetts : The MIT Press, 1998. p.423.
[29] Edward Alan Fox. Extending the boolean and vector space models of infor-
mation retrieval with p-norm queries and multiple concept types. PhD thesis,
Ithaca, NY, USA, 1983.
[30] William Gale, Kenneth Ward Church, and David Yarowsky. Estimating upper
and lower bounds on the performance of word-sense disambiguation programs.
In Proceedings of the 30th annual meeting on Association for Computational
Linguistics, pages 249–256, Morristown, NJ, USA, 1992. Association for Com-
putational Linguistics.
[31] Joseph A. Goguen. What is a concept ? In Frithjof Dau, Marie-Laure Mugnier,
and Gerd Stumme, editors, Proceedings of the 13th International Conference on
Conceptual Structures (ICCS 2005), volume 3596 of Lecture Notes in Computer
Science, pages 52–77. Springer, 2005.
[32] Julio Gonzalo, Felisa Verdejo, Irina Chugur, and Juan Cigarran. Indexing
with wordnet synsets can improve text retrieval. In Proceedings of the CO-
LING/ACL ’98 Workshop on Usage of WordNet for NLP, pages 38–44, Mon-
treal, Canada, 1998.
[33] Donna Harman. Relevance feedback revisited. In SIGIR ’92 : Proceedings of
the 15th annual international ACM SIGIR conference on Research and deve-
lopment in information retrieval, pages 1–10, New York, NY, USA, 1992. ACM
Press.
[34] Donna Harman. The first text retrieval conference (trec-1), rockville, md, usa,
4-6 november 1992. Inf. Process. Manage., 29(4) :411–414, 1993.
[35] Philip J. Hayes. Intelligent high-volume text processing using shallow, domain-
specific techniques. pages 227–241, 1992.
[36] Marti A. Hearst. Clustering versus faceted categories for information explora-
tion. Commun. ACM, 49(4) :59–61, 2006.

140

[37] Marti A. Hearst. Design recommendations for hierarchical faceted search in-
terfaces. In ACM SIGIR Workshop on Faceted Search, Seattle, USA, August
2006.
[38] Eero Hyv¨nen, Samppa Saarela, Avril Styrman, and Kim Viljanen. Ontology-
o
based image retrieval. In WWW (Posters), 2003.
[39] Eero Hyv¨nen, Avril Styrman, and Samppa Saarela. Ontology-based image
o
retrieval. In Towards the semantic web and web services, Proceedings of XML
Finland 2002 Conference, pages 15–27, October 21–22 2002.
[40] Haward Jie and Yi Zhang. Personalized faceted query expansion. In ACM
SIGIR Workshop on Faceted Search, Seattle, USA, August 2006.
[41] Karen Sparck Jones and C.J. Keith van Rijsbergen. Progress in documentation.
Journal of Documentation, 32(1) :59–75, 1976.
[42] Uwe Thaden Jorg Diederich and Wolf-Tilo Balke. The semantic growbag de-
monstrator for automatically organizing topic facets. In ACM SIGIR Workshop
on Faceted Search, Seattle, USA, August 2006.
[43] Vipul Kashyap and Alexander Borgida. Representing the umls semantic net-
work using owl : (or ”what’s in a semantic web link ?”). In Dieter Fensel,
Katia P. Sycara, and John Mylopoulos, editors, International Semantic Web
Conference, volume 2870 of Lecture Notes in Computer Science, pages 1–16.
Springer, 2003.
[44] Leila Kefi. Mod`le gń´ral de recherche d’information : Application ` la re-
e e e a
cherche de documents techniques. Th`se de doctorat, Universit´ Joseph Fou-
e e
rier, Grenoble, France, 2006.
[45] Robert Krovetz. Viewing morphology as an inference process. In Proc. of 16th
Annual International ACM/SIGIR Conference on Research & Development in
Information Retrieval, pages 191–203, 1993.
[46] Robert Krovetz. Homonymy and polysemy in information retrieval. In ACL,
pages 72–79, 1997.
[47] Robert Krovetz and W. Bruce Croft. Lexical ambiguity and information re-
trieval. ACM Transactions on Information Systems, 10(2) :115–141, 1992.
[48] Catherine Berrut Leila Kefi and Eric Gaussier. un mod`le de ri bas´ sur des
e e
crit`res d’obligation et de certitude. In CORIA06 COnf´rence en Recherche
e e
Information, Lyon (France), 15–17 mars 2006.

141

[49] David D Lewis. Representation and learning in information retrieval. Technical
report, Amherst, MA, USA, 1991.
[50] Dekang Lin. An Information-Theoretic Definition of Similarity. In Proceedings
of the 15th International Conference on Machine Learning, pages 296–304.
Morgan Kaufmann, San Francisco, CA, 1998.
[51] Shuang Liu, Fang Liu, Clement Yu, and Weiyi Meng. An effective approach to
document retrieval via utilizing wordnet and recognizing phrases. In SIGIR,
2004.
[52] Eetu M¨kel¨, Eero Hyv¨nen, and Samppa Saarela. Ontogator - a semantic
a a o
view-based search engine service for web applications. In International Se-
mantic Web Conference, pages 847–860, 2006.
[53] Eetu M¨kel¨, Eero Hyv¨nen, and Teemu Sidoroff. View-based user interfaces
a a o
for information retrieval on the semantic web. In ISWC-2005 Workshop End
User Semantic Web Interaction, November.
[54] Mourad Mechkour. A multifacet formal image model for information retrieval.
In Ian Ruthven, editor, MIRO, Workshops in Computing. BCS, 1995.
[55] Carlo Meghini, Fabrizio Sebastiani, and Umberto Straccia. A model of multi-
media information retrieval. J. ACM, 48(5) :909–970, 2001.
[56] Carlo Meghini, Fabrizio Sebastiani, Umberto Straccia, and Costantino Thanos.
A model of information retrieval based on a terminological logic. In SIGIR
’93 : Proceedings of the 16th annual international ACM SIGIR conference on
Research and development in information retrieval, pages 298–307, New York,
NY, USA, 1993.
[57] Carlo Meghini and Umberto Straccia. A relevance terminological logic for
information retrieval. In Hans-Peter Frei, Donna Harman, Peter Schuble, and
Ross Wilkinson, editors, SIGIR, pages 197–205. ACM, 1996.
[58] Rada Mihalcea and Dan Moldovan. Semantic indexing using wordnet senses. In
Proceedings of the ACL-2000 workshop on Recent advances in natural language
processing and information retrieval, pages 35–45, Morristown, NJ, USA, 2000.
Association for Computational Linguistics.
[59] Rada Mihalcea and Dan I. Moldovan. An iterative approach to word sense di-
sambiguation. In Proceedings of the Thirteenth International Florida Artificial
Intelligence Research Society Conference, pages 219–223. AAAI Press, 2000.

142

[60] George Miller. Wordnet : an on-line lexical database. International Journal of
Lexicography, 4(3), 1990.
[61] Dan I. Moldovan, Sanda M. Harabagiu, Marius Pasca, Rada Mihalcea, Richard
Goodrum, Roxana Girju, and Vasile Rus. Lasso : A tool for surfing the answer
net. In TREC, 1999.
[62] Dan I. Moldovan and Rada Mihalcea. Using wordnet and lexical operators to
improve internet searches. IEEE Internet Computing, 4(1) :34–43, 2000.
[63] Iadh Ounis. Un mod`le d’indexation relationnel pour les graphes conceptuels
e
fond´ sur une interpr´tation logique. Th`se de doctorat, Universit´ Joseph
e e e e
Fourier, Grenoble, France, 1998.
¨
[64] Ozlem Uzuner, Boris Katz, and Deniz Yuret. Word sense disambiguation for
information retrieval. In AAAI/IAAI, page 985, 1999.
[65] Helen J. Peat and Peter Willett. The limitations of term co-occurrence data
for query expansion in document retrieval systems. JASIS, 42(5) :378–383,
1991.
[66] A Steven Pollitt. The key role of classification and indexing in view-based
searching. In Proceedings of the 63rd International Federation of Library As-
sociations and Institutions General Conference (IFLA’97), 1997.
[67] Paul Procter. Longman Dictionary of Contemporary English. Longman Group,
1978.
[68] Yonggang Qiu and Hans-Peter Frei. Concept based query expansion. In Robert
Korfhage, Edie M. Rasmussen, and Peter Willett, editors, SIGIR, pages 160–
169. ACM, 1993.
[69] Sa¨ Radhouani. Un algorithme pour la construction automatique de dimen-
ıd
sions ` partir de resources existantes. Technical report, CUI, University of
a
Geneva, Switzerland, September 2007.
[70] Philip Resnik. Semantic similarity in a taxonomy : An information-based mea-
sure and its application to problems of ambiguity in natural language. Journal
of Artificial Intelligence Research, 11 :95–130, 1999.
[71] Ray Richardson and Alan F. Smeaton. Using WordNet in a knowledge-based
approach to information retrieval. Technical Report CA-0395, Dublin, Ireland,
1995.

143

[72] Giovanni Maria Sacco. Research results in dynamic taxonomy and faceted
search systems. In DEXA Workshops, pages 201–206. IEEE Computer Society,
2007.
[73] Joo-Hwee Lim Le Thi-Hoang-Diem Sa¨ Radhouani, Lo¨ Maisonnasse, , and
ıd ıc
Jean-Pierre Chevallet. Une indexation conceptuelle pour un ﬁltrage par di-
mensions, exp´rimentation sur la base m´dicale imageclefmed avec le m´ta-
e e e
th´saurus umls. In CORIA06 COnf´rence en Recherche d’Information, Lyon
e e
(France), 15–17 mars 2006.
[74] G. Salton. The SMART Retrieval System ;Experiments in Automatic Document
Processing. Prentice-Hall, Inc., Upper Saddle River, NJ, USA, 1971.
[75] Gerard Salton. Some research problems in automatic information retrieval. In
Jennifer J. Kuehn, editor, SIGIR, pages 252–263. ACM, 1983.
[76] Gerard Salton and Michael Lesk. Computer evaluation of indexing and text
processing. J. ACM, 15(1) :8–36, 1968.
[77] Mark Sanderson. Word sense disambiguation and information retrieval. In
Proc. of the 17th ACM/SIGIR Conference, pages 142–150, 1994.
[78] Mark Sanderson. Word Sense Disambiguation and Information Retrieval.
Ph.d. thesis, University of Glasgow, Glasgow G12 8QQ, UK, 1997.
[79] Mark Sanderson. Retrieving with good sense. Information Retrieval, 2(1) :45–
65, 2000.
[80] Hinrich Sch¨ tze and Jan O. Pedersen. Information Retrieval Based on Word
u
Senses. In Fourth Annual Symposium on Document Analysis and Information
Retrieval, 1995.
[81] Satanjeev Banerjee Siddharth Patwardhan and Ted Pedersen. Using measures
of semantic relatedness for word sense disambiguation. In Proceedings of the
Fourth International Conference on Intelligent Text Processing and Computa-
tional Linguistics, pages 241–257, 2003.
[82] Malika Sma¨ Raisonnement ` base de cas pour une recherche ´volutive d’in-
ıl. a e
formation. Th`se de doctorat, Universit´ de Nancy, Nancy, France, 1994.
e e
[83] Alan F. Smeaton and Ian Quigley. Experiments on using semantic distances
between words in image caption retrieval. In Proc. of 19th International Confe-
rence on Research and Development in Information Retrieval, Zurich, Switzer-
land, 1996.

144

[84] Alan F. Smeaton and C. J. van Rijsbergen. The retrieval effects of query
expansion on a feedback document retrieval system. Comput. J., 26(3) :239–
246, 1983.
[85] Lina Fatima Soualmia, Christine Golbreich, and St´fan Jacques Darmoni. Re-
e
presenting the mesh in owl : Towards a semi-automatic migration. In Udo
Hahn, editor, KR-MED, volume 102 of CEUR Workshop Proceedings, pages
81–87. CEUR-WS.org, 2004.
[86] J.A. Stein. Alternative methods of indexing legal material : Development of a
conceptual index. In Conference ”Law Via the Internet g7”, Sydney, Australia,
1997.
[87] Emilia Stoica and Marti A. Hearst. Demonstration : Using wordnet to build
hierarchical facet categories. In ACM SIGIR Workshop on Faceted Search,
Seattle, USA, August 2006.
[88] Michael Sussna. Word sense disambiguation for free-text indexing using a
massive semantic network. In Proc. of 2nd International Conference on Infor-
mation and Knowledge Management, Arlington, Virginia, 1993.
[89] Michael John Sussna. Text retrieval using inference in semantic metanetworks.
PhD thesis, University of California at San Diego, La Jolla, CA, USA, 1997.
[90] Daniel Tunkelang. Dynamic category sets : An approach for faceted search. In
ACM SIGIR Workshop on Faceted Search, Seattle, USA, August 2006.
[91] Howard R. Turtle and W. Bruce Croft. Inference networks for document re-
trieval. In Jean-Luc Vidick, editor, SIGIR, pages 1–24. ACM, 1990.
[92] David Vallet, Miriam Fernńdez, and Pablo Castells. An ontology-based in-
a
formation retrieval model. In Asunciń G´mez-P´rez and J´rˆme Euzenat,
o o e eo
editors, ESWC, volume 3532 of Lecture Notes in Computer Science, pages
455–470. Springer, 2005.
[93] C.J. Keith van Rijsbergen. A new theoretical framework for information re-
trieval. In ACM Conference on Research and development in Information
Retrieval, Pisa, pages 194–200, 1986.
[94] Ellen Marie Voorhees. On expanding query vectors with lexically related words.
In TREC, pages 223–232, 1993.

145

[95] Ellen Marie Voorhees. Using wordnet to disambiguate word senses for text
retrieval. In Robert Korfhage, Edie M. Rasmussen, and Peter Willett, editors,
SIGIR, pages 171–180. ACM, 1993.
[96] Ellen Marie Voorhees. Query expansion using lexical-semantic relations. In
SIGIR ’94 : Proceedings of the 17th annual international ACM SIGIR confe-
rence on Research and development in information retrieval, pages 61–69, New
York, NY, USA, 1994. Springer-Verlag New York, Inc.
[97] Ellen Marie Voorhees. Using WordNet for Text Retrieval. In C. Fellbaum,
editor, WordNet : an electronic lexical database. MIT Press, 1998.
[98] Ellen Marie Voorhees. Natural language processing and information retrie-
val. In Maria Teresa Pazienza, editor, SCIE, volume 1714 of Lecture Notes in
Computer Science, pages 32–48. Springer, 1999.
[99] Peter Wallis. Information retrieval based on paraphrase. In the 1st Pacific
Association for Computational Linguistics Conference, 1993.
[100] Stephen F. Weiss. Learning to disambiguate. Information Storage and Retrie-
val, 9(1) :33–41, 1973.
[101] Rishabh Dayal Wisam Dakka and Panagiotis G. Ipeirotis. Automatic discovery
of useful facet terms. In ACM SIGIR Workshop on Faceted Search, Seattle,
USA, August 2006.
[102] Jinxi Xu and W. Bruce Croft. Query expansion using local and global docu-
ment analysis. In Hans-Peter Frei, Donna Harman, Peter Schüble, and Ross
a
Wilkinson, editors, SIGIR, pages 4–11. ACM, 1996.
[103] Jinxi Xu and W. Bruce Croft. Improving the effectiveness of information
retrieval with local context analysis. ACM Trans. Inf. Syst., 18(1) :79–112,
2000.
[104] David Yarowsky. One sense per collocation. In Proceedings ARPA Human
Language Technology Workshop, pages 266–271, 1993.
[105] Ka-Ping Yee, Kirsten Swearingen, Kevin Li, and Marti Hearst. Faceted meta-
data for image search and browsing. In CHI ’03 : Proceedings of the conference
on Human factors in computing systems, pages 401–408. ACM Press, 2003.
[106] Uri Zernik. Train1 vs. train2 : Tagging word senses in corpus. In Lexical
Acquisition : Exploiting On-Line Resources to Build a Lexicon, pages 91–112.
Lawrence Erlbaum, Hillsdale, NJ, 1991.

146

PhD Dissertation - Manuscrit de thèse de doctorat

Contenu connexe

Plus de Saïd Radhouani

PhD Dissertation - Manuscrit de thèse de doctorat