SlideShare une entreprise Scribd logo
1  sur  10
Télécharger pour lire hors ligne
TEXTES DES COMMUNICATIONS - Tome I
Système d'Aide à l’Indexation et
à la recherche d’Information sur le Web
Laïd BOUZIDI
bouzidi@univ-lyon3.fr
IAE - Université Jean Moulin - Lyon3 / 6, cours Albert Thomas – B.P .8242 69355 Lyon cedex 08
Mots clefs :
Indexation, Gestion des Connaissances, Aide à la Décision, Raisonnement par Cas, Systèmes Multi-
Agent, Apprentissage, Recherche d’information sur le web
Keywords :
Indexation, Knowledge management, Decision support, Case based reasoning,
Multi-agent systems, learning, research for information web
Palabras claves :
Indexacion, busqueda de informacion en la red, bases de conocimiento, ayuda a la toma de decisiones,
rasonamiento por casos, aprentizaje
Résumé
L'explosion des sources d’information et le développement des outils d’accès à l’information en
particulier les accès à distance font que le problème aujourd’hui n’est plus l’absence d’information
mais plutôt sa pertinence. Plusieurs étapes sont nécessaires pour aboutir à la fois à une représentation
fiable des sources d’information, mais aussi, à une bonne formulation des besoins des utilisateurs.
Certaines des étapes qui constituent l'activité de pilotage du processus de recherche d’information
deviennent de plus en plus complexes et un outil d’aide à la décision devient une nécessité,
particulièrement dans les étapes d'analyse, de conception de scénario, de cheminement et
d’exploitation, d'évaluation des différents cas possibles et de réutilisation de cas précédents pour en
traiter de nouveaux .
Les technologies informatiques en particulier celles associées au web, offrent des possibilités d’accès à
des bases d’informations hétérogènes, réparties aux quatre coins du monde, traitant de domaines
différents. Néanmoins, l’utilisateur est de plus en plus noyé dans cette masse énorme d’information et
le choix de l’information pertinente par rapport à son besoin réel reste actuellement le problème
fondamental.
Plusieurs techniques existent tant au niveau de la phase d’indexation des ressources documentaires
qu’au niveau de la phase de recherche.
Nous essayons dans notre approche de proposer une technique « hybride » qui permet d’augmenter le
taux de satisfaction des usagers. Elle est fondée sur une architecture de système d’aide à la prise de
décision utilisant en particulier les expériences antérieures en matière d’indexation et de recherche
d’information.
IRIT - DELTA VEILLE 25
VSST'2001
1 Introduction
L'explosion des sources d’information et le développement des outils d’accès à l’information en
particulier les accès à distance font que le problème aujourd’hui n’est plus l’absence d’information
mais plutôt sa pertinence. Plusieurs étapes sont nécessaires pour aboutir à la fois à une représentation
fiable des sources d’information, mais aussi, à une bonne formulation des besoins des utilisateurs.
Certaines des étapes qui constituent l'activité de pilotage du processus de recherche d’information
deviennent de plus en plus complexes et un outil d’aide à la décision devient une nécessité,
particulièrement dans les étapes d'analyse, de conception de scénario, de cheminement et
d’exploitation, d'évaluation des différents cas possibles et de réutilisation de cas précédents pour en
traiter de nouveaux .
Les technologies informatiques en particulier celles associées au web, offrent des possibilités d’accès à
des bases d’informations hétérogènes, réparties aux quatre coins du monde, traitant de domaines
différents. Néanmoins, l’utilisateur est de plus en plus noyé dans cette masse énorme d’information et
le choix de l’information pertinente par rapport à son besoin réel reste actuellement le problème
fondamental. La décision de sélectionner telle ou telle source d’information dépend de plusieurs
critères, je citerai en particulier : le profil de l’utilisateur, son domaine de compétence, la catégorie de
l’information qu’il recherche, son niveau et sa capacité d’utiliser les différentes techniques de
recherche, la convivialité qu’offrent ces outils. L’émergence de nouvelles techniques informatiques
plus adaptées aux processus non structurés tel que la prise de décision permettent l'intégration de
l'outil informatique dans la gestion des processus de décision en général. Les systèmes d’aide à la
décision [10] intègrent différents types d'informations et de connaissances dans les différentes étapes
du processus de décision Dans le processus de décision relatif à l’indexation des sources
d’information, la phase de stockage des informations conditionne la phase d’exploitation des sources
d’information. Dans ce processus sont utilisées les données relatives au domaine traité, les
connaissances des différents experts qui analysent les sources d’information, les données historiques et
statistiques ainsi que les expériences précédentes en matière de prise de décision tant au niveau de la
phase d’indexation que lors de la phase d’exploitation et de recherche. Certes, plusieurs techniques
existent et sont utilisées lors des deux phases : indexation et recherche d’information, telle que
l’indexation et la recherche en full-text (texte intégral), mais ces techniques si elles permettent de
générer et de stocker l’information dans sa totalité, elle posent aussi le problème du tri de
l’information par rapport au besoin réel de l’utilisateur. Actuellement, l’utilisateur acquiert une
démarche de recherche plutôt par tâtonnement que par une méthode précise. C’est de cette façon qu’il
se définit lui même son propre cheminement en faisant référence à une trame ou trace d’exploitation
qu’il se constitue par une technique d’apprentissage empirique. Cette démarche, l’utilisateur essaie de
l’appliquer lors de chaque recherche d’information sans se soucier ni du contexte, ni du domaine, ni du
thème et encore moins de l’information recherchée. Se pose alors le problème de la pertinence des
résultats fournis par les différents processus de recherche .
Nous proposons ici un système d'aide à la décision pour l’indexation et la recherche d’information
associant différentes approches. Les techniques de représentation des sources d’information et des
connaissances et la réutilisation des cas antérieurs touchant au processus de décision pour l’indexation
et la formulation des besoins des utilisateurs en matière d’accès et de recherche d’information
constituent l'essentiel de ces approches. Ce système d’aide que l’on propose peut être adapté à
différents contextes et domaines d’application même si nous proposons de développer ici le cas de
l'indexation et la recherche de documents dans des sites web.
2 L'utilisation de méthodes de recherche documentaires
Dans un système de recherche d’information, on trouve généralement deux types de moteurs de
recherche, d'une part ceux développés autour d'un système de gestion de base de données relationnel et
d'autre part ceux qui ont été conçu autour d'un logiciel documentaire.
De nombreux systèmes proposent également une recherche de type navigationnel ou en mode
hypermédia.
26
TEXTES DES COMMUNICATIONS - Tome I
Les moteurs de recherche développés autour d'un système de gestion de base de données relationnel
sont particulièrement destinés à des applications de type dossier ou nomenclature et dans lesquelles la
recherche est conduite de manière arborescente (thème, sous thème, dossier, sous dossier, document),
ces systèmes permettent également la recherche sur des mots clés.
Toutefois et malgré l'intérêt que présentent certaines techniques d'accès à l'information, il convient de
noter que l'utilisation de méthodes de recherches documentaires est primordiale dans le cadre d'un
système de recherche d’information utilisant la technologie WEB.
En effet, l'objectif n'est plus alors de trouver des informations mais de sélectionner la plus pertinente
parmi une masse importante et très diversifié de documents (information structurée ou non).
L'ensemble des moteurs de recherche développés autour d'un logiciel documentaire classique sont
essentiellement utilisés pour leurs fonctions de recherche sur le texte des documents.
Dans ce cas, il est possible d'utiliser n'importe quel mot du texte comme critère de recherche
(recherche plein texte ou texte intégral).
Ces logiciels offrent également un ensemble de possibilités à l'utilisateur comme la recherche sur
racine de mots ou la recherche de mots dans un contexte.
Notons également que la formulation des questions se fait de plus en plus dans un mode
d'interrogation qui s'apparente au langage naturel et ainsi apporte un plus grand confort d'utilisation
dans le mécanisme de recherche d'informations.
2.1 Description des processus de recherche existants
Le document a été pendant longtemps synonyme de texte, mais depuis plusieurs années il recouvre
une réalité bien différente.
Aussi, de par l'interpénétration des médias et des supports, nous nous trouvons face à une typologie
documentaire de plus en plus complexe.
Typologie qu'il nous est possible de résumer de la façon suivante :
Documents textuels : Il s'agit essentiellement de documents existants sous une forme papier,
qu'ils soient produits ou non par une application informatique. Un document textuel se présente
généralement comme un ensemble de termes qui constitue un écrit ou une œuvre originale.
Documents visuels : On entend par documents visuels l'ensemble des sources d'information de
nature graphique (plan, carte, schéma, etc.) ou iconographique (dessin, peinture, photographie, etc.)
directement visibles par l'œil humain.
Documents sonores : La production de sons intelligibles, par l'homme sans transformation ni
utilisation d'une machine, constitue un document sonore qu'il convient d'identifier et de conserver en
l'état. Son contenu étant porteur de sens, il représente un témoignage qu'il est nécessaire de stocker le
plus fidèlement possible afin de pouvoir le reproduire ultérieurement sans altération ni déformation
d'aucune sorte.
Documents audiovisuels : Les documents audiovisuels rassemblent l'ensemble des sources
d'information qui utilisent la présentation d'images, de films et d'enregistrements sonores (séquences
vidéos, diaporamas, etc.). Il s'agit en fait de documents n'appartenant pas à l'univers de l'écrit, ils
apportent une illustration sur des événements ou des objets avec une sensibilité plus importante que la
seule description verbale.
Documents structurés : Un document structuré se caractérise par un ensemble d'éléments
organisés dont la présentation relève un aspect significatif. Deux niveaux de structuration peuvent être
retenus pour définir un document, la structure physique et la structure logique. Cette séparation permet
au document électronique d'acquérir sa virtualité et d'être indépendant des matériels de visualisation
ou d'impression. Une série de normes internationales permettent de définir cette structuration.
IRIT - DELTA VEILLE 27
VSST'2001
Bien que l'objectif principal d'un système de recherche d’information via le Web, soit de manipuler
différentes sources d'information, il est important de noter que le type de documents à appréhender est
parfois très éloigné de la notion de document électronique.
Ce qui sous-entend, qu'un processus de transformation doit être opéré afin de parvenir à stocker sous
une forme numérique un document préexistant dont l'aspect dépend essentiellement de son mode de
production. Cette transformation a une répercussion sur le processus d'indexation de l'information et
donc par conséquent sur le mode d'interrogation du fonds documentaire en particulier les systèmes de
Gestion Electronique de Documents (GED), qui deviennent de plus en plus accessibles via le Web.
2.2 Les principales méthodes de recherche et leur limites
Dans la plupart des sources d’informations, les documents sont généralement organisés autour de leur
descriptif et/ou de leur contenu, alors qu’il est plus pertinent qu’ils soient organisés plutôt selon
l'approche de recherche d'informations souhaitée. Le problème réside dans le fait que ces approches de
recherches d’informations dépendent de plusieurs critères et qu’aucune démarche ne peut être
généralisée.
Les techniques utilisées ont pour principal objectif de résoudre efficacement le problème du repérage
et de l'accessibilité aux informations.
Parmi les principales méthodes de recherche, il convient de citer :
La recherche booléenne consiste à présenter une requête sous la forme d'une expression
mathématique composée de mots clés appartenant à un dictionnaire ou à un thesaurus, séparés par des
opérateurs booléens.
La recherche plein texte ou texte intégral évite l'indexation préalable des documents. Ils sont
décrits par eux-mêmes, c'est-à-dire par les chaînes de caractères qui les constitue. Les recherches
booléennes s'appliquent également à ce cas.
La recherche par navigation ou technique hypertextuelle : Cette technique suppose une
structuration préalable des documents avec la mise en œuvre de liens hypertextuels.
L'interrogation en langage naturel : Il s'agit d'un mécanisme d'interrogation reposant sur une
analyse linguistique de la requête de l'utilisateur et conduisant à l'élaboration d'une requête "interne" à
partir de laquelle la recherche est réalisée.
Nous pouvons citer par les limites des techniques de recherche existantes :
L'absence de convivialité dans le mécanisme de recherche : lourdeur des systèmes
d’interrogation
La complexité de la recherche dite en texte intégral : masquée par l'apparente facilité de la
forme d'interrogation.
Les limites de la représentation du contenu par le langage : la description d’un document
dépend fortement de l’utilisateur, de son expérience et de ses compétences dans le domaine
d’activité traité.
L'apport limité des systèmes linguistiques dans les systèmes de représentation et de recherche
d’information : Le manque de maturité des systèmes de recherche en langage naturel intégrant
une aide sémantique et l'absence de dictionnaires de jargon d'entreprise ou de secteur,
constituent des éléments qui vont à l'encontre d'une amélioration des performances dans le
domaine de la recherche d'information.
3 Notre approche
L'approche que l'on propose est fondée un modèle de système d'aide à la décision [2]. Il s'agit d'un
système d'aide à l'indexation et à la recherche d'information fondé sur
.
des données textuelles
des informations et des connaissances liées aux savoirs d'experts du domaine traité
l'expérience et la trace des différentes exploitations antérieures
28
TEXTES DES COMMUNICATIONS - Tome I
Il s'agit en fait d'un système basé sur la capitalisation des indexations et des recherches d'informations
antérieures pour en traiter de nouvelles .
L’architecture du système que l’on propose, repose sur :
Une composante qui représente l’ensemble des données brutes (informations
numérisées) et données structurées sous forme de bases de données (informations
index)
Une composante qui représente les connaissances et les savoirs liés aux domaines
Une composante qui représente la trace des indexations et des recherches effectuées :
c’est ce qui permet de capitaliser et de traiter les nouveaux besoins en matière
d’indexation et de recherche d’information. Pour cette composante, l’utilisation du
raisonnement à partir de cas (RpC) nous paraît adéquate. Nous présentons ci dessous
comment cette approche de RpC est utilisée.
L'architecture du système général d'aide à la décision est composée de sous systèmes. La figure 1
représente cette architecture.
Evaluation
LEGENDE
BC. : Base Connaissances
M.I. : Moteur d’Inférence
BD. : Base de Données
SGBD : Système de Gestion de Bases de
Données
B.M. : Bases de Modèles
SGBM : Système de Gestion de Bases de
Modèles
Mise à jour de la Base de cas
Evaluation des résultats des
actions
Actions mise en oeuvre
Adaptation à la situation courante
Décision
Base de Cas
Choix de Décision et
B de Décisions
Semi Structuré
Sous-système 3
Infos RésultatsBC Experts
Structuré
Sous-système 1
Semi Structuré
Sous-système2
SGBMSGBD
BMBDM.I.BC.
Figure1:Architecture Générale du Système d'Aide à La Décision Proposé [3]
IRIT - DELTA VEILLE 29
VSST'2001
3.1 Les composantes du système général
Le sous-système 1 collecte des informations représentatives des sources d’information en utilisant
différentes techniques de représentation : des bases de données classiques aux systèmes de gestion
électronique de documents. L’objectif étant de recueillir des informations pertinentes sous une forme
adéquate aidant à la prise de décision (information brute par les techniques de numérisation, tableaux
de critères, scénario, simulations de prévision, tableaux de bord,…).
Le sous-système 2 assure la collecte d’informations dynamiques, fondée sur des bases de
connaissances et le savoir du décideur. Ce sous-système caractérise l’intervention du décideur par la
prise en considération du savoir de ce dernier. Les procédures qui caractérisent ce sous-système sont
des procédures touchant plutôt à l’informel, qui utilisent et génèrent des informations et/ou des
connaissances. Ces procédures utilisent des modèles de structuration relevant plutôt du domaine de
l’intelligence artificielle et aboutissant à la définition de bases de connaissances et des modèles
qualitatifs reposent sur les connaissances d’experts et les méthodes de raisonnement fondées sur des
règles de production. Pour pouvoir utiliser ces méthodes qualitatives, il est nécessaire de surmonter le
problème de l’acquisition des connaissances provenant d’experts, la détection d’heuristiques et
l’implémentation des bases de connaissances.
Le sous-système 3 concerne la conception et la génération de la base de décisions.. L’élaboration de
cet ensemble de décision est fondée sur les informations résultats issues du sous-système 1, la base de
connaissances expertes issue du sous système 2 et l’analyse des différents cas précédemment
enregistrés dans la base de cas du sous-système 5 .
Le sous-système 4 détermine le choix de la décision et évalue son impact en considérant les actions
qu'elle engendre. L'actualisation de la base de cas a lieu en conséquence. Dans un premier temps, ce
sous-système permet au décideur d’analyser, d’exploiter la base de décision et d’évaluer et de
pondérer les différentes décisions. Dans un deuxième temps , il permet d’établir la liste des actions qui
découlent de la décision choisie.
Le sous-système 5 mémorise et restitue les cas étudiés en utilisant le raisonnement par cas(RpC).
L'approche RpC comprend l'ensemble des étapes nécessaires pour établir un raisonnement par
analogie. Deux fonctions complémentaires interviennent dans le cycle du RpC : le stockage des cas à
l'aide du module d"indexation des nouveaux cas" et le module de "recherche des cas". La base de cas
contient les cas des évènements qui comportent des faits concernant les différentes étapes de la prise
de décision. Durant l'étape de recherche, le module RpC calcule un score de similarité structurale entre
les objets composites représentant les cas précédemment stockés et le nouveau cas d’indexation et/ou
de recherche d’information actuellement considéré.
3.2 Le modèle de raisonnement à partir de cas (RpC)
Il s’agit essentiellement d’une technique qui se fonde sur des situations antérieures pour en traiter des
nouvelles. Le raisonnement par cas (RpC) est un concept puissant qui fournit un mode de
raisonnement analogique pour résoudre des problèmes [1]. Cette technique de raisonnement consiste à
capitaliser les expériences antérieures à une situation donnée et ainsi de générer des connaissances
liées à ces dernières. C’est une approche qui permet d'exprimer la connaissance liée à l'expérience et
au savoir-faire. Cette connaissance sera utilisée pour traiter les nouveaux cas jugés similaires.
Le RpC est fondé sur la comparaison des nouveaux cas avec des cas indexés et précédemment stockés.
Il s'agit ensuite de rechercher ceux qui sont similaires et de proposer d’appliquer les éléments de
décision et les actions correspondantes en espérant que "ce qui sera efficace une fois le sera plusieurs
fois" [7].
Cette façon d’intégrer l’expérience pour le traitement de cas similaires est, selon le domaine traité,
d’un apport important, citons le cas de la médecine et le cas de l’indexation de textes et la formulation
des besoins informationnels dans des sites web.
L’approche Rpc est fondamentalement constituée de deux modules :
«indexation des nouveaux cas » et « Recherche des cas »
30
TEXTES DES COMMUNICATIONS - Tome I
3.2.1 Mémorisation et restitution des cas
Le module « indexation des nouveaux cas » permet le stockage des cas. La recherche des cas
similaires quant à elle, est assurée par le module « recherche des cas ».
La base de cas contient les cas des évènements qui comportent des faits concernant les différentes
étapes de la prise de décision, représentant ainsi l’expérience capitalisée dans le domaine traité.
Dans le raisonnement par cas, durant l'étape de recherche, le module « recherche des cas » calcule un
score de similarité structurale entre les objets composites représentant les cas précédemment stockés et
le nouveau cas actuellement considéré.
Un processus de décomposition de l'objet composite cas produit des sous-objets de types suivants : la
définition du problème et but , la représentation de l'environnement , le protocole de raisonnement, la
décision prise, les actions nécessaires et le résultat réellement obtenu. Durant l'étape d'indexation, le
nouvel objet cas est instancié et il comprend des composants concernant les étapes de la prise de
décision. L'utilisateur doit fournir des informations concernant les caractéristiques du cas et les
circonstances. Enfin, le nouveau cas est indexé et stocké dans la base de cas. [4]
L'indexation des cas repose sur le calcul d'une distance. Différents modèles de distance peuvent être
utilisés pour ordonner les cas : la logique floue et la théorie de la preuve [9].
4 Utilisation de cette architecture pour l'aide en matière de
recherche d’information et d’indexation de textes (ou
indexation de sources informationnelles)
Le système d’aide à la décision nous permet d’indexer au mieux les sources d’information et les
requêtes de recherche proposées par les utilisateurs. Pour cela plusieurs étapes sont nécessaires : de
l’analyse de la source à la qualification de la pertinence des réponses. Pour chaque étape, des sources
de données et de connaissances doivent être sollicitées. Certaines données proviennent de l'interface
avec l'utilisateur, d'autres sont stockées dans des bases de données, des bases de connaissances et des
bases d’objets cas où sont capitalisées les expériences antérieures.
La figure 2 décrit les éléments de connaissance nécessaires pour parvenir à la décision et au choix de
sélectionner les informations jugées pertinentes pour représenter et rechercher des sources
d’informations.
IRIT - DELTA VEILLE 31
VSST'2001
Eléments de connaissance
décisionnelle
SDC Sources de données
et de connaissances
Indexation précédentes de
questions de même classe,
S1
Formulation des
questions
Indications sémantiques des
contenus des questions et
caractérisation des cibles
S2
Données et
connaissances
linguistiques
Tests de requêtes
données statistiques
S1 Etudes et tests de
recherche
Expérience d’indexation
questions
RpC Cas de précédentes
indexations des
questions
Méthodes d’indexation et des
questions
AEF Superviseur :
Assistance
Analyse
Textuelle
Des sources
Eléments de connaissance
décisionnelle
SDC Sources de données
et de connaissances
Contexte – cadre S1 Données sur le texte
Connaissances liées au
langage d’indexation
S2 Connaissances
académiques du
domaine
Données S1 Etudes sur les
pratiques dans le dom
Trace et techniques
d’indexation précédentes
RpC Indexation
précédentes
Méthode de décision AEF Superviseur :
Automate d'états finis
Proposition
des Index
Eléments de connaissance
décisionnelle
SDC Sources de données
et de connaissances
Evaluation sémantique du
texte/document
S1 Données sur le texte
Connaissances expertes sur
l'évolution des Indexations
/Recherches/Cibles
S2 Base connaissances
linguistique
Données statistiques sur les
l’indexation et la recherche
(bruit, silence)
S1 Etudes statistiques
sur les techniques
d’indexation et de
requêtes utilisés
Expérience de cas de textes RpC Cas d’indexation et
Analyse de
la Cible
Décision
de
classement/
pertinence
Eléments de connaissance
décisionnelle
SDC Sources de données
et de connaissances
Indexation précédentes de
texte de même classes,
S1
Données du texte
Indications sémantiques
des contenus et
caractérisation des cibles
S2
Données et
connaissances
linguistiques
Tests de requêtes
données statistiques
S1 Etudes et tests de
recherche
Expérience d’indexation RpC Cas de précédentes
indexation -
recherche
Méthodes de décision
d’indexation et de
recherche
AEF Superviseur :
Assistance
Suivi de
pertinence
des
documents,
Textes
sélectionnés
Et des
questions
formulées
A
n
a
l
y
s
e
I
n
d
e
x
a
t
i
o
n
R
e
c
h
e
r
c
h
e
P
h
a
s
e
P
h
a
s
e
Figure 2 : Etapes et sources d’un système d’aide à l’indexation et à la recherche d’information
32
TEXTES DES COMMUNICATIONS - Tome I
5 Conclusion
L’approche que nous proposons nécessite que différents mécanismes de recherche provenant de
l'expérience humaine soient préalablement modélisés puis stockés dans une base de connaissances.
Elle souligne également la nécessité de s'appuyer sur des méthodes de recherche traditionnelles tout en
s'intéressant à la logique d'interrogation de l'utilisateur et à la façon dont il formule sa demande
d'informations.
Notre approche se voulant avant tout pragmatique, elle devrait donner lieu à une réalisation pratique
dans le cadre d'un projet Intranet où différents outils devraient être implémentés.
En somme, le système d’aide que l’on propose décrit les éléments de connaissance nécessaires pour
parvenir à la décision et au choix de sélectionner les informations jugées pertinentes pour représenter
et rechercher des sources d’informations. Il intègre différents paradigmes de décision. Nous pensons
que la mise en œuvre d'un système d'aide à la décision, comme celui qu'on propose, peut se faire par
une approche de type multi-agents (SMA). Un système SMA [12] fondé sur un langage de
communication comme KQML [5] et un protocole de négociation comme le "contract net protocol"
[6] nous paraît adéquat pour le développement de notre système .
Ce type de système RpC que l’on intègre comme partie entière dans le processus d’aide à la
l’indexation et la recherche d’information nécessite que des cas provenant de l'expérience et de la
pratique humaines soient modélisés et stockés dans une base initiale. Une telle tâche est certes
complexe, mais c’est essentiellement ce qui ressort des pratiques de recherche d’information
effectuées aujourd’hui sur internet.
Les expériences enregistrées par le système des différents cas d’utilisation du système, tant lors de la
phase d’indexation et lors de la phase de recherche d’information,
Le contrôle d’exploitation du système qui peut être soit totalement assuré par le système lui même :
c’est l’apprentissage non supervisé où le système détermine lui-même quels sous-ensembles de
caractéristiques ou groupes de caractéristiques de cet ensemble sont pertinents pour représenter
situation identifiée (la source d’information et la formulation des requêtes de l’utilisateur) [11].), soit
au contraire l’intervention d’experts pour l’indexation et de l’utilisateur pour la formulation des
questions pour la recherche sont nécessaires à plusieurs niveaux d’exécution : c’est l’apprentissage
supervisé, où pour chaque cas, la solution jugée correcte est fournie au système par un ou plusieurs
experts et/ou utilisateurs.
6 Bibliographie
[1.] AAMODT A., PLAZA E., Case-based reasoning : foundational issues, methodological variations,
and system approaches, AI Communications, IOS Press, Vol. 7 : 1, 1994, pp. 39-59
[2.] BOUZIDI L., SYBORD C., Système d’aide à la décision : proposition d’une architecture, Congrès
Afcet, Toulouse, 1995
[3.] BOUZIDI L., COLLOC J., Utilisation du raisonnement par cas pour élaborer un système d'aide à
la décision en médecine, INFORMATIK N°1, Zürich, 2001.
[4.] COLLOC J., BOUZIDI L., A framework for clinical decision making and medical experience
storing, Proceedings of ECIS'2000, Vienne (Autriche), 2000, pp. 1245-1252
[5.] FININ, WEBER, WIEDERHOLD,GENESERETH, FRITZON, MCKAY, MCGUIRE,
PELAVIN, SHAPIRO, BECK, Specification of the KQML Agent Communication Language,
Technical Report EIT 92-04, Entreprise Integration Technologies, Palo Alto, USA, 1993
[6.] JENNINGS N.R., Specification and Implementation of a Belief-Desire-Joint-Intention
Architecture for Collaborative Solving, Int. Journal of Intelligent and Cooperative Information
Systems, 1993, Vol. 2, N°3.., pp 289-318.
[7.] GUPTA HG, How Case-based Reasoning Solves new Problems, Interfaces, Vol24, n°6, 1994
[8.] POMEROL J.C., BOY B., ROSENTHAL-SEHOUX C. and SAAD A., An intelligent DSS for the
Multicriteria Evaluation of Railway Timetables, EuroConference, Lisbonne Portugal, 1993.
[9.] SCHUSTER A., DUBITZKY W., ADAMSON K., BELL D.A. and HUGHES J.G., Processing
Similarity between a Mix of Crisply and Fuzzily Defined Case Properties, in Applied Intelligence: Int.
IRIT - DELTA VEILLE 33
VSST'2001
Journ of Artificial Intelligence, Neural Networks, and Complex Problem-Solving Technologies, Vol.7,
pp1-18, Kluwer Academic Publishers, US, 1997.
[10.]SIMON H.A., The new Science of Managerial Decision, ed; Prentice-Hall, New-Jersey, 1977.
[11.]VAN BEMMEL J.H., MUSEN M.A., MILLER R.A. and VAN DER MASS A.A.F, Methods for
Decision Support, chap 15. in Medical Informatics, ed. by J.H. Van Bemmel and M.A. Musen,
Springer Verlag, 1997, pp. 233- 260.
[12.]WIEDERHOLD G., Mediators in the Architecture of Future Information Systems, IEEE
Computer, 1992, N°3, pp.38-49.
34

Contenu connexe

Tendances

Information numerique
Information numeriqueInformation numerique
Information numerique
Ninou Haiko
 

Tendances (8)

Information numerique
Information numeriqueInformation numerique
Information numerique
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
Diapo formatuteursscd 2010-2011
Diapo formatuteursscd 2010-2011Diapo formatuteursscd 2010-2011
Diapo formatuteursscd 2010-2011
 
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
 
Veille et medias sociaux
Veille et medias sociaux Veille et medias sociaux
Veille et medias sociaux
 
La culture Numérique et les outils du web 2.0
La culture Numérique et les outils du web 2.0La culture Numérique et les outils du web 2.0
La culture Numérique et les outils du web 2.0
 
Hervé Le Crosnier : Typologie des publications, contraintes juridiques, écono...
Hervé Le Crosnier : Typologie des publications, contraintes juridiques, écono...Hervé Le Crosnier : Typologie des publications, contraintes juridiques, écono...
Hervé Le Crosnier : Typologie des publications, contraintes juridiques, écono...
 
Projl
ProjlProjl
Projl
 

Similaire à Système d'aide à l’indexation et à la recherche d’information sur le web

Portails d'information
Portails d'informationPortails d'information
Portails d'information
SKennel
 
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
olivier
 
Cnfpt formationmediationnumerique
Cnfpt formationmediationnumeriqueCnfpt formationmediationnumerique
Cnfpt formationmediationnumerique
ABES
 

Similaire à Système d'aide à l’indexation et à la recherche d’information sur le web (20)

Capitalisation d'expériences pour l'indexation et la recherche d'information ...
Capitalisation d'expériences pour l'indexation et la recherche d'information ...Capitalisation d'expériences pour l'indexation et la recherche d'information ...
Capitalisation d'expériences pour l'indexation et la recherche d'information ...
 
Pour faire face à l’infobésité, il faut utiliser la veille et la curation
Pour faire face à l’infobésité, il faut utiliser la veille et la curationPour faire face à l’infobésité, il faut utiliser la veille et la curation
Pour faire face à l’infobésité, il faut utiliser la veille et la curation
 
Renseignement et information
Renseignement et informationRenseignement et information
Renseignement et information
 
Portails d'information
Portails d'informationPortails d'information
Portails d'information
 
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)
 
Tic recherche-scientifique
Tic recherche-scientifiqueTic recherche-scientifique
Tic recherche-scientifique
 
Quels enjeux pour la veille de demain ?
Quels enjeux pour la veille de demain ?Quels enjeux pour la veille de demain ?
Quels enjeux pour la veille de demain ?
 
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
 
Cersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutionsCersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutions
 
Techniques documentaires et veille stratégique
Techniques documentaires et veille stratégiqueTechniques documentaires et veille stratégique
Techniques documentaires et veille stratégique
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoire
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociaux
 
2 - Sense-making  : un modèle de construction de la réalité et d’appréhension...
2 - Sense-making  : un modèle de construction de la réalité et d’appréhension...2 - Sense-making  : un modèle de construction de la réalité et d’appréhension...
2 - Sense-making  : un modèle de construction de la réalité et d’appréhension...
 
La veille dans un environnement numérique mouvant
La veille dans un environnement numérique mouvantLa veille dans un environnement numérique mouvant
La veille dans un environnement numérique mouvant
 
Cnfpt formationmediationnumerique
Cnfpt formationmediationnumeriqueCnfpt formationmediationnumerique
Cnfpt formationmediationnumerique
 
Cnfpt formationmediationnumerique
Cnfpt formationmediationnumeriqueCnfpt formationmediationnumerique
Cnfpt formationmediationnumerique
 
Jabes 2008 - Session sponsor : Qui mieux que le SCD peut gérer vos documents ...
Jabes 2008 - Session sponsor : Qui mieux que le SCD peut gérer vos documents ...Jabes 2008 - Session sponsor : Qui mieux que le SCD peut gérer vos documents ...
Jabes 2008 - Session sponsor : Qui mieux que le SCD peut gérer vos documents ...
 
Documentaliste dans un environnement numérique
Documentaliste dans un environnement numériqueDocumentaliste dans un environnement numérique
Documentaliste dans un environnement numérique
 
Jabes 2007 - Restitution atelier 4
Jabes 2007 - Restitution atelier 4Jabes 2007 - Restitution atelier 4
Jabes 2007 - Restitution atelier 4
 
Vers une littératie des Communs : un parcours professionnel et universitaire
Vers une littératie des Communs : un parcours professionnel et universitaire    Vers une littératie des Communs : un parcours professionnel et universitaire
Vers une littératie des Communs : un parcours professionnel et universitaire
 

Plus de espenel

Plus de espenel (20)

Comment l'homme a conquis la planete
Comment l'homme a conquis la planeteComment l'homme a conquis la planete
Comment l'homme a conquis la planete
 
Les nouvelles formes d'apprentissage grenoble digital society forum
Les nouvelles formes d'apprentissage grenoble   digital society forumLes nouvelles formes d'apprentissage grenoble   digital society forum
Les nouvelles formes d'apprentissage grenoble digital society forum
 
The neuroscience of inspirational leadership the importance of collective-o...
The neuroscience of inspirational leadership   the importance of collective-o...The neuroscience of inspirational leadership   the importance of collective-o...
The neuroscience of inspirational leadership the importance of collective-o...
 
Data Visualizations Decoded 2015
Data Visualizations Decoded 2015Data Visualizations Decoded 2015
Data Visualizations Decoded 2015
 
Why and how agent based modeling can help economics
Why and how agent based modeling can help economicsWhy and how agent based modeling can help economics
Why and how agent based modeling can help economics
 
De l’homo economicus, roi de l'ancien monde à l’homo socius, premier occupant...
De l’homo economicus, roi de l'ancien monde à l’homo socius, premier occupant...De l’homo economicus, roi de l'ancien monde à l’homo socius, premier occupant...
De l’homo economicus, roi de l'ancien monde à l’homo socius, premier occupant...
 
Une Approche d'aide pour l'analyse des besoins informationnels dans les pme
Une Approche d'aide pour l'analyse des besoins informationnels dans les pmeUne Approche d'aide pour l'analyse des besoins informationnels dans les pme
Une Approche d'aide pour l'analyse des besoins informationnels dans les pme
 
Glut, mastering information through the ages
Glut, mastering information through the agesGlut, mastering information through the ages
Glut, mastering information through the ages
 
La fin prochaine de l’homo economicus
La fin prochaine de l’homo economicusLa fin prochaine de l’homo economicus
La fin prochaine de l’homo economicus
 
8- Re-questionner les pratiques informationnelles
8- Re-questionner les pratiques informationnelles 8- Re-questionner les pratiques informationnelles
8- Re-questionner les pratiques informationnelles
 
6- Pratiques informationnelles et analyse des traces numériques : de la repré...
6- Pratiques informationnelles et analyse des traces numériques : de la repré...6- Pratiques informationnelles et analyse des traces numériques : de la repré...
6- Pratiques informationnelles et analyse des traces numériques : de la repré...
 
5- L’apport de la méthode triadique à l’analyse des pratiques informationnelles
5- L’apport de la méthode triadique à l’analyse des pratiques informationnelles5- L’apport de la méthode triadique à l’analyse des pratiques informationnelles
5- L’apport de la méthode triadique à l’analyse des pratiques informationnelles
 
4- L’analyse des pratiques info-communicationnelles dans les organisations
4- L’analyse des pratiques info-communicationnelles dans les organisations4- L’analyse des pratiques info-communicationnelles dans les organisations
4- L’analyse des pratiques info-communicationnelles dans les organisations
 
3- La méthode de l’autoconfrontation : une méthode bien adaptée à l’investiga...
3- La méthode de l’autoconfrontation : une méthode bien adaptée à l’investiga...3- La méthode de l’autoconfrontation : une méthode bien adaptée à l’investiga...
3- La méthode de l’autoconfrontation : une méthode bien adaptée à l’investiga...
 
1 - de la recherche de l’information aux pratiques informationnelles
1 - de la recherche de l’information aux pratiques informationnelles1 - de la recherche de l’information aux pratiques informationnelles
1 - de la recherche de l’information aux pratiques informationnelles
 
Physical internet initiative
Physical internet initiativePhysical internet initiative
Physical internet initiative
 
Optimisation de l'organisation de processus de management de l'information
Optimisation de l'organisation de processus de management de l'informationOptimisation de l'organisation de processus de management de l'information
Optimisation de l'organisation de processus de management de l'information
 
Homo interneticus internet modifie t il nos modes d'apprentissages?
Homo interneticus   internet modifie t il nos modes d'apprentissages?Homo interneticus   internet modifie t il nos modes d'apprentissages?
Homo interneticus internet modifie t il nos modes d'apprentissages?
 
Quelles stratégies adopter pour intégrer le Réseau Social au sein de l'Entrep...
Quelles stratégies adopter pour intégrer le Réseau Social au sein de l'Entrep...Quelles stratégies adopter pour intégrer le Réseau Social au sein de l'Entrep...
Quelles stratégies adopter pour intégrer le Réseau Social au sein de l'Entrep...
 
Orchestrate social around business processes
Orchestrate social around business processesOrchestrate social around business processes
Orchestrate social around business processes
 

Système d'aide à l’indexation et à la recherche d’information sur le web

  • 1. TEXTES DES COMMUNICATIONS - Tome I Système d'Aide à l’Indexation et à la recherche d’Information sur le Web Laïd BOUZIDI bouzidi@univ-lyon3.fr IAE - Université Jean Moulin - Lyon3 / 6, cours Albert Thomas – B.P .8242 69355 Lyon cedex 08 Mots clefs : Indexation, Gestion des Connaissances, Aide à la Décision, Raisonnement par Cas, Systèmes Multi- Agent, Apprentissage, Recherche d’information sur le web Keywords : Indexation, Knowledge management, Decision support, Case based reasoning, Multi-agent systems, learning, research for information web Palabras claves : Indexacion, busqueda de informacion en la red, bases de conocimiento, ayuda a la toma de decisiones, rasonamiento por casos, aprentizaje Résumé L'explosion des sources d’information et le développement des outils d’accès à l’information en particulier les accès à distance font que le problème aujourd’hui n’est plus l’absence d’information mais plutôt sa pertinence. Plusieurs étapes sont nécessaires pour aboutir à la fois à une représentation fiable des sources d’information, mais aussi, à une bonne formulation des besoins des utilisateurs. Certaines des étapes qui constituent l'activité de pilotage du processus de recherche d’information deviennent de plus en plus complexes et un outil d’aide à la décision devient une nécessité, particulièrement dans les étapes d'analyse, de conception de scénario, de cheminement et d’exploitation, d'évaluation des différents cas possibles et de réutilisation de cas précédents pour en traiter de nouveaux . Les technologies informatiques en particulier celles associées au web, offrent des possibilités d’accès à des bases d’informations hétérogènes, réparties aux quatre coins du monde, traitant de domaines différents. Néanmoins, l’utilisateur est de plus en plus noyé dans cette masse énorme d’information et le choix de l’information pertinente par rapport à son besoin réel reste actuellement le problème fondamental. Plusieurs techniques existent tant au niveau de la phase d’indexation des ressources documentaires qu’au niveau de la phase de recherche. Nous essayons dans notre approche de proposer une technique « hybride » qui permet d’augmenter le taux de satisfaction des usagers. Elle est fondée sur une architecture de système d’aide à la prise de décision utilisant en particulier les expériences antérieures en matière d’indexation et de recherche d’information. IRIT - DELTA VEILLE 25
  • 2. VSST'2001 1 Introduction L'explosion des sources d’information et le développement des outils d’accès à l’information en particulier les accès à distance font que le problème aujourd’hui n’est plus l’absence d’information mais plutôt sa pertinence. Plusieurs étapes sont nécessaires pour aboutir à la fois à une représentation fiable des sources d’information, mais aussi, à une bonne formulation des besoins des utilisateurs. Certaines des étapes qui constituent l'activité de pilotage du processus de recherche d’information deviennent de plus en plus complexes et un outil d’aide à la décision devient une nécessité, particulièrement dans les étapes d'analyse, de conception de scénario, de cheminement et d’exploitation, d'évaluation des différents cas possibles et de réutilisation de cas précédents pour en traiter de nouveaux . Les technologies informatiques en particulier celles associées au web, offrent des possibilités d’accès à des bases d’informations hétérogènes, réparties aux quatre coins du monde, traitant de domaines différents. Néanmoins, l’utilisateur est de plus en plus noyé dans cette masse énorme d’information et le choix de l’information pertinente par rapport à son besoin réel reste actuellement le problème fondamental. La décision de sélectionner telle ou telle source d’information dépend de plusieurs critères, je citerai en particulier : le profil de l’utilisateur, son domaine de compétence, la catégorie de l’information qu’il recherche, son niveau et sa capacité d’utiliser les différentes techniques de recherche, la convivialité qu’offrent ces outils. L’émergence de nouvelles techniques informatiques plus adaptées aux processus non structurés tel que la prise de décision permettent l'intégration de l'outil informatique dans la gestion des processus de décision en général. Les systèmes d’aide à la décision [10] intègrent différents types d'informations et de connaissances dans les différentes étapes du processus de décision Dans le processus de décision relatif à l’indexation des sources d’information, la phase de stockage des informations conditionne la phase d’exploitation des sources d’information. Dans ce processus sont utilisées les données relatives au domaine traité, les connaissances des différents experts qui analysent les sources d’information, les données historiques et statistiques ainsi que les expériences précédentes en matière de prise de décision tant au niveau de la phase d’indexation que lors de la phase d’exploitation et de recherche. Certes, plusieurs techniques existent et sont utilisées lors des deux phases : indexation et recherche d’information, telle que l’indexation et la recherche en full-text (texte intégral), mais ces techniques si elles permettent de générer et de stocker l’information dans sa totalité, elle posent aussi le problème du tri de l’information par rapport au besoin réel de l’utilisateur. Actuellement, l’utilisateur acquiert une démarche de recherche plutôt par tâtonnement que par une méthode précise. C’est de cette façon qu’il se définit lui même son propre cheminement en faisant référence à une trame ou trace d’exploitation qu’il se constitue par une technique d’apprentissage empirique. Cette démarche, l’utilisateur essaie de l’appliquer lors de chaque recherche d’information sans se soucier ni du contexte, ni du domaine, ni du thème et encore moins de l’information recherchée. Se pose alors le problème de la pertinence des résultats fournis par les différents processus de recherche . Nous proposons ici un système d'aide à la décision pour l’indexation et la recherche d’information associant différentes approches. Les techniques de représentation des sources d’information et des connaissances et la réutilisation des cas antérieurs touchant au processus de décision pour l’indexation et la formulation des besoins des utilisateurs en matière d’accès et de recherche d’information constituent l'essentiel de ces approches. Ce système d’aide que l’on propose peut être adapté à différents contextes et domaines d’application même si nous proposons de développer ici le cas de l'indexation et la recherche de documents dans des sites web. 2 L'utilisation de méthodes de recherche documentaires Dans un système de recherche d’information, on trouve généralement deux types de moteurs de recherche, d'une part ceux développés autour d'un système de gestion de base de données relationnel et d'autre part ceux qui ont été conçu autour d'un logiciel documentaire. De nombreux systèmes proposent également une recherche de type navigationnel ou en mode hypermédia. 26
  • 3. TEXTES DES COMMUNICATIONS - Tome I Les moteurs de recherche développés autour d'un système de gestion de base de données relationnel sont particulièrement destinés à des applications de type dossier ou nomenclature et dans lesquelles la recherche est conduite de manière arborescente (thème, sous thème, dossier, sous dossier, document), ces systèmes permettent également la recherche sur des mots clés. Toutefois et malgré l'intérêt que présentent certaines techniques d'accès à l'information, il convient de noter que l'utilisation de méthodes de recherches documentaires est primordiale dans le cadre d'un système de recherche d’information utilisant la technologie WEB. En effet, l'objectif n'est plus alors de trouver des informations mais de sélectionner la plus pertinente parmi une masse importante et très diversifié de documents (information structurée ou non). L'ensemble des moteurs de recherche développés autour d'un logiciel documentaire classique sont essentiellement utilisés pour leurs fonctions de recherche sur le texte des documents. Dans ce cas, il est possible d'utiliser n'importe quel mot du texte comme critère de recherche (recherche plein texte ou texte intégral). Ces logiciels offrent également un ensemble de possibilités à l'utilisateur comme la recherche sur racine de mots ou la recherche de mots dans un contexte. Notons également que la formulation des questions se fait de plus en plus dans un mode d'interrogation qui s'apparente au langage naturel et ainsi apporte un plus grand confort d'utilisation dans le mécanisme de recherche d'informations. 2.1 Description des processus de recherche existants Le document a été pendant longtemps synonyme de texte, mais depuis plusieurs années il recouvre une réalité bien différente. Aussi, de par l'interpénétration des médias et des supports, nous nous trouvons face à une typologie documentaire de plus en plus complexe. Typologie qu'il nous est possible de résumer de la façon suivante : Documents textuels : Il s'agit essentiellement de documents existants sous une forme papier, qu'ils soient produits ou non par une application informatique. Un document textuel se présente généralement comme un ensemble de termes qui constitue un écrit ou une œuvre originale. Documents visuels : On entend par documents visuels l'ensemble des sources d'information de nature graphique (plan, carte, schéma, etc.) ou iconographique (dessin, peinture, photographie, etc.) directement visibles par l'œil humain. Documents sonores : La production de sons intelligibles, par l'homme sans transformation ni utilisation d'une machine, constitue un document sonore qu'il convient d'identifier et de conserver en l'état. Son contenu étant porteur de sens, il représente un témoignage qu'il est nécessaire de stocker le plus fidèlement possible afin de pouvoir le reproduire ultérieurement sans altération ni déformation d'aucune sorte. Documents audiovisuels : Les documents audiovisuels rassemblent l'ensemble des sources d'information qui utilisent la présentation d'images, de films et d'enregistrements sonores (séquences vidéos, diaporamas, etc.). Il s'agit en fait de documents n'appartenant pas à l'univers de l'écrit, ils apportent une illustration sur des événements ou des objets avec une sensibilité plus importante que la seule description verbale. Documents structurés : Un document structuré se caractérise par un ensemble d'éléments organisés dont la présentation relève un aspect significatif. Deux niveaux de structuration peuvent être retenus pour définir un document, la structure physique et la structure logique. Cette séparation permet au document électronique d'acquérir sa virtualité et d'être indépendant des matériels de visualisation ou d'impression. Une série de normes internationales permettent de définir cette structuration. IRIT - DELTA VEILLE 27
  • 4. VSST'2001 Bien que l'objectif principal d'un système de recherche d’information via le Web, soit de manipuler différentes sources d'information, il est important de noter que le type de documents à appréhender est parfois très éloigné de la notion de document électronique. Ce qui sous-entend, qu'un processus de transformation doit être opéré afin de parvenir à stocker sous une forme numérique un document préexistant dont l'aspect dépend essentiellement de son mode de production. Cette transformation a une répercussion sur le processus d'indexation de l'information et donc par conséquent sur le mode d'interrogation du fonds documentaire en particulier les systèmes de Gestion Electronique de Documents (GED), qui deviennent de plus en plus accessibles via le Web. 2.2 Les principales méthodes de recherche et leur limites Dans la plupart des sources d’informations, les documents sont généralement organisés autour de leur descriptif et/ou de leur contenu, alors qu’il est plus pertinent qu’ils soient organisés plutôt selon l'approche de recherche d'informations souhaitée. Le problème réside dans le fait que ces approches de recherches d’informations dépendent de plusieurs critères et qu’aucune démarche ne peut être généralisée. Les techniques utilisées ont pour principal objectif de résoudre efficacement le problème du repérage et de l'accessibilité aux informations. Parmi les principales méthodes de recherche, il convient de citer : La recherche booléenne consiste à présenter une requête sous la forme d'une expression mathématique composée de mots clés appartenant à un dictionnaire ou à un thesaurus, séparés par des opérateurs booléens. La recherche plein texte ou texte intégral évite l'indexation préalable des documents. Ils sont décrits par eux-mêmes, c'est-à-dire par les chaînes de caractères qui les constitue. Les recherches booléennes s'appliquent également à ce cas. La recherche par navigation ou technique hypertextuelle : Cette technique suppose une structuration préalable des documents avec la mise en œuvre de liens hypertextuels. L'interrogation en langage naturel : Il s'agit d'un mécanisme d'interrogation reposant sur une analyse linguistique de la requête de l'utilisateur et conduisant à l'élaboration d'une requête "interne" à partir de laquelle la recherche est réalisée. Nous pouvons citer par les limites des techniques de recherche existantes : L'absence de convivialité dans le mécanisme de recherche : lourdeur des systèmes d’interrogation La complexité de la recherche dite en texte intégral : masquée par l'apparente facilité de la forme d'interrogation. Les limites de la représentation du contenu par le langage : la description d’un document dépend fortement de l’utilisateur, de son expérience et de ses compétences dans le domaine d’activité traité. L'apport limité des systèmes linguistiques dans les systèmes de représentation et de recherche d’information : Le manque de maturité des systèmes de recherche en langage naturel intégrant une aide sémantique et l'absence de dictionnaires de jargon d'entreprise ou de secteur, constituent des éléments qui vont à l'encontre d'une amélioration des performances dans le domaine de la recherche d'information. 3 Notre approche L'approche que l'on propose est fondée un modèle de système d'aide à la décision [2]. Il s'agit d'un système d'aide à l'indexation et à la recherche d'information fondé sur . des données textuelles des informations et des connaissances liées aux savoirs d'experts du domaine traité l'expérience et la trace des différentes exploitations antérieures 28
  • 5. TEXTES DES COMMUNICATIONS - Tome I Il s'agit en fait d'un système basé sur la capitalisation des indexations et des recherches d'informations antérieures pour en traiter de nouvelles . L’architecture du système que l’on propose, repose sur : Une composante qui représente l’ensemble des données brutes (informations numérisées) et données structurées sous forme de bases de données (informations index) Une composante qui représente les connaissances et les savoirs liés aux domaines Une composante qui représente la trace des indexations et des recherches effectuées : c’est ce qui permet de capitaliser et de traiter les nouveaux besoins en matière d’indexation et de recherche d’information. Pour cette composante, l’utilisation du raisonnement à partir de cas (RpC) nous paraît adéquate. Nous présentons ci dessous comment cette approche de RpC est utilisée. L'architecture du système général d'aide à la décision est composée de sous systèmes. La figure 1 représente cette architecture. Evaluation LEGENDE BC. : Base Connaissances M.I. : Moteur d’Inférence BD. : Base de Données SGBD : Système de Gestion de Bases de Données B.M. : Bases de Modèles SGBM : Système de Gestion de Bases de Modèles Mise à jour de la Base de cas Evaluation des résultats des actions Actions mise en oeuvre Adaptation à la situation courante Décision Base de Cas Choix de Décision et B de Décisions Semi Structuré Sous-système 3 Infos RésultatsBC Experts Structuré Sous-système 1 Semi Structuré Sous-système2 SGBMSGBD BMBDM.I.BC. Figure1:Architecture Générale du Système d'Aide à La Décision Proposé [3] IRIT - DELTA VEILLE 29
  • 6. VSST'2001 3.1 Les composantes du système général Le sous-système 1 collecte des informations représentatives des sources d’information en utilisant différentes techniques de représentation : des bases de données classiques aux systèmes de gestion électronique de documents. L’objectif étant de recueillir des informations pertinentes sous une forme adéquate aidant à la prise de décision (information brute par les techniques de numérisation, tableaux de critères, scénario, simulations de prévision, tableaux de bord,…). Le sous-système 2 assure la collecte d’informations dynamiques, fondée sur des bases de connaissances et le savoir du décideur. Ce sous-système caractérise l’intervention du décideur par la prise en considération du savoir de ce dernier. Les procédures qui caractérisent ce sous-système sont des procédures touchant plutôt à l’informel, qui utilisent et génèrent des informations et/ou des connaissances. Ces procédures utilisent des modèles de structuration relevant plutôt du domaine de l’intelligence artificielle et aboutissant à la définition de bases de connaissances et des modèles qualitatifs reposent sur les connaissances d’experts et les méthodes de raisonnement fondées sur des règles de production. Pour pouvoir utiliser ces méthodes qualitatives, il est nécessaire de surmonter le problème de l’acquisition des connaissances provenant d’experts, la détection d’heuristiques et l’implémentation des bases de connaissances. Le sous-système 3 concerne la conception et la génération de la base de décisions.. L’élaboration de cet ensemble de décision est fondée sur les informations résultats issues du sous-système 1, la base de connaissances expertes issue du sous système 2 et l’analyse des différents cas précédemment enregistrés dans la base de cas du sous-système 5 . Le sous-système 4 détermine le choix de la décision et évalue son impact en considérant les actions qu'elle engendre. L'actualisation de la base de cas a lieu en conséquence. Dans un premier temps, ce sous-système permet au décideur d’analyser, d’exploiter la base de décision et d’évaluer et de pondérer les différentes décisions. Dans un deuxième temps , il permet d’établir la liste des actions qui découlent de la décision choisie. Le sous-système 5 mémorise et restitue les cas étudiés en utilisant le raisonnement par cas(RpC). L'approche RpC comprend l'ensemble des étapes nécessaires pour établir un raisonnement par analogie. Deux fonctions complémentaires interviennent dans le cycle du RpC : le stockage des cas à l'aide du module d"indexation des nouveaux cas" et le module de "recherche des cas". La base de cas contient les cas des évènements qui comportent des faits concernant les différentes étapes de la prise de décision. Durant l'étape de recherche, le module RpC calcule un score de similarité structurale entre les objets composites représentant les cas précédemment stockés et le nouveau cas d’indexation et/ou de recherche d’information actuellement considéré. 3.2 Le modèle de raisonnement à partir de cas (RpC) Il s’agit essentiellement d’une technique qui se fonde sur des situations antérieures pour en traiter des nouvelles. Le raisonnement par cas (RpC) est un concept puissant qui fournit un mode de raisonnement analogique pour résoudre des problèmes [1]. Cette technique de raisonnement consiste à capitaliser les expériences antérieures à une situation donnée et ainsi de générer des connaissances liées à ces dernières. C’est une approche qui permet d'exprimer la connaissance liée à l'expérience et au savoir-faire. Cette connaissance sera utilisée pour traiter les nouveaux cas jugés similaires. Le RpC est fondé sur la comparaison des nouveaux cas avec des cas indexés et précédemment stockés. Il s'agit ensuite de rechercher ceux qui sont similaires et de proposer d’appliquer les éléments de décision et les actions correspondantes en espérant que "ce qui sera efficace une fois le sera plusieurs fois" [7]. Cette façon d’intégrer l’expérience pour le traitement de cas similaires est, selon le domaine traité, d’un apport important, citons le cas de la médecine et le cas de l’indexation de textes et la formulation des besoins informationnels dans des sites web. L’approche Rpc est fondamentalement constituée de deux modules : «indexation des nouveaux cas » et « Recherche des cas » 30
  • 7. TEXTES DES COMMUNICATIONS - Tome I 3.2.1 Mémorisation et restitution des cas Le module « indexation des nouveaux cas » permet le stockage des cas. La recherche des cas similaires quant à elle, est assurée par le module « recherche des cas ». La base de cas contient les cas des évènements qui comportent des faits concernant les différentes étapes de la prise de décision, représentant ainsi l’expérience capitalisée dans le domaine traité. Dans le raisonnement par cas, durant l'étape de recherche, le module « recherche des cas » calcule un score de similarité structurale entre les objets composites représentant les cas précédemment stockés et le nouveau cas actuellement considéré. Un processus de décomposition de l'objet composite cas produit des sous-objets de types suivants : la définition du problème et but , la représentation de l'environnement , le protocole de raisonnement, la décision prise, les actions nécessaires et le résultat réellement obtenu. Durant l'étape d'indexation, le nouvel objet cas est instancié et il comprend des composants concernant les étapes de la prise de décision. L'utilisateur doit fournir des informations concernant les caractéristiques du cas et les circonstances. Enfin, le nouveau cas est indexé et stocké dans la base de cas. [4] L'indexation des cas repose sur le calcul d'une distance. Différents modèles de distance peuvent être utilisés pour ordonner les cas : la logique floue et la théorie de la preuve [9]. 4 Utilisation de cette architecture pour l'aide en matière de recherche d’information et d’indexation de textes (ou indexation de sources informationnelles) Le système d’aide à la décision nous permet d’indexer au mieux les sources d’information et les requêtes de recherche proposées par les utilisateurs. Pour cela plusieurs étapes sont nécessaires : de l’analyse de la source à la qualification de la pertinence des réponses. Pour chaque étape, des sources de données et de connaissances doivent être sollicitées. Certaines données proviennent de l'interface avec l'utilisateur, d'autres sont stockées dans des bases de données, des bases de connaissances et des bases d’objets cas où sont capitalisées les expériences antérieures. La figure 2 décrit les éléments de connaissance nécessaires pour parvenir à la décision et au choix de sélectionner les informations jugées pertinentes pour représenter et rechercher des sources d’informations. IRIT - DELTA VEILLE 31
  • 8. VSST'2001 Eléments de connaissance décisionnelle SDC Sources de données et de connaissances Indexation précédentes de questions de même classe, S1 Formulation des questions Indications sémantiques des contenus des questions et caractérisation des cibles S2 Données et connaissances linguistiques Tests de requêtes données statistiques S1 Etudes et tests de recherche Expérience d’indexation questions RpC Cas de précédentes indexations des questions Méthodes d’indexation et des questions AEF Superviseur : Assistance Analyse Textuelle Des sources Eléments de connaissance décisionnelle SDC Sources de données et de connaissances Contexte – cadre S1 Données sur le texte Connaissances liées au langage d’indexation S2 Connaissances académiques du domaine Données S1 Etudes sur les pratiques dans le dom Trace et techniques d’indexation précédentes RpC Indexation précédentes Méthode de décision AEF Superviseur : Automate d'états finis Proposition des Index Eléments de connaissance décisionnelle SDC Sources de données et de connaissances Evaluation sémantique du texte/document S1 Données sur le texte Connaissances expertes sur l'évolution des Indexations /Recherches/Cibles S2 Base connaissances linguistique Données statistiques sur les l’indexation et la recherche (bruit, silence) S1 Etudes statistiques sur les techniques d’indexation et de requêtes utilisés Expérience de cas de textes RpC Cas d’indexation et Analyse de la Cible Décision de classement/ pertinence Eléments de connaissance décisionnelle SDC Sources de données et de connaissances Indexation précédentes de texte de même classes, S1 Données du texte Indications sémantiques des contenus et caractérisation des cibles S2 Données et connaissances linguistiques Tests de requêtes données statistiques S1 Etudes et tests de recherche Expérience d’indexation RpC Cas de précédentes indexation - recherche Méthodes de décision d’indexation et de recherche AEF Superviseur : Assistance Suivi de pertinence des documents, Textes sélectionnés Et des questions formulées A n a l y s e I n d e x a t i o n R e c h e r c h e P h a s e P h a s e Figure 2 : Etapes et sources d’un système d’aide à l’indexation et à la recherche d’information 32
  • 9. TEXTES DES COMMUNICATIONS - Tome I 5 Conclusion L’approche que nous proposons nécessite que différents mécanismes de recherche provenant de l'expérience humaine soient préalablement modélisés puis stockés dans une base de connaissances. Elle souligne également la nécessité de s'appuyer sur des méthodes de recherche traditionnelles tout en s'intéressant à la logique d'interrogation de l'utilisateur et à la façon dont il formule sa demande d'informations. Notre approche se voulant avant tout pragmatique, elle devrait donner lieu à une réalisation pratique dans le cadre d'un projet Intranet où différents outils devraient être implémentés. En somme, le système d’aide que l’on propose décrit les éléments de connaissance nécessaires pour parvenir à la décision et au choix de sélectionner les informations jugées pertinentes pour représenter et rechercher des sources d’informations. Il intègre différents paradigmes de décision. Nous pensons que la mise en œuvre d'un système d'aide à la décision, comme celui qu'on propose, peut se faire par une approche de type multi-agents (SMA). Un système SMA [12] fondé sur un langage de communication comme KQML [5] et un protocole de négociation comme le "contract net protocol" [6] nous paraît adéquat pour le développement de notre système . Ce type de système RpC que l’on intègre comme partie entière dans le processus d’aide à la l’indexation et la recherche d’information nécessite que des cas provenant de l'expérience et de la pratique humaines soient modélisés et stockés dans une base initiale. Une telle tâche est certes complexe, mais c’est essentiellement ce qui ressort des pratiques de recherche d’information effectuées aujourd’hui sur internet. Les expériences enregistrées par le système des différents cas d’utilisation du système, tant lors de la phase d’indexation et lors de la phase de recherche d’information, Le contrôle d’exploitation du système qui peut être soit totalement assuré par le système lui même : c’est l’apprentissage non supervisé où le système détermine lui-même quels sous-ensembles de caractéristiques ou groupes de caractéristiques de cet ensemble sont pertinents pour représenter situation identifiée (la source d’information et la formulation des requêtes de l’utilisateur) [11].), soit au contraire l’intervention d’experts pour l’indexation et de l’utilisateur pour la formulation des questions pour la recherche sont nécessaires à plusieurs niveaux d’exécution : c’est l’apprentissage supervisé, où pour chaque cas, la solution jugée correcte est fournie au système par un ou plusieurs experts et/ou utilisateurs. 6 Bibliographie [1.] AAMODT A., PLAZA E., Case-based reasoning : foundational issues, methodological variations, and system approaches, AI Communications, IOS Press, Vol. 7 : 1, 1994, pp. 39-59 [2.] BOUZIDI L., SYBORD C., Système d’aide à la décision : proposition d’une architecture, Congrès Afcet, Toulouse, 1995 [3.] BOUZIDI L., COLLOC J., Utilisation du raisonnement par cas pour élaborer un système d'aide à la décision en médecine, INFORMATIK N°1, Zürich, 2001. [4.] COLLOC J., BOUZIDI L., A framework for clinical decision making and medical experience storing, Proceedings of ECIS'2000, Vienne (Autriche), 2000, pp. 1245-1252 [5.] FININ, WEBER, WIEDERHOLD,GENESERETH, FRITZON, MCKAY, MCGUIRE, PELAVIN, SHAPIRO, BECK, Specification of the KQML Agent Communication Language, Technical Report EIT 92-04, Entreprise Integration Technologies, Palo Alto, USA, 1993 [6.] JENNINGS N.R., Specification and Implementation of a Belief-Desire-Joint-Intention Architecture for Collaborative Solving, Int. Journal of Intelligent and Cooperative Information Systems, 1993, Vol. 2, N°3.., pp 289-318. [7.] GUPTA HG, How Case-based Reasoning Solves new Problems, Interfaces, Vol24, n°6, 1994 [8.] POMEROL J.C., BOY B., ROSENTHAL-SEHOUX C. and SAAD A., An intelligent DSS for the Multicriteria Evaluation of Railway Timetables, EuroConference, Lisbonne Portugal, 1993. [9.] SCHUSTER A., DUBITZKY W., ADAMSON K., BELL D.A. and HUGHES J.G., Processing Similarity between a Mix of Crisply and Fuzzily Defined Case Properties, in Applied Intelligence: Int. IRIT - DELTA VEILLE 33
  • 10. VSST'2001 Journ of Artificial Intelligence, Neural Networks, and Complex Problem-Solving Technologies, Vol.7, pp1-18, Kluwer Academic Publishers, US, 1997. [10.]SIMON H.A., The new Science of Managerial Decision, ed; Prentice-Hall, New-Jersey, 1977. [11.]VAN BEMMEL J.H., MUSEN M.A., MILLER R.A. and VAN DER MASS A.A.F, Methods for Decision Support, chap 15. in Medical Informatics, ed. by J.H. Van Bemmel and M.A. Musen, Springer Verlag, 1997, pp. 233- 260. [12.]WIEDERHOLD G., Mediators in the Architecture of Future Information Systems, IEEE Computer, 1992, N°3, pp.38-49. 34