1. Université Sidi Mohamed Ben Abdellah
Faculté des Sciences Dhar Mehraz – Fès
Laboratoire Informatique et Modélisation
Vers un système de recherche sémantique
des documents textes basé sur l’appariement
ontologique
Réalisé par :
Athman HAJHAMOU
2. Plan
• Contexte de recherche.
• Problématique.
• Définitions.
• Contribution.
• Prototypage et Expérimentation.
• Perspectives.
• Discussion.
3. Contexte de recherche.
• Nous migrons vers une société d'information où la création, la distribution
et la manipulation d'information est devenue une activité économique et
culturelle significative.
• Les compagnies et les organisations possèdent des centaines ou même
des milliers de documents dans leur réseau d'entreprise.
• Nous transitons vers le Web Sémantique, où les informations ne seraient
plus stockées mais comprises par les ordinateurs afin d'apporter à
l'utilisateur ce qu'il cherche vraiment.
4. Problématique.
• En indexation classique, les entités textuelles (documents et requêtes)
sont représentées par des mots clés issus de leurs contenus. L’utilisation
des mots pour représenter le contenu des documents et requêtes pose
deux problèmes, l’ambiguïté des mots et leur disparité.
5. Problématique.
• L’ambiguïté des mots, dite ambiguïté lexicale, se rapporte à des mots
lexicalement identiques et portant des sens différents. Elle est
généralement divisée en deux types : l’ambiguïté syntaxique et l’ambiguïté
sémantique.
• L'ambiguïté syntaxique se rapporte à des différences dans la catégorie
syntaxique. Par exemple, « play » peut apparaître en tant que nom ou
verbe.
• L'ambiguïté sémantique se rapporte à des différences dans la
signification, et est décomposée en homonymie et polysémie selon que
les sens sont liés ou non.
6. Problématique.
• Homonymie est la relation entre des homonymes, c’est-à-dire entre des
mots d’une langue qui ont la même forme orale et/ou écrite mais des sens
différents. Deux mots homonymes ont la même forme (phonique ou
graphique) mais sont des mots totalement différents.
• Polysémie est la qualité d'un mot ou d'une expression qui a deux voire
plusieurs sens différents.
Le problème d’ambiguïté implique que des documents non pertinents,
contenant les mêmes mots que la requête sont retrouvés.
La polysémie engendre du bruit documentaire.
7. Problématique.
• La disparité des mots se réfère à des mots lexicalement différents mais
portant un même sens.
Ceci implique que des documents, pourtant pertinents, ne partagent
pas de mots avec la requête, ne sont pas retrouvés.
La disparité des mots engendre du silence documentaire.
8. Définitions.
• Unités lexicales et conceptuelles :
Mots clés : en recherche d’information, les mots clés sont les mots
qui décrivent le mieux le contenu d’un document ou d’un corpus.
En linguistique de corpus, les mots clés sont les mots qui
apparaissent plus fréquemment dans un document que ne le
voudrait le hasard
9. Définitions.
• Unités lexicales et conceptuelles :
Terme : Du point de vue classique, celui de E. Wuster et du Cercle de
Vienne, le terme est la dénomination d’un concept, chaque concept
étant désigné de manière non ambigüe par un seul terme. on
considère généralement que les termes doivent être monosémiques
dans le domaine considéré.
10. Définitions.
• Unités lexicales et conceptuelles :
Concept : est la représentation mentale d’un ensemble d’objets
différents, mais considérés comme équivalents d’un certain point de
vue (nom identique, action commune, etc.).
Les concepts ne se trouvent pas directement dans les textes. En
effet, comme le constate très justement C. Roche [Roche 2005], « Il
n’y a pas de concepts dans un texte, mais uniquement des traces
linguistiques de leurs usages ».
11. Définitions.
• Relations sémantiques :
Ces relations sont distribuées sur deux axes :
Axe syntagmatique (horizontal). Deux mots sont en relation
syntagmatique qu’ils apparaissent ensemble dans un texte : On dit
également que les mots sont co-occurrents s’ils apparaissent
ensemble dans un contexte restreint.
Axe paradigmatique (vertical, hiérarchique). Deux mots sont en
relation paradigmatique s’ils apparaissent dans des contextes
similaires. C’est à ce niveau que l’on retrouve un certain nombre de
relations structurant le lexique telles que la méronymie et
l’hyponymie.
12. Définitions.
• Relations sémantiques :
Synonymie : Les termes synonymes correspondent au même
concept. La relation de synonymie est symétrique, mais pas
nécessairement transitive
Hyponymie : La relation d’hyponymie (encore appelée subsomption,
spécialisation, relation ISA) implique un rapport d’inclusion entre le
sens des mots.
Méronymie : La relation de méronymie (aussi appelée relation PART-
OF) correspond à la relation partie-tout. Ainsi, globule est un
méronyme de sang et sang et un holonyme de globule.
13. Définitions.
• Ressources lexico-sémantiques :
Lexique : Les lexiques sont des listes de mots, généralement triés
par ordre alphabétique, parfois accompagnés de leur définition ou
de leur traduction.
Glossaires : les glossaires listent les définitions des termes spécifiques
à un domaine.
Dictionnaires : Les dictionnaires listent les mots et leur définition ou
leur traduction (dictionnaires bilingues). Les mots sont classés en
fonction de leur lemme (forme de base).
14. Définitions.
• Ressources lexico-sémantiques :
Thésaurus : groupent les mots dans des catégories en fonction de leur
similarité sémantique. Ces catégories sont organisées
hiérarchiquement et correspondent à des notions de plus en plus
abstraites en fonction de leur hauteur dans l’arbre des catégories.
Ontologies : Les ontologies organisent des concepts, et doivent
permettre de faire des inférences. OWL (Web Ontology Language) est
le langage de représentation d’ontologies le plus utilisé à leur actuelle.
Des thésaurus pourront dans certains cas être considérés comme des
ontologies même si leur niveau de formalisation est médiocre.
16. Contribution
• Indexation Conceptuelle :
L’indexation conceptuelle se réfère à la construction de taxonomies
conceptuelles à partir des textes. Cette approche est due à Woods. Le
système conceptuel d'indexation et de recherche proposé extrait
automatiquement des mots et les organise en un réseau sémantique
(taxonomie conceptuelle) qui intègre des relations syntaxiques,
sémantiques et morphologiques.
17. Contribution
• Indexation Conceptuelle :
Pour étudier l’impact de l'indexation par les sens des mots sur
l’efficacité de la recherche, des statistiques sur le nombre de disparités
de sens dans les documents pertinents ont été établies. Les résultats
rapportés ont montré que la disparité des sens est faible dans les
documents pertinents. Les sens permettent bien de séparer les
documents pertinents des documents non pertinents.
20. Contribution
• Framework Text2Onto (Natural Language Processing)
Tokenization : Il s'agit du processus permettant de démarquer les
différentes sections d'une chaîne de caractères. En effet, un
ordinateur n'est pas capable seul de déterminer quels sont les
mots d'une phrase ; il n'y voit qu'une chaîne de caractères. Un
processus de tokenization consisterait donc à séparer ces mots,
selon les espaces.
Sentence Splitter : une cascade de transducteurs à états finis qui
segmente le texte en phrases.
21. Contribution
• Framework Text2Onto (Natural Language Processing)
POS-Tagger : également appelé marquage grammaticale, est le
processus de marquage d'un mot dans un texte (corpus) par
correspondance à un élément d’un langage particulier
(nouns, verbs, adjectives, adverbs…)
Syntactical Analyzer : reconnaît la structure syntaxique d'un énoncé et
permet d'expliciter les relations de dépendance (par exemple entre sujet
et objet) entre les différents lexèmes.
22. Contribution
• Framework Text2Onto (Algorithmes pour l’extraction des concepts)
TF*IDF Concept Extraction :
tf (w) : nombre d’occurrence du mot dans le document.
Idf(w) : nombre de document contenant le mot.
N : nombre de tout les documents du corpus.
23. Contribution
• Framework Text2Onto (Algorithmes pour l’extraction des concepts)
Entropy Concept Extraction : combinaison entre
C-Value :
24. Contribution
• Framework Text2Onto (Algorithmes pour l’extraction des concepts)
Entropy Concept Extraction : combinaison entre
NC-Value :
25. Contribution
• Framework Text2Onto (Algorithmes pour l’extraction des concepts)
RTF Concept Extraction :
se base sur la fréquence du terme, c’est-à-dire son nombre
d’apparition dans le corpus.
26. Contribution
• Framework Text2Onto (Extraction des relations taxonomiques)
Implémentation d’algorithmes exploitant la structure
hyperonymique de WordNet.
WordNet : est une base de données lexicale développée par
des linguistes du laboratoire des sciences cognitives de
l'université de Princeton. Son but est de répertorier, classifier
et mettre en relation de diverses manières le contenu
sémantique et lexical de la langue anglaise. Des versions de
WordNet pour d'autres langues existent, mais la version
anglaise est cependant la plus complète à ce jour.
29. Contribution
• Appariement Ontologique :
consiste à trouver automatiquement des correspondances entre les
connaissances spécifiées dans les deux ontologies, de manière à
pouvoir les exploiter conjointement dans le même système.
L’alignement de deux ontologies revient à trouver une correspondance
entre leurs entités qui sont sémantiquement similaires.
Dune façon formelle, l’alignement est défini par la fonction map
comme suit:
30. Contribution
• Appariement Ontologique :
Les différentes mesures de similarité utilisées dans le processus
d’alignement sont organisées selon la classification suivante :
La méthode terminologique: compare les labels des entités. Elle
est décomposée en approches purement syntaxiques et celles
utilisant un lexique.
Approche syntaxique : effectue la correspondance à travers les
mesures de dissimilarité des chaînes (EditDistance,…)
Approche lexicale effectue la correspondance à travers les
relations lexicales (synonymie, hyponymie,…).
31. Contribution
• Appariement Ontologique :
Les différentes mesures de similarité utilisées dans le processus
d’alignement sont organisées selon la classification suivante :
La méthode linguistique utilisant des ressources externes
(dictionnaires, taxonomies,…) : la similarité entre deux entités
représentées par des termes est calculée à partir des liens
sémantiques déjà existants dans les ressources externes.
La méthode de comparaison des structures internes: compare les
structures internes des entités (intervalle de valeur, cardinalité
d’attributs, etc.);
32. Contribution
• Appariement Ontologique :
Les différentes mesures de similarité utilisées dans le processus
d’alignement sont organisées selon la classification suivante :
La méthode de comparaison des structures externes : compare
les relations d’entités avec d’autres.
La méthode extensionnelle : elle déduise la similarité entre deux
entités qui sont notamment des concepts en analysant leurs
extensions (leurs ensembles d’instances).
…
33. Contribution
• Appariement Ontologique (Prototype)
Le prototype que nous avons développé adopte la méthode
terminologique. Les algorithmes implémentés sont :
NameEqAlignment : Compare tout simplement l’égalité entre les
noms des concepts et des relations et aligne les concepts qui ont
le même nom.
EditDistNameAlignment : utilise la distance de Levenshtein entre
les noms des entités. Elle est égale au nombre minimal de
caractères qu'il faut supprimer, insérer ou remplacer pour passer
d’une chaîne à l’autre. L’algorithme construit donc une matrice des
distances et choisie l’alignement à partir de la distance.
34. Contribution
• Appariement Ontologique (Prototype)
Le prototype que nous avons développé adopte la méthode
terminologique. Les algorithmes implémentés sont :
SubsDistNameAlignment : calcule la distance substring sur les
noms des entités.
SMOANameAlignment : calcule ‘’String Metric for Ontology
Alignment ‘’ qui combine les communalités et les différences entre
les noms de deux concepts.
35. Contribution
• Appariement Ontologique (Prototype)
Le prototype que nous avons développé adopte la méthode
terminologique. Les algorithmes implémentés sont :
SubsDistNameAlignment : calcule la distance substring sur les
noms des entités.
SMOANameAlignment : calcule ‘’String Metric for Ontology
Alignment ‘’ qui combine les communalités et les différences entre
les noms de deux concepts.
36. Prototypage et Expérimentation
• Le prototype a été conçu de manière à utiliser des APIs java existants
d’extraction des ontologies à partir de documents textes et d’appariement
ontologique et de les combiner pour mettre en œuvre un système de
recherche sémantique basé sur l’appariement ontologique.
Text2Onto API : pour l’indexation conceptuelle.
Alignment API : pour la recherche sémantique.
39. Expérimentation
• Pour expérimenter notre système de recherche sémantique basé sur
l’appariement ontologique nous l’avons exécuté sur une collection de test
composée de 50 documents textes non structuré anglais et quatre
requêtes.
• Les résultats de test concernent quatre techniques d’appariement
terminologique qui sont : NameEqAlignment, EditDistNameAlignment,
SMOANameAlignment et SubsDistNameAlignment.
41. Perspectives
• Adapter les techniques existantes au traitement sémantique de la langue
arabe qui reste pour le moment une langue très peu informatisée.
• Appliquer notre approche pour construire des ontologies de domaines sur
la base des clusters générés à partir des documents du corpus. Après
classification ou catégorisations des documents, diverses ontologies de
domaines peuvent être construites et peuvent servir à raffiner la
recherche sémantique.
• Implémenter des mesures de similarité structurelle et évaluer le système à
partir d’une large collection de test.
• Adapter les APIs existantes à la recherche d’information sémantique dans
l’intérêt d’améliorer les performances du système.