Recherche semantique

1 688 vues

Publié le

Publié dans : Technologie
0 commentaire
4 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 688
Sur SlideShare
0
Issues des intégrations
0
Intégrations
4
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
4
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Recherche semantique

  1. 1. Université Sidi Mohamed Ben Abdellah Faculté des Sciences Dhar Mehraz – Fès Laboratoire Informatique et Modélisation Vers un système de recherche sémantiquedes documents textes basé sur l’appariement ontologique Réalisé par : Athman HAJHAMOU
  2. 2. Plan• Contexte de recherche.• Problématique.• Définitions.• Contribution.• Prototypage et Expérimentation.• Perspectives.• Discussion.
  3. 3. Contexte de recherche.• Nous migrons vers une société dinformation où la création, la distribution et la manipulation dinformation est devenue une activité économique et culturelle significative.• Les compagnies et les organisations possèdent des centaines ou même des milliers de documents dans leur réseau dentreprise.• Nous transitons vers le Web Sémantique, où les informations ne seraient plus stockées mais comprises par les ordinateurs afin dapporter à lutilisateur ce quil cherche vraiment.
  4. 4. Problématique.• En indexation classique, les entités textuelles (documents et requêtes) sont représentées par des mots clés issus de leurs contenus. L’utilisation des mots pour représenter le contenu des documents et requêtes pose deux problèmes, l’ambiguïté des mots et leur disparité.
  5. 5. Problématique.• L’ambiguïté des mots, dite ambiguïté lexicale, se rapporte à des mots lexicalement identiques et portant des sens différents. Elle est généralement divisée en deux types : l’ambiguïté syntaxique et l’ambiguïté sémantique.• Lambiguïté syntaxique se rapporte à des différences dans la catégorie syntaxique. Par exemple, « play » peut apparaître en tant que nom ou verbe.• Lambiguïté sémantique se rapporte à des différences dans la signification, et est décomposée en homonymie et polysémie selon que les sens sont liés ou non.
  6. 6. Problématique.• Homonymie est la relation entre des homonymes, c’est-à-dire entre des mots d’une langue qui ont la même forme orale et/ou écrite mais des sens différents. Deux mots homonymes ont la même forme (phonique ou graphique) mais sont des mots totalement différents.• Polysémie est la qualité dun mot ou dune expression qui a deux voire plusieurs sens différents.  Le problème d’ambiguïté implique que des documents non pertinents, contenant les mêmes mots que la requête sont retrouvés.  La polysémie engendre du bruit documentaire.
  7. 7. Problématique.• La disparité des mots se réfère à des mots lexicalement différents mais portant un même sens.  Ceci implique que des documents, pourtant pertinents, ne partagent pas de mots avec la requête, ne sont pas retrouvés.  La disparité des mots engendre du silence documentaire.
  8. 8. Définitions.• Unités lexicales et conceptuelles :  Mots clés : en recherche d’information, les mots clés sont les mots qui décrivent le mieux le contenu d’un document ou d’un corpus. En linguistique de corpus, les mots clés sont les mots qui apparaissent plus fréquemment dans un document que ne le voudrait le hasard
  9. 9. Définitions.• Unités lexicales et conceptuelles :  Terme : Du point de vue classique, celui de E. Wuster et du Cercle de Vienne, le terme est la dénomination d’un concept, chaque concept étant désigné de manière non ambigüe par un seul terme. on considère généralement que les termes doivent être monosémiques dans le domaine considéré.
  10. 10. Définitions.• Unités lexicales et conceptuelles :  Concept : est la représentation mentale d’un ensemble d’objets différents, mais considérés comme équivalents d’un certain point de vue (nom identique, action commune, etc.). Les concepts ne se trouvent pas directement dans les textes. En effet, comme le constate très justement C. Roche [Roche 2005], « Il n’y a pas de concepts dans un texte, mais uniquement des traces linguistiques de leurs usages ».
  11. 11. Définitions.• Relations sémantiques : Ces relations sont distribuées sur deux axes :  Axe syntagmatique (horizontal). Deux mots sont en relation syntagmatique qu’ils apparaissent ensemble dans un texte : On dit également que les mots sont co-occurrents s’ils apparaissent ensemble dans un contexte restreint.  Axe paradigmatique (vertical, hiérarchique). Deux mots sont en relation paradigmatique s’ils apparaissent dans des contextes similaires. C’est à ce niveau que l’on retrouve un certain nombre de relations structurant le lexique telles que la méronymie et l’hyponymie.
  12. 12. Définitions.• Relations sémantiques :  Synonymie : Les termes synonymes correspondent au même concept. La relation de synonymie est symétrique, mais pas nécessairement transitive  Hyponymie : La relation d’hyponymie (encore appelée subsomption, spécialisation, relation ISA) implique un rapport d’inclusion entre le sens des mots.  Méronymie : La relation de méronymie (aussi appelée relation PART- OF) correspond à la relation partie-tout. Ainsi, globule est un méronyme de sang et sang et un holonyme de globule.
  13. 13. Définitions.• Ressources lexico-sémantiques :  Lexique : Les lexiques sont des listes de mots, généralement triés par ordre alphabétique, parfois accompagnés de leur définition ou de leur traduction.  Glossaires : les glossaires listent les définitions des termes spécifiques à un domaine.  Dictionnaires : Les dictionnaires listent les mots et leur définition ou leur traduction (dictionnaires bilingues). Les mots sont classés en fonction de leur lemme (forme de base).
  14. 14. Définitions.• Ressources lexico-sémantiques :  Thésaurus : groupent les mots dans des catégories en fonction de leur similarité sémantique. Ces catégories sont organisées hiérarchiquement et correspondent à des notions de plus en plus abstraites en fonction de leur hauteur dans l’arbre des catégories.  Ontologies : Les ontologies organisent des concepts, et doivent permettre de faire des inférences. OWL (Web Ontology Language) est le langage de représentation d’ontologies le plus utilisé à leur actuelle. Des thésaurus pourront dans certains cas être considérés comme des ontologies même si leur niveau de formalisation est médiocre.
  15. 15. Contribution• Architecture d’un Système de Recherche d’Information
  16. 16. Contribution• Indexation Conceptuelle : L’indexation conceptuelle se réfère à la construction de taxonomies conceptuelles à partir des textes. Cette approche est due à Woods. Le système conceptuel dindexation et de recherche proposé extrait automatiquement des mots et les organise en un réseau sémantique (taxonomie conceptuelle) qui intègre des relations syntaxiques, sémantiques et morphologiques.
  17. 17. Contribution• Indexation Conceptuelle : Pour étudier l’impact de lindexation par les sens des mots sur l’efficacité de la recherche, des statistiques sur le nombre de disparités de sens dans les documents pertinents ont été établies. Les résultats rapportés ont montré que la disparité des sens est faible dans les documents pertinents. Les sens permettent bien de séparer les documents pertinents des documents non pertinents.
  18. 18. Contribution• Framework Text2Onto
  19. 19. Contribution• Framework Text2Onto (Natural Language Processing)
  20. 20. Contribution• Framework Text2Onto (Natural Language Processing)  Tokenization : Il sagit du processus permettant de démarquer les différentes sections dune chaîne de caractères. En effet, un ordinateur nest pas capable seul de déterminer quels sont les mots dune phrase ; il ny voit quune chaîne de caractères. Un processus de tokenization consisterait donc à séparer ces mots, selon les espaces.  Sentence Splitter : une cascade de transducteurs à états finis qui segmente le texte en phrases.
  21. 21. Contribution• Framework Text2Onto (Natural Language Processing)  POS-Tagger : également appelé marquage grammaticale, est le processus de marquage dun mot dans un texte (corpus) par correspondance à un élément d’un langage particulier (nouns, verbs, adjectives, adverbs…)  Syntactical Analyzer : reconnaît la structure syntaxique dun énoncé et permet dexpliciter les relations de dépendance (par exemple entre sujet et objet) entre les différents lexèmes.
  22. 22. Contribution• Framework Text2Onto (Algorithmes pour l’extraction des concepts)  TF*IDF Concept Extraction :  tf (w) : nombre d’occurrence du mot dans le document.  Idf(w) : nombre de document contenant le mot.  N : nombre de tout les documents du corpus.
  23. 23. Contribution• Framework Text2Onto (Algorithmes pour l’extraction des concepts)  Entropy Concept Extraction : combinaison entre  C-Value :
  24. 24. Contribution• Framework Text2Onto (Algorithmes pour l’extraction des concepts)  Entropy Concept Extraction : combinaison entre  NC-Value :
  25. 25. Contribution• Framework Text2Onto (Algorithmes pour l’extraction des concepts)  RTF Concept Extraction : se base sur la fréquence du terme, c’est-à-dire son nombre d’apparition dans le corpus.
  26. 26. Contribution• Framework Text2Onto (Extraction des relations taxonomiques)  Implémentation d’algorithmes exploitant la structure hyperonymique de WordNet.  WordNet : est une base de données lexicale développée par des linguistes du laboratoire des sciences cognitives de luniversité de Princeton. Son but est de répertorier, classifier et mettre en relation de diverses manières le contenu sémantique et lexical de la langue anglaise. Des versions de WordNet pour dautres langues existent, mais la version anglaise est cependant la plus complète à ce jour.
  27. 27. Contribution
  28. 28. Contribution• Appariement Ontologique :
  29. 29. Contribution• Appariement Ontologique : consiste à trouver automatiquement des correspondances entre les connaissances spécifiées dans les deux ontologies, de manière à pouvoir les exploiter conjointement dans le même système. L’alignement de deux ontologies revient à trouver une correspondance entre leurs entités qui sont sémantiquement similaires. Dune façon formelle, l’alignement est défini par la fonction map comme suit:
  30. 30. Contribution• Appariement Ontologique : Les différentes mesures de similarité utilisées dans le processus d’alignement sont organisées selon la classification suivante :  La méthode terminologique: compare les labels des entités. Elle est décomposée en approches purement syntaxiques et celles utilisant un lexique.  Approche syntaxique : effectue la correspondance à travers les mesures de dissimilarité des chaînes (EditDistance,…)  Approche lexicale effectue la correspondance à travers les relations lexicales (synonymie, hyponymie,…).
  31. 31. Contribution• Appariement Ontologique : Les différentes mesures de similarité utilisées dans le processus d’alignement sont organisées selon la classification suivante :  La méthode linguistique utilisant des ressources externes (dictionnaires, taxonomies,…) : la similarité entre deux entités représentées par des termes est calculée à partir des liens sémantiques déjà existants dans les ressources externes.  La méthode de comparaison des structures internes: compare les structures internes des entités (intervalle de valeur, cardinalité d’attributs, etc.);
  32. 32. Contribution• Appariement Ontologique : Les différentes mesures de similarité utilisées dans le processus d’alignement sont organisées selon la classification suivante :  La méthode de comparaison des structures externes : compare les relations d’entités avec d’autres.  La méthode extensionnelle : elle déduise la similarité entre deux entités qui sont notamment des concepts en analysant leurs extensions (leurs ensembles d’instances).  …
  33. 33. Contribution• Appariement Ontologique (Prototype) Le prototype que nous avons développé adopte la méthode terminologique. Les algorithmes implémentés sont :  NameEqAlignment : Compare tout simplement l’égalité entre les noms des concepts et des relations et aligne les concepts qui ont le même nom.  EditDistNameAlignment : utilise la distance de Levenshtein entre les noms des entités. Elle est égale au nombre minimal de caractères quil faut supprimer, insérer ou remplacer pour passer d’une chaîne à l’autre. L’algorithme construit donc une matrice des distances et choisie l’alignement à partir de la distance.
  34. 34. Contribution• Appariement Ontologique (Prototype) Le prototype que nous avons développé adopte la méthode terminologique. Les algorithmes implémentés sont :  SubsDistNameAlignment : calcule la distance substring sur les noms des entités.  SMOANameAlignment : calcule ‘’String Metric for Ontology Alignment ‘’ qui combine les communalités et les différences entre les noms de deux concepts.
  35. 35. Contribution• Appariement Ontologique (Prototype) Le prototype que nous avons développé adopte la méthode terminologique. Les algorithmes implémentés sont :  SubsDistNameAlignment : calcule la distance substring sur les noms des entités.  SMOANameAlignment : calcule ‘’String Metric for Ontology Alignment ‘’ qui combine les communalités et les différences entre les noms de deux concepts.
  36. 36. Prototypage et Expérimentation• Le prototype a été conçu de manière à utiliser des APIs java existants d’extraction des ontologies à partir de documents textes et d’appariement ontologique et de les combiner pour mettre en œuvre un système de recherche sémantique basé sur l’appariement ontologique.  Text2Onto API : pour l’indexation conceptuelle.  Alignment API : pour la recherche sémantique.
  37. 37. Prototypage
  38. 38. Prototypage
  39. 39. Expérimentation• Pour expérimenter notre système de recherche sémantique basé sur l’appariement ontologique nous l’avons exécuté sur une collection de test composée de 50 documents textes non structuré anglais et quatre requêtes.• Les résultats de test concernent quatre techniques d’appariement terminologique qui sont : NameEqAlignment, EditDistNameAlignment, SMOANameAlignment et SubsDistNameAlignment.
  40. 40. Expérimentation
  41. 41. Perspectives• Adapter les techniques existantes au traitement sémantique de la langue arabe qui reste pour le moment une langue très peu informatisée.• Appliquer notre approche pour construire des ontologies de domaines sur la base des clusters générés à partir des documents du corpus. Après classification ou catégorisations des documents, diverses ontologies de domaines peuvent être construites et peuvent servir à raffiner la recherche sémantique.• Implémenter des mesures de similarité structurelle et évaluer le système à partir d’une large collection de test.• Adapter les APIs existantes à la recherche d’information sémantique dans l’intérêt d’améliorer les performances du système.
  42. 42. Remarques, Critiques et Discussion

×