SlideShare une entreprise Scribd logo
1  sur  42
Université Sidi Mohamed Ben Abdellah
  Faculté des Sciences Dhar Mehraz – Fès
     Laboratoire Informatique et Modélisation




 Vers un système de recherche sémantique
des documents textes basé sur l’appariement
               ontologique
                            Réalisé par :
                            Athman HAJHAMOU
Plan
•   Contexte de recherche.
•   Problématique.
•   Définitions.
•   Contribution.
•   Prototypage et Expérimentation.
•   Perspectives.
•   Discussion.
Contexte de recherche.

• Nous migrons vers une société d'information où la création, la distribution
  et la manipulation d'information est devenue une activité économique et
  culturelle significative.

• Les compagnies et les organisations possèdent des centaines ou même
  des milliers de documents dans leur réseau d'entreprise.

• Nous transitons vers le Web Sémantique, où les informations ne seraient
  plus stockées mais comprises par les ordinateurs afin d'apporter à
  l'utilisateur ce qu'il cherche vraiment.
Problématique.


• En indexation classique, les entités textuelles (documents et requêtes)
  sont représentées par des mots clés issus de leurs contenus. L’utilisation
  des mots pour représenter le contenu des documents et requêtes pose
  deux problèmes, l’ambiguïté des mots et leur disparité.
Problématique.

• L’ambiguïté des mots, dite ambiguïté lexicale, se rapporte à des mots
  lexicalement identiques et portant des sens différents. Elle est
  généralement divisée en deux types : l’ambiguïté syntaxique et l’ambiguïté
  sémantique.

• L'ambiguïté syntaxique se rapporte à des différences dans la catégorie
  syntaxique. Par exemple, « play » peut apparaître en tant que nom ou
  verbe.
• L'ambiguïté sémantique se rapporte à des différences dans la
  signification, et est décomposée en homonymie et polysémie selon que
  les sens sont liés ou non.
Problématique.

• Homonymie est la relation entre des homonymes, c’est-à-dire entre des
  mots d’une langue qui ont la même forme orale et/ou écrite mais des sens
  différents. Deux mots homonymes ont la même forme (phonique ou
  graphique) mais sont des mots totalement différents.

• Polysémie est la qualité d'un mot ou d'une expression qui a deux voire
  plusieurs sens différents.

     Le problème d’ambiguïté implique que des documents non pertinents,
      contenant les mêmes mots que la requête sont retrouvés.

     La polysémie engendre du bruit documentaire.
Problématique.

• La disparité des mots se réfère à des mots lexicalement différents mais
  portant un même sens.

     Ceci implique que des documents, pourtant pertinents, ne partagent
      pas de mots avec la requête, ne sont pas retrouvés.

     La disparité des mots engendre du silence documentaire.
Définitions.

•   Unités lexicales et conceptuelles :



       Mots clés : en recherche d’information, les mots clés sont les mots
        qui décrivent le mieux le contenu d’un document ou d’un corpus.
        En linguistique de corpus, les mots clés sont les mots qui
        apparaissent plus fréquemment dans un document que ne le
        voudrait le hasard
Définitions.

•   Unités lexicales et conceptuelles :



       Terme : Du point de vue classique, celui de E. Wuster et du Cercle de
        Vienne, le terme est la dénomination d’un concept, chaque concept
        étant désigné de manière non ambigüe par un seul terme. on
        considère généralement que les termes doivent être monosémiques
        dans le domaine considéré.
Définitions.

•   Unités lexicales et conceptuelles :



       Concept : est la représentation mentale d’un ensemble d’objets
        différents, mais considérés comme équivalents d’un certain point de
        vue (nom identique, action commune, etc.).
        Les concepts ne se trouvent pas directement dans les textes. En
        effet, comme le constate très justement C. Roche [Roche 2005], « Il
        n’y a pas de concepts dans un texte, mais uniquement des traces
        linguistiques de leurs usages ».
Définitions.
•   Relations sémantiques :

    Ces relations sont distribuées sur deux axes :

       Axe syntagmatique (horizontal). Deux mots sont en relation
        syntagmatique qu’ils apparaissent ensemble dans un texte : On dit
        également que les mots sont co-occurrents s’ils apparaissent
        ensemble dans un contexte restreint.

       Axe paradigmatique (vertical, hiérarchique). Deux mots sont en
        relation paradigmatique s’ils apparaissent dans des contextes
        similaires. C’est à ce niveau que l’on retrouve un certain nombre de
        relations structurant le lexique telles que la méronymie et
        l’hyponymie.
Définitions.
•   Relations sémantiques :

       Synonymie : Les termes synonymes correspondent au même
        concept. La relation de synonymie est symétrique, mais pas
        nécessairement transitive

       Hyponymie : La relation d’hyponymie (encore appelée subsomption,
        spécialisation, relation ISA) implique un rapport d’inclusion entre le
        sens des mots.

       Méronymie : La relation de méronymie (aussi appelée relation PART-
        OF) correspond à la relation partie-tout. Ainsi, globule est un
        méronyme de sang et sang et un holonyme de globule.
Définitions.
• Ressources lexico-sémantiques :

       Lexique : Les lexiques sont des listes de mots, généralement triés
        par ordre alphabétique, parfois accompagnés de leur définition ou
        de leur traduction.

     Glossaires : les glossaires listent les définitions des termes spécifiques
      à un domaine.

     Dictionnaires : Les dictionnaires listent les mots et leur définition ou
      leur traduction (dictionnaires bilingues). Les mots sont classés en
      fonction de leur lemme (forme de base).
Définitions.
• Ressources lexico-sémantiques :

     Thésaurus : groupent les mots dans des catégories en fonction de leur
      similarité    sémantique.      Ces   catégories      sont    organisées
      hiérarchiquement et correspondent à des notions de plus en plus
      abstraites en fonction de leur hauteur dans l’arbre des catégories.

     Ontologies : Les ontologies organisent des concepts, et doivent
      permettre de faire des inférences. OWL (Web Ontology Language) est
      le langage de représentation d’ontologies le plus utilisé à leur actuelle.
      Des thésaurus pourront dans certains cas être considérés comme des
      ontologies même si leur niveau de formalisation est médiocre.
Contribution
• Architecture d’un Système de Recherche d’Information
Contribution
• Indexation Conceptuelle :



 L’indexation conceptuelle se réfère à la construction de taxonomies
  conceptuelles à partir des textes. Cette approche est due à Woods. Le
  système conceptuel d'indexation et de recherche proposé extrait
  automatiquement des mots et les organise en un réseau sémantique
  (taxonomie conceptuelle) qui intègre des relations syntaxiques,
  sémantiques et morphologiques.
Contribution
• Indexation Conceptuelle :



 Pour étudier l’impact de l'indexation par les sens des mots sur
  l’efficacité de la recherche, des statistiques sur le nombre de disparités
  de sens dans les documents pertinents ont été établies. Les résultats
  rapportés ont montré que la disparité des sens est faible dans les
  documents pertinents. Les sens permettent bien de séparer les
  documents pertinents des documents non pertinents.
Contribution
• Framework Text2Onto
Contribution
• Framework Text2Onto (Natural Language Processing)
Contribution
• Framework Text2Onto (Natural Language Processing)

    Tokenization : Il s'agit du processus permettant de démarquer les
    différentes sections d'une chaîne de caractères. En effet, un
    ordinateur n'est pas capable seul de déterminer quels sont les
    mots d'une phrase ; il n'y voit qu'une chaîne de caractères. Un
    processus de tokenization consisterait donc à séparer ces mots,
    selon les espaces.

    Sentence Splitter : une cascade de transducteurs à états finis qui
     segmente le texte en phrases.
Contribution
• Framework Text2Onto (Natural Language Processing)



    POS-Tagger : également appelé marquage grammaticale, est le
    processus de marquage d'un mot dans un texte (corpus) par
    correspondance à un élément d’un langage particulier
    (nouns, verbs, adjectives, adverbs…)

    Syntactical Analyzer : reconnaît la structure syntaxique d'un énoncé et
     permet d'expliciter les relations de dépendance (par exemple entre sujet
     et objet) entre les différents lexèmes.
Contribution
• Framework Text2Onto (Algorithmes pour l’extraction des concepts)



     TF*IDF Concept Extraction :




     tf (w) : nombre d’occurrence du mot dans le document.
     Idf(w) : nombre de document contenant le mot.
     N : nombre de tout les documents du corpus.
Contribution
• Framework Text2Onto (Algorithmes pour l’extraction des concepts)



     Entropy Concept Extraction : combinaison entre

     C-Value :
Contribution
• Framework Text2Onto (Algorithmes pour l’extraction des concepts)



     Entropy Concept Extraction : combinaison entre

     NC-Value :
Contribution
• Framework Text2Onto (Algorithmes pour l’extraction des concepts)



     RTF Concept Extraction :
     se base sur la fréquence du terme, c’est-à-dire son nombre
     d’apparition dans le corpus.
Contribution
• Framework Text2Onto (Extraction des relations taxonomiques)



     Implémentation   d’algorithmes        exploitant     la   structure
     hyperonymique de WordNet.

         WordNet : est une base de données lexicale développée par
         des linguistes du laboratoire des sciences cognitives de
         l'université de Princeton. Son but est de répertorier, classifier
         et mettre en relation de diverses manières le contenu
         sémantique et lexical de la langue anglaise. Des versions de
         WordNet pour d'autres langues existent, mais la version
         anglaise est cependant la plus complète à ce jour.
Contribution
Contribution
• Appariement Ontologique :
Contribution
• Appariement Ontologique :

 consiste à trouver automatiquement des correspondances entre les
  connaissances spécifiées dans les deux ontologies, de manière à
  pouvoir les exploiter conjointement dans le même système.

 L’alignement de deux ontologies revient à trouver une correspondance
  entre leurs entités qui sont sémantiquement similaires.

 Dune façon formelle, l’alignement est défini par la fonction map
  comme suit:
Contribution
• Appariement Ontologique :

 Les différentes mesures de similarité utilisées dans le processus
  d’alignement sont organisées selon la classification suivante :

     La méthode terminologique: compare les labels des entités. Elle
      est décomposée en approches purement syntaxiques et celles
      utilisant un lexique.

     Approche syntaxique : effectue la correspondance à travers les
      mesures de dissimilarité des chaînes (EditDistance,…)
     Approche lexicale effectue la correspondance à travers les
      relations lexicales (synonymie, hyponymie,…).
Contribution
• Appariement Ontologique :

 Les différentes mesures de similarité utilisées dans le processus
  d’alignement sont organisées selon la classification suivante :

     La méthode linguistique utilisant des ressources externes
      (dictionnaires, taxonomies,…) : la similarité entre deux entités
      représentées par des termes est calculée à partir des liens
      sémantiques déjà existants dans les ressources externes.

     La méthode de comparaison des structures internes: compare les
      structures internes des entités (intervalle de valeur, cardinalité
      d’attributs, etc.);
Contribution
• Appariement Ontologique :

 Les différentes mesures de similarité utilisées dans le processus
  d’alignement sont organisées selon la classification suivante :

     La méthode de comparaison des structures externes : compare
      les relations d’entités avec d’autres.

     La méthode extensionnelle : elle déduise la similarité entre deux
      entités qui sont notamment des concepts en analysant leurs
      extensions (leurs ensembles d’instances).

     …
Contribution
• Appariement Ontologique (Prototype)

 Le prototype que nous avons développé adopte la méthode
  terminologique. Les algorithmes implémentés sont :

    NameEqAlignment : Compare tout simplement l’égalité entre les
     noms des concepts et des relations et aligne les concepts qui ont
     le même nom.

    EditDistNameAlignment : utilise la distance de Levenshtein entre
     les noms des entités. Elle est égale au nombre minimal de
     caractères qu'il faut supprimer, insérer ou remplacer pour passer
     d’une chaîne à l’autre. L’algorithme construit donc une matrice des
     distances et choisie l’alignement à partir de la distance.
Contribution
• Appariement Ontologique (Prototype)

 Le prototype que nous avons développé adopte la méthode
  terminologique. Les algorithmes implémentés sont :

    SubsDistNameAlignment : calcule la distance substring sur les
     noms des entités.

    SMOANameAlignment : calcule ‘’String Metric for Ontology
     Alignment ‘’ qui combine les communalités et les différences entre
     les noms de deux concepts.
Contribution
• Appariement Ontologique (Prototype)

 Le prototype que nous avons développé adopte la méthode
  terminologique. Les algorithmes implémentés sont :

    SubsDistNameAlignment : calcule la distance substring sur les
     noms des entités.

    SMOANameAlignment : calcule ‘’String Metric for Ontology
     Alignment ‘’ qui combine les communalités et les différences entre
     les noms de deux concepts.
Prototypage et Expérimentation

• Le prototype a été conçu de manière à utiliser des APIs java existants
  d’extraction des ontologies à partir de documents textes et d’appariement
  ontologique et de les combiner pour mettre en œuvre un système de
  recherche sémantique basé sur l’appariement ontologique.

     Text2Onto API : pour l’indexation conceptuelle.
     Alignment API : pour la recherche sémantique.
Prototypage
Prototypage
Expérimentation
• Pour expérimenter notre système de recherche sémantique basé sur
  l’appariement ontologique nous l’avons exécuté sur une collection de test
  composée de 50 documents textes non structuré anglais et quatre
  requêtes.
• Les résultats de test concernent quatre techniques d’appariement
  terminologique qui sont : NameEqAlignment, EditDistNameAlignment,
  SMOANameAlignment et SubsDistNameAlignment.
Expérimentation
Perspectives
• Adapter les techniques existantes au traitement sémantique de la langue
  arabe qui reste pour le moment une langue très peu informatisée.

• Appliquer notre approche pour construire des ontologies de domaines sur
  la base des clusters générés à partir des documents du corpus. Après
  classification ou catégorisations des documents, diverses ontologies de
  domaines peuvent être construites et peuvent servir à raffiner la
  recherche sémantique.

• Implémenter des mesures de similarité structurelle et évaluer le système à
  partir d’une large collection de test.

• Adapter les APIs existantes à la recherche d’information sémantique dans
  l’intérêt d’améliorer les performances du système.
Remarques, Critiques et
     Discussion

Contenu connexe

Tendances

Tendances (20)

Python avancé : Lecture et écriture de fichiers
Python avancé : Lecture et écriture de fichiersPython avancé : Lecture et écriture de fichiers
Python avancé : Lecture et écriture de fichiers
 
Web_Mining_Overview_Nfaoui_El_Habib
Web_Mining_Overview_Nfaoui_El_HabibWeb_Mining_Overview_Nfaoui_El_Habib
Web_Mining_Overview_Nfaoui_El_Habib
 
Cours TICE
Cours TICECours TICE
Cours TICE
 
TD2 - UML - Correction
TD2 - UML - CorrectionTD2 - UML - Correction
TD2 - UML - Correction
 
Outils Web Sémantique
Outils Web SémantiqueOutils Web Sémantique
Outils Web Sémantique
 
16 - VLSM-CIDR.ppt
16 - VLSM-CIDR.ppt16 - VLSM-CIDR.ppt
16 - VLSM-CIDR.ppt
 
Numérique et apprentissage
Numérique et apprentissageNumérique et apprentissage
Numérique et apprentissage
 
Architecture de Von Neumann & Harvard
Architecture de Von Neumann & HarvardArchitecture de Von Neumann & Harvard
Architecture de Von Neumann & Harvard
 
Cours4.1 recherche documentaire-outils
Cours4.1 recherche documentaire-outilsCours4.1 recherche documentaire-outils
Cours4.1 recherche documentaire-outils
 
Traitement documentaire - Indexation
Traitement documentaire - IndexationTraitement documentaire - Indexation
Traitement documentaire - Indexation
 
Cours en ligne
Cours en ligneCours en ligne
Cours en ligne
 
Chp1- Introduction aux Technologies Web et SOA
Chp1- Introduction aux Technologies Web et SOAChp1- Introduction aux Technologies Web et SOA
Chp1- Introduction aux Technologies Web et SOA
 
Thérèse Libourel, Ontologies en SHS, 2015-11-09, Tours
Thérèse Libourel, Ontologies en SHS, 2015-11-09, ToursThérèse Libourel, Ontologies en SHS, 2015-11-09, Tours
Thérèse Libourel, Ontologies en SHS, 2015-11-09, Tours
 
Chp1 - Introduction aux méthodologies de Conception
Chp1 - Introduction aux méthodologies de ConceptionChp1 - Introduction aux méthodologies de Conception
Chp1 - Introduction aux méthodologies de Conception
 
Architectures orientées services
Architectures orientées servicesArchitectures orientées services
Architectures orientées services
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
 
Système D’information II - Diagramme de Flux.pptx
Système D’information II - Diagramme de Flux.pptxSystème D’information II - Diagramme de Flux.pptx
Système D’information II - Diagramme de Flux.pptx
 
Architectures orientés services (SOA)
Architectures orientés services (SOA)Architectures orientés services (SOA)
Architectures orientés services (SOA)
 
Cours d’introduction à LaTeX
Cours d’introduction à LaTeXCours d’introduction à LaTeX
Cours d’introduction à LaTeX
 
آليات التكشيف على الويب وأدواته
آليات التكشيف على الويب وأدواتهآليات التكشيف على الويب وأدواته
آليات التكشيف على الويب وأدواته
 

En vedette

États des lieux du Web sémantique
États des lieux du Web sémantiqueÉtats des lieux du Web sémantique
États des lieux du Web sémantique
Ivan Herman
 
Applications du Web Sémantique
Applications du Web SémantiqueApplications du Web Sémantique
Applications du Web Sémantique
Yves Otis
 
Chapitre 3 clustering
Chapitre 3 clusteringChapitre 3 clustering
Chapitre 3 clustering
Anis Masmoudi
 
Intégration des facteurs temps et autorité sociale dans un modèle bayésien de...
Intégration des facteurs temps et autorité sociale dans un modèle bayésien de...Intégration des facteurs temps et autorité sociale dans un modèle bayésien de...
Intégration des facteurs temps et autorité sociale dans un modèle bayésien de...
Lamjed Ben Jabeur
 
Kimberly j giraldo colorado
Kimberly j giraldo coloradoKimberly j giraldo colorado
Kimberly j giraldo colorado
kymy185
 

En vedette (20)

Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
Social Web and Semantic Web: towards synergy between folksonomies and ontologies
Social Web and Semantic Web: towards synergy between folksonomies and ontologiesSocial Web and Semantic Web: towards synergy between folksonomies and ontologies
Social Web and Semantic Web: towards synergy between folksonomies and ontologies
 
Knn
KnnKnn
Knn
 
Coopération des Systèmes d'Informations basée sur les Ontologies
Coopération des Systèmes d'Informations basée sur les OntologiesCoopération des Systèmes d'Informations basée sur les Ontologies
Coopération des Systèmes d'Informations basée sur les Ontologies
 
États des lieux du Web sémantique
États des lieux du Web sémantiqueÉtats des lieux du Web sémantique
États des lieux du Web sémantique
 
Cemagref
CemagrefCemagref
Cemagref
 
Opinion Mining
Opinion Mining Opinion Mining
Opinion Mining
 
Applications du Web Sémantique
Applications du Web SémantiqueApplications du Web Sémantique
Applications du Web Sémantique
 
Clustering
ClusteringClustering
Clustering
 
Chapitre 3 clustering
Chapitre 3 clusteringChapitre 3 clustering
Chapitre 3 clustering
 
Database-to-Ontology Mapping Generation for Semantic Interoperability
Database-to-Ontology Mapping Generation for Semantic InteroperabilityDatabase-to-Ontology Mapping Generation for Semantic Interoperability
Database-to-Ontology Mapping Generation for Semantic Interoperability
 
Ma présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site WebMa présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site Web
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
Intégration des facteurs temps et autorité sociale dans un modèle bayésien de...
Intégration des facteurs temps et autorité sociale dans un modèle bayésien de...Intégration des facteurs temps et autorité sociale dans un modèle bayésien de...
Intégration des facteurs temps et autorité sociale dans un modèle bayésien de...
 
Cours cluster si2e
Cours cluster si2eCours cluster si2e
Cours cluster si2e
 
Puertollano informa
Puertollano informaPuertollano informa
Puertollano informa
 
Kimberly j giraldo colorado
Kimberly j giraldo coloradoKimberly j giraldo colorado
Kimberly j giraldo colorado
 
Mª Angeles Chamorro. 3º D
Mª Angeles Chamorro. 3º DMª Angeles Chamorro. 3º D
Mª Angeles Chamorro. 3º D
 
Power point comunicación digital
Power point comunicación digital Power point comunicación digital
Power point comunicación digital
 
Devinette
DevinetteDevinette
Devinette
 

Similaire à Recherche semantique

Les racines indo-europeenes et la trajectoire semantique du marqueur discursi...
Les racines indo-europeenes et la trajectoire semantique du marqueur discursi...Les racines indo-europeenes et la trajectoire semantique du marqueur discursi...
Les racines indo-europeenes et la trajectoire semantique du marqueur discursi...
DeAndr Espree-Conaway
 
Conf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quantiConf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quanti
map8slide
 
Grr6535 erikursus prantsuse keele lingvistikast
Grr6535 erikursus prantsuse keele lingvistikastGrr6535 erikursus prantsuse keele lingvistikast
Grr6535 erikursus prantsuse keele lingvistikast
Elina Laanes
 
Exposé variation sémantique b.sara et l.zakarya
Exposé variation sémantique b.sara et l.zakaryaExposé variation sémantique b.sara et l.zakarya
Exposé variation sémantique b.sara et l.zakarya
Najlaa Zouaoui
 
Article hilaire nov 2007
Article hilaire nov 2007Article hilaire nov 2007
Article hilaire nov 2007
blessedkkr
 
Sibille jacobson thesaurus
Sibille jacobson thesaurusSibille jacobson thesaurus
Sibille jacobson thesaurus
AssociationAF
 

Similaire à Recherche semantique (20)

Analyse du discours
Analyse du discoursAnalyse du discours
Analyse du discours
 
Conférence 1 lex.pptx
Conférence 1 lex.pptxConférence 1 lex.pptx
Conférence 1 lex.pptx
 
Les racines indo-europeenes et la trajectoire semantique du marqueur discursi...
Les racines indo-europeenes et la trajectoire semantique du marqueur discursi...Les racines indo-europeenes et la trajectoire semantique du marqueur discursi...
Les racines indo-europeenes et la trajectoire semantique du marqueur discursi...
 
F.Chateauraynaud : de Prospero à Marloweb
F.Chateauraynaud : de Prospero à MarlowebF.Chateauraynaud : de Prospero à Marloweb
F.Chateauraynaud : de Prospero à Marloweb
 
Conf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quantiConf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quanti
 
Grr6535 erikursus prantsuse keele lingvistikast
Grr6535 erikursus prantsuse keele lingvistikastGrr6535 erikursus prantsuse keele lingvistikast
Grr6535 erikursus prantsuse keele lingvistikast
 
Exposé variation sémantique b.sara et l.zakarya
Exposé variation sémantique b.sara et l.zakaryaExposé variation sémantique b.sara et l.zakarya
Exposé variation sémantique b.sara et l.zakarya
 
Coherencia y cohesión textual
Coherencia y cohesión textualCoherencia y cohesión textual
Coherencia y cohesión textual
 
Article hilaire nov 2007
Article hilaire nov 2007Article hilaire nov 2007
Article hilaire nov 2007
 
Chapitre 3 (1).pptx initiation a la recherche
Chapitre 3 (1).pptx initiation a la rechercheChapitre 3 (1).pptx initiation a la recherche
Chapitre 3 (1).pptx initiation a la recherche
 
Exposé dictinnaire
Exposé dictinnaireExposé dictinnaire
Exposé dictinnaire
 
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
 
Modélisation, environnements sémantiques et Web de données
Modélisation, environnements sémantiques et Web de donnéesModélisation, environnements sémantiques et Web de données
Modélisation, environnements sémantiques et Web de données
 
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
 
Sources d’information générale
Sources d’information généraleSources d’information générale
Sources d’information générale
 
Enseigner le vocabulaire
Enseigner le vocabulaireEnseigner le vocabulaire
Enseigner le vocabulaire
 
Fle et structuralisme
Fle et structuralismeFle et structuralisme
Fle et structuralisme
 
Sibille jacobson thesaurus
Sibille jacobson thesaurusSibille jacobson thesaurus
Sibille jacobson thesaurus
 
Rechercher l'information scientifique. Hanka Hensens. 15/05/2018
Rechercher l'information scientifique. Hanka Hensens. 15/05/2018Rechercher l'information scientifique. Hanka Hensens. 15/05/2018
Rechercher l'information scientifique. Hanka Hensens. 15/05/2018
 
Intellectica 2005
Intellectica 2005Intellectica 2005
Intellectica 2005
 

Recherche semantique

  • 1. Université Sidi Mohamed Ben Abdellah Faculté des Sciences Dhar Mehraz – Fès Laboratoire Informatique et Modélisation Vers un système de recherche sémantique des documents textes basé sur l’appariement ontologique Réalisé par : Athman HAJHAMOU
  • 2. Plan • Contexte de recherche. • Problématique. • Définitions. • Contribution. • Prototypage et Expérimentation. • Perspectives. • Discussion.
  • 3. Contexte de recherche. • Nous migrons vers une société d'information où la création, la distribution et la manipulation d'information est devenue une activité économique et culturelle significative. • Les compagnies et les organisations possèdent des centaines ou même des milliers de documents dans leur réseau d'entreprise. • Nous transitons vers le Web Sémantique, où les informations ne seraient plus stockées mais comprises par les ordinateurs afin d'apporter à l'utilisateur ce qu'il cherche vraiment.
  • 4. Problématique. • En indexation classique, les entités textuelles (documents et requêtes) sont représentées par des mots clés issus de leurs contenus. L’utilisation des mots pour représenter le contenu des documents et requêtes pose deux problèmes, l’ambiguïté des mots et leur disparité.
  • 5. Problématique. • L’ambiguïté des mots, dite ambiguïté lexicale, se rapporte à des mots lexicalement identiques et portant des sens différents. Elle est généralement divisée en deux types : l’ambiguïté syntaxique et l’ambiguïté sémantique. • L'ambiguïté syntaxique se rapporte à des différences dans la catégorie syntaxique. Par exemple, « play » peut apparaître en tant que nom ou verbe. • L'ambiguïté sémantique se rapporte à des différences dans la signification, et est décomposée en homonymie et polysémie selon que les sens sont liés ou non.
  • 6. Problématique. • Homonymie est la relation entre des homonymes, c’est-à-dire entre des mots d’une langue qui ont la même forme orale et/ou écrite mais des sens différents. Deux mots homonymes ont la même forme (phonique ou graphique) mais sont des mots totalement différents. • Polysémie est la qualité d'un mot ou d'une expression qui a deux voire plusieurs sens différents.  Le problème d’ambiguïté implique que des documents non pertinents, contenant les mêmes mots que la requête sont retrouvés.  La polysémie engendre du bruit documentaire.
  • 7. Problématique. • La disparité des mots se réfère à des mots lexicalement différents mais portant un même sens.  Ceci implique que des documents, pourtant pertinents, ne partagent pas de mots avec la requête, ne sont pas retrouvés.  La disparité des mots engendre du silence documentaire.
  • 8. Définitions. • Unités lexicales et conceptuelles :  Mots clés : en recherche d’information, les mots clés sont les mots qui décrivent le mieux le contenu d’un document ou d’un corpus. En linguistique de corpus, les mots clés sont les mots qui apparaissent plus fréquemment dans un document que ne le voudrait le hasard
  • 9. Définitions. • Unités lexicales et conceptuelles :  Terme : Du point de vue classique, celui de E. Wuster et du Cercle de Vienne, le terme est la dénomination d’un concept, chaque concept étant désigné de manière non ambigüe par un seul terme. on considère généralement que les termes doivent être monosémiques dans le domaine considéré.
  • 10. Définitions. • Unités lexicales et conceptuelles :  Concept : est la représentation mentale d’un ensemble d’objets différents, mais considérés comme équivalents d’un certain point de vue (nom identique, action commune, etc.). Les concepts ne se trouvent pas directement dans les textes. En effet, comme le constate très justement C. Roche [Roche 2005], « Il n’y a pas de concepts dans un texte, mais uniquement des traces linguistiques de leurs usages ».
  • 11. Définitions. • Relations sémantiques : Ces relations sont distribuées sur deux axes :  Axe syntagmatique (horizontal). Deux mots sont en relation syntagmatique qu’ils apparaissent ensemble dans un texte : On dit également que les mots sont co-occurrents s’ils apparaissent ensemble dans un contexte restreint.  Axe paradigmatique (vertical, hiérarchique). Deux mots sont en relation paradigmatique s’ils apparaissent dans des contextes similaires. C’est à ce niveau que l’on retrouve un certain nombre de relations structurant le lexique telles que la méronymie et l’hyponymie.
  • 12. Définitions. • Relations sémantiques :  Synonymie : Les termes synonymes correspondent au même concept. La relation de synonymie est symétrique, mais pas nécessairement transitive  Hyponymie : La relation d’hyponymie (encore appelée subsomption, spécialisation, relation ISA) implique un rapport d’inclusion entre le sens des mots.  Méronymie : La relation de méronymie (aussi appelée relation PART- OF) correspond à la relation partie-tout. Ainsi, globule est un méronyme de sang et sang et un holonyme de globule.
  • 13. Définitions. • Ressources lexico-sémantiques :  Lexique : Les lexiques sont des listes de mots, généralement triés par ordre alphabétique, parfois accompagnés de leur définition ou de leur traduction.  Glossaires : les glossaires listent les définitions des termes spécifiques à un domaine.  Dictionnaires : Les dictionnaires listent les mots et leur définition ou leur traduction (dictionnaires bilingues). Les mots sont classés en fonction de leur lemme (forme de base).
  • 14. Définitions. • Ressources lexico-sémantiques :  Thésaurus : groupent les mots dans des catégories en fonction de leur similarité sémantique. Ces catégories sont organisées hiérarchiquement et correspondent à des notions de plus en plus abstraites en fonction de leur hauteur dans l’arbre des catégories.  Ontologies : Les ontologies organisent des concepts, et doivent permettre de faire des inférences. OWL (Web Ontology Language) est le langage de représentation d’ontologies le plus utilisé à leur actuelle. Des thésaurus pourront dans certains cas être considérés comme des ontologies même si leur niveau de formalisation est médiocre.
  • 15. Contribution • Architecture d’un Système de Recherche d’Information
  • 16. Contribution • Indexation Conceptuelle :  L’indexation conceptuelle se réfère à la construction de taxonomies conceptuelles à partir des textes. Cette approche est due à Woods. Le système conceptuel d'indexation et de recherche proposé extrait automatiquement des mots et les organise en un réseau sémantique (taxonomie conceptuelle) qui intègre des relations syntaxiques, sémantiques et morphologiques.
  • 17. Contribution • Indexation Conceptuelle :  Pour étudier l’impact de l'indexation par les sens des mots sur l’efficacité de la recherche, des statistiques sur le nombre de disparités de sens dans les documents pertinents ont été établies. Les résultats rapportés ont montré que la disparité des sens est faible dans les documents pertinents. Les sens permettent bien de séparer les documents pertinents des documents non pertinents.
  • 19. Contribution • Framework Text2Onto (Natural Language Processing)
  • 20. Contribution • Framework Text2Onto (Natural Language Processing)  Tokenization : Il s'agit du processus permettant de démarquer les différentes sections d'une chaîne de caractères. En effet, un ordinateur n'est pas capable seul de déterminer quels sont les mots d'une phrase ; il n'y voit qu'une chaîne de caractères. Un processus de tokenization consisterait donc à séparer ces mots, selon les espaces.  Sentence Splitter : une cascade de transducteurs à états finis qui segmente le texte en phrases.
  • 21. Contribution • Framework Text2Onto (Natural Language Processing)  POS-Tagger : également appelé marquage grammaticale, est le processus de marquage d'un mot dans un texte (corpus) par correspondance à un élément d’un langage particulier (nouns, verbs, adjectives, adverbs…)  Syntactical Analyzer : reconnaît la structure syntaxique d'un énoncé et permet d'expliciter les relations de dépendance (par exemple entre sujet et objet) entre les différents lexèmes.
  • 22. Contribution • Framework Text2Onto (Algorithmes pour l’extraction des concepts)  TF*IDF Concept Extraction :  tf (w) : nombre d’occurrence du mot dans le document.  Idf(w) : nombre de document contenant le mot.  N : nombre de tout les documents du corpus.
  • 23. Contribution • Framework Text2Onto (Algorithmes pour l’extraction des concepts)  Entropy Concept Extraction : combinaison entre  C-Value :
  • 24. Contribution • Framework Text2Onto (Algorithmes pour l’extraction des concepts)  Entropy Concept Extraction : combinaison entre  NC-Value :
  • 25. Contribution • Framework Text2Onto (Algorithmes pour l’extraction des concepts)  RTF Concept Extraction : se base sur la fréquence du terme, c’est-à-dire son nombre d’apparition dans le corpus.
  • 26. Contribution • Framework Text2Onto (Extraction des relations taxonomiques)  Implémentation d’algorithmes exploitant la structure hyperonymique de WordNet.  WordNet : est une base de données lexicale développée par des linguistes du laboratoire des sciences cognitives de l'université de Princeton. Son but est de répertorier, classifier et mettre en relation de diverses manières le contenu sémantique et lexical de la langue anglaise. Des versions de WordNet pour d'autres langues existent, mais la version anglaise est cependant la plus complète à ce jour.
  • 29. Contribution • Appariement Ontologique :  consiste à trouver automatiquement des correspondances entre les connaissances spécifiées dans les deux ontologies, de manière à pouvoir les exploiter conjointement dans le même système.  L’alignement de deux ontologies revient à trouver une correspondance entre leurs entités qui sont sémantiquement similaires.  Dune façon formelle, l’alignement est défini par la fonction map comme suit:
  • 30. Contribution • Appariement Ontologique :  Les différentes mesures de similarité utilisées dans le processus d’alignement sont organisées selon la classification suivante :  La méthode terminologique: compare les labels des entités. Elle est décomposée en approches purement syntaxiques et celles utilisant un lexique.  Approche syntaxique : effectue la correspondance à travers les mesures de dissimilarité des chaînes (EditDistance,…)  Approche lexicale effectue la correspondance à travers les relations lexicales (synonymie, hyponymie,…).
  • 31. Contribution • Appariement Ontologique :  Les différentes mesures de similarité utilisées dans le processus d’alignement sont organisées selon la classification suivante :  La méthode linguistique utilisant des ressources externes (dictionnaires, taxonomies,…) : la similarité entre deux entités représentées par des termes est calculée à partir des liens sémantiques déjà existants dans les ressources externes.  La méthode de comparaison des structures internes: compare les structures internes des entités (intervalle de valeur, cardinalité d’attributs, etc.);
  • 32. Contribution • Appariement Ontologique :  Les différentes mesures de similarité utilisées dans le processus d’alignement sont organisées selon la classification suivante :  La méthode de comparaison des structures externes : compare les relations d’entités avec d’autres.  La méthode extensionnelle : elle déduise la similarité entre deux entités qui sont notamment des concepts en analysant leurs extensions (leurs ensembles d’instances).  …
  • 33. Contribution • Appariement Ontologique (Prototype)  Le prototype que nous avons développé adopte la méthode terminologique. Les algorithmes implémentés sont :  NameEqAlignment : Compare tout simplement l’égalité entre les noms des concepts et des relations et aligne les concepts qui ont le même nom.  EditDistNameAlignment : utilise la distance de Levenshtein entre les noms des entités. Elle est égale au nombre minimal de caractères qu'il faut supprimer, insérer ou remplacer pour passer d’une chaîne à l’autre. L’algorithme construit donc une matrice des distances et choisie l’alignement à partir de la distance.
  • 34. Contribution • Appariement Ontologique (Prototype)  Le prototype que nous avons développé adopte la méthode terminologique. Les algorithmes implémentés sont :  SubsDistNameAlignment : calcule la distance substring sur les noms des entités.  SMOANameAlignment : calcule ‘’String Metric for Ontology Alignment ‘’ qui combine les communalités et les différences entre les noms de deux concepts.
  • 35. Contribution • Appariement Ontologique (Prototype)  Le prototype que nous avons développé adopte la méthode terminologique. Les algorithmes implémentés sont :  SubsDistNameAlignment : calcule la distance substring sur les noms des entités.  SMOANameAlignment : calcule ‘’String Metric for Ontology Alignment ‘’ qui combine les communalités et les différences entre les noms de deux concepts.
  • 36. Prototypage et Expérimentation • Le prototype a été conçu de manière à utiliser des APIs java existants d’extraction des ontologies à partir de documents textes et d’appariement ontologique et de les combiner pour mettre en œuvre un système de recherche sémantique basé sur l’appariement ontologique.  Text2Onto API : pour l’indexation conceptuelle.  Alignment API : pour la recherche sémantique.
  • 39. Expérimentation • Pour expérimenter notre système de recherche sémantique basé sur l’appariement ontologique nous l’avons exécuté sur une collection de test composée de 50 documents textes non structuré anglais et quatre requêtes. • Les résultats de test concernent quatre techniques d’appariement terminologique qui sont : NameEqAlignment, EditDistNameAlignment, SMOANameAlignment et SubsDistNameAlignment.
  • 41. Perspectives • Adapter les techniques existantes au traitement sémantique de la langue arabe qui reste pour le moment une langue très peu informatisée. • Appliquer notre approche pour construire des ontologies de domaines sur la base des clusters générés à partir des documents du corpus. Après classification ou catégorisations des documents, diverses ontologies de domaines peuvent être construites et peuvent servir à raffiner la recherche sémantique. • Implémenter des mesures de similarité structurelle et évaluer le système à partir d’une large collection de test. • Adapter les APIs existantes à la recherche d’information sémantique dans l’intérêt d’améliorer les performances du système.