SlideShare une entreprise Scribd logo
1  sur  28
Exposé de Recherche D’information


      Word Sense Disambiguation (WSD)

Présenté par:                  Enseignant de module:

BENDJELLOUL Fatima Zahra
LAROUSSI Khadidja                  Mr.bentaallah.M
                                                     1
Plan de travail

Introduction
Qu’est ce que les sens d’un mot ?
Ambiguïtés sémantiques
Définition de WSD
Pourquoi la WSD ?
Les types de WSD
Les méthodes de WSD
Evaluation
Conclusion



                                    2
Introduction
 L’ambiguïté des mots est un phénomène omniprésent dans les
  langues naturelles.



 Elle représente une des grandes difficultés du traitement
 automatique du langage naturel,



 Pour cela, la WSD permet de traiter et de lever cet ambiguïté.




                                                                   3
Qu’est ce que les sens d’un mot ?
Sens, en linguistique, est synonyme de signification. Il désigne le
contenu conceptuel d'une expression.

Les différent sens d’un mot:

Mot a un seul sens : appartient à une vocabulaire
technique, scientifique

Mot a plusieurs sens : c’est qu’on nomme la polysémie, certain
mot a un sens propre et un sens figuré.


Sens d’après le contexte: pour comprendre le sens il faut relire
la phrase qui précède et celle qui suit
                                                                      4
Ambiguïtés sémantiques

Beaucoup de mots de la langue peuvent être interprétés
de manières variées en fonction du contexte dans lequel
ils apparaissent,



               1. Les homonymes
               2. Les polysémies




                                                          5
Mouse                Windows




    1. Les homonymes
    2. Les polysémies


  mots avec des sens non liés
                                6
Papier


                                                 ...


               1. Les homonymes
               2. Les polysémies


mots dont les sens sont liés d’une certaine manière
                                                       7
Définition de la WSD

Une tâche nécessaire à la bonne réalisation de
nombreuses applications du TALN,



Consiste à déterminer le sens correct des mots
ambigus dans un contexte.




                                                 8
Pourquoi la WSD ?
 Recherche d’information: filtrer les réponses retournées par le
  systèmes et garder juste les réponses pertinents,

 Traduction automatique:

Ex: le mot en espagnol muñeca peut être traduit en français par   « poupée »
ou par « poignée » en fonction du contexte

 Traitement du discours:

Ex: La prononciation/kuR/peut être écrite comme « cour », « court», «
cours » ou encore « coure ».


 Traitement de texte: pour la correction orthographique

Ex: Les mots « comte » et « comté ».
                                                                               9
Les types de désambiguïsation
Désambiguïsation ciblée (Targeted Word Sense Disambiguation)

Désambiguïsation d’un mot en particulier dans un texte.

Ex:

 The mouse is an animal very active, very acrobatic, they live in groups.

 A mouse is a pointing device that connects to the computer


              WSD est considérée comme un problème de classification




                                                                             10
Les types de désambiguïsation
Désambiguïsation ciblée (Targeted Word Sense Disambiguation)
 Corpus d’apprentissage contenant les occurrences du mot, chaque
  occurrence est annotée par un sens.


 Extraction de vecteurs de traits qui représentent le contexte d’apparition
  du mot.


           Trouver le sens approprié du mot en contexte




                                                                               11
Les types de désambiguïsation
Désambiguïsation complète (All words Word Sense Disambiguation)
Désambiguïsation de tous les mots pleins d’un texte.


Ex: The mouse and rats are widely used in animal research laboratories
for testing the toxicity of certain substances


- Exploitation de définitions de dictionnaires.
- Exploitation de relations sémantiques




                                                                         12
Les méthodes de WSD

Méthodes fondées sur les connaissances



Méthodes fondées sur l’apprentissage




                                         13
Méthodes fondées sur les connaissances

la désambiguïsation automatique est matérialisée par les
méthodes basées sur les connaissances qui essayent
d’extraire de manière automatique          l’information
nécessaire à la désambiguïsation.




                                                           14
Ressources lexicales/sémantiques

Les dictionnaires électroniques ex: le petit larousse




Les thésaurus ex: Roget’s Thesaurus




Réseaux sémantiques ex: WordNet




                                                         15
Méthode de Lesk (Michael Lesk 1986)


Récupérer de MRD toutes les définitions du sens des mots à
 ambigus.

Mesurer le chevauchement entre les différents définitions dans
 le dictionnaire, d'un mot ambigu et les définitions de ses voisins
 immédiats.

Choisissez le sens qui conduisent à plus de chevauchement




                                                                      16
Méthode de Lesk (Michael Lesk 1986)
Exemple: désambiguïser mouse computer

Mouse
1. any of numerous small rodents typically resembling diminutive rats having
   pointed snouts
2. person who is quiet or timid
3. a hand-operated electronic device that controls the coordinates of a cursor on
   your computer screen as you move it around on a pad
Computer
1. computing machine, computing device, data processor, electronic
   computer, information processing system
2. calculator, reckoner, figurer, estimator


      Mouse1      computer1 =0                 mouse2      computer2 =0
      Mouse1      computer2 =0                 mouse3      computer1 =3
      Mouse2      computer1 =0                 mouse3      computer2 =0



                                                                                    17
Les inconvénients de la méthode de Lesk


  Fondée sur la correspondance exacte des mots trouvés dans
   les définitions

  Ne permet pas de capter des relations moins explicites (par
   ex. sémantiques) entre les mots

  Vise la désambiguïsation d’un mot à la fois

  Explosion combinatoire si l’on essaie de désambiguïser tous
   les mots du texte




                                                                 18
Méthodes fondés sur l’apprentissage
Utilisation d’informations sémantiques acquises directement à
 partir de textes

 Désambiguïsation supervisée : exploitation des données
  annotées
 Désambiguïsation non supervisée : acquisition des données
  non annotées
 Désambiguïsation semi supervisée : création d’un classifieur
  avec peu de données annotées, beaucoup de données non
  annotées

Application de techniques d’apprentissage automatique à la
 désambiguïsation


                                                                 19
Méthodes supervisées
• Utilisation d’un ensemble de méthodes pour l’apprentissage de classifieurs a
    partir de corpus annotés
      Types de corpus
- corpus avec les sens d’un mot particulier annotés, ex : corpus d’évaluation de
Senseval
- corpus avec chaque mot plein annoté, ex : SemCor (234000 mots annotés avec
les sens de WordNet)

Problème de classification

 Extraction de traits (features) des textes utiles pour prédire des
sens particuliers des mots

 Apprentissage de classifieurs particuliers, ex : classifieurs naïfs de Bayes, listes
  de décisions, etc.

 Un classifieur doit ici attribuer un sens a un mot (non annoté) en se basant sur
  le contexte de ce mot
                                                                                    20
Méthodes supervisées
Avantages

• elles ont les meilleures performances
• elles donnent les meilleurs résultats dans les évaluations des systèmes de
  désambiguïsation sémantique

Inconvénients

• élaboration coûteuse des données d’entraînement (Ng, 1997)
• dispersion des données (data sparseness) : difficile d’avoir un ensemble
  d’entraînement annoté qui couvre tout le lexique d’une langue
• désambiguïsation souvent focalisée sur un petit ensemble de mots ambigus
  (target words)




                                                                               21
Méthodes semi-supervisées:


 Apprentissage de classifieurs de sens de mots avec un
  minimum de textes annotés (peu de données disponibles)

 Approches par amorçage (bootstrapping) : produire un
  classifieur qui améliore les performances

 Apprentissage d’un classifieur pour la désambiguïsation ciblée
[Yarowsky, 1995]




                                                                  22
Méthodes non-supervisées
 offrent une solution au problème de la disponibilité limitée de données annotées

 Ni de corpus d’exemples sémantiquement annotés, ni de sources externes de
  connaissances (dictionnaires, thésaurus, etc.)

 Exploitent de grands corpus de données non annotées

 Basée sur les résultats de méthodes d’induction de sens (Word Sense Induction (WSI))
    Identifient les sens possibles des mots à partir de grands corpus de textes non annotés

     Les instances d’un mot ambigu sont clustérisées sur la base de la similarité des
     contextes dans lesquels elles apparaissent

     Chaque cluster décrit un sens du mot ambigu




                                                                                          23
Méthodes non-supervisées

Avantages

 Une performance presque comparable aux approches
  supervisées [Manning et Schutze, 2000]


Inconvénients [Jurafsky et Martin, 2000]

 Les sens corrects peuvent ne pas être connus
 Les clusters obtenus peuvent contenir plusieurs sens




                                                         24
Evaluation
   Correction par des humains, vérification de la nature des relations
   entre les membres des clusters

Evaluation non supervisée
Les sens induits sont évalués en tant que clusters d’exemples et
comparés à des exemples annotés par des sens gold standard (GS)

Evaluation supervisée
Mise en correspondence des clusters obtenus avec des sens du GS
(OntoNotes, Hovy et al., 2006)
Utilisation des correspondences établies pour annoter des instances dans
le corpus de test avec des sens GS




                                                                           25
Conclusion
La désambiguïsation sémantique est un problème très complexe relié à la
richesse de la langue.

Combinaison de plusieurs méthodes capables de résoudre le problème WSD.

La méthode Lesk est assez simple et a donnée des résultats intéressants.

Les algorithmes d’apprentissage sont maintenant plus performants que les
algorithmes de désambiguïsation à l’aide de dictionnaires

La technique Naïve Bayes a une bonne performance sur les tâches de
classification.




                                                                           26
Bibliographie
 www.iro.umontreal.ca/~felipe/Papers/paper-taln-2004a.pdf


 www.images.hachette-livre.fr/media/.../2543807769.pdf


 http://perso.limsi.fr/amax/enseignement/tal/Cours-
  DesambiguisationLexicale-M2R.pdf




                                                             27
28

Contenu connexe

Tendances

Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learningQuentin Ambard
 
le NLP à l'ére de l'IA
le NLP à l'ére de l'IAle NLP à l'ére de l'IA
le NLP à l'ére de l'IAhabib200
 
Les différentes strategies concurrentielles
Les différentes strategies concurrentiellesLes différentes strategies concurrentielles
Les différentes strategies concurrentiellesRajae Boujnah
 
Web semantique en 10 minutes version 2018
Web semantique en 10 minutes version 2018Web semantique en 10 minutes version 2018
Web semantique en 10 minutes version 2018Michel Héon PhD
 
Modèle de cahier des charges web
Modèle de cahier des charges webModèle de cahier des charges web
Modèle de cahier des charges webForestier Mégane
 
Théories des échanges internationaux
Théories des échanges internationauxThéories des échanges internationaux
Théories des échanges internationauxshasha belk
 
2.2.4 ΒΑΣΙΚΟΙ ΤΥΠΟΙ ΑΛΓΟΡΙΘΜΩΝ
2.2.4 ΒΑΣΙΚΟΙ ΤΥΠΟΙ ΑΛΓΟΡΙΘΜΩΝ2.2.4 ΒΑΣΙΚΟΙ ΤΥΠΟΙ ΑΛΓΟΡΙΘΜΩΝ
2.2.4 ΒΑΣΙΚΟΙ ΤΥΠΟΙ ΑΛΓΟΡΙΘΜΩΝAnastasia Stathopoulou
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine LearningMathieu Goeminne
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business IntelligenceLilia Sfaxi
 
Développer la satisfaction de vos clients
Développer la satisfaction de vos clientsDévelopper la satisfaction de vos clients
Développer la satisfaction de vos clientsonepoint x weave
 
PréSentation Modules E R P
PréSentation Modules  E R PPréSentation Modules  E R P
PréSentation Modules E R Ppistesil
 
Diaporamas-Bases de données.pdf
Diaporamas-Bases de données.pdfDiaporamas-Bases de données.pdf
Diaporamas-Bases de données.pdfEST-UMI de Meknès
 

Tendances (20)

Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
le NLP à l'ére de l'IA
le NLP à l'ére de l'IAle NLP à l'ére de l'IA
le NLP à l'ére de l'IA
 
Nosql
NosqlNosql
Nosql
 
Cours communication
Cours communicationCours communication
Cours communication
 
Les différentes strategies concurrentielles
Les différentes strategies concurrentiellesLes différentes strategies concurrentielles
Les différentes strategies concurrentielles
 
Web semantique en 10 minutes version 2018
Web semantique en 10 minutes version 2018Web semantique en 10 minutes version 2018
Web semantique en 10 minutes version 2018
 
Big data
Big dataBig data
Big data
 
Prendre la parole en public
Prendre la parole en publicPrendre la parole en public
Prendre la parole en public
 
Modèle de cahier des charges web
Modèle de cahier des charges webModèle de cahier des charges web
Modèle de cahier des charges web
 
Nosql data models
Nosql data modelsNosql data models
Nosql data models
 
Théories des échanges internationaux
Théories des échanges internationauxThéories des échanges internationaux
Théories des échanges internationaux
 
2.2.4 ΒΑΣΙΚΟΙ ΤΥΠΟΙ ΑΛΓΟΡΙΘΜΩΝ
2.2.4 ΒΑΣΙΚΟΙ ΤΥΠΟΙ ΑΛΓΟΡΙΘΜΩΝ2.2.4 ΒΑΣΙΚΟΙ ΤΥΠΟΙ ΑΛΓΟΡΙΘΜΩΝ
2.2.4 ΒΑΣΙΚΟΙ ΤΥΠΟΙ ΑΛΓΟΡΙΘΜΩΝ
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine Learning
 
Hadoop ecosystem
Hadoop ecosystemHadoop ecosystem
Hadoop ecosystem
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Développer la satisfaction de vos clients
Développer la satisfaction de vos clientsDévelopper la satisfaction de vos clients
Développer la satisfaction de vos clients
 
Architecture de Von Neumann & Harvard
Architecture de Von Neumann & HarvardArchitecture de Von Neumann & Harvard
Architecture de Von Neumann & Harvard
 
Cours tec s1
Cours tec s1Cours tec s1
Cours tec s1
 
PréSentation Modules E R P
PréSentation Modules  E R PPréSentation Modules  E R P
PréSentation Modules E R P
 
Diaporamas-Bases de données.pdf
Diaporamas-Bases de données.pdfDiaporamas-Bases de données.pdf
Diaporamas-Bases de données.pdf
 

En vedette

Présentation site Word pour les nuls
Présentation site Word pour les nulsPrésentation site Word pour les nuls
Présentation site Word pour les nulsAntoine Lord
 
Chadia bardadouh
Chadia bardadouhChadia bardadouh
Chadia bardadouhchadia2014
 
Graph-based Word Sense Disambiguation
Graph-based Word Sense DisambiguationGraph-based Word Sense Disambiguation
Graph-based Word Sense DisambiguationElena-Oana Tabaranu
 
Usage of word sense disambiguation in concept identification in ontology cons...
Usage of word sense disambiguation in concept identification in ontology cons...Usage of word sense disambiguation in concept identification in ontology cons...
Usage of word sense disambiguation in concept identification in ontology cons...Innovation Quotient Pvt Ltd
 
Similarity based methods for word sense disambiguation
Similarity based methods for word sense disambiguationSimilarity based methods for word sense disambiguation
Similarity based methods for word sense disambiguationvini89
 
Le publipostage sous word
Le publipostage sous wordLe publipostage sous word
Le publipostage sous wordResosphere
 
Les infographies:la magie des données
Les infographies:la magie des données Les infographies:la magie des données
Les infographies:la magie des données erigone2014
 
COLING 2014 - An Enhanced Lesk Word Sense Disambiguation Algorithm through a ...
COLING 2014 - An Enhanced Lesk Word Sense Disambiguation Algorithm through a ...COLING 2014 - An Enhanced Lesk Word Sense Disambiguation Algorithm through a ...
COLING 2014 - An Enhanced Lesk Word Sense Disambiguation Algorithm through a ...Pierpaolo Basile
 
Word sense disambiguation a survey
Word sense disambiguation a surveyWord sense disambiguation a survey
Word sense disambiguation a surveyunyil96
 
Biomedical Word Sense Disambiguation presentation [Autosaved]
Biomedical Word Sense Disambiguation presentation [Autosaved]Biomedical Word Sense Disambiguation presentation [Autosaved]
Biomedical Word Sense Disambiguation presentation [Autosaved]akm sabbir
 
Similarity based methods for word sense disambiguation
Similarity based methods for word sense disambiguationSimilarity based methods for word sense disambiguation
Similarity based methods for word sense disambiguationvini89
 
Error analysis of Word Sense Disambiguation
Error analysis of Word Sense DisambiguationError analysis of Word Sense Disambiguation
Error analysis of Word Sense DisambiguationRubén Izquierdo Beviá
 
Topic Modeling for Information Retrieval and Word Sense Disambiguation tasks
Topic Modeling for Information Retrieval and Word Sense Disambiguation tasksTopic Modeling for Information Retrieval and Word Sense Disambiguation tasks
Topic Modeling for Information Retrieval and Word Sense Disambiguation tasksLeonardo Di Donato
 
Word Sense Disambiguation and Induction
Word Sense Disambiguation and InductionWord Sense Disambiguation and Induction
Word Sense Disambiguation and InductionLeon Derczynski
 
Ontology-Based Word Sense Disambiguation for Scientific Literature
Ontology-Based Word Sense Disambiguation for Scientific LiteratureOntology-Based Word Sense Disambiguation for Scientific Literature
Ontology-Based Word Sense Disambiguation for Scientific LiteratureeXascale Infolab
 
Lecture: Word Sense Disambiguation
Lecture: Word Sense DisambiguationLecture: Word Sense Disambiguation
Lecture: Word Sense DisambiguationMarina Santini
 
Babelfy: Entity Linking meets Word Sense Disambiguation.
Babelfy: Entity Linking meets Word Sense Disambiguation.Babelfy: Entity Linking meets Word Sense Disambiguation.
Babelfy: Entity Linking meets Word Sense Disambiguation.Grupo HULAT
 
Sifting Social Data: Word Sense Disambiguation Using Machine Learning
Sifting Social Data: Word Sense Disambiguation Using Machine LearningSifting Social Data: Word Sense Disambiguation Using Machine Learning
Sifting Social Data: Word Sense Disambiguation Using Machine LearningStuart Shulman
 

En vedette (20)

Présentation site Word pour les nuls
Présentation site Word pour les nulsPrésentation site Word pour les nuls
Présentation site Word pour les nuls
 
Chadia bardadouh
Chadia bardadouhChadia bardadouh
Chadia bardadouh
 
Graph-based Word Sense Disambiguation
Graph-based Word Sense DisambiguationGraph-based Word Sense Disambiguation
Graph-based Word Sense Disambiguation
 
Usage of word sense disambiguation in concept identification in ontology cons...
Usage of word sense disambiguation in concept identification in ontology cons...Usage of word sense disambiguation in concept identification in ontology cons...
Usage of word sense disambiguation in concept identification in ontology cons...
 
Similarity based methods for word sense disambiguation
Similarity based methods for word sense disambiguationSimilarity based methods for word sense disambiguation
Similarity based methods for word sense disambiguation
 
Le publipostage sous word
Le publipostage sous wordLe publipostage sous word
Le publipostage sous word
 
Les infographies:la magie des données
Les infographies:la magie des données Les infographies:la magie des données
Les infographies:la magie des données
 
COLING 2014 - An Enhanced Lesk Word Sense Disambiguation Algorithm through a ...
COLING 2014 - An Enhanced Lesk Word Sense Disambiguation Algorithm through a ...COLING 2014 - An Enhanced Lesk Word Sense Disambiguation Algorithm through a ...
COLING 2014 - An Enhanced Lesk Word Sense Disambiguation Algorithm through a ...
 
Word sense disambiguation a survey
Word sense disambiguation a surveyWord sense disambiguation a survey
Word sense disambiguation a survey
 
Biomedical Word Sense Disambiguation presentation [Autosaved]
Biomedical Word Sense Disambiguation presentation [Autosaved]Biomedical Word Sense Disambiguation presentation [Autosaved]
Biomedical Word Sense Disambiguation presentation [Autosaved]
 
Similarity based methods for word sense disambiguation
Similarity based methods for word sense disambiguationSimilarity based methods for word sense disambiguation
Similarity based methods for word sense disambiguation
 
Error analysis of Word Sense Disambiguation
Error analysis of Word Sense DisambiguationError analysis of Word Sense Disambiguation
Error analysis of Word Sense Disambiguation
 
Topic Modeling for Information Retrieval and Word Sense Disambiguation tasks
Topic Modeling for Information Retrieval and Word Sense Disambiguation tasksTopic Modeling for Information Retrieval and Word Sense Disambiguation tasks
Topic Modeling for Information Retrieval and Word Sense Disambiguation tasks
 
Word Sense Disambiguation and Induction
Word Sense Disambiguation and InductionWord Sense Disambiguation and Induction
Word Sense Disambiguation and Induction
 
Ontology-Based Word Sense Disambiguation for Scientific Literature
Ontology-Based Word Sense Disambiguation for Scientific LiteratureOntology-Based Word Sense Disambiguation for Scientific Literature
Ontology-Based Word Sense Disambiguation for Scientific Literature
 
Lecture: Word Sense Disambiguation
Lecture: Word Sense DisambiguationLecture: Word Sense Disambiguation
Lecture: Word Sense Disambiguation
 
Babelfy: Entity Linking meets Word Sense Disambiguation.
Babelfy: Entity Linking meets Word Sense Disambiguation.Babelfy: Entity Linking meets Word Sense Disambiguation.
Babelfy: Entity Linking meets Word Sense Disambiguation.
 
Sifting Social Data: Word Sense Disambiguation Using Machine Learning
Sifting Social Data: Word Sense Disambiguation Using Machine LearningSifting Social Data: Word Sense Disambiguation Using Machine Learning
Sifting Social Data: Word Sense Disambiguation Using Machine Learning
 
Le logiciel
Le logicielLe logiciel
Le logiciel
 
Présentation
PrésentationPrésentation
Présentation
 

Similaire à Word-sense disambiguation

Vocabulaire c2 jonzac 29jan20
Vocabulaire c2 jonzac 29jan20Vocabulaire c2 jonzac 29jan20
Vocabulaire c2 jonzac 29jan20IEN_Jonzac
 
Enseigner le vocabulaire
Enseigner le vocabulaireEnseigner le vocabulaire
Enseigner le vocabulaireClaire Doz
 
Ph.D. Defense: Représentation des connaissances sémantiques lexicales de la T...
Ph.D. Defense: Représentation des connaissances sémantiques lexicales de la T...Ph.D. Defense: Représentation des connaissances sémantiques lexicales de la T...
Ph.D. Defense: Représentation des connaissances sémantiques lexicales de la T...Maxime Lefrançois
 
Pour une grammaire du sens ( 2) (2)
Pour une grammaire du sens ( 2) (2)Pour une grammaire du sens ( 2) (2)
Pour une grammaire du sens ( 2) (2)monicablanco12
 
conférence et atelier 2017 : profilez vos interlocuteurs et lisez dans leurs ...
conférence et atelier 2017 : profilez vos interlocuteurs et lisez dans leurs ...conférence et atelier 2017 : profilez vos interlocuteurs et lisez dans leurs ...
conférence et atelier 2017 : profilez vos interlocuteurs et lisez dans leurs ...Elodie Mielczareck
 
Travailler avec enfants_autistes
Travailler avec enfants_autistesTravailler avec enfants_autistes
Travailler avec enfants_autistesMarta Montoro
 
Comprehension en lecture au cp
Comprehension en lecture au cpComprehension en lecture au cp
Comprehension en lecture au cpInspection de Lure
 
Eclairer le passage du ce2 au cycle 2
Eclairer le passage du ce2 au cycle 2Eclairer le passage du ce2 au cycle 2
Eclairer le passage du ce2 au cycle 2IEN Jonzac
 
Evaluation Cours 5
Evaluation   Cours 5Evaluation   Cours 5
Evaluation Cours 5s9m7a4f
 
Intervention d'Ela JASTRZĘBSKA: Stratégies de la pédagogie de la créativité ...
Intervention d'Ela JASTRZĘBSKA:  Stratégies de la pédagogie de la créativité ...Intervention d'Ela JASTRZĘBSKA:  Stratégies de la pédagogie de la créativité ...
Intervention d'Ela JASTRZĘBSKA: Stratégies de la pédagogie de la créativité ...profeurope
 
Didactique de littérature
Didactique de littératureDidactique de littérature
Didactique de littératureMay Abou Zahra
 
Article hilaire nov 2007
Article hilaire nov 2007Article hilaire nov 2007
Article hilaire nov 2007blessedkkr
 
Présentation Lingway
Présentation LingwayPrésentation Lingway
Présentation LingwayVeilleMag
 
Opinion Mining : Etat de l'art et exemples d'applications
Opinion Mining : Etat de l'art et exemples d'applicationsOpinion Mining : Etat de l'art et exemples d'applications
Opinion Mining : Etat de l'art et exemples d'applicationsLingway
 
dokumen.tips_communication-interpersonnelle-2ppt.ppt
dokumen.tips_communication-interpersonnelle-2ppt.pptdokumen.tips_communication-interpersonnelle-2ppt.ppt
dokumen.tips_communication-interpersonnelle-2ppt.pptKabib990
 
dokumen.tips_communication-interpersonnelle-2ppt.ppt
dokumen.tips_communication-interpersonnelle-2ppt.pptdokumen.tips_communication-interpersonnelle-2ppt.ppt
dokumen.tips_communication-interpersonnelle-2ppt.ppttoutou0071
 

Similaire à Word-sense disambiguation (20)

Vocabulaire c2 jonzac 29jan20
Vocabulaire c2 jonzac 29jan20Vocabulaire c2 jonzac 29jan20
Vocabulaire c2 jonzac 29jan20
 
Recherche semantique
Recherche semantique Recherche semantique
Recherche semantique
 
Enseigner le vocabulaire
Enseigner le vocabulaireEnseigner le vocabulaire
Enseigner le vocabulaire
 
Ph.D. Defense: Représentation des connaissances sémantiques lexicales de la T...
Ph.D. Defense: Représentation des connaissances sémantiques lexicales de la T...Ph.D. Defense: Représentation des connaissances sémantiques lexicales de la T...
Ph.D. Defense: Représentation des connaissances sémantiques lexicales de la T...
 
Pour une grammaire du sens ( 2) (2)
Pour une grammaire du sens ( 2) (2)Pour une grammaire du sens ( 2) (2)
Pour une grammaire du sens ( 2) (2)
 
conférence et atelier 2017 : profilez vos interlocuteurs et lisez dans leurs ...
conférence et atelier 2017 : profilez vos interlocuteurs et lisez dans leurs ...conférence et atelier 2017 : profilez vos interlocuteurs et lisez dans leurs ...
conférence et atelier 2017 : profilez vos interlocuteurs et lisez dans leurs ...
 
Travailler avec enfants_autistes
Travailler avec enfants_autistesTravailler avec enfants_autistes
Travailler avec enfants_autistes
 
Comprehension en lecture au cp
Comprehension en lecture au cpComprehension en lecture au cp
Comprehension en lecture au cp
 
Dossier peda-histoire-de-cerveau-ok
Dossier peda-histoire-de-cerveau-okDossier peda-histoire-de-cerveau-ok
Dossier peda-histoire-de-cerveau-ok
 
Eclairer le passage du ce2 au cycle 2
Eclairer le passage du ce2 au cycle 2Eclairer le passage du ce2 au cycle 2
Eclairer le passage du ce2 au cycle 2
 
les techniques TALN
les techniques TALNles techniques TALN
les techniques TALN
 
Evaluation Cours 5
Evaluation   Cours 5Evaluation   Cours 5
Evaluation Cours 5
 
Intervention d'Ela JASTRZĘBSKA: Stratégies de la pédagogie de la créativité ...
Intervention d'Ela JASTRZĘBSKA:  Stratégies de la pédagogie de la créativité ...Intervention d'Ela JASTRZĘBSKA:  Stratégies de la pédagogie de la créativité ...
Intervention d'Ela JASTRZĘBSKA: Stratégies de la pédagogie de la créativité ...
 
Didactique de littérature
Didactique de littératureDidactique de littérature
Didactique de littérature
 
Article hilaire nov 2007
Article hilaire nov 2007Article hilaire nov 2007
Article hilaire nov 2007
 
Présentation Lingway
Présentation LingwayPrésentation Lingway
Présentation Lingway
 
Opinion Mining : Etat de l'art et exemples d'applications
Opinion Mining : Etat de l'art et exemples d'applicationsOpinion Mining : Etat de l'art et exemples d'applications
Opinion Mining : Etat de l'art et exemples d'applications
 
Guide dysphasies
Guide dysphasiesGuide dysphasies
Guide dysphasies
 
dokumen.tips_communication-interpersonnelle-2ppt.ppt
dokumen.tips_communication-interpersonnelle-2ppt.pptdokumen.tips_communication-interpersonnelle-2ppt.ppt
dokumen.tips_communication-interpersonnelle-2ppt.ppt
 
dokumen.tips_communication-interpersonnelle-2ppt.ppt
dokumen.tips_communication-interpersonnelle-2ppt.pptdokumen.tips_communication-interpersonnelle-2ppt.ppt
dokumen.tips_communication-interpersonnelle-2ppt.ppt
 

Word-sense disambiguation

  • 1. Exposé de Recherche D’information Word Sense Disambiguation (WSD) Présenté par: Enseignant de module: BENDJELLOUL Fatima Zahra LAROUSSI Khadidja Mr.bentaallah.M 1
  • 2. Plan de travail Introduction Qu’est ce que les sens d’un mot ? Ambiguïtés sémantiques Définition de WSD Pourquoi la WSD ? Les types de WSD Les méthodes de WSD Evaluation Conclusion 2
  • 3. Introduction  L’ambiguïté des mots est un phénomène omniprésent dans les langues naturelles.  Elle représente une des grandes difficultés du traitement automatique du langage naturel,  Pour cela, la WSD permet de traiter et de lever cet ambiguïté. 3
  • 4. Qu’est ce que les sens d’un mot ? Sens, en linguistique, est synonyme de signification. Il désigne le contenu conceptuel d'une expression. Les différent sens d’un mot: Mot a un seul sens : appartient à une vocabulaire technique, scientifique Mot a plusieurs sens : c’est qu’on nomme la polysémie, certain mot a un sens propre et un sens figuré. Sens d’après le contexte: pour comprendre le sens il faut relire la phrase qui précède et celle qui suit 4
  • 5. Ambiguïtés sémantiques Beaucoup de mots de la langue peuvent être interprétés de manières variées en fonction du contexte dans lequel ils apparaissent, 1. Les homonymes 2. Les polysémies 5
  • 6. Mouse Windows 1. Les homonymes 2. Les polysémies mots avec des sens non liés 6
  • 7. Papier ... 1. Les homonymes 2. Les polysémies mots dont les sens sont liés d’une certaine manière 7
  • 8. Définition de la WSD Une tâche nécessaire à la bonne réalisation de nombreuses applications du TALN, Consiste à déterminer le sens correct des mots ambigus dans un contexte. 8
  • 9. Pourquoi la WSD ?  Recherche d’information: filtrer les réponses retournées par le systèmes et garder juste les réponses pertinents,  Traduction automatique: Ex: le mot en espagnol muñeca peut être traduit en français par « poupée » ou par « poignée » en fonction du contexte  Traitement du discours: Ex: La prononciation/kuR/peut être écrite comme « cour », « court», « cours » ou encore « coure ».  Traitement de texte: pour la correction orthographique Ex: Les mots « comte » et « comté ». 9
  • 10. Les types de désambiguïsation Désambiguïsation ciblée (Targeted Word Sense Disambiguation) Désambiguïsation d’un mot en particulier dans un texte. Ex:  The mouse is an animal very active, very acrobatic, they live in groups.  A mouse is a pointing device that connects to the computer WSD est considérée comme un problème de classification 10
  • 11. Les types de désambiguïsation Désambiguïsation ciblée (Targeted Word Sense Disambiguation)  Corpus d’apprentissage contenant les occurrences du mot, chaque occurrence est annotée par un sens.  Extraction de vecteurs de traits qui représentent le contexte d’apparition du mot. Trouver le sens approprié du mot en contexte 11
  • 12. Les types de désambiguïsation Désambiguïsation complète (All words Word Sense Disambiguation) Désambiguïsation de tous les mots pleins d’un texte. Ex: The mouse and rats are widely used in animal research laboratories for testing the toxicity of certain substances - Exploitation de définitions de dictionnaires. - Exploitation de relations sémantiques 12
  • 13. Les méthodes de WSD Méthodes fondées sur les connaissances Méthodes fondées sur l’apprentissage 13
  • 14. Méthodes fondées sur les connaissances la désambiguïsation automatique est matérialisée par les méthodes basées sur les connaissances qui essayent d’extraire de manière automatique l’information nécessaire à la désambiguïsation. 14
  • 15. Ressources lexicales/sémantiques Les dictionnaires électroniques ex: le petit larousse Les thésaurus ex: Roget’s Thesaurus Réseaux sémantiques ex: WordNet 15
  • 16. Méthode de Lesk (Michael Lesk 1986) Récupérer de MRD toutes les définitions du sens des mots à ambigus. Mesurer le chevauchement entre les différents définitions dans le dictionnaire, d'un mot ambigu et les définitions de ses voisins immédiats. Choisissez le sens qui conduisent à plus de chevauchement 16
  • 17. Méthode de Lesk (Michael Lesk 1986) Exemple: désambiguïser mouse computer Mouse 1. any of numerous small rodents typically resembling diminutive rats having pointed snouts 2. person who is quiet or timid 3. a hand-operated electronic device that controls the coordinates of a cursor on your computer screen as you move it around on a pad Computer 1. computing machine, computing device, data processor, electronic computer, information processing system 2. calculator, reckoner, figurer, estimator Mouse1 computer1 =0 mouse2 computer2 =0 Mouse1 computer2 =0 mouse3 computer1 =3 Mouse2 computer1 =0 mouse3 computer2 =0 17
  • 18. Les inconvénients de la méthode de Lesk  Fondée sur la correspondance exacte des mots trouvés dans les définitions  Ne permet pas de capter des relations moins explicites (par ex. sémantiques) entre les mots  Vise la désambiguïsation d’un mot à la fois  Explosion combinatoire si l’on essaie de désambiguïser tous les mots du texte 18
  • 19. Méthodes fondés sur l’apprentissage Utilisation d’informations sémantiques acquises directement à partir de textes  Désambiguïsation supervisée : exploitation des données annotées  Désambiguïsation non supervisée : acquisition des données non annotées  Désambiguïsation semi supervisée : création d’un classifieur avec peu de données annotées, beaucoup de données non annotées Application de techniques d’apprentissage automatique à la désambiguïsation 19
  • 20. Méthodes supervisées • Utilisation d’un ensemble de méthodes pour l’apprentissage de classifieurs a partir de corpus annotés Types de corpus - corpus avec les sens d’un mot particulier annotés, ex : corpus d’évaluation de Senseval - corpus avec chaque mot plein annoté, ex : SemCor (234000 mots annotés avec les sens de WordNet) Problème de classification  Extraction de traits (features) des textes utiles pour prédire des sens particuliers des mots  Apprentissage de classifieurs particuliers, ex : classifieurs naïfs de Bayes, listes de décisions, etc.  Un classifieur doit ici attribuer un sens a un mot (non annoté) en se basant sur le contexte de ce mot 20
  • 21. Méthodes supervisées Avantages • elles ont les meilleures performances • elles donnent les meilleurs résultats dans les évaluations des systèmes de désambiguïsation sémantique Inconvénients • élaboration coûteuse des données d’entraînement (Ng, 1997) • dispersion des données (data sparseness) : difficile d’avoir un ensemble d’entraînement annoté qui couvre tout le lexique d’une langue • désambiguïsation souvent focalisée sur un petit ensemble de mots ambigus (target words) 21
  • 22. Méthodes semi-supervisées:  Apprentissage de classifieurs de sens de mots avec un minimum de textes annotés (peu de données disponibles)  Approches par amorçage (bootstrapping) : produire un classifieur qui améliore les performances  Apprentissage d’un classifieur pour la désambiguïsation ciblée [Yarowsky, 1995] 22
  • 23. Méthodes non-supervisées  offrent une solution au problème de la disponibilité limitée de données annotées  Ni de corpus d’exemples sémantiquement annotés, ni de sources externes de connaissances (dictionnaires, thésaurus, etc.)  Exploitent de grands corpus de données non annotées  Basée sur les résultats de méthodes d’induction de sens (Word Sense Induction (WSI)) Identifient les sens possibles des mots à partir de grands corpus de textes non annotés Les instances d’un mot ambigu sont clustérisées sur la base de la similarité des contextes dans lesquels elles apparaissent Chaque cluster décrit un sens du mot ambigu 23
  • 24. Méthodes non-supervisées Avantages  Une performance presque comparable aux approches supervisées [Manning et Schutze, 2000] Inconvénients [Jurafsky et Martin, 2000]  Les sens corrects peuvent ne pas être connus  Les clusters obtenus peuvent contenir plusieurs sens 24
  • 25. Evaluation Correction par des humains, vérification de la nature des relations entre les membres des clusters Evaluation non supervisée Les sens induits sont évalués en tant que clusters d’exemples et comparés à des exemples annotés par des sens gold standard (GS) Evaluation supervisée Mise en correspondence des clusters obtenus avec des sens du GS (OntoNotes, Hovy et al., 2006) Utilisation des correspondences établies pour annoter des instances dans le corpus de test avec des sens GS 25
  • 26. Conclusion La désambiguïsation sémantique est un problème très complexe relié à la richesse de la langue. Combinaison de plusieurs méthodes capables de résoudre le problème WSD. La méthode Lesk est assez simple et a donnée des résultats intéressants. Les algorithmes d’apprentissage sont maintenant plus performants que les algorithmes de désambiguïsation à l’aide de dictionnaires La technique Naïve Bayes a une bonne performance sur les tâches de classification. 26
  • 28. 28