Exposé de Recherche D’information      Word Sense Disambiguation (WSD)Présenté par:                  Enseignant de module:...
Plan de travailIntroductionQu’est ce que les sens d’un mot ?Ambiguïtés sémantiquesDéfinition de WSDPourquoi la WSD ?Les ty...
Introduction L’ambiguïté des mots est un phénomène omniprésent dans les  langues naturelles. Elle représente une des gra...
Qu’est ce que les sens d’un mot ?Sens, en linguistique, est synonyme de signification. Il désigne lecontenu conceptuel dun...
Ambiguïtés sémantiquesBeaucoup de mots de la langue peuvent être interprétésde manières variées en fonction du contexte da...
Mouse                Windows    1. Les homonymes    2. Les polysémies  mots avec des sens non liés                        ...
Papier                                                 ...               1. Les homonymes               2. Les polysémiesm...
Définition de la WSDUne tâche nécessaire à la bonne réalisation denombreuses applications du TALN,Consiste à déterminer le...
Pourquoi la WSD ? Recherche d’information: filtrer les réponses retournées par le  systèmes et garder juste les réponses ...
Les types de désambiguïsationDésambiguïsation ciblée (Targeted Word Sense Disambiguation)Désambiguïsation d’un mot en part...
Les types de désambiguïsationDésambiguïsation ciblée (Targeted Word Sense Disambiguation) Corpus d’apprentissage contenan...
Les types de désambiguïsationDésambiguïsation complète (All words Word Sense Disambiguation)Désambiguïsation de tous les m...
Les méthodes de WSDMéthodes fondées sur les connaissancesMéthodes fondées sur l’apprentissage                             ...
Méthodes fondées sur les connaissancesla désambiguïsation automatique est matérialisée par lesméthodes basées sur les conn...
Ressources lexicales/sémantiquesLes dictionnaires électroniques ex: le petit larousseLes thésaurus ex: Roget’s Thesaurus...
Méthode de Lesk (Michael Lesk 1986)Récupérer de MRD toutes les définitions du sens des mots à ambigus.Mesurer le chevauc...
Méthode de Lesk (Michael Lesk 1986)Exemple: désambiguïser mouse computerMouse1. any of numerous small rodents typically re...
Les inconvénients de la méthode de Lesk  Fondée sur la correspondance exacte des mots trouvés dans   les définitions  Ne ...
Méthodes fondés sur l’apprentissageUtilisation d’informations sémantiques acquises directement à partir de textes Désamb...
Méthodes supervisées• Utilisation d’un ensemble de méthodes pour l’apprentissage de classifieurs a    partir de corpus anno...
Méthodes superviséesAvantages• elles ont les meilleures performances• elles donnent les meilleurs résultats dans les évalu...
Méthodes semi-supervisées: Apprentissage de classifieurs de sens de mots avec un  minimum de textes annotés (peu de donnée...
Méthodes non-supervisées offrent une solution au problème de la disponibilité limitée de données annotées Ni de corpus d...
Méthodes non-superviséesAvantages Une performance presque comparable aux approches  supervisées [Manning et Schutze, 2000...
Evaluation   Correction par des humains, vérification de la nature des relations   entre les membres des clustersEvaluatio...
ConclusionLa désambiguïsation sémantique est un problème très complexe relié à larichesse de la langue.Combinaison de plus...
Bibliographie www.iro.umontreal.ca/~felipe/Papers/paper-taln-2004a.pdf www.images.hachette-livre.fr/media/.../2543807769...
28
Prochain SlideShare
Chargement dans…5
×

Word-sense disambiguation

1 459 vues

Publié le

1.Introduction
2.Qu’est ce que les sens d’un mot ?
3.Ambiguïtés sémantiques
4.Définition de WSD
5.Pourquoi la WSD ?
6.Les types de WSD
7.Les méthodes de WSD
8.Evaluation
Conclusion

0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 459
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
29
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Word-sense disambiguation

  1. 1. Exposé de Recherche D’information Word Sense Disambiguation (WSD)Présenté par: Enseignant de module:BENDJELLOUL Fatima ZahraLAROUSSI Khadidja Mr.bentaallah.M 1
  2. 2. Plan de travailIntroductionQu’est ce que les sens d’un mot ?Ambiguïtés sémantiquesDéfinition de WSDPourquoi la WSD ?Les types de WSDLes méthodes de WSDEvaluationConclusion 2
  3. 3. Introduction L’ambiguïté des mots est un phénomène omniprésent dans les langues naturelles. Elle représente une des grandes difficultés du traitement automatique du langage naturel, Pour cela, la WSD permet de traiter et de lever cet ambiguïté. 3
  4. 4. Qu’est ce que les sens d’un mot ?Sens, en linguistique, est synonyme de signification. Il désigne lecontenu conceptuel dune expression.Les différent sens d’un mot:Mot a un seul sens : appartient à une vocabulairetechnique, scientifiqueMot a plusieurs sens : c’est qu’on nomme la polysémie, certainmot a un sens propre et un sens figuré.Sens d’après le contexte: pour comprendre le sens il faut relirela phrase qui précède et celle qui suit 4
  5. 5. Ambiguïtés sémantiquesBeaucoup de mots de la langue peuvent être interprétésde manières variées en fonction du contexte dans lequelils apparaissent, 1. Les homonymes 2. Les polysémies 5
  6. 6. Mouse Windows 1. Les homonymes 2. Les polysémies mots avec des sens non liés 6
  7. 7. Papier ... 1. Les homonymes 2. Les polysémiesmots dont les sens sont liés d’une certaine manière 7
  8. 8. Définition de la WSDUne tâche nécessaire à la bonne réalisation denombreuses applications du TALN,Consiste à déterminer le sens correct des motsambigus dans un contexte. 8
  9. 9. Pourquoi la WSD ? Recherche d’information: filtrer les réponses retournées par le systèmes et garder juste les réponses pertinents, Traduction automatique:Ex: le mot en espagnol muñeca peut être traduit en français par « poupée »ou par « poignée » en fonction du contexte Traitement du discours:Ex: La prononciation/kuR/peut être écrite comme « cour », « court», «cours » ou encore « coure ». Traitement de texte: pour la correction orthographiqueEx: Les mots « comte » et « comté ». 9
  10. 10. Les types de désambiguïsationDésambiguïsation ciblée (Targeted Word Sense Disambiguation)Désambiguïsation d’un mot en particulier dans un texte.Ex: The mouse is an animal very active, very acrobatic, they live in groups. A mouse is a pointing device that connects to the computer WSD est considérée comme un problème de classification 10
  11. 11. Les types de désambiguïsationDésambiguïsation ciblée (Targeted Word Sense Disambiguation) Corpus d’apprentissage contenant les occurrences du mot, chaque occurrence est annotée par un sens. Extraction de vecteurs de traits qui représentent le contexte d’apparition du mot. Trouver le sens approprié du mot en contexte 11
  12. 12. Les types de désambiguïsationDésambiguïsation complète (All words Word Sense Disambiguation)Désambiguïsation de tous les mots pleins d’un texte.Ex: The mouse and rats are widely used in animal research laboratoriesfor testing the toxicity of certain substances- Exploitation de définitions de dictionnaires.- Exploitation de relations sémantiques 12
  13. 13. Les méthodes de WSDMéthodes fondées sur les connaissancesMéthodes fondées sur l’apprentissage 13
  14. 14. Méthodes fondées sur les connaissancesla désambiguïsation automatique est matérialisée par lesméthodes basées sur les connaissances qui essayentd’extraire de manière automatique l’informationnécessaire à la désambiguïsation. 14
  15. 15. Ressources lexicales/sémantiquesLes dictionnaires électroniques ex: le petit larousseLes thésaurus ex: Roget’s ThesaurusRéseaux sémantiques ex: WordNet 15
  16. 16. Méthode de Lesk (Michael Lesk 1986)Récupérer de MRD toutes les définitions du sens des mots à ambigus.Mesurer le chevauchement entre les différents définitions dans le dictionnaire, dun mot ambigu et les définitions de ses voisins immédiats.Choisissez le sens qui conduisent à plus de chevauchement 16
  17. 17. Méthode de Lesk (Michael Lesk 1986)Exemple: désambiguïser mouse computerMouse1. any of numerous small rodents typically resembling diminutive rats having pointed snouts2. person who is quiet or timid3. a hand-operated electronic device that controls the coordinates of a cursor on your computer screen as you move it around on a padComputer1. computing machine, computing device, data processor, electronic computer, information processing system2. calculator, reckoner, figurer, estimator Mouse1 computer1 =0 mouse2 computer2 =0 Mouse1 computer2 =0 mouse3 computer1 =3 Mouse2 computer1 =0 mouse3 computer2 =0 17
  18. 18. Les inconvénients de la méthode de Lesk  Fondée sur la correspondance exacte des mots trouvés dans les définitions  Ne permet pas de capter des relations moins explicites (par ex. sémantiques) entre les mots  Vise la désambiguïsation d’un mot à la fois  Explosion combinatoire si l’on essaie de désambiguïser tous les mots du texte 18
  19. 19. Méthodes fondés sur l’apprentissageUtilisation d’informations sémantiques acquises directement à partir de textes Désambiguïsation supervisée : exploitation des données annotées Désambiguïsation non supervisée : acquisition des données non annotées Désambiguïsation semi supervisée : création d’un classifieur avec peu de données annotées, beaucoup de données non annotéesApplication de techniques d’apprentissage automatique à la désambiguïsation 19
  20. 20. Méthodes supervisées• Utilisation d’un ensemble de méthodes pour l’apprentissage de classifieurs a partir de corpus annotés Types de corpus- corpus avec les sens d’un mot particulier annotés, ex : corpus d’évaluation deSenseval- corpus avec chaque mot plein annoté, ex : SemCor (234000 mots annotés avecles sens de WordNet)Problème de classification Extraction de traits (features) des textes utiles pour prédire dessens particuliers des mots Apprentissage de classifieurs particuliers, ex : classifieurs naïfs de Bayes, listes de décisions, etc. Un classifieur doit ici attribuer un sens a un mot (non annoté) en se basant sur le contexte de ce mot 20
  21. 21. Méthodes superviséesAvantages• elles ont les meilleures performances• elles donnent les meilleurs résultats dans les évaluations des systèmes de désambiguïsation sémantiqueInconvénients• élaboration coûteuse des données d’entraînement (Ng, 1997)• dispersion des données (data sparseness) : difficile d’avoir un ensemble d’entraînement annoté qui couvre tout le lexique d’une langue• désambiguïsation souvent focalisée sur un petit ensemble de mots ambigus (target words) 21
  22. 22. Méthodes semi-supervisées: Apprentissage de classifieurs de sens de mots avec un minimum de textes annotés (peu de données disponibles) Approches par amorçage (bootstrapping) : produire un classifieur qui améliore les performances Apprentissage d’un classifieur pour la désambiguïsation ciblée[Yarowsky, 1995] 22
  23. 23. Méthodes non-supervisées offrent une solution au problème de la disponibilité limitée de données annotées Ni de corpus d’exemples sémantiquement annotés, ni de sources externes de connaissances (dictionnaires, thésaurus, etc.) Exploitent de grands corpus de données non annotées Basée sur les résultats de méthodes d’induction de sens (Word Sense Induction (WSI)) Identifient les sens possibles des mots à partir de grands corpus de textes non annotés Les instances d’un mot ambigu sont clustérisées sur la base de la similarité des contextes dans lesquels elles apparaissent Chaque cluster décrit un sens du mot ambigu 23
  24. 24. Méthodes non-superviséesAvantages Une performance presque comparable aux approches supervisées [Manning et Schutze, 2000]Inconvénients [Jurafsky et Martin, 2000] Les sens corrects peuvent ne pas être connus Les clusters obtenus peuvent contenir plusieurs sens 24
  25. 25. Evaluation Correction par des humains, vérification de la nature des relations entre les membres des clustersEvaluation non superviséeLes sens induits sont évalués en tant que clusters d’exemples etcomparés à des exemples annotés par des sens gold standard (GS)Evaluation superviséeMise en correspondence des clusters obtenus avec des sens du GS(OntoNotes, Hovy et al., 2006)Utilisation des correspondences établies pour annoter des instances dansle corpus de test avec des sens GS 25
  26. 26. ConclusionLa désambiguïsation sémantique est un problème très complexe relié à larichesse de la langue.Combinaison de plusieurs méthodes capables de résoudre le problème WSD.La méthode Lesk est assez simple et a donnée des résultats intéressants.Les algorithmes d’apprentissage sont maintenant plus performants que lesalgorithmes de désambiguïsation à l’aide de dictionnairesLa technique Naïve Bayes a une bonne performance sur les tâches declassification. 26
  27. 27. Bibliographie www.iro.umontreal.ca/~felipe/Papers/paper-taln-2004a.pdf www.images.hachette-livre.fr/media/.../2543807769.pdf http://perso.limsi.fr/amax/enseignement/tal/Cours- DesambiguisationLexicale-M2R.pdf 27
  28. 28. 28

×