CARI2020: RESOLUTION D’ANAPHORES NOMINALES AVEC LES SEPARATEURS À VASTES MARGES SUR ARBRES SYNTAXIQUES
1. RESOLUTION D’ANAPHORES
NOMINALES AVEC LES SEPARATEURS À
VASTES MARGES SUR ARBRES
SYNTAXIQUES
Dimedrik Feudjieu∗
- Paulin Melatagia Yonta∗,∗∗
∗
Département d’informatique, Université de Yaoundé I, Cameroun
∗∗
Sorbonne Université, IRD, UMMISCO, F-93143, Bondy, France
feudjieuvanil@gmail.com , paulinyonta@gmail.com
CARI 2020
18 septembre 2020
CARI 2020 Tree kernel 18 septembre 2020 1 / 26
2. Table des matières
1 Introduction
2 Etat de l’art
3 Arbres syntaxiques enrichis pour la résolution nominale
4 Expérimentations
5 Conclusion
CARI 2020 Tree kernel 18 septembre 2020 2 / 26
3. Introduction Résolution d’anaphores nominales
Résolution d’anaphores
Mise en relation des groupes nominaux dit Antécédents et des
groupes nominaux dit Anaphores.
CARI 2020 Tree kernel 18 septembre 2020 3 / 26
4. Introduction Résolution d’anaphores nominales
Résolution d’anaphores
Mise en relation des groupes nominaux dit Antécédents et des
groupes nominaux dit Anaphores.
Cette tâche s’effectue en deux grandes étapes :
CARI 2020 Tree kernel 18 septembre 2020 3 / 26
5. Introduction Résolution d’anaphores nominales
Résolution d’anaphores
Mise en relation des groupes nominaux dit Antécédents et des
groupes nominaux dit Anaphores.
Cette tâche s’effectue en deux grandes étapes :
la détection de Mentions.
la construction des Chaines de coréférence.
CARI 2020 Tree kernel 18 septembre 2020 3 / 26
6. Introduction Résolution d’anaphores nominales
Résolution d’anaphores
Une Chaine de coréférence ou Entité désigne un ensemble
formé par un antécédant et ses anaphores.
CARI 2020 Tree kernel 18 septembre 2020 4 / 26
7. Introduction Résolution d’anaphores nominales
Résolution d’anaphores
Une Chaine de coréférence ou Entité désigne un ensemble
formé par un antécédant et ses anaphores.
Les applications :
Le résumé automatique de texte
La traduction automatique
L’extraction d’information
CARI 2020 Tree kernel 18 septembre 2020 4 / 26
8. Etat de l’art Résolution d’anaphores nominales
Approches pour la Résolution d’anaphores
Les approches basées sur des règles : L’idée générale est
d’incorporer une source de connaissance (un ensemble de règles)
pour élaguer les candidats antécédents peu probables.
CARI 2020 Tree kernel 18 septembre 2020 5 / 26
9. Etat de l’art Résolution d’anaphores nominales
Approches pour la Résolution d’anaphores
Les approches basées sur des règles : L’idée générale est
d’incorporer une source de connaissance (un ensemble de règles)
pour élaguer les candidats antécédents peu probables.
Les approches basées sur l’apprentissage automatique :
Exploiter un corpus annoté avec les chaines de coréférence pour
mettre sur pied un modèle.
CARI 2020 Tree kernel 18 septembre 2020 5 / 26
10. Etat de l’art Résolution d’anaphores nominales
Approches pour la Résolution d’anaphores
Les approches basées sur des règles : L’idée générale est
d’incorporer une source de connaissance (un ensemble de règles)
pour élaguer les candidats antécédents peu probables.
Les approches basées sur l’apprentissage automatique :
Exploiter un corpus annoté avec les chaines de coréférence pour
mettre sur pied un modèle.
Deux tendances :
L’extraction de caractéristiques
Les méthodes à noyau
CARI 2020 Tree kernel 18 septembre 2020 5 / 26
11. Etat de l’art Résolution d’anaphores nominales
Fonction noyau
Une fonction noyau est une fonction κ : (x,x’) ∈ X2
→ R satisfaisant :
κ(x, x ) = Φ(x), Φ(x )
où Φ est une fonction de X vers un espace de redescription F doté d’un
produit scalaire :
Φ : x → Φ(x) ∈ F
CARI 2020 Tree kernel 18 septembre 2020 6 / 26
12. Etat de l’art Résolution d’anaphores nominales
Fonction noyau
Une fonction noyau est une fonction κ : (x,x’) ∈ X2
→ R satisfaisant :
κ(x, x ) = Φ(x), Φ(x )
où Φ est une fonction de X vers un espace de redescription F doté d’un
produit scalaire :
Φ : x → Φ(x) ∈ F
En un sens profond, une fonction noyau correspond à une mesure
de similarité entre deux objets x et x’.
CARI 2020 Tree kernel 18 septembre 2020 6 / 26
13. Etat de l’art Résolution d’anaphores nominales
Utilisation des fonctions Noyau
FIGURE – Les étapes impliquées dans l’application des méthodes à noyaux
CARI 2020 Tree kernel 18 septembre 2020 7 / 26
14. Etat de l’art Résolution d’anaphores nominales
Yang et al. (2006)
Idée
Extraire automatiquement les informations contenues dans les arbres
syntaxiques (caractéristiques structurées) en utilisant une fonction
noyau.
CARI 2020 Tree kernel 18 septembre 2020 8 / 26
15. Etat de l’art Résolution d’anaphores nominales
Yang et al. (2006)
Idée
Extraire automatiquement les informations contenues dans les arbres
syntaxiques (caractéristiques structurées) en utilisant une fonction
noyau.
FIGURE – Les caractéristiques structuréesCARI 2020 Tree kernel 18 septembre 2020 8 / 26
16. Etat de l’art Résolution d’anaphores nominales
Yang et al(2006)
Subset tree kernel de Collins et Duffy(2002)
CARI 2020 Tree kernel 18 septembre 2020 9 / 26
17. Etat de l’art Résolution d’anaphores nominales
Yang et al. (2006)
Extension :
Combiner les caractéristiques structurées avec des
caractéristiques plates (vecteur de caractéristiques
linguistiques).
CARI 2020 Tree kernel 18 septembre 2020 10 / 26
18. Etat de l’art Résolution d’anaphores nominales
Yang et al. (2006)
Extension :
Combiner les caractéristiques structurées avec des
caractéristiques plates (vecteur de caractéristiques
linguistiques).
Kc(x1, x2) =
Kt(x1, x2)
Kt(x1, x1) ∗ Kt(x2, x2)
∗
Kn(x1, x2)
Kn(x1, x1) ∗ Kn(x2, x2)
(1)
CARI 2020 Tree kernel 18 septembre 2020 10 / 26
19. Etat de l’art Résolution d’anaphores nominales
Yang et al. (2006)
Bien que le modèle obtenu présente de bons resultats, il a cependant
quelques limites.
CARI 2020 Tree kernel 18 septembre 2020 11 / 26
20. Etat de l’art Résolution d’anaphores nominales
Yang et al. (2006)
Bien que le modèle obtenu présente de bons resultats, il a cependant
quelques limites.
Limites
Nécéssité de combiner les caractéristiques structurées et plates.
Permet uniquement la résolution des pronoms.
CARI 2020 Tree kernel 18 septembre 2020 11 / 26
21. Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis
Description du modèle
Hypothèse
La similarité entre deux arbres pourrait être mieux calculée si les
sous-fragment des arbres incluaient en dehors des informations
syntaxiques, d’autres informations provenant directement d’autres
niveaux du traitement du langage.
CARI 2020 Tree kernel 18 septembre 2020 12 / 26
22. Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis
Description du modèle
Idée
Enrichir des noeuds de l’arbre syntaxique avec des caractéristiques
plates pour éviter la combinaison.
La structure obtenue après enrichissement est appélée Arbre
syntaxique enrichi.
CARI 2020 Tree kernel 18 septembre 2020 13 / 26
23. Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis
Enrichissement des noeuds
Soient mi et mj, deux mentions. mi est l’antécédent de mj.
mi et mj seront enrichis dans l’arbre avec des caractéristiques
plates.
CARI 2020 Tree kernel 18 septembre 2020 14 / 26
24. Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis
Enrichissement des noeuds
Soient mi et mj, deux mentions. mi est l’antécédent de mj.
mi et mj seront enrichis dans l’arbre avec des caractéristiques
plates.
L’ensemble des attributs ajoutés à une mention est donné part :
Word , Gender
Number, Entity
SemClass, Type, Tag
CARI 2020 Tree kernel 18 septembre 2020 14 / 26
25. Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis
Enrichissement des noeuds
Exemple : Soit la phrase, The [man] in the room saw [him].
(a) (b)
FIGURE – Arbre syntaxique en (a) et arbre syntaxique enrichi en (b) de la
phrase The man in the room saw him
CARI 2020 Tree kernel 18 septembre 2020 15 / 26
26. Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis
Cacul de la similarité entre Arbres enrichis
Basée sur subset Tree Kernel définit de Collins et Duffy (2002) :
Si les productions à n1 et n2 sont différentes alors C(n1 , n2) = 0
Si les productions à n1 et n2 sont identiques alors C(n1 , n2) = 1
Si les productions à n1 et n2 sont identiques et n1 et n2 ne sont pas
des noeuds pré-terminaux alors
C(n1 , n2) =
nc(n1)
n=1
(1 + C(ch(n1, j), ch(n2, j)))
où nc(n1) est le nombre de noeuds fils de n1 dans l’arbre, le i-ème
fils de n1 est ch(n1, i)
CARI 2020 Tree kernel 18 septembre 2020 16 / 26
27. Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis
Cacul de la similarité entre Arbres enrichis
Si les nœuds n1 et n2 sont des mentions alors
C(n1 , n2) = Kbow (n1.word, n2.word) + Kpol (vect(n1), vect(n2))
où Kbow désigne le bag-of-words kernel, Kpol une fonction noyau
polynomiale et vect(ni ) la représentation vectorielle des attributs
de ni excepté l’attribut word.
CARI 2020 Tree kernel 18 septembre 2020 17 / 26
28. Expérimentations Données
Données
Une partie du jeu de données utilisé pour la compétition semEval 2010
task 1
Contient 85 documents, soient 1141 phrases et 24206 mots.
Données (85 documents) divisées conformément à la méthode
holdout (70% , 30%).
Génération des instances d’entrainement avec la méthode décrite
par Soon et al.(2001)
Génération des ensembles d’entrainement Eeq , Edo, Eor
CARI 2020 Tree kernel 18 septembre 2020 18 / 26
29. Expérimentations Données
Métriques d’évaluation
MUC (Message Understanding Conference)
B3
(B-Cubed)
CEAF (Constrained Entity-Aligned F-measure)
BLANC (BiLateral Assessment of Noun-phrase Coreference)
CARI 2020 Tree kernel 18 septembre 2020 19 / 26
30. Expérimentations Données
Modèles entraînés
A partir de Eeq , Edo, Eor notre modèle ExtendedST a été entraîné, en
utilisant des versions enrichies des arbres proposés par Yang et
al.(2006)
Min-Expansion (M_EXP).
Simp-Expansion (S_EXP).
Full-Expansion (F_EXP).
CARI 2020 Tree kernel 18 septembre 2020 20 / 26
37. Conclusion Conclusion
Conclusion
La résolution d’anaphores est une tâche qui nécéssite plusieurs
niveaux de traitements de la langue.
Les informations contenues dans les arbres syntaxiques des
phrases sont généralement capturées par des heuristiques.
CARI 2020 Tree kernel 18 septembre 2020 24 / 26
38. Conclusion Conclusion
Conclusion
La résolution d’anaphores est une tâche qui nécéssite plusieurs
niveaux de traitements de la langue.
Les informations contenues dans les arbres syntaxiques des
phrases sont généralement capturées par des heuristiques.
Nous mis sur pieds des arbres syntaxiques enrichis afin de se
contourner la combinaison proposée par Yang et al. (2006).
CARI 2020 Tree kernel 18 septembre 2020 24 / 26
39. Conclusion Conclusion
Conclusion
La résolution d’anaphores est une tâche qui nécéssite plusieurs
niveaux de traitements de la langue.
Les informations contenues dans les arbres syntaxiques des
phrases sont généralement capturées par des heuristiques.
Nous mis sur pieds des arbres syntaxiques enrichis afin de se
contourner la combinaison proposée par Yang et al. (2006).
Puis nous avons adapté la fonction noyau de Collin et Duffy
(2002) pour qu’elle puisse calculer la similarité entre nos arbres
enrichis.
CARI 2020 Tree kernel 18 septembre 2020 24 / 26
40. Conclusion Conclusion
Conclusion
La résolution d’anaphores est une tâche qui nécéssite plusieurs
niveaux de traitements de la langue.
Les informations contenues dans les arbres syntaxiques des
phrases sont généralement capturées par des heuristiques.
Nous mis sur pieds des arbres syntaxiques enrichis afin de se
contourner la combinaison proposée par Yang et al. (2006).
Puis nous avons adapté la fonction noyau de Collin et Duffy
(2002) pour qu’elle puisse calculer la similarité entre nos arbres
enrichis.
Nos résultats montrent une amélioration pour les métriques
BCUB et CEAF par rapport aux modèles présentés lors de
semEval 2010.CARI 2020 Tree kernel 18 septembre 2020 24 / 26
42. Conclusion Perspectives
Perspectives
L’application des arbres syntaxiques enrichis à d’autres tâches du
TAL.
Enrichir plusieurs autres noeuds de l’arbre syntaxique en dehors
des mentions.
CARI 2020 Tree kernel 18 septembre 2020 25 / 26
43. Conclusion Perspectives
Perspectives
L’application des arbres syntaxiques enrichis à d’autres tâches du
TAL.
Enrichir plusieurs autres noeuds de l’arbre syntaxique en dehors
des mentions.
Ajuster la fonction noyau pour mieux extraire les informations
contenues au niveau des noeuds enrichis.
CARI 2020 Tree kernel 18 septembre 2020 25 / 26
44. Conclusion Références
Références
Xiaofeng Yang, Jian Su, Chew Lim Tan Kernel-Based Pronoun
Resolution with Structured Syntactic Knowledge.In ACL-44
Proceedings of the 21st International Conference 2006
Wee Meng Soon ,Hwee Tou Ng , Daniel Chung Yong Lim, A
Machine Learning Approach to Coreference Resolution of Noun
Phrases . Computational Linguistics, 27(4) :521–544 , 2001.
Shawe-Taylor, John and Cristianini, Nello, Kernel Methods for
Pattern Analysis, 2004.Cambridge University Press.
Poesio, Massimo and Stuckardt, Roland and Versley,
Yannick,Anaphora Resolution : Algorithms, Resources, and
Applications, 2016.
CARI 2020 Tree kernel 18 septembre 2020 26 / 26