SlideShare une entreprise Scribd logo
1  sur  44
Télécharger pour lire hors ligne
RESOLUTION D’ANAPHORES
NOMINALES AVEC LES SEPARATEURS À
VASTES MARGES SUR ARBRES
SYNTAXIQUES
Dimedrik Feudjieu∗
- Paulin Melatagia Yonta∗,∗∗
∗
Département d’informatique, Université de Yaoundé I, Cameroun
∗∗
Sorbonne Université, IRD, UMMISCO, F-93143, Bondy, France
feudjieuvanil@gmail.com , paulinyonta@gmail.com
CARI 2020
18 septembre 2020
CARI 2020 Tree kernel 18 septembre 2020 1 / 26
Table des matières
1 Introduction
2 Etat de l’art
3 Arbres syntaxiques enrichis pour la résolution nominale
4 Expérimentations
5 Conclusion
CARI 2020 Tree kernel 18 septembre 2020 2 / 26
Introduction Résolution d’anaphores nominales
Résolution d’anaphores
Mise en relation des groupes nominaux dit Antécédents et des
groupes nominaux dit Anaphores.
CARI 2020 Tree kernel 18 septembre 2020 3 / 26
Introduction Résolution d’anaphores nominales
Résolution d’anaphores
Mise en relation des groupes nominaux dit Antécédents et des
groupes nominaux dit Anaphores.
Cette tâche s’effectue en deux grandes étapes :
CARI 2020 Tree kernel 18 septembre 2020 3 / 26
Introduction Résolution d’anaphores nominales
Résolution d’anaphores
Mise en relation des groupes nominaux dit Antécédents et des
groupes nominaux dit Anaphores.
Cette tâche s’effectue en deux grandes étapes :
la détection de Mentions.
la construction des Chaines de coréférence.
CARI 2020 Tree kernel 18 septembre 2020 3 / 26
Introduction Résolution d’anaphores nominales
Résolution d’anaphores
Une Chaine de coréférence ou Entité désigne un ensemble
formé par un antécédant et ses anaphores.
CARI 2020 Tree kernel 18 septembre 2020 4 / 26
Introduction Résolution d’anaphores nominales
Résolution d’anaphores
Une Chaine de coréférence ou Entité désigne un ensemble
formé par un antécédant et ses anaphores.
Les applications :
Le résumé automatique de texte
La traduction automatique
L’extraction d’information
CARI 2020 Tree kernel 18 septembre 2020 4 / 26
Etat de l’art Résolution d’anaphores nominales
Approches pour la Résolution d’anaphores
Les approches basées sur des règles : L’idée générale est
d’incorporer une source de connaissance (un ensemble de règles)
pour élaguer les candidats antécédents peu probables.
CARI 2020 Tree kernel 18 septembre 2020 5 / 26
Etat de l’art Résolution d’anaphores nominales
Approches pour la Résolution d’anaphores
Les approches basées sur des règles : L’idée générale est
d’incorporer une source de connaissance (un ensemble de règles)
pour élaguer les candidats antécédents peu probables.
Les approches basées sur l’apprentissage automatique :
Exploiter un corpus annoté avec les chaines de coréférence pour
mettre sur pied un modèle.
CARI 2020 Tree kernel 18 septembre 2020 5 / 26
Etat de l’art Résolution d’anaphores nominales
Approches pour la Résolution d’anaphores
Les approches basées sur des règles : L’idée générale est
d’incorporer une source de connaissance (un ensemble de règles)
pour élaguer les candidats antécédents peu probables.
Les approches basées sur l’apprentissage automatique :
Exploiter un corpus annoté avec les chaines de coréférence pour
mettre sur pied un modèle.
Deux tendances :
L’extraction de caractéristiques
Les méthodes à noyau
CARI 2020 Tree kernel 18 septembre 2020 5 / 26
Etat de l’art Résolution d’anaphores nominales
Fonction noyau
Une fonction noyau est une fonction κ : (x,x’) ∈ X2
→ R satisfaisant :
κ(x, x ) = Φ(x), Φ(x )
où Φ est une fonction de X vers un espace de redescription F doté d’un
produit scalaire :
Φ : x → Φ(x) ∈ F
CARI 2020 Tree kernel 18 septembre 2020 6 / 26
Etat de l’art Résolution d’anaphores nominales
Fonction noyau
Une fonction noyau est une fonction κ : (x,x’) ∈ X2
→ R satisfaisant :
κ(x, x ) = Φ(x), Φ(x )
où Φ est une fonction de X vers un espace de redescription F doté d’un
produit scalaire :
Φ : x → Φ(x) ∈ F
En un sens profond, une fonction noyau correspond à une mesure
de similarité entre deux objets x et x’.
CARI 2020 Tree kernel 18 septembre 2020 6 / 26
Etat de l’art Résolution d’anaphores nominales
Utilisation des fonctions Noyau
FIGURE – Les étapes impliquées dans l’application des méthodes à noyaux
CARI 2020 Tree kernel 18 septembre 2020 7 / 26
Etat de l’art Résolution d’anaphores nominales
Yang et al. (2006)
Idée
Extraire automatiquement les informations contenues dans les arbres
syntaxiques (caractéristiques structurées) en utilisant une fonction
noyau.
CARI 2020 Tree kernel 18 septembre 2020 8 / 26
Etat de l’art Résolution d’anaphores nominales
Yang et al. (2006)
Idée
Extraire automatiquement les informations contenues dans les arbres
syntaxiques (caractéristiques structurées) en utilisant une fonction
noyau.
FIGURE – Les caractéristiques structuréesCARI 2020 Tree kernel 18 septembre 2020 8 / 26
Etat de l’art Résolution d’anaphores nominales
Yang et al(2006)
Subset tree kernel de Collins et Duffy(2002)
CARI 2020 Tree kernel 18 septembre 2020 9 / 26
Etat de l’art Résolution d’anaphores nominales
Yang et al. (2006)
Extension :
Combiner les caractéristiques structurées avec des
caractéristiques plates (vecteur de caractéristiques
linguistiques).
CARI 2020 Tree kernel 18 septembre 2020 10 / 26
Etat de l’art Résolution d’anaphores nominales
Yang et al. (2006)
Extension :
Combiner les caractéristiques structurées avec des
caractéristiques plates (vecteur de caractéristiques
linguistiques).
Kc(x1, x2) =
Kt(x1, x2)
Kt(x1, x1) ∗ Kt(x2, x2)
∗
Kn(x1, x2)
Kn(x1, x1) ∗ Kn(x2, x2)
(1)
CARI 2020 Tree kernel 18 septembre 2020 10 / 26
Etat de l’art Résolution d’anaphores nominales
Yang et al. (2006)
Bien que le modèle obtenu présente de bons resultats, il a cependant
quelques limites.
CARI 2020 Tree kernel 18 septembre 2020 11 / 26
Etat de l’art Résolution d’anaphores nominales
Yang et al. (2006)
Bien que le modèle obtenu présente de bons resultats, il a cependant
quelques limites.
Limites
Nécéssité de combiner les caractéristiques structurées et plates.
Permet uniquement la résolution des pronoms.
CARI 2020 Tree kernel 18 septembre 2020 11 / 26
Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis
Description du modèle
Hypothèse
La similarité entre deux arbres pourrait être mieux calculée si les
sous-fragment des arbres incluaient en dehors des informations
syntaxiques, d’autres informations provenant directement d’autres
niveaux du traitement du langage.
CARI 2020 Tree kernel 18 septembre 2020 12 / 26
Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis
Description du modèle
Idée
Enrichir des noeuds de l’arbre syntaxique avec des caractéristiques
plates pour éviter la combinaison.
La structure obtenue après enrichissement est appélée Arbre
syntaxique enrichi.
CARI 2020 Tree kernel 18 septembre 2020 13 / 26
Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis
Enrichissement des noeuds
Soient mi et mj, deux mentions. mi est l’antécédent de mj.
mi et mj seront enrichis dans l’arbre avec des caractéristiques
plates.
CARI 2020 Tree kernel 18 septembre 2020 14 / 26
Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis
Enrichissement des noeuds
Soient mi et mj, deux mentions. mi est l’antécédent de mj.
mi et mj seront enrichis dans l’arbre avec des caractéristiques
plates.
L’ensemble des attributs ajoutés à une mention est donné part :
Word , Gender
Number, Entity
SemClass, Type, Tag
CARI 2020 Tree kernel 18 septembre 2020 14 / 26
Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis
Enrichissement des noeuds
Exemple : Soit la phrase, The [man] in the room saw [him].
(a) (b)
FIGURE – Arbre syntaxique en (a) et arbre syntaxique enrichi en (b) de la
phrase The man in the room saw him
CARI 2020 Tree kernel 18 septembre 2020 15 / 26
Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis
Cacul de la similarité entre Arbres enrichis
Basée sur subset Tree Kernel définit de Collins et Duffy (2002) :
Si les productions à n1 et n2 sont différentes alors C(n1 , n2) = 0
Si les productions à n1 et n2 sont identiques alors C(n1 , n2) = 1
Si les productions à n1 et n2 sont identiques et n1 et n2 ne sont pas
des noeuds pré-terminaux alors
C(n1 , n2) =
nc(n1)
n=1
(1 + C(ch(n1, j), ch(n2, j)))
où nc(n1) est le nombre de noeuds fils de n1 dans l’arbre, le i-ème
fils de n1 est ch(n1, i)
CARI 2020 Tree kernel 18 septembre 2020 16 / 26
Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis
Cacul de la similarité entre Arbres enrichis
Si les nœuds n1 et n2 sont des mentions alors
C(n1 , n2) = Kbow (n1.word, n2.word) + Kpol (vect(n1), vect(n2))
où Kbow désigne le bag-of-words kernel, Kpol une fonction noyau
polynomiale et vect(ni ) la représentation vectorielle des attributs
de ni excepté l’attribut word.
CARI 2020 Tree kernel 18 septembre 2020 17 / 26
Expérimentations Données
Données
Une partie du jeu de données utilisé pour la compétition semEval 2010
task 1
Contient 85 documents, soient 1141 phrases et 24206 mots.
Données (85 documents) divisées conformément à la méthode
holdout (70% , 30%).
Génération des instances d’entrainement avec la méthode décrite
par Soon et al.(2001)
Génération des ensembles d’entrainement Eeq , Edo, Eor
CARI 2020 Tree kernel 18 septembre 2020 18 / 26
Expérimentations Données
Métriques d’évaluation
MUC (Message Understanding Conference)
B3
(B-Cubed)
CEAF (Constrained Entity-Aligned F-measure)
BLANC (BiLateral Assessment of Noun-phrase Coreference)
CARI 2020 Tree kernel 18 septembre 2020 19 / 26
Expérimentations Données
Modèles entraînés
A partir de Eeq , Edo, Eor notre modèle ExtendedST a été entraîné, en
utilisant des versions enrichies des arbres proposés par Yang et
al.(2006)
Min-Expansion (M_EXP).
Simp-Expansion (S_EXP).
Full-Expansion (F_EXP).
CARI 2020 Tree kernel 18 septembre 2020 20 / 26
Expérimentations Données
Environnement
SVM-Light.
Standford NLP.
Wordnet.
Configuration Matérielle
24Go de RAM (DDR3)
Intel(R) Core(TM) i7-4790 CPU @ 3.60GHz
CARI 2020 Tree kernel 18 septembre 2020 21 / 26
Expérimentations Résultats
Résultats
ExtendedST corry-m
MUC
M_EXP S_EXP F_EXP
Eeq Edo Eor Eeq Edo Eor Eeq Edo Eor Eor
Précision 84.26 59.55 0.74 79.02 54.68 13.48 85.01 80.14 35.95 56.2
Rappel 28.66 26.72 66.66 27.22 27.49 85.71 28.48 27.72 73.84 62.5
F-mesure 42.77 36.89 1.48 40.49 36.59 23.3 42.66 41.1 48.36 59.2
TABLE – Résultats des expérimentations pour MUC + Corry-m SemEval
2010 task 1
CARI 2020 Tree kernel 18 septembre 2020 22 / 26
Expérimentations Résultats
Résultats
ExtendedST corry-m
MUC
M_EXP S_EXP F_EXP
Eeq Edo Eor Eeq Edo Eor Eeq Edo Eor Eor
Précision 84.26 59.55 0.74 79.02 54.68 13.48 85.01 80.14 35.95 56.2
Rappel 28.66 26.72 66.66 27.22 27.49 85.71 28.48 27.72 73.84 62.5
F-mesure 42.77 36.89 1.48 40.49 36.59 23.3 42.66 41.1 48.36 59.2
TABLE – Résultats des expérimentations pour MUC + Corry-m SemEval
2010 task 1
ExtendedST corry-c
CEAF
M_EXP S_EXP F_EXP
Eeq Edo Eor Eeq Edo Eor Eeq Edo Eor Eor
Précision 13.13 31.03 71.5 14.08 35.38 65.25 12.07 13.98 77.8 77.7
Rappel 15.17 35.86 71.89 16.27 40.88 75.39 13.95 16.15 80.16 77.7
F-mesure 14.08 33.27 71.69 15.1 37.93 69.96 12.94 14.99 78.96 77.7
TABLE – Résultats des expérimentations pour CEAF + Corry-c SemEval
2010 task 1CARI 2020 Tree kernel 18 septembre 2020 22 / 26
Expérimentations Résultats
Résultats
ExtendedST relaxcor
BCUB
M_EXP S_EXP F_EXP
Eeq Edo Eor Eeq Edo Eor Eeq Edo Eor Eor
Précision 95.67 92.22 71.32 95.67 92.22 72.29 95.67 92.22 76.99 96.7
Rappel 6.21 7.44 99.89 6.21 7.44 95.81 6.21 7.44 100 75.2
F-mesure 11.67 13.77 83.22 11.67 13.77 82.4 11.67 13.77 86.99 84.6
TABLE – Résultats des expérimentations pour BCUB + relaxcor SemEval
2010 task 1
CARI 2020 Tree kernel 18 septembre 2020 23 / 26
Expérimentations Résultats
Résultats
ExtendedST relaxcor
BCUB
M_EXP S_EXP F_EXP
Eeq Edo Eor Eeq Edo Eor Eeq Edo Eor Eor
Précision 95.67 92.22 71.32 95.67 92.22 72.29 95.67 92.22 76.99 96.7
Rappel 6.21 7.44 99.89 6.21 7.44 95.81 6.21 7.44 100 75.2
F-mesure 11.67 13.77 83.22 11.67 13.77 82.4 11.67 13.77 86.99 84.6
TABLE – Résultats des expérimentations pour BCUB + relaxcor SemEval
2010 task 1
ExtendedST corry-b
BLANC
M_EXP S_EXP F_EXP
Eeq Edo Eor Eeq Edo Eor Eeq Edo Eor Eor
Précision 50.45 56.09 50.08 49.89 58.5 55.06 49.92 50.4 59.19 75.3
Rappel 50.41 50.73 56.17 49.94 51.01 50.8 49.71 51.18 51.76 69.3
F-mesure 6.26 33.6 49.43 9.11 33.83 46.38 3.74 9.38 49.53 71.8
TABLE – Résultats des expérimentations pour BLANC + Corry-b SemEval
2010 task1CARI 2020 Tree kernel 18 septembre 2020 23 / 26
Conclusion Conclusion
Conclusion
La résolution d’anaphores est une tâche qui nécéssite plusieurs
niveaux de traitements de la langue.
CARI 2020 Tree kernel 18 septembre 2020 24 / 26
Conclusion Conclusion
Conclusion
La résolution d’anaphores est une tâche qui nécéssite plusieurs
niveaux de traitements de la langue.
Les informations contenues dans les arbres syntaxiques des
phrases sont généralement capturées par des heuristiques.
CARI 2020 Tree kernel 18 septembre 2020 24 / 26
Conclusion Conclusion
Conclusion
La résolution d’anaphores est une tâche qui nécéssite plusieurs
niveaux de traitements de la langue.
Les informations contenues dans les arbres syntaxiques des
phrases sont généralement capturées par des heuristiques.
Nous mis sur pieds des arbres syntaxiques enrichis afin de se
contourner la combinaison proposée par Yang et al. (2006).
CARI 2020 Tree kernel 18 septembre 2020 24 / 26
Conclusion Conclusion
Conclusion
La résolution d’anaphores est une tâche qui nécéssite plusieurs
niveaux de traitements de la langue.
Les informations contenues dans les arbres syntaxiques des
phrases sont généralement capturées par des heuristiques.
Nous mis sur pieds des arbres syntaxiques enrichis afin de se
contourner la combinaison proposée par Yang et al. (2006).
Puis nous avons adapté la fonction noyau de Collin et Duffy
(2002) pour qu’elle puisse calculer la similarité entre nos arbres
enrichis.
CARI 2020 Tree kernel 18 septembre 2020 24 / 26
Conclusion Conclusion
Conclusion
La résolution d’anaphores est une tâche qui nécéssite plusieurs
niveaux de traitements de la langue.
Les informations contenues dans les arbres syntaxiques des
phrases sont généralement capturées par des heuristiques.
Nous mis sur pieds des arbres syntaxiques enrichis afin de se
contourner la combinaison proposée par Yang et al. (2006).
Puis nous avons adapté la fonction noyau de Collin et Duffy
(2002) pour qu’elle puisse calculer la similarité entre nos arbres
enrichis.
Nos résultats montrent une amélioration pour les métriques
BCUB et CEAF par rapport aux modèles présentés lors de
semEval 2010.CARI 2020 Tree kernel 18 septembre 2020 24 / 26
Conclusion Perspectives
Perspectives
L’application des arbres syntaxiques enrichis à d’autres tâches du
TAL.
CARI 2020 Tree kernel 18 septembre 2020 25 / 26
Conclusion Perspectives
Perspectives
L’application des arbres syntaxiques enrichis à d’autres tâches du
TAL.
Enrichir plusieurs autres noeuds de l’arbre syntaxique en dehors
des mentions.
CARI 2020 Tree kernel 18 septembre 2020 25 / 26
Conclusion Perspectives
Perspectives
L’application des arbres syntaxiques enrichis à d’autres tâches du
TAL.
Enrichir plusieurs autres noeuds de l’arbre syntaxique en dehors
des mentions.
Ajuster la fonction noyau pour mieux extraire les informations
contenues au niveau des noeuds enrichis.
CARI 2020 Tree kernel 18 septembre 2020 25 / 26
Conclusion Références
Références
Xiaofeng Yang, Jian Su, Chew Lim Tan Kernel-Based Pronoun
Resolution with Structured Syntactic Knowledge.In ACL-44
Proceedings of the 21st International Conference 2006
Wee Meng Soon ,Hwee Tou Ng , Daniel Chung Yong Lim, A
Machine Learning Approach to Coreference Resolution of Noun
Phrases . Computational Linguistics, 27(4) :521–544 , 2001.
Shawe-Taylor, John and Cristianini, Nello, Kernel Methods for
Pattern Analysis, 2004.Cambridge University Press.
Poesio, Massimo and Stuckardt, Roland and Versley,
Yannick,Anaphora Resolution : Algorithms, Resources, and
Applications, 2016.
CARI 2020 Tree kernel 18 septembre 2020 26 / 26

Contenu connexe

Plus de Mokhtar SELLAMI (7)

CARI-2020, Application of LSTM architectures for next frame forecasting in Se...
CARI-2020, Application of LSTM architectures for next frame forecasting in Se...CARI-2020, Application of LSTM architectures for next frame forecasting in Se...
CARI-2020, Application of LSTM architectures for next frame forecasting in Se...
 
CARI2020: A CGM-Based Parallel Algorithm Using the Four-Russians Speedup for ...
CARI2020: A CGM-Based Parallel Algorithm Using the Four-Russians Speedup for ...CARI2020: A CGM-Based Parallel Algorithm Using the Four-Russians Speedup for ...
CARI2020: A CGM-Based Parallel Algorithm Using the Four-Russians Speedup for ...
 
Federation and Promotion of Heterogeneous Domains and Services
Federation and Promotion of Heterogeneous Domains and ServicesFederation and Promotion of Heterogeneous Domains and Services
Federation and Promotion of Heterogeneous Domains and Services
 
Cari2020 Rodrigue Aimé Djeumen Djatcha
Cari2020 Rodrigue Aimé Djeumen DjatchaCari2020 Rodrigue Aimé Djeumen Djatcha
Cari2020 Rodrigue Aimé Djeumen Djatcha
 
Cari2020 Comparative Study of the Performance of Elliptic Curve Cryptography ...
Cari2020 Comparative Study of the Performance of Elliptic Curve Cryptography ...Cari2020 Comparative Study of the Performance of Elliptic Curve Cryptography ...
Cari2020 Comparative Study of the Performance of Elliptic Curve Cryptography ...
 
CARI2020-Benaissa
CARI2020-BenaissaCARI2020-Benaissa
CARI2020-Benaissa
 
Cari2020 dembele
Cari2020 dembeleCari2020 dembele
Cari2020 dembele
 

CARI2020: RESOLUTION D’ANAPHORES NOMINALES AVEC LES SEPARATEURS À VASTES MARGES SUR ARBRES SYNTAXIQUES

  • 1. RESOLUTION D’ANAPHORES NOMINALES AVEC LES SEPARATEURS À VASTES MARGES SUR ARBRES SYNTAXIQUES Dimedrik Feudjieu∗ - Paulin Melatagia Yonta∗,∗∗ ∗ Département d’informatique, Université de Yaoundé I, Cameroun ∗∗ Sorbonne Université, IRD, UMMISCO, F-93143, Bondy, France feudjieuvanil@gmail.com , paulinyonta@gmail.com CARI 2020 18 septembre 2020 CARI 2020 Tree kernel 18 septembre 2020 1 / 26
  • 2. Table des matières 1 Introduction 2 Etat de l’art 3 Arbres syntaxiques enrichis pour la résolution nominale 4 Expérimentations 5 Conclusion CARI 2020 Tree kernel 18 septembre 2020 2 / 26
  • 3. Introduction Résolution d’anaphores nominales Résolution d’anaphores Mise en relation des groupes nominaux dit Antécédents et des groupes nominaux dit Anaphores. CARI 2020 Tree kernel 18 septembre 2020 3 / 26
  • 4. Introduction Résolution d’anaphores nominales Résolution d’anaphores Mise en relation des groupes nominaux dit Antécédents et des groupes nominaux dit Anaphores. Cette tâche s’effectue en deux grandes étapes : CARI 2020 Tree kernel 18 septembre 2020 3 / 26
  • 5. Introduction Résolution d’anaphores nominales Résolution d’anaphores Mise en relation des groupes nominaux dit Antécédents et des groupes nominaux dit Anaphores. Cette tâche s’effectue en deux grandes étapes : la détection de Mentions. la construction des Chaines de coréférence. CARI 2020 Tree kernel 18 septembre 2020 3 / 26
  • 6. Introduction Résolution d’anaphores nominales Résolution d’anaphores Une Chaine de coréférence ou Entité désigne un ensemble formé par un antécédant et ses anaphores. CARI 2020 Tree kernel 18 septembre 2020 4 / 26
  • 7. Introduction Résolution d’anaphores nominales Résolution d’anaphores Une Chaine de coréférence ou Entité désigne un ensemble formé par un antécédant et ses anaphores. Les applications : Le résumé automatique de texte La traduction automatique L’extraction d’information CARI 2020 Tree kernel 18 septembre 2020 4 / 26
  • 8. Etat de l’art Résolution d’anaphores nominales Approches pour la Résolution d’anaphores Les approches basées sur des règles : L’idée générale est d’incorporer une source de connaissance (un ensemble de règles) pour élaguer les candidats antécédents peu probables. CARI 2020 Tree kernel 18 septembre 2020 5 / 26
  • 9. Etat de l’art Résolution d’anaphores nominales Approches pour la Résolution d’anaphores Les approches basées sur des règles : L’idée générale est d’incorporer une source de connaissance (un ensemble de règles) pour élaguer les candidats antécédents peu probables. Les approches basées sur l’apprentissage automatique : Exploiter un corpus annoté avec les chaines de coréférence pour mettre sur pied un modèle. CARI 2020 Tree kernel 18 septembre 2020 5 / 26
  • 10. Etat de l’art Résolution d’anaphores nominales Approches pour la Résolution d’anaphores Les approches basées sur des règles : L’idée générale est d’incorporer une source de connaissance (un ensemble de règles) pour élaguer les candidats antécédents peu probables. Les approches basées sur l’apprentissage automatique : Exploiter un corpus annoté avec les chaines de coréférence pour mettre sur pied un modèle. Deux tendances : L’extraction de caractéristiques Les méthodes à noyau CARI 2020 Tree kernel 18 septembre 2020 5 / 26
  • 11. Etat de l’art Résolution d’anaphores nominales Fonction noyau Une fonction noyau est une fonction κ : (x,x’) ∈ X2 → R satisfaisant : κ(x, x ) = Φ(x), Φ(x ) où Φ est une fonction de X vers un espace de redescription F doté d’un produit scalaire : Φ : x → Φ(x) ∈ F CARI 2020 Tree kernel 18 septembre 2020 6 / 26
  • 12. Etat de l’art Résolution d’anaphores nominales Fonction noyau Une fonction noyau est une fonction κ : (x,x’) ∈ X2 → R satisfaisant : κ(x, x ) = Φ(x), Φ(x ) où Φ est une fonction de X vers un espace de redescription F doté d’un produit scalaire : Φ : x → Φ(x) ∈ F En un sens profond, une fonction noyau correspond à une mesure de similarité entre deux objets x et x’. CARI 2020 Tree kernel 18 septembre 2020 6 / 26
  • 13. Etat de l’art Résolution d’anaphores nominales Utilisation des fonctions Noyau FIGURE – Les étapes impliquées dans l’application des méthodes à noyaux CARI 2020 Tree kernel 18 septembre 2020 7 / 26
  • 14. Etat de l’art Résolution d’anaphores nominales Yang et al. (2006) Idée Extraire automatiquement les informations contenues dans les arbres syntaxiques (caractéristiques structurées) en utilisant une fonction noyau. CARI 2020 Tree kernel 18 septembre 2020 8 / 26
  • 15. Etat de l’art Résolution d’anaphores nominales Yang et al. (2006) Idée Extraire automatiquement les informations contenues dans les arbres syntaxiques (caractéristiques structurées) en utilisant une fonction noyau. FIGURE – Les caractéristiques structuréesCARI 2020 Tree kernel 18 septembre 2020 8 / 26
  • 16. Etat de l’art Résolution d’anaphores nominales Yang et al(2006) Subset tree kernel de Collins et Duffy(2002) CARI 2020 Tree kernel 18 septembre 2020 9 / 26
  • 17. Etat de l’art Résolution d’anaphores nominales Yang et al. (2006) Extension : Combiner les caractéristiques structurées avec des caractéristiques plates (vecteur de caractéristiques linguistiques). CARI 2020 Tree kernel 18 septembre 2020 10 / 26
  • 18. Etat de l’art Résolution d’anaphores nominales Yang et al. (2006) Extension : Combiner les caractéristiques structurées avec des caractéristiques plates (vecteur de caractéristiques linguistiques). Kc(x1, x2) = Kt(x1, x2) Kt(x1, x1) ∗ Kt(x2, x2) ∗ Kn(x1, x2) Kn(x1, x1) ∗ Kn(x2, x2) (1) CARI 2020 Tree kernel 18 septembre 2020 10 / 26
  • 19. Etat de l’art Résolution d’anaphores nominales Yang et al. (2006) Bien que le modèle obtenu présente de bons resultats, il a cependant quelques limites. CARI 2020 Tree kernel 18 septembre 2020 11 / 26
  • 20. Etat de l’art Résolution d’anaphores nominales Yang et al. (2006) Bien que le modèle obtenu présente de bons resultats, il a cependant quelques limites. Limites Nécéssité de combiner les caractéristiques structurées et plates. Permet uniquement la résolution des pronoms. CARI 2020 Tree kernel 18 septembre 2020 11 / 26
  • 21. Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis Description du modèle Hypothèse La similarité entre deux arbres pourrait être mieux calculée si les sous-fragment des arbres incluaient en dehors des informations syntaxiques, d’autres informations provenant directement d’autres niveaux du traitement du langage. CARI 2020 Tree kernel 18 septembre 2020 12 / 26
  • 22. Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis Description du modèle Idée Enrichir des noeuds de l’arbre syntaxique avec des caractéristiques plates pour éviter la combinaison. La structure obtenue après enrichissement est appélée Arbre syntaxique enrichi. CARI 2020 Tree kernel 18 septembre 2020 13 / 26
  • 23. Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis Enrichissement des noeuds Soient mi et mj, deux mentions. mi est l’antécédent de mj. mi et mj seront enrichis dans l’arbre avec des caractéristiques plates. CARI 2020 Tree kernel 18 septembre 2020 14 / 26
  • 24. Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis Enrichissement des noeuds Soient mi et mj, deux mentions. mi est l’antécédent de mj. mi et mj seront enrichis dans l’arbre avec des caractéristiques plates. L’ensemble des attributs ajoutés à une mention est donné part : Word , Gender Number, Entity SemClass, Type, Tag CARI 2020 Tree kernel 18 septembre 2020 14 / 26
  • 25. Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis Enrichissement des noeuds Exemple : Soit la phrase, The [man] in the room saw [him]. (a) (b) FIGURE – Arbre syntaxique en (a) et arbre syntaxique enrichi en (b) de la phrase The man in the room saw him CARI 2020 Tree kernel 18 septembre 2020 15 / 26
  • 26. Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis Cacul de la similarité entre Arbres enrichis Basée sur subset Tree Kernel définit de Collins et Duffy (2002) : Si les productions à n1 et n2 sont différentes alors C(n1 , n2) = 0 Si les productions à n1 et n2 sont identiques alors C(n1 , n2) = 1 Si les productions à n1 et n2 sont identiques et n1 et n2 ne sont pas des noeuds pré-terminaux alors C(n1 , n2) = nc(n1) n=1 (1 + C(ch(n1, j), ch(n2, j))) où nc(n1) est le nombre de noeuds fils de n1 dans l’arbre, le i-ème fils de n1 est ch(n1, i) CARI 2020 Tree kernel 18 septembre 2020 16 / 26
  • 27. Arbres syntaxiques enrichis pour la résolution nominale Arbres syntaxiques enrichis Cacul de la similarité entre Arbres enrichis Si les nœuds n1 et n2 sont des mentions alors C(n1 , n2) = Kbow (n1.word, n2.word) + Kpol (vect(n1), vect(n2)) où Kbow désigne le bag-of-words kernel, Kpol une fonction noyau polynomiale et vect(ni ) la représentation vectorielle des attributs de ni excepté l’attribut word. CARI 2020 Tree kernel 18 septembre 2020 17 / 26
  • 28. Expérimentations Données Données Une partie du jeu de données utilisé pour la compétition semEval 2010 task 1 Contient 85 documents, soient 1141 phrases et 24206 mots. Données (85 documents) divisées conformément à la méthode holdout (70% , 30%). Génération des instances d’entrainement avec la méthode décrite par Soon et al.(2001) Génération des ensembles d’entrainement Eeq , Edo, Eor CARI 2020 Tree kernel 18 septembre 2020 18 / 26
  • 29. Expérimentations Données Métriques d’évaluation MUC (Message Understanding Conference) B3 (B-Cubed) CEAF (Constrained Entity-Aligned F-measure) BLANC (BiLateral Assessment of Noun-phrase Coreference) CARI 2020 Tree kernel 18 septembre 2020 19 / 26
  • 30. Expérimentations Données Modèles entraînés A partir de Eeq , Edo, Eor notre modèle ExtendedST a été entraîné, en utilisant des versions enrichies des arbres proposés par Yang et al.(2006) Min-Expansion (M_EXP). Simp-Expansion (S_EXP). Full-Expansion (F_EXP). CARI 2020 Tree kernel 18 septembre 2020 20 / 26
  • 31. Expérimentations Données Environnement SVM-Light. Standford NLP. Wordnet. Configuration Matérielle 24Go de RAM (DDR3) Intel(R) Core(TM) i7-4790 CPU @ 3.60GHz CARI 2020 Tree kernel 18 septembre 2020 21 / 26
  • 32. Expérimentations Résultats Résultats ExtendedST corry-m MUC M_EXP S_EXP F_EXP Eeq Edo Eor Eeq Edo Eor Eeq Edo Eor Eor Précision 84.26 59.55 0.74 79.02 54.68 13.48 85.01 80.14 35.95 56.2 Rappel 28.66 26.72 66.66 27.22 27.49 85.71 28.48 27.72 73.84 62.5 F-mesure 42.77 36.89 1.48 40.49 36.59 23.3 42.66 41.1 48.36 59.2 TABLE – Résultats des expérimentations pour MUC + Corry-m SemEval 2010 task 1 CARI 2020 Tree kernel 18 septembre 2020 22 / 26
  • 33. Expérimentations Résultats Résultats ExtendedST corry-m MUC M_EXP S_EXP F_EXP Eeq Edo Eor Eeq Edo Eor Eeq Edo Eor Eor Précision 84.26 59.55 0.74 79.02 54.68 13.48 85.01 80.14 35.95 56.2 Rappel 28.66 26.72 66.66 27.22 27.49 85.71 28.48 27.72 73.84 62.5 F-mesure 42.77 36.89 1.48 40.49 36.59 23.3 42.66 41.1 48.36 59.2 TABLE – Résultats des expérimentations pour MUC + Corry-m SemEval 2010 task 1 ExtendedST corry-c CEAF M_EXP S_EXP F_EXP Eeq Edo Eor Eeq Edo Eor Eeq Edo Eor Eor Précision 13.13 31.03 71.5 14.08 35.38 65.25 12.07 13.98 77.8 77.7 Rappel 15.17 35.86 71.89 16.27 40.88 75.39 13.95 16.15 80.16 77.7 F-mesure 14.08 33.27 71.69 15.1 37.93 69.96 12.94 14.99 78.96 77.7 TABLE – Résultats des expérimentations pour CEAF + Corry-c SemEval 2010 task 1CARI 2020 Tree kernel 18 septembre 2020 22 / 26
  • 34. Expérimentations Résultats Résultats ExtendedST relaxcor BCUB M_EXP S_EXP F_EXP Eeq Edo Eor Eeq Edo Eor Eeq Edo Eor Eor Précision 95.67 92.22 71.32 95.67 92.22 72.29 95.67 92.22 76.99 96.7 Rappel 6.21 7.44 99.89 6.21 7.44 95.81 6.21 7.44 100 75.2 F-mesure 11.67 13.77 83.22 11.67 13.77 82.4 11.67 13.77 86.99 84.6 TABLE – Résultats des expérimentations pour BCUB + relaxcor SemEval 2010 task 1 CARI 2020 Tree kernel 18 septembre 2020 23 / 26
  • 35. Expérimentations Résultats Résultats ExtendedST relaxcor BCUB M_EXP S_EXP F_EXP Eeq Edo Eor Eeq Edo Eor Eeq Edo Eor Eor Précision 95.67 92.22 71.32 95.67 92.22 72.29 95.67 92.22 76.99 96.7 Rappel 6.21 7.44 99.89 6.21 7.44 95.81 6.21 7.44 100 75.2 F-mesure 11.67 13.77 83.22 11.67 13.77 82.4 11.67 13.77 86.99 84.6 TABLE – Résultats des expérimentations pour BCUB + relaxcor SemEval 2010 task 1 ExtendedST corry-b BLANC M_EXP S_EXP F_EXP Eeq Edo Eor Eeq Edo Eor Eeq Edo Eor Eor Précision 50.45 56.09 50.08 49.89 58.5 55.06 49.92 50.4 59.19 75.3 Rappel 50.41 50.73 56.17 49.94 51.01 50.8 49.71 51.18 51.76 69.3 F-mesure 6.26 33.6 49.43 9.11 33.83 46.38 3.74 9.38 49.53 71.8 TABLE – Résultats des expérimentations pour BLANC + Corry-b SemEval 2010 task1CARI 2020 Tree kernel 18 septembre 2020 23 / 26
  • 36. Conclusion Conclusion Conclusion La résolution d’anaphores est une tâche qui nécéssite plusieurs niveaux de traitements de la langue. CARI 2020 Tree kernel 18 septembre 2020 24 / 26
  • 37. Conclusion Conclusion Conclusion La résolution d’anaphores est une tâche qui nécéssite plusieurs niveaux de traitements de la langue. Les informations contenues dans les arbres syntaxiques des phrases sont généralement capturées par des heuristiques. CARI 2020 Tree kernel 18 septembre 2020 24 / 26
  • 38. Conclusion Conclusion Conclusion La résolution d’anaphores est une tâche qui nécéssite plusieurs niveaux de traitements de la langue. Les informations contenues dans les arbres syntaxiques des phrases sont généralement capturées par des heuristiques. Nous mis sur pieds des arbres syntaxiques enrichis afin de se contourner la combinaison proposée par Yang et al. (2006). CARI 2020 Tree kernel 18 septembre 2020 24 / 26
  • 39. Conclusion Conclusion Conclusion La résolution d’anaphores est une tâche qui nécéssite plusieurs niveaux de traitements de la langue. Les informations contenues dans les arbres syntaxiques des phrases sont généralement capturées par des heuristiques. Nous mis sur pieds des arbres syntaxiques enrichis afin de se contourner la combinaison proposée par Yang et al. (2006). Puis nous avons adapté la fonction noyau de Collin et Duffy (2002) pour qu’elle puisse calculer la similarité entre nos arbres enrichis. CARI 2020 Tree kernel 18 septembre 2020 24 / 26
  • 40. Conclusion Conclusion Conclusion La résolution d’anaphores est une tâche qui nécéssite plusieurs niveaux de traitements de la langue. Les informations contenues dans les arbres syntaxiques des phrases sont généralement capturées par des heuristiques. Nous mis sur pieds des arbres syntaxiques enrichis afin de se contourner la combinaison proposée par Yang et al. (2006). Puis nous avons adapté la fonction noyau de Collin et Duffy (2002) pour qu’elle puisse calculer la similarité entre nos arbres enrichis. Nos résultats montrent une amélioration pour les métriques BCUB et CEAF par rapport aux modèles présentés lors de semEval 2010.CARI 2020 Tree kernel 18 septembre 2020 24 / 26
  • 41. Conclusion Perspectives Perspectives L’application des arbres syntaxiques enrichis à d’autres tâches du TAL. CARI 2020 Tree kernel 18 septembre 2020 25 / 26
  • 42. Conclusion Perspectives Perspectives L’application des arbres syntaxiques enrichis à d’autres tâches du TAL. Enrichir plusieurs autres noeuds de l’arbre syntaxique en dehors des mentions. CARI 2020 Tree kernel 18 septembre 2020 25 / 26
  • 43. Conclusion Perspectives Perspectives L’application des arbres syntaxiques enrichis à d’autres tâches du TAL. Enrichir plusieurs autres noeuds de l’arbre syntaxique en dehors des mentions. Ajuster la fonction noyau pour mieux extraire les informations contenues au niveau des noeuds enrichis. CARI 2020 Tree kernel 18 septembre 2020 25 / 26
  • 44. Conclusion Références Références Xiaofeng Yang, Jian Su, Chew Lim Tan Kernel-Based Pronoun Resolution with Structured Syntactic Knowledge.In ACL-44 Proceedings of the 21st International Conference 2006 Wee Meng Soon ,Hwee Tou Ng , Daniel Chung Yong Lim, A Machine Learning Approach to Coreference Resolution of Noun Phrases . Computational Linguistics, 27(4) :521–544 , 2001. Shawe-Taylor, John and Cristianini, Nello, Kernel Methods for Pattern Analysis, 2004.Cambridge University Press. Poesio, Massimo and Stuckardt, Roland and Versley, Yannick,Anaphora Resolution : Algorithms, Resources, and Applications, 2016. CARI 2020 Tree kernel 18 septembre 2020 26 / 26