Slides de la conférence conjointe CORIA-TALN 2018 qui s'est déroulé du 14 au 18 mai 2018 à Rennes.
https://project.inria.fr/coriataln2018/
Marine Wauquiez
Article soumis à la conférence RJC en format long.
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Analyse des noms agentifs dans des espaces vectoriels distributionnels
1. Analyse des noms agentifs dans les espaces vectoriels
distributionnels
Marine Wauquier
Sous la direction de Nabil Hathout
et en étroite collaboration avec Cécile Fabre
CLLE, CNRS & Université Toulouse Jean Jaurès
16 mai 2018
M. Wauquier (CLLE) RJC 2018 16 mai 2018 1 / 21
2. Introduction
Thèse
Confrontation des procédés dérivationnels et des catégories sémantiques
dans les modèles distributionnels
Apports linguistiques des espaces vectoriels distributionnels (Varvara
et al., 2016; Lapesa et al., 2017)
Catégories sémantiques définies selon des critères formels et
sémantiques
Projection de connaissances
Émergence de connaissances
Définition des conditions d’utilisation des VSM pour la linguistique
M. Wauquier (CLLE) RJC 2018 16 mai 2018 2 / 21
3. Introduction
Étude
Analyse des noms agentifs déverbaux en -eur
Agent : Entité réalisant volontairement l’action dénotée par la base
(Huyghe and Tribout, 2015)
déménageur (déménager), sculpteur (sculpter)
Instrument : Artefact prototypique utilisé pour réaliser l’action
dénotée par la base (Huyghe and Tribout, 2015)
décapsuleur (décapsuler), projecteur (projeter), vaporisateur
(vaporiser)
Objectifs :
Représenter la catégorie des noms agentifs en -eur
Évaluer l’impact de l’évolution sémantique
M. Wauquier (CLLE) RJC 2018 16 mai 2018 3 / 21
4. Représentation prototypique des agentifs
Dispositif expérimental
Ressource lexicale Lexeur
Masculin Féminin Base Cat Processifs
abatteur/Ncms abatteuse/Ncfs abattre/Vmn Vb
abat/Ncms abattement/Ncms
abatture/Ncfs abattage/Ncms
abattis/Ncms
4 675 agentifs déverbaux en -eur
Corpus (lemmatisés avec Talismane (Urieli, 2013))
Wikipédia - 255 millions de mots
LM10 - 200 millions de mots
frWaC - 1.3 milliard de mots
Modèle Word2Vec (Mikolov et al., 2013) par défaut
CBOW, 100 dimensions, NS (5), contexte graphique (5), seuil de
fréquence (5)
M. Wauquier (CLLE) RJC 2018 16 mai 2018 4 / 21
5. Représentation prototypique des agentifs
Choix du seuil de fréquence
Fréquence Masculin Féminin
Minimum 0 (1) 0 (1)
Maximum 999 (999) 97 (97)
Moyenne 284 (629) 6 (32)
Médiane 0 (12) 0 (3)
Table – Fréquence des noms agentifs déverbaux de Lexeur dans Wikipédia
Wikipédia LM10 frWaC
Tous f>=5 Tous f>=5 Tous f>=5
Masculin 2 113 1 334 1 866 1 147 2 288 1 444
Féminin 828 349 696 257 553 379
Table – Nombre de noms agentifs déverbaux dans les corpus
M. Wauquier (CLLE) RJC 2018 16 mai 2018 5 / 21
6. Représentation prototypique des agentifs
Construction du dérivé prototypique
Représentant le plus prototypique de la classe agentive (Kleiber, 1990)
Dans un corpus donné
Moyenne des représentations des membres de cette classe (Kintsch,
2001)
−−−→
SUFF =
n
i=1
−−−→
Nsuffi
n
Analyse des 50 premiers voisins distributionnels du vecteur construit
Noms agentifs
Variation en fonction des corpus
M. Wauquier (CLLE) RJC 2018 16 mai 2018 6 / 21
19. Impact de la lexicalisation
Lexicalisation
Agentifs néologiques
Absents de Lexeur
Non lexicalisés
Sémantiquement plus prototypiques (Kleiber, 1990)
échangeur vs détecteur
Verbe et agentif néologique sémantiquement plus proches
Indice de proximité plus élevé dans les paires néologiques que dans
celles lexicalisées
M. Wauquier (CLLE) RJC 2018 16 mai 2018 9 / 21
20. Impact de la lexicalisation
Récupération semi-automatique des agentifs déverbaux
néologiques
Apprentissage de règles de
dérivation à partir de Lexeur
Création des paires (Neur, V)
potentielles
Suppression automatique des
paires non valides
Retrait manuel des paires
erronnées
(seigneur, seigner)
(sueur, suer).
(realisateur, realiser)
(primeur, primer)
Wikipédia LM10 frWaC
6 152 3 677 10 665
218 87 726
81 27 169
M. Wauquier (CLLE) RJC 2018 16 mai 2018 10 / 21
21. Impact de la lexicalisation
Proximité (Neur, V) en fonction du degré de lexicalisation
Score de proximité Écart type
Lexicalisation Néologie Lexicalisation Néologie
Wikipédia 0.271 0.324 0.165 0.197
LM10 0.262 0.346 0.163 0.181
frWaC 0.293 0.307 0.171 0.185
Proximité plus élevée pour les paires néologiques
Wikipédia LM10 frWaC
p-value (t-test) 0.01 0.02 0.3
M. Wauquier (CLLE) RJC 2018 16 mai 2018 11 / 21
22. Impact de la lexicalisation
Distribution des paires en fonction du score de proximité
Wikipédia LM10 frWaC
M. Wauquier (CLLE) RJC 2018 16 mai 2018 12 / 21
25. Impact de la lexicalisation
Voisins du vecteur moyen néologique en -eur dans frWaC
Avec
filtrage
(f>=100)
enhancer - pod - testeur - shaft - splitter - slap - sensor - proto - keyboard
- brushless - touchpad - bypass - meter - mute - piezo - gyro - vario - jog
- extrem - condo - batteur - buzzer - boost - watercooling - microphone -
recepteur - zebra - variateur - vci - pid - concurent - sampler - concentrateur
- bloqueur - strap - lacie - cue - scanneur - driver - analog - sample - gsd
- freeze - stack - codec - wedge - feedback - dil - xania - benq
M. Wauquier (CLLE) RJC 2018 16 mai 2018 13 / 21
26. Impact de la lexicalisation
Analyse des résultats (frWaC)
Proximité élevée (>0.7) Proximité faible (<0.05)
parseur - parser raideur - raider
Deux sources principales de bruit :
POS
pour faciliter le travail du parser qui se charge de valider le contenu
Famille sémantique
Quelles sont vos horraires de jeux pour chaque jours de la semaine ? je
peux raider de 20 h à 1 h du matin sans problème
La pseudo-polyarthrite rhizomélique se manifeste d’abord par une
raideur et des douleurs
M. Wauquier (CLLE) RJC 2018 16 mai 2018 14 / 21
27. Conclusion
Conclusion de l’étude
Représentation vectorielle de l’agentivité
Le dérivé moyen donne une bonne approximation, dépendante du
corpus
Wikipédia - agent et instrument
LM10 - agent, humain et entité vivante
frWaC - instrument, entité nommée
Impact de la lexicalisation
Paires néologiques plus proches sur le plan distributionnel et
sémantique
Besoin d’affiner la sélection des paires néologiques
M. Wauquier (CLLE) RJC 2018 16 mai 2018 15 / 21
28. Conclusion
Poursuites
TAL
Reprise de l’expérience
Prise en compte de la variation des modèles (Antoniak and Mimno,
2018; Pierrejean and Tanguy, 2018)
Comparaison avec d’autres outils d’analyse distributionnelle
(Pennington et al., 2014)
Clustering
Linguistique
Connotation liée aux noms agentifs féminins (Wauquier et al., 2018)
Comparaison sémantique des noms d’action en -age, -ion et -ment
Passage à l’anglais (Fellbaum and Miller, 2003)
M. Wauquier (CLLE) RJC 2018 16 mai 2018 16 / 21
29. Références
Antoniak, M. and Mimno, D. (2018). Evaluating the Stability of
Embedding-based Word Similarities. Transactions of the Association for
Computational Linguistics, 6 :107–119.
Bojanowski, P., Grave, E., Joulin, A., and Mikolov, T. (2016). Enriching Word
Vectors with Subword Information. arXiv preprint arXiv :1607.04606.
Fellbaum, C. and Miller, G. A. (2003). Morphosemantic Links in Wordnet.
Traitement Automatique des Langues, 44(2) :69–80.
Huyghe, R. and Tribout, D. (2015). Noms d’agents et noms d’instruments : le
cas des déverbaux en-eur. Langue française, (1) :99–112.
Kintsch, W. (2001). Predication. Cognitive science, 25(2) :173–202.
Kleiber, G. (1990). La sémantique du prototype : catégories et sens lexical. PUF.
Laca, B. (2001). Derivation. Language Typology and Language Universals : An
International Handbook, 2 :1214–1227.
Lapesa, G., Kawaletz, L., Plag, I., Andreou, M., Kisselew, M., and Pado, S.
(2017). Disambiguation of Newly Derived Nominalizations in Context : A
Distributional Semantics approach. (in press). Word Structure, 11(3).
Mikolov, T., Chan, K., Corrado, G., and Dean, J. (2013). Efficient Estimation of
Word Representations in Vector Space. In Proceedings of International
Conference on Learning Representations (ICLR), Scottsdale, United States of
America.
M. Wauquier (CLLE) RJC 2018 16 mai 2018 16 / 21
30. Pennington, J., Socher, R., and Manning, C. (2014). Glove : Global vectors for
word representation. In Proceedings of the 2014 conference on empirical
methods in natural language processing (EMNLP), pages 1532–1543.
Pierrejean, B. and Tanguy, L. (2018). Étude de la reproductibilité des word
embeddings : repérage des zones stables et instables dans le lexique. In
Traitement Automatique des Langues Naturelles (TALN), Rennes, France.
Urieli, A. (2013). Robust French Syntax Analysis : Reconciling Statistical
Methods and Linguistic Knowledge in the Talismane Toolkit. PhD thesis,
Université de Toulouse II le Mirail.
Varvara, R., Lapesa, G., and Padó, S. (2016). Quantifying Regularity in
Morphological Processes : An Ongoing Study on Nominalization in German. In
ESSLLI DSALT Workshop : Distributional Semantics and Semantic Theory,
Bolzano, Italy.
Wauquier, M., Fabre, C., and Hathout, N. (2018). Différenciation sémantique de
dérivés morphologiques à l’aide de critères distributionnels. In Congrès Mondial
de Linguistique Française (CMLF), Mons, Belgique.
M. Wauquier (CLLE) RJC 2018 16 mai 2018 17 / 21
31. Représentation de l’instruction sémantique du suffixe
Représenter directement l’instruction sémantique du suffixe, et pas la
suffixation prototypique ?
Ajout de sens par rapport à la base (Laca, 2001)
Résultat de la soustraction Dérivé - Base
−−−→
SUFF =
n
i=1(
−→
V i −
−−−→
Nsuffi )
n
Noms d’agent ou d’instruments prototypiques
M. Wauquier (CLLE) RJC 2018 16 mai 2018 17 / 21