SlideShare une entreprise Scribd logo
1  sur  35
Télécharger pour lire hors ligne
Analyse des noms agentifs dans les espaces vectoriels
distributionnels
Marine Wauquier
Sous la direction de Nabil Hathout
et en étroite collaboration avec Cécile Fabre
CLLE, CNRS & Université Toulouse Jean Jaurès
16 mai 2018
M. Wauquier (CLLE) RJC 2018 16 mai 2018 1 / 21
Introduction
Thèse
Confrontation des procédés dérivationnels et des catégories sémantiques
dans les modèles distributionnels
Apports linguistiques des espaces vectoriels distributionnels (Varvara
et al., 2016; Lapesa et al., 2017)
Catégories sémantiques définies selon des critères formels et
sémantiques
Projection de connaissances
Émergence de connaissances
Définition des conditions d’utilisation des VSM pour la linguistique
M. Wauquier (CLLE) RJC 2018 16 mai 2018 2 / 21
Introduction
Étude
Analyse des noms agentifs déverbaux en -eur
Agent : Entité réalisant volontairement l’action dénotée par la base
(Huyghe and Tribout, 2015)
déménageur (déménager), sculpteur (sculpter)
Instrument : Artefact prototypique utilisé pour réaliser l’action
dénotée par la base (Huyghe and Tribout, 2015)
décapsuleur (décapsuler), projecteur (projeter), vaporisateur
(vaporiser)
Objectifs :
Représenter la catégorie des noms agentifs en -eur
Évaluer l’impact de l’évolution sémantique
M. Wauquier (CLLE) RJC 2018 16 mai 2018 3 / 21
Représentation prototypique des agentifs
Dispositif expérimental
Ressource lexicale Lexeur
Masculin Féminin Base Cat Processifs
abatteur/Ncms abatteuse/Ncfs abattre/Vmn Vb
abat/Ncms abattement/Ncms
abatture/Ncfs abattage/Ncms
abattis/Ncms
4 675 agentifs déverbaux en -eur
Corpus (lemmatisés avec Talismane (Urieli, 2013))
Wikipédia - 255 millions de mots
LM10 - 200 millions de mots
frWaC - 1.3 milliard de mots
Modèle Word2Vec (Mikolov et al., 2013) par défaut
CBOW, 100 dimensions, NS (5), contexte graphique (5), seuil de
fréquence (5)
M. Wauquier (CLLE) RJC 2018 16 mai 2018 4 / 21
Représentation prototypique des agentifs
Choix du seuil de fréquence
Fréquence Masculin Féminin
Minimum 0 (1) 0 (1)
Maximum 999 (999) 97 (97)
Moyenne 284 (629) 6 (32)
Médiane 0 (12) 0 (3)
Table – Fréquence des noms agentifs déverbaux de Lexeur dans Wikipédia
Wikipédia LM10 frWaC
Tous f>=5 Tous f>=5 Tous f>=5
Masculin 2 113 1 334 1 866 1 147 2 288 1 444
Féminin 828 349 696 257 553 379
Table – Nombre de noms agentifs déverbaux dans les corpus
M. Wauquier (CLLE) RJC 2018 16 mai 2018 5 / 21
Représentation prototypique des agentifs
Construction du dérivé prototypique
Représentant le plus prototypique de la classe agentive (Kleiber, 1990)
Dans un corpus donné
Moyenne des représentations des membres de cette classe (Kintsch,
2001)
−−−→
SUFF =
n
i=1
−−−→
Nsuffi
n
Analyse des 50 premiers voisins distributionnels du vecteur construit
Noms agentifs
Variation en fonction des corpus
M. Wauquier (CLLE) RJC 2018 16 mai 2018 6 / 21
Représentation prototypique des agentifs
Voisins du vecteur moyen lexicalisé en -eur
Wikipédia réparateur - sèche-cheveux - soudeur - armurier - minuteur - wattman -
conducteur - laborantin - machiniste - mécanicien - plombier - tournevis
- stéthoscope - client - ventilateur - treuil - allumeur - mécano - coursier
- déménageur - manomètre - aspirateur - soigneur - extincteur - vendeur
- installateur - toiletteur - mélangeur - cric - ampèremètre - goniomètre
- débogueur - technicien - ramasse-miettes - contacteur - descendeur -
dépresseur - tune-o-matic - leurre - télérupteur - coupe-ongles - égoutier
- microphone - juge-arbitre - opticien - nettoyeur - adaptateur - grappin -
détecteur - ordinateur
LM10 ramoneur - bricoleur - toqué - alchimiste - chiot - nounours - moujik -
magicien - ornithologue - matou - dragueur - bidouilleur - tâcheron - ludion
- garagiste - fêlé - cinglé - comparse - imitateur - frelon - aventurier -
coursier - barman - croque-mort - garnement - bouledogue - loubard -
charretier - gandin - fripon - baroudeur - rouquin - coifeur - julot - boxeur
- arnaqueur - malfrat - voyou - écuyer - prestidigitateur - moussaillon -
cuisinier - sarret - puncheur - fêtard - camelot - afabulateur - braconnier -
canari - garçon
M. Wauquier (CLLE) RJC 2018 16 mai 2018 7 / 21
Représentation prototypique des agentifs
Voisins du vecteur moyen lexicalisé en -eur
Wikipédia réparateur - sèche-cheveux - soudeur - armurier - minuteur - wattman -
conducteur - laborantin - machiniste - mécanicien - plombier - tournevis
- stéthoscope - client - ventilateur - treuil - allumeur - mécano - coursier
- déménageur - manomètre - aspirateur - soigneur - extincteur - vendeur
- installateur - toiletteur - mélangeur - cric - ampèremètre - goniomètre
- débogueur - technicien - ramasse-miettes - contacteur - descendeur -
dépresseur - tune-o-matic - leurre - télérupteur - coupe-ongles - égoutier
- microphone - juge-arbitre - opticien - nettoyeur - adaptateur - grappin -
détecteur - ordinateur
LM10 ramoneur - bricoleur - toqué - alchimiste - chiot - nounours - moujik -
magicien - ornithologue - matou - dragueur - bidouilleur - tâcheron - ludion
- garagiste - fêlé - cinglé - comparse - imitateur - frelon - aventurier -
coursier - barman - croque-mort - garnement - bouledogue - loubard -
charretier - gandin - fripon - baroudeur - rouquin - coiffeur - julot - boxeur
- arnaqueur - malfrat - voyou - écuyer - prestidigitateur - moussaillon -
cuisinier - sarret - puncheur - fêtard - camelot - afabulateur - braconnier -
canari - garçon
M. Wauquier (CLLE) RJC 2018 16 mai 2018 7 / 21
Représentation prototypique des agentifs
Voisins du vecteur moyen lexicalisé en -eur
Wikipédia réparateur - sèche-cheveux - soudeur - armurier - minuteur - wattman -
conducteur - laborantin - machiniste - mécanicien - plombier - tournevis
- stéthoscope - client - ventilateur - treuil - allumeur - mécano - coursier
- déménageur - manomètre - aspirateur - soigneur - extincteur - vendeur
- installateur - toiletteur - mélangeur - cric - ampèremètre - goniomètre
- débogueur - technicien - ramasse-miettes - contacteur - descendeur -
dépresseur - tune-o-matic - leurre - télérupteur - coupe-ongles - égoutier
- microphone - juge-arbitre - opticien - nettoyeur - adaptateur - grappin -
détecteur - ordinateur
LM10 ramoneur - bricoleur - toqué - alchimiste - chiot - nounours - moujik -
magicien - ornithologue - matou - dragueur - bidouilleur - tâcheron - ludion
- garagiste - fêlé - cinglé - comparse - imitateur - frelon - aventurier -
coursier - barman - croque-mort - garnement - bouledogue - loubard -
charretier - gandin - fripon - baroudeur - rouquin - coiffeur - julot - boxeur
- arnaqueur - malfrat - voyou - écuyer - prestidigitateur - moussaillon -
cuisinier - sarret - puncheur - fêtard - camelot - afabulateur - braconnier -
canari - garçon
M. Wauquier (CLLE) RJC 2018 16 mai 2018 7 / 21
Représentation prototypique des agentifs
Voisins du vecteur moyen lexicalisé en -eur
Wikipédia réparateur - sèche-cheveux - soudeur - armurier - minuteur - wattman -
conducteur - laborantin - machiniste - mécanicien - plombier - tournevis
- stéthoscope - client - ventilateur - treuil - allumeur - mécano - coursier
- déménageur - manomètre - aspirateur - soigneur - extincteur - vendeur
- installateur - toiletteur - mélangeur - cric - ampèremètre - goniomètre
- débogueur - technicien - ramasse-miettes - contacteur - descendeur -
dépresseur - tune-o-matic - leurre - télérupteur - coupe-ongles - égoutier
- microphone - juge-arbitre - opticien - nettoyeur - adaptateur - grappin -
détecteur - ordinateur
LM10 ramoneur - bricoleur - toqué - alchimiste - chiot - nounours - moujik -
magicien - ornithologue - matou - dragueur - bidouilleur - tâcheron - ludion
- garagiste - fêlé - cinglé - comparse - imitateur - frelon - aventurier -
coursier - barman - croque-mort - garnement - bouledogue - loubard -
charretier - gandin - fripon - baroudeur - rouquin - coiffeur - julot - boxeur
- arnaqueur - malfrat - voyou - écuyer - prestidigitateur - moussaillon -
cuisinier - sarret - puncheur - fêtard - camelot - afabulateur - braconnier -
canari - garçon
M. Wauquier (CLLE) RJC 2018 16 mai 2018 7 / 21
Représentation prototypique des agentifs
Voisins du vecteur moyen lexicalisé en -eur
Wikipédia réparateur - sèche-cheveux - soudeur - armurier - minuteur - wattman -
conducteur - laborantin - machiniste - mécanicien - plombier - tournevis
- stéthoscope - client - ventilateur - treuil - allumeur - mécano - coursier
- déménageur - manomètre - aspirateur - soigneur - extincteur - vendeur
- installateur - toiletteur - mélangeur - cric - ampèremètre - goniomètre
- débogueur - technicien - ramasse-miettes - contacteur - descendeur -
dépresseur - tune-o-matic - leurre - télérupteur - coupe-ongles - égoutier
- microphone - juge-arbitre - opticien - nettoyeur - adaptateur - grappin -
détecteur - ordinateur
LM10 ramoneur - bricoleur - toqué - alchimiste - chiot - nounours - moujik -
magicien - ornithologue - matou - dragueur - bidouilleur - tâcheron - ludion
- garagiste - fêlé - cinglé - comparse - imitateur - frelon - aventurier -
coursier - barman - croque-mort - garnement - bouledogue - loubard -
charretier - gandin - fripon - baroudeur - rouquin - coifeur - julot - boxeur
- arnaqueur - malfrat - voyou - écuyer - prestidigitateur - moussaillon -
cuisinier - sarret - puncheur - fêtard - camelot - afabulateur - braconnier -
canari - garçon
M. Wauquier (CLLE) RJC 2018 16 mai 2018 7 / 21
Représentation prototypique des agentifs
Voisins du vecteur moyen lexicalisé en -eur
Wikipédia réparateur - sèche-cheveux - soudeur - armurier - minuteur - wattman -
conducteur - laborantin - machiniste - mécanicien - plombier - tournevis
- stéthoscope - client - ventilateur - treuil - allumeur - mécano - coursier
- déménageur - manomètre - aspirateur - soigneur - extincteur - vendeur
- installateur - toiletteur - mélangeur - cric - ampèremètre - goniomètre
- débogueur - technicien - ramasse-miettes - contacteur - descendeur -
dépresseur - tune-o-matic - leurre - télérupteur - coupe-ongles - égoutier
- microphone - juge-arbitre - opticien - nettoyeur - adaptateur - grappin -
détecteur - ordinateur
LM10 ramoneur - bricoleur - toqué - alchimiste - chiot - nounours - moujik -
magicien - ornithologue - matou - dragueur - bidouilleur - tâcheron - ludion
- garagiste - fêlé - cinglé - comparse - imitateur - frelon - aventurier -
coursier - barman - croque-mort - garnement - bouledogue - loubard -
charretier - gandin - fripon - baroudeur - rouquin - coiffeur - julot - boxeur
- arnaqueur - malfrat - voyou - écuyer - prestidigitateur - moussaillon -
cuisinier - sarret - puncheur - fêtard - camelot - afabulateur - braconnier -
canari - garçon
M. Wauquier (CLLE) RJC 2018 16 mai 2018 7 / 21
Représentation prototypique des agentifs
Voisins du vecteur moyen lexicalisé en -eur
frWaC guindeau - perceur - surgrip - ferrailleur - rectifieur - multitours - coupe-
papier - suiveur - basculeur - rilsan - servo-moteur - coupe-circuit - r-core -
tromblon - palpeur - capsuleuses - accessoiriste - coupe-cigares - coutelas -
marteau-pilon - talkie-walkie - rabot - cintreuses - pantographe - soudures
- filin - emballeur - aspirateurs - petzl - montiss - cartillier - cintrier -
batteur - mandrin - tuyautage - warbird - grignoteur - graisseur - perceuses
- humbucker - elevateurs - gehennas - incorporateur - sebicape - dessouder
- agitateur - encliquetables - avant-train - haute-pression - cymbales
M. Wauquier (CLLE) RJC 2018 16 mai 2018 8 / 21
Représentation prototypique des agentifs
Voisins du vecteur moyen lexicalisé en -eur
frWaC guindeau - perceur - surgrip - ferrailleur - rectifieur - multitours - coupe-
papier - suiveur - basculeur - rilsan - servo-moteur - coupe-circuit - r-core -
tromblon - palpeur - capsuleuses - accessoiriste - coupe-cigares - coutelas -
marteau-pilon - talkie-walkie - rabot - cintreuses - pantographe - soudures
- filin - emballeur - aspirateurs - petzl - montiss - cartillier - cintrier -
batteur - mandrin - tuyautage - warbird - grignoteur - graisseur - perceuses
- humbucker - elevateurs - gehennas - incorporateur - sebicape - dessouder
- agitateur - encliquetables - avant-train - haute-pression - cymbales
M. Wauquier (CLLE) RJC 2018 16 mai 2018 8 / 21
Représentation prototypique des agentifs
Voisins du vecteur moyen lexicalisé en -eur
frWaC guindeau - perceur - surgrip - ferrailleur - rectifieur - multitours - coupe-
papier - suiveur - basculeur - rilsan - servo-moteur - coupe-circuit - r-core -
tromblon - palpeur - capsuleuses - accessoiriste - coupe-cigares - coutelas -
marteau-pilon - talkie-walkie - rabot - cintreuses - pantographe - soudures
- filin - emballeur - aspirateurs - petzl - montiss - cartillier - cintrier -
batteur - mandrin - tuyautage - warbird - grignoteur - graisseur - perceuses
- humbucker - elevateurs - gehennas - incorporateur - sebicape - dessouder
- agitateur - encliquetables - avant-train - haute-pression - cymbales
M. Wauquier (CLLE) RJC 2018 16 mai 2018 8 / 21
Représentation prototypique des agentifs
Voisins du vecteur moyen lexicalisé en -eur
frWaC guindeau - perceur - surgrip - ferrailleur - rectifieur - multitours - coupe-
papier - suiveur - basculeur - rilsan - servo-moteur - coupe-circuit - r-core -
tromblon - palpeur - capsuleuses - accessoiriste - coupe-cigares - coutelas -
marteau-pilon - talkie-walkie - rabot - cintreuses - pantographe - soudures
- filin - emballeur - aspirateurs - petzl - montiss - cartillier - cintrier -
batteur - mandrin - tuyautage - warbird - grignoteur - graisseur - perceuses
- humbucker - elevateurs - gehennas - incorporateur - sebicape - dessouder
- agitateur - encliquetables - avant-train - haute-pression - cymbales
M. Wauquier (CLLE) RJC 2018 16 mai 2018 8 / 21
Représentation prototypique des agentifs
Voisins du vecteur moyen lexicalisé en -eur
frWaC guindeau - perceur - surgrip - ferrailleur - rectifieur - multitours - coupe-
papier - suiveur - basculeur - rilsan - servo-moteur - coupe-circuit - r-core -
tromblon - palpeur - capsuleuses - accessoiriste - coupe-cigares - coutelas -
marteau-pilon - talkie-walkie - rabot - cintreuses - pantographe - soudures
- filin - emballeur - aspirateurs - petzl - montiss - cartillier - cintrier -
batteur - mandrin - tuyautage - warbird - grignoteur - graisseur - perceuses
- humbucker - elevateurs - gehennas - incorporateur - sebicape - dessouder
- agitateur - encliquetables - avant-train - haute-pression - cymbales
M. Wauquier (CLLE) RJC 2018 16 mai 2018 8 / 21
Représentation prototypique des agentifs
Voisins du vecteur moyen lexicalisé en -eur
frWaC guindeau - perceur - surgrip - ferrailleur - rectifieur - multitours - coupe-
papier - suiveur - basculeur - rilsan - servo-moteur - coupe-circuit - r-core -
tromblon - palpeur - capsuleuses - accessoiriste - coupe-cigares - coutelas -
marteau-pilon - talkie-walkie - rabot - cintreuses - pantographe - soudures
- filin - emballeur - aspirateurs - petzl - montiss - cartillier - cintrier -
batteur - mandrin - tuyautage - warbird - grignoteur - graisseur - perceuses
- humbucker - elevateurs - gehennas - incorporateur - sebicape - dessouder
- agitateur - encliquetables - avant-train - haute-pression - cymbales
M. Wauquier (CLLE) RJC 2018 16 mai 2018 8 / 21
Impact de la lexicalisation
Lexicalisation
Agentifs néologiques
Absents de Lexeur
Non lexicalisés
Sémantiquement plus prototypiques (Kleiber, 1990)
échangeur vs détecteur
Verbe et agentif néologique sémantiquement plus proches
Indice de proximité plus élevé dans les paires néologiques que dans
celles lexicalisées
M. Wauquier (CLLE) RJC 2018 16 mai 2018 9 / 21
Impact de la lexicalisation
Récupération semi-automatique des agentifs déverbaux
néologiques
Apprentissage de règles de
dérivation à partir de Lexeur
Création des paires (Neur, V)
potentielles
Suppression automatique des
paires non valides
Retrait manuel des paires
erronnées
(seigneur, seigner)
(sueur, suer).
(realisateur, realiser)
(primeur, primer)
Wikipédia LM10 frWaC
6 152 3 677 10 665
218 87 726
81 27 169
M. Wauquier (CLLE) RJC 2018 16 mai 2018 10 / 21
Impact de la lexicalisation
Proximité (Neur, V) en fonction du degré de lexicalisation
Score de proximité Écart type
Lexicalisation Néologie Lexicalisation Néologie
Wikipédia 0.271 0.324 0.165 0.197
LM10 0.262 0.346 0.163 0.181
frWaC 0.293 0.307 0.171 0.185
Proximité plus élevée pour les paires néologiques
Wikipédia LM10 frWaC
p-value (t-test) 0.01 0.02 0.3
M. Wauquier (CLLE) RJC 2018 16 mai 2018 11 / 21
Impact de la lexicalisation
Distribution des paires en fonction du score de proximité
Wikipédia LM10 frWaC
M. Wauquier (CLLE) RJC 2018 16 mai 2018 12 / 21
Impact de la lexicalisation
Voisins du vecteur moyen néologique en -eur dans frWaC
Sans
filtrage
quenc - mytheather - toneport - expandeur - electret - comptact - micro-
controleur - le-gnou - handsonic’ - webeditor - genlock - go-to - attiny -
oehlbach - o-system - shamallows - easybox - mickeyfreestyler - aldila -
atmega - whirlwind - r-core - audiounit - coprocesseur - mini-navigateur -
frw - enhancer - selector - seeprog - serato - realtek - twido - wago-i - tes-
teur - hwmonitor - multiprogrammateur - speedo - winup - pod - crystalin
- textorm - modul - beeprog - yokogawa - modutils - dragonfly - sniffeur -
electromatic - hammerhead - encodeur
M. Wauquier (CLLE) RJC 2018 16 mai 2018 13 / 21
Impact de la lexicalisation
Voisins du vecteur moyen néologique en -eur dans frWaC
Sans
filtrage
quenc - mytheather - toneport - expandeur - electret - comptact - micro-
controleur - le-gnou - handsonic’ - webeditor - genlock - go-to - attiny -
oehlbach - o-system - shamallows - easybox - mickeyfreestyler - aldila -
atmega - whirlwind - r-core - audiounit - coprocesseur - mini-navigateur -
frw - enhancer - selector - seeprog - serato - realtek - twido - wago-i - tes-
teur - hwmonitor - multiprogrammateur - speedo - winup - pod - crystalin
- textorm - modul - beeprog - yokogawa - modutils - dragonfly - sniffeur -
electromatic - hammerhead - encodeur
M. Wauquier (CLLE) RJC 2018 16 mai 2018 13 / 21
Impact de la lexicalisation
Voisins du vecteur moyen néologique en -eur dans frWaC
Avec
filtrage
(f>=100)
enhancer - pod - testeur - shaft - splitter - slap - sensor - proto - keyboard
- brushless - touchpad - bypass - meter - mute - piezo - gyro - vario - jog
- extrem - condo - batteur - buzzer - boost - watercooling - microphone -
recepteur - zebra - variateur - vci - pid - concurent - sampler - concentrateur
- bloqueur - strap - lacie - cue - scanneur - driver - analog - sample - gsd
- freeze - stack - codec - wedge - feedback - dil - xania - benq
M. Wauquier (CLLE) RJC 2018 16 mai 2018 13 / 21
Impact de la lexicalisation
Analyse des résultats (frWaC)
Proximité élevée (>0.7) Proximité faible (<0.05)
parseur - parser raideur - raider
Deux sources principales de bruit :
POS
pour faciliter le travail du parser qui se charge de valider le contenu
Famille sémantique
Quelles sont vos horraires de jeux pour chaque jours de la semaine ? je
peux raider de 20 h à 1 h du matin sans problème
La pseudo-polyarthrite rhizomélique se manifeste d’abord par une
raideur et des douleurs
M. Wauquier (CLLE) RJC 2018 16 mai 2018 14 / 21
Conclusion
Conclusion de l’étude
Représentation vectorielle de l’agentivité
Le dérivé moyen donne une bonne approximation, dépendante du
corpus
Wikipédia - agent et instrument
LM10 - agent, humain et entité vivante
frWaC - instrument, entité nommée
Impact de la lexicalisation
Paires néologiques plus proches sur le plan distributionnel et
sémantique
Besoin d’affiner la sélection des paires néologiques
M. Wauquier (CLLE) RJC 2018 16 mai 2018 15 / 21
Conclusion
Poursuites
TAL
Reprise de l’expérience
Prise en compte de la variation des modèles (Antoniak and Mimno,
2018; Pierrejean and Tanguy, 2018)
Comparaison avec d’autres outils d’analyse distributionnelle
(Pennington et al., 2014)
Clustering
Linguistique
Connotation liée aux noms agentifs féminins (Wauquier et al., 2018)
Comparaison sémantique des noms d’action en -age, -ion et -ment
Passage à l’anglais (Fellbaum and Miller, 2003)
M. Wauquier (CLLE) RJC 2018 16 mai 2018 16 / 21
Références
Antoniak, M. and Mimno, D. (2018). Evaluating the Stability of
Embedding-based Word Similarities. Transactions of the Association for
Computational Linguistics, 6 :107–119.
Bojanowski, P., Grave, E., Joulin, A., and Mikolov, T. (2016). Enriching Word
Vectors with Subword Information. arXiv preprint arXiv :1607.04606.
Fellbaum, C. and Miller, G. A. (2003). Morphosemantic Links in Wordnet.
Traitement Automatique des Langues, 44(2) :69–80.
Huyghe, R. and Tribout, D. (2015). Noms d’agents et noms d’instruments : le
cas des déverbaux en-eur. Langue française, (1) :99–112.
Kintsch, W. (2001). Predication. Cognitive science, 25(2) :173–202.
Kleiber, G. (1990). La sémantique du prototype : catégories et sens lexical. PUF.
Laca, B. (2001). Derivation. Language Typology and Language Universals : An
International Handbook, 2 :1214–1227.
Lapesa, G., Kawaletz, L., Plag, I., Andreou, M., Kisselew, M., and Pado, S.
(2017). Disambiguation of Newly Derived Nominalizations in Context : A
Distributional Semantics approach. (in press). Word Structure, 11(3).
Mikolov, T., Chan, K., Corrado, G., and Dean, J. (2013). Efficient Estimation of
Word Representations in Vector Space. In Proceedings of International
Conference on Learning Representations (ICLR), Scottsdale, United States of
America.
M. Wauquier (CLLE) RJC 2018 16 mai 2018 16 / 21
Pennington, J., Socher, R., and Manning, C. (2014). Glove : Global vectors for
word representation. In Proceedings of the 2014 conference on empirical
methods in natural language processing (EMNLP), pages 1532–1543.
Pierrejean, B. and Tanguy, L. (2018). Étude de la reproductibilité des word
embeddings : repérage des zones stables et instables dans le lexique. In
Traitement Automatique des Langues Naturelles (TALN), Rennes, France.
Urieli, A. (2013). Robust French Syntax Analysis : Reconciling Statistical
Methods and Linguistic Knowledge in the Talismane Toolkit. PhD thesis,
Université de Toulouse II le Mirail.
Varvara, R., Lapesa, G., and Padó, S. (2016). Quantifying Regularity in
Morphological Processes : An Ongoing Study on Nominalization in German. In
ESSLLI DSALT Workshop : Distributional Semantics and Semantic Theory,
Bolzano, Italy.
Wauquier, M., Fabre, C., and Hathout, N. (2018). Différenciation sémantique de
dérivés morphologiques à l’aide de critères distributionnels. In Congrès Mondial
de Linguistique Française (CMLF), Mons, Belgique.
M. Wauquier (CLLE) RJC 2018 16 mai 2018 17 / 21
Représentation de l’instruction sémantique du suffixe
Représenter directement l’instruction sémantique du suffixe, et pas la
suffixation prototypique ?
Ajout de sens par rapport à la base (Laca, 2001)
Résultat de la soustraction Dérivé - Base
−−−→
SUFF =
n
i=1(
−→
V i −
−−−→
Nsuffi )
n
Noms d’agent ou d’instruments prototypiques
M. Wauquier (CLLE) RJC 2018 16 mai 2018 17 / 21
Voisins du vecteur moyen soustractif en -eur pour Wikipédia
Sans
filtrage
forsans - sasía - řezníček - mctabb - artiflex - donnaud - zinberg - monig
- arabo - unaid - easynet - yachtman - xbt - beugniot - vasouy - oblata -
uillevin - mejirov - daguerréotypiste - delisa - ruland - sébastien-joseph -
gphs-rtg - chourer - wiliam - continuiste - karkamánis - gałecki - souilhe -
bibeault - critiquement - nouvellement - lalliance - gromard - fivethirtyeight
- rentilly - chevassus - sorabji - enayat-seraj - marisy - sicob - effets-spéciaux
- izrael - gugliotta - hfr - plassat - kinnick - gvb - virae - étévé
Avec
filtrage
(f>=100)
nouvellement - rauch - edson - fraichement - ridder - fraîchement - waddell
- buckland - adamson - courvoisier - smits - lema - boe - eda - zacharias -
rust - bateman - martyn - heyer - lanier - pipes - pugh - koehler - shuster
- scientists - fisch - needham - hyman - straits - salter - ory - kow - keir -
coproducteur - alzon - herd - tillie - perri - mast - matches - kling - cypher
- giamatti - roché - theron - biggs - loudon - smet - edmundo - berenson
M. Wauquier (CLLE) RJC 2018 16 mai 2018 18 / 21
Voisins du vecteur moyen lexicalisé en -euse/rice
Wikipédia herzigova - coiffeuse - venhard - naymark - manucure - vericel - sorokina -
trulle - cover-girl - gitane - séménoff - chammah - comédienne - estragnat
- yma - stroyberg - réju - tallier - soubrette - alycia - montalant - minouche
- dartonne - ménine - metmer - rembauville - jitka - catzéflis - prepon -
denarnaud - marie-olivier - tainsy - cuisinière - chauffeuse - anicée - serveuse
- stripteaseuse - kajmak - laury - ballerine - barmaid - lunchlady - pierens
-laparé - servantie - mammamia - stresi - irma - elfride - vendell
LM10 duègne - rousse - jolie - gitane - pulpeux - vamp - ravissant - bacchante -
chatte - diablesse - boulotte - mignonne - allumeuse - madone - rockeuse -
danseuse - parisienne - nymphomane - débutante - brune - mégère - lhamo -
almée - ingénue - soubrette - véro - blonde - mamelue - pimbêche - adorable
- femme-objet - femme-oiseau - garce - pétulant - servante-maîtresse -
servante - dévergond - antillaise - trémière - courtisane - arnaqueuse -
donzelle - nastassia - diva - guenon - chasseresse - junon - demi-mondaine
- rieuse - belle-de-nuit
M. Wauquier (CLLE) RJC 2018 16 mai 2018 19 / 21
Voisins du vecteur moyen lexicalisé en -eur (Wiki, 300 dim)
Wikipédia sèche-cheveux - soudeur - ampèremètre - réparateur - armurier - installa-
teur - plombier - conducteur - télérupteur - mélangeur - grappin - ramasse-
miettes - client - prestidigitateur - contacteur - extincteur - ventilateur -
machiniste - mécano - laborantin - manomètre - accéléromètre - minuteur
- déménageur - mécanicien - microphone - vendeur - projectionniste - dé-
bogueur - contremaître - allumeur - nettoyeur - wattmètre - manipulateur
- anti-cheat - treuil - coursier - opticien - électroaimant - bottier - commu-
nicateur - dérailleur - transmetteur - peson - traceur - receleur - serveur -
interrupteur - paratonnerre - sécateur
LM10 bricoleur - alchimiste - ludion - magicien - manipulateur - baroudeur - com-
parse - nounours - garnement - barman - garagiste - affabulateur - voyou
- collectionneur - fripon - fêtard - aventurier - matou - filou - braconnier -
galopin - toqué - roublard - musicien - prestidigitateur - ferrailleur - auto-
mate - escroc - lutin - coursier - garçon - satyre - cambrioleur - jongleur -
loubard - moustachu - cinglé - imitateur - artiste - malfrat - mixeur - for-
geron - cuisinier - tâcheron - rouquin - imprésario - acolyte - businessman
- squale - râleur
M. Wauquier (CLLE) RJC 2018 16 mai 2018 20 / 21
Voisins des vecteurs moyens lexicalisés en -eur et -euse pour
Wiki avec fastText
Utilisation de l’outil fastText (Bojanowski et al., 2016) dans les mêmes
conditions que Word2Vec (n-grammes : 3 à 6)
-eur prosateur - délateur - brumisateur – bouteur - remplisseur - mateur - surpresseur
- amodiateur - prompteur - pourvoyeur - appariteur - filateur - suiveur - brouilleur
- dénicheur - conditionneur - couppier - pitancier - jouteur - licteur - rebouilleur -
récupérateur - entendeur - décaladeur - passoire - souteneur - compensateur - em-
ballement - coutant - gravleur - congélateur - mancier - traiteur - prestidigitateur
- écouteur - collimateur - fouisseur - coupier - débugant - soudeur - anticipateur
- porteur - approbateur - tricheur - travaillant - convertisseur - affabulateur -
gainier-doreur - moncheur - prouveur
-euse rouilleuse – jillette – suiveuse – ravisseuse – séryeuse – repasseuse – pouilleuse
– meurette – entremetteuse – dragueuse – collette – chouquette – souffleuse –
mallette – michetonneuse – plantureuse – ratelle – euse – peureuse – savonnette
– pouponnière – barbygère – bouette – marlette – marionnette – amourette –
laffineuse – trompinette – serinette – adrienne-choquette – chanelle – bouffant –
balle-molle – minette – doublouline – verseuse – mouillette – chaumelle – gamiette
– lègère – globe-trotteuse – loulette – billaine – débroussailleuse – bichette –
allumeuse – vendinelle – courtilière – charpier - yette
M. Wauquier (CLLE) RJC 2018 16 mai 2018 21 / 21

Contenu connexe

En vedette

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

En vedette (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Analyse des noms agentifs dans des espaces vectoriels distributionnels

  • 1. Analyse des noms agentifs dans les espaces vectoriels distributionnels Marine Wauquier Sous la direction de Nabil Hathout et en étroite collaboration avec Cécile Fabre CLLE, CNRS & Université Toulouse Jean Jaurès 16 mai 2018 M. Wauquier (CLLE) RJC 2018 16 mai 2018 1 / 21
  • 2. Introduction Thèse Confrontation des procédés dérivationnels et des catégories sémantiques dans les modèles distributionnels Apports linguistiques des espaces vectoriels distributionnels (Varvara et al., 2016; Lapesa et al., 2017) Catégories sémantiques définies selon des critères formels et sémantiques Projection de connaissances Émergence de connaissances Définition des conditions d’utilisation des VSM pour la linguistique M. Wauquier (CLLE) RJC 2018 16 mai 2018 2 / 21
  • 3. Introduction Étude Analyse des noms agentifs déverbaux en -eur Agent : Entité réalisant volontairement l’action dénotée par la base (Huyghe and Tribout, 2015) déménageur (déménager), sculpteur (sculpter) Instrument : Artefact prototypique utilisé pour réaliser l’action dénotée par la base (Huyghe and Tribout, 2015) décapsuleur (décapsuler), projecteur (projeter), vaporisateur (vaporiser) Objectifs : Représenter la catégorie des noms agentifs en -eur Évaluer l’impact de l’évolution sémantique M. Wauquier (CLLE) RJC 2018 16 mai 2018 3 / 21
  • 4. Représentation prototypique des agentifs Dispositif expérimental Ressource lexicale Lexeur Masculin Féminin Base Cat Processifs abatteur/Ncms abatteuse/Ncfs abattre/Vmn Vb abat/Ncms abattement/Ncms abatture/Ncfs abattage/Ncms abattis/Ncms 4 675 agentifs déverbaux en -eur Corpus (lemmatisés avec Talismane (Urieli, 2013)) Wikipédia - 255 millions de mots LM10 - 200 millions de mots frWaC - 1.3 milliard de mots Modèle Word2Vec (Mikolov et al., 2013) par défaut CBOW, 100 dimensions, NS (5), contexte graphique (5), seuil de fréquence (5) M. Wauquier (CLLE) RJC 2018 16 mai 2018 4 / 21
  • 5. Représentation prototypique des agentifs Choix du seuil de fréquence Fréquence Masculin Féminin Minimum 0 (1) 0 (1) Maximum 999 (999) 97 (97) Moyenne 284 (629) 6 (32) Médiane 0 (12) 0 (3) Table – Fréquence des noms agentifs déverbaux de Lexeur dans Wikipédia Wikipédia LM10 frWaC Tous f>=5 Tous f>=5 Tous f>=5 Masculin 2 113 1 334 1 866 1 147 2 288 1 444 Féminin 828 349 696 257 553 379 Table – Nombre de noms agentifs déverbaux dans les corpus M. Wauquier (CLLE) RJC 2018 16 mai 2018 5 / 21
  • 6. Représentation prototypique des agentifs Construction du dérivé prototypique Représentant le plus prototypique de la classe agentive (Kleiber, 1990) Dans un corpus donné Moyenne des représentations des membres de cette classe (Kintsch, 2001) −−−→ SUFF = n i=1 −−−→ Nsuffi n Analyse des 50 premiers voisins distributionnels du vecteur construit Noms agentifs Variation en fonction des corpus M. Wauquier (CLLE) RJC 2018 16 mai 2018 6 / 21
  • 7. Représentation prototypique des agentifs Voisins du vecteur moyen lexicalisé en -eur Wikipédia réparateur - sèche-cheveux - soudeur - armurier - minuteur - wattman - conducteur - laborantin - machiniste - mécanicien - plombier - tournevis - stéthoscope - client - ventilateur - treuil - allumeur - mécano - coursier - déménageur - manomètre - aspirateur - soigneur - extincteur - vendeur - installateur - toiletteur - mélangeur - cric - ampèremètre - goniomètre - débogueur - technicien - ramasse-miettes - contacteur - descendeur - dépresseur - tune-o-matic - leurre - télérupteur - coupe-ongles - égoutier - microphone - juge-arbitre - opticien - nettoyeur - adaptateur - grappin - détecteur - ordinateur LM10 ramoneur - bricoleur - toqué - alchimiste - chiot - nounours - moujik - magicien - ornithologue - matou - dragueur - bidouilleur - tâcheron - ludion - garagiste - fêlé - cinglé - comparse - imitateur - frelon - aventurier - coursier - barman - croque-mort - garnement - bouledogue - loubard - charretier - gandin - fripon - baroudeur - rouquin - coifeur - julot - boxeur - arnaqueur - malfrat - voyou - écuyer - prestidigitateur - moussaillon - cuisinier - sarret - puncheur - fêtard - camelot - afabulateur - braconnier - canari - garçon M. Wauquier (CLLE) RJC 2018 16 mai 2018 7 / 21
  • 8. Représentation prototypique des agentifs Voisins du vecteur moyen lexicalisé en -eur Wikipédia réparateur - sèche-cheveux - soudeur - armurier - minuteur - wattman - conducteur - laborantin - machiniste - mécanicien - plombier - tournevis - stéthoscope - client - ventilateur - treuil - allumeur - mécano - coursier - déménageur - manomètre - aspirateur - soigneur - extincteur - vendeur - installateur - toiletteur - mélangeur - cric - ampèremètre - goniomètre - débogueur - technicien - ramasse-miettes - contacteur - descendeur - dépresseur - tune-o-matic - leurre - télérupteur - coupe-ongles - égoutier - microphone - juge-arbitre - opticien - nettoyeur - adaptateur - grappin - détecteur - ordinateur LM10 ramoneur - bricoleur - toqué - alchimiste - chiot - nounours - moujik - magicien - ornithologue - matou - dragueur - bidouilleur - tâcheron - ludion - garagiste - fêlé - cinglé - comparse - imitateur - frelon - aventurier - coursier - barman - croque-mort - garnement - bouledogue - loubard - charretier - gandin - fripon - baroudeur - rouquin - coiffeur - julot - boxeur - arnaqueur - malfrat - voyou - écuyer - prestidigitateur - moussaillon - cuisinier - sarret - puncheur - fêtard - camelot - afabulateur - braconnier - canari - garçon M. Wauquier (CLLE) RJC 2018 16 mai 2018 7 / 21
  • 9. Représentation prototypique des agentifs Voisins du vecteur moyen lexicalisé en -eur Wikipédia réparateur - sèche-cheveux - soudeur - armurier - minuteur - wattman - conducteur - laborantin - machiniste - mécanicien - plombier - tournevis - stéthoscope - client - ventilateur - treuil - allumeur - mécano - coursier - déménageur - manomètre - aspirateur - soigneur - extincteur - vendeur - installateur - toiletteur - mélangeur - cric - ampèremètre - goniomètre - débogueur - technicien - ramasse-miettes - contacteur - descendeur - dépresseur - tune-o-matic - leurre - télérupteur - coupe-ongles - égoutier - microphone - juge-arbitre - opticien - nettoyeur - adaptateur - grappin - détecteur - ordinateur LM10 ramoneur - bricoleur - toqué - alchimiste - chiot - nounours - moujik - magicien - ornithologue - matou - dragueur - bidouilleur - tâcheron - ludion - garagiste - fêlé - cinglé - comparse - imitateur - frelon - aventurier - coursier - barman - croque-mort - garnement - bouledogue - loubard - charretier - gandin - fripon - baroudeur - rouquin - coiffeur - julot - boxeur - arnaqueur - malfrat - voyou - écuyer - prestidigitateur - moussaillon - cuisinier - sarret - puncheur - fêtard - camelot - afabulateur - braconnier - canari - garçon M. Wauquier (CLLE) RJC 2018 16 mai 2018 7 / 21
  • 10. Représentation prototypique des agentifs Voisins du vecteur moyen lexicalisé en -eur Wikipédia réparateur - sèche-cheveux - soudeur - armurier - minuteur - wattman - conducteur - laborantin - machiniste - mécanicien - plombier - tournevis - stéthoscope - client - ventilateur - treuil - allumeur - mécano - coursier - déménageur - manomètre - aspirateur - soigneur - extincteur - vendeur - installateur - toiletteur - mélangeur - cric - ampèremètre - goniomètre - débogueur - technicien - ramasse-miettes - contacteur - descendeur - dépresseur - tune-o-matic - leurre - télérupteur - coupe-ongles - égoutier - microphone - juge-arbitre - opticien - nettoyeur - adaptateur - grappin - détecteur - ordinateur LM10 ramoneur - bricoleur - toqué - alchimiste - chiot - nounours - moujik - magicien - ornithologue - matou - dragueur - bidouilleur - tâcheron - ludion - garagiste - fêlé - cinglé - comparse - imitateur - frelon - aventurier - coursier - barman - croque-mort - garnement - bouledogue - loubard - charretier - gandin - fripon - baroudeur - rouquin - coiffeur - julot - boxeur - arnaqueur - malfrat - voyou - écuyer - prestidigitateur - moussaillon - cuisinier - sarret - puncheur - fêtard - camelot - afabulateur - braconnier - canari - garçon M. Wauquier (CLLE) RJC 2018 16 mai 2018 7 / 21
  • 11. Représentation prototypique des agentifs Voisins du vecteur moyen lexicalisé en -eur Wikipédia réparateur - sèche-cheveux - soudeur - armurier - minuteur - wattman - conducteur - laborantin - machiniste - mécanicien - plombier - tournevis - stéthoscope - client - ventilateur - treuil - allumeur - mécano - coursier - déménageur - manomètre - aspirateur - soigneur - extincteur - vendeur - installateur - toiletteur - mélangeur - cric - ampèremètre - goniomètre - débogueur - technicien - ramasse-miettes - contacteur - descendeur - dépresseur - tune-o-matic - leurre - télérupteur - coupe-ongles - égoutier - microphone - juge-arbitre - opticien - nettoyeur - adaptateur - grappin - détecteur - ordinateur LM10 ramoneur - bricoleur - toqué - alchimiste - chiot - nounours - moujik - magicien - ornithologue - matou - dragueur - bidouilleur - tâcheron - ludion - garagiste - fêlé - cinglé - comparse - imitateur - frelon - aventurier - coursier - barman - croque-mort - garnement - bouledogue - loubard - charretier - gandin - fripon - baroudeur - rouquin - coifeur - julot - boxeur - arnaqueur - malfrat - voyou - écuyer - prestidigitateur - moussaillon - cuisinier - sarret - puncheur - fêtard - camelot - afabulateur - braconnier - canari - garçon M. Wauquier (CLLE) RJC 2018 16 mai 2018 7 / 21
  • 12. Représentation prototypique des agentifs Voisins du vecteur moyen lexicalisé en -eur Wikipédia réparateur - sèche-cheveux - soudeur - armurier - minuteur - wattman - conducteur - laborantin - machiniste - mécanicien - plombier - tournevis - stéthoscope - client - ventilateur - treuil - allumeur - mécano - coursier - déménageur - manomètre - aspirateur - soigneur - extincteur - vendeur - installateur - toiletteur - mélangeur - cric - ampèremètre - goniomètre - débogueur - technicien - ramasse-miettes - contacteur - descendeur - dépresseur - tune-o-matic - leurre - télérupteur - coupe-ongles - égoutier - microphone - juge-arbitre - opticien - nettoyeur - adaptateur - grappin - détecteur - ordinateur LM10 ramoneur - bricoleur - toqué - alchimiste - chiot - nounours - moujik - magicien - ornithologue - matou - dragueur - bidouilleur - tâcheron - ludion - garagiste - fêlé - cinglé - comparse - imitateur - frelon - aventurier - coursier - barman - croque-mort - garnement - bouledogue - loubard - charretier - gandin - fripon - baroudeur - rouquin - coiffeur - julot - boxeur - arnaqueur - malfrat - voyou - écuyer - prestidigitateur - moussaillon - cuisinier - sarret - puncheur - fêtard - camelot - afabulateur - braconnier - canari - garçon M. Wauquier (CLLE) RJC 2018 16 mai 2018 7 / 21
  • 13. Représentation prototypique des agentifs Voisins du vecteur moyen lexicalisé en -eur frWaC guindeau - perceur - surgrip - ferrailleur - rectifieur - multitours - coupe- papier - suiveur - basculeur - rilsan - servo-moteur - coupe-circuit - r-core - tromblon - palpeur - capsuleuses - accessoiriste - coupe-cigares - coutelas - marteau-pilon - talkie-walkie - rabot - cintreuses - pantographe - soudures - filin - emballeur - aspirateurs - petzl - montiss - cartillier - cintrier - batteur - mandrin - tuyautage - warbird - grignoteur - graisseur - perceuses - humbucker - elevateurs - gehennas - incorporateur - sebicape - dessouder - agitateur - encliquetables - avant-train - haute-pression - cymbales M. Wauquier (CLLE) RJC 2018 16 mai 2018 8 / 21
  • 14. Représentation prototypique des agentifs Voisins du vecteur moyen lexicalisé en -eur frWaC guindeau - perceur - surgrip - ferrailleur - rectifieur - multitours - coupe- papier - suiveur - basculeur - rilsan - servo-moteur - coupe-circuit - r-core - tromblon - palpeur - capsuleuses - accessoiriste - coupe-cigares - coutelas - marteau-pilon - talkie-walkie - rabot - cintreuses - pantographe - soudures - filin - emballeur - aspirateurs - petzl - montiss - cartillier - cintrier - batteur - mandrin - tuyautage - warbird - grignoteur - graisseur - perceuses - humbucker - elevateurs - gehennas - incorporateur - sebicape - dessouder - agitateur - encliquetables - avant-train - haute-pression - cymbales M. Wauquier (CLLE) RJC 2018 16 mai 2018 8 / 21
  • 15. Représentation prototypique des agentifs Voisins du vecteur moyen lexicalisé en -eur frWaC guindeau - perceur - surgrip - ferrailleur - rectifieur - multitours - coupe- papier - suiveur - basculeur - rilsan - servo-moteur - coupe-circuit - r-core - tromblon - palpeur - capsuleuses - accessoiriste - coupe-cigares - coutelas - marteau-pilon - talkie-walkie - rabot - cintreuses - pantographe - soudures - filin - emballeur - aspirateurs - petzl - montiss - cartillier - cintrier - batteur - mandrin - tuyautage - warbird - grignoteur - graisseur - perceuses - humbucker - elevateurs - gehennas - incorporateur - sebicape - dessouder - agitateur - encliquetables - avant-train - haute-pression - cymbales M. Wauquier (CLLE) RJC 2018 16 mai 2018 8 / 21
  • 16. Représentation prototypique des agentifs Voisins du vecteur moyen lexicalisé en -eur frWaC guindeau - perceur - surgrip - ferrailleur - rectifieur - multitours - coupe- papier - suiveur - basculeur - rilsan - servo-moteur - coupe-circuit - r-core - tromblon - palpeur - capsuleuses - accessoiriste - coupe-cigares - coutelas - marteau-pilon - talkie-walkie - rabot - cintreuses - pantographe - soudures - filin - emballeur - aspirateurs - petzl - montiss - cartillier - cintrier - batteur - mandrin - tuyautage - warbird - grignoteur - graisseur - perceuses - humbucker - elevateurs - gehennas - incorporateur - sebicape - dessouder - agitateur - encliquetables - avant-train - haute-pression - cymbales M. Wauquier (CLLE) RJC 2018 16 mai 2018 8 / 21
  • 17. Représentation prototypique des agentifs Voisins du vecteur moyen lexicalisé en -eur frWaC guindeau - perceur - surgrip - ferrailleur - rectifieur - multitours - coupe- papier - suiveur - basculeur - rilsan - servo-moteur - coupe-circuit - r-core - tromblon - palpeur - capsuleuses - accessoiriste - coupe-cigares - coutelas - marteau-pilon - talkie-walkie - rabot - cintreuses - pantographe - soudures - filin - emballeur - aspirateurs - petzl - montiss - cartillier - cintrier - batteur - mandrin - tuyautage - warbird - grignoteur - graisseur - perceuses - humbucker - elevateurs - gehennas - incorporateur - sebicape - dessouder - agitateur - encliquetables - avant-train - haute-pression - cymbales M. Wauquier (CLLE) RJC 2018 16 mai 2018 8 / 21
  • 18. Représentation prototypique des agentifs Voisins du vecteur moyen lexicalisé en -eur frWaC guindeau - perceur - surgrip - ferrailleur - rectifieur - multitours - coupe- papier - suiveur - basculeur - rilsan - servo-moteur - coupe-circuit - r-core - tromblon - palpeur - capsuleuses - accessoiriste - coupe-cigares - coutelas - marteau-pilon - talkie-walkie - rabot - cintreuses - pantographe - soudures - filin - emballeur - aspirateurs - petzl - montiss - cartillier - cintrier - batteur - mandrin - tuyautage - warbird - grignoteur - graisseur - perceuses - humbucker - elevateurs - gehennas - incorporateur - sebicape - dessouder - agitateur - encliquetables - avant-train - haute-pression - cymbales M. Wauquier (CLLE) RJC 2018 16 mai 2018 8 / 21
  • 19. Impact de la lexicalisation Lexicalisation Agentifs néologiques Absents de Lexeur Non lexicalisés Sémantiquement plus prototypiques (Kleiber, 1990) échangeur vs détecteur Verbe et agentif néologique sémantiquement plus proches Indice de proximité plus élevé dans les paires néologiques que dans celles lexicalisées M. Wauquier (CLLE) RJC 2018 16 mai 2018 9 / 21
  • 20. Impact de la lexicalisation Récupération semi-automatique des agentifs déverbaux néologiques Apprentissage de règles de dérivation à partir de Lexeur Création des paires (Neur, V) potentielles Suppression automatique des paires non valides Retrait manuel des paires erronnées (seigneur, seigner) (sueur, suer). (realisateur, realiser) (primeur, primer) Wikipédia LM10 frWaC 6 152 3 677 10 665 218 87 726 81 27 169 M. Wauquier (CLLE) RJC 2018 16 mai 2018 10 / 21
  • 21. Impact de la lexicalisation Proximité (Neur, V) en fonction du degré de lexicalisation Score de proximité Écart type Lexicalisation Néologie Lexicalisation Néologie Wikipédia 0.271 0.324 0.165 0.197 LM10 0.262 0.346 0.163 0.181 frWaC 0.293 0.307 0.171 0.185 Proximité plus élevée pour les paires néologiques Wikipédia LM10 frWaC p-value (t-test) 0.01 0.02 0.3 M. Wauquier (CLLE) RJC 2018 16 mai 2018 11 / 21
  • 22. Impact de la lexicalisation Distribution des paires en fonction du score de proximité Wikipédia LM10 frWaC M. Wauquier (CLLE) RJC 2018 16 mai 2018 12 / 21
  • 23. Impact de la lexicalisation Voisins du vecteur moyen néologique en -eur dans frWaC Sans filtrage quenc - mytheather - toneport - expandeur - electret - comptact - micro- controleur - le-gnou - handsonic’ - webeditor - genlock - go-to - attiny - oehlbach - o-system - shamallows - easybox - mickeyfreestyler - aldila - atmega - whirlwind - r-core - audiounit - coprocesseur - mini-navigateur - frw - enhancer - selector - seeprog - serato - realtek - twido - wago-i - tes- teur - hwmonitor - multiprogrammateur - speedo - winup - pod - crystalin - textorm - modul - beeprog - yokogawa - modutils - dragonfly - sniffeur - electromatic - hammerhead - encodeur M. Wauquier (CLLE) RJC 2018 16 mai 2018 13 / 21
  • 24. Impact de la lexicalisation Voisins du vecteur moyen néologique en -eur dans frWaC Sans filtrage quenc - mytheather - toneport - expandeur - electret - comptact - micro- controleur - le-gnou - handsonic’ - webeditor - genlock - go-to - attiny - oehlbach - o-system - shamallows - easybox - mickeyfreestyler - aldila - atmega - whirlwind - r-core - audiounit - coprocesseur - mini-navigateur - frw - enhancer - selector - seeprog - serato - realtek - twido - wago-i - tes- teur - hwmonitor - multiprogrammateur - speedo - winup - pod - crystalin - textorm - modul - beeprog - yokogawa - modutils - dragonfly - sniffeur - electromatic - hammerhead - encodeur M. Wauquier (CLLE) RJC 2018 16 mai 2018 13 / 21
  • 25. Impact de la lexicalisation Voisins du vecteur moyen néologique en -eur dans frWaC Avec filtrage (f>=100) enhancer - pod - testeur - shaft - splitter - slap - sensor - proto - keyboard - brushless - touchpad - bypass - meter - mute - piezo - gyro - vario - jog - extrem - condo - batteur - buzzer - boost - watercooling - microphone - recepteur - zebra - variateur - vci - pid - concurent - sampler - concentrateur - bloqueur - strap - lacie - cue - scanneur - driver - analog - sample - gsd - freeze - stack - codec - wedge - feedback - dil - xania - benq M. Wauquier (CLLE) RJC 2018 16 mai 2018 13 / 21
  • 26. Impact de la lexicalisation Analyse des résultats (frWaC) Proximité élevée (>0.7) Proximité faible (<0.05) parseur - parser raideur - raider Deux sources principales de bruit : POS pour faciliter le travail du parser qui se charge de valider le contenu Famille sémantique Quelles sont vos horraires de jeux pour chaque jours de la semaine ? je peux raider de 20 h à 1 h du matin sans problème La pseudo-polyarthrite rhizomélique se manifeste d’abord par une raideur et des douleurs M. Wauquier (CLLE) RJC 2018 16 mai 2018 14 / 21
  • 27. Conclusion Conclusion de l’étude Représentation vectorielle de l’agentivité Le dérivé moyen donne une bonne approximation, dépendante du corpus Wikipédia - agent et instrument LM10 - agent, humain et entité vivante frWaC - instrument, entité nommée Impact de la lexicalisation Paires néologiques plus proches sur le plan distributionnel et sémantique Besoin d’affiner la sélection des paires néologiques M. Wauquier (CLLE) RJC 2018 16 mai 2018 15 / 21
  • 28. Conclusion Poursuites TAL Reprise de l’expérience Prise en compte de la variation des modèles (Antoniak and Mimno, 2018; Pierrejean and Tanguy, 2018) Comparaison avec d’autres outils d’analyse distributionnelle (Pennington et al., 2014) Clustering Linguistique Connotation liée aux noms agentifs féminins (Wauquier et al., 2018) Comparaison sémantique des noms d’action en -age, -ion et -ment Passage à l’anglais (Fellbaum and Miller, 2003) M. Wauquier (CLLE) RJC 2018 16 mai 2018 16 / 21
  • 29. Références Antoniak, M. and Mimno, D. (2018). Evaluating the Stability of Embedding-based Word Similarities. Transactions of the Association for Computational Linguistics, 6 :107–119. Bojanowski, P., Grave, E., Joulin, A., and Mikolov, T. (2016). Enriching Word Vectors with Subword Information. arXiv preprint arXiv :1607.04606. Fellbaum, C. and Miller, G. A. (2003). Morphosemantic Links in Wordnet. Traitement Automatique des Langues, 44(2) :69–80. Huyghe, R. and Tribout, D. (2015). Noms d’agents et noms d’instruments : le cas des déverbaux en-eur. Langue française, (1) :99–112. Kintsch, W. (2001). Predication. Cognitive science, 25(2) :173–202. Kleiber, G. (1990). La sémantique du prototype : catégories et sens lexical. PUF. Laca, B. (2001). Derivation. Language Typology and Language Universals : An International Handbook, 2 :1214–1227. Lapesa, G., Kawaletz, L., Plag, I., Andreou, M., Kisselew, M., and Pado, S. (2017). Disambiguation of Newly Derived Nominalizations in Context : A Distributional Semantics approach. (in press). Word Structure, 11(3). Mikolov, T., Chan, K., Corrado, G., and Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. In Proceedings of International Conference on Learning Representations (ICLR), Scottsdale, United States of America. M. Wauquier (CLLE) RJC 2018 16 mai 2018 16 / 21
  • 30. Pennington, J., Socher, R., and Manning, C. (2014). Glove : Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 1532–1543. Pierrejean, B. and Tanguy, L. (2018). Étude de la reproductibilité des word embeddings : repérage des zones stables et instables dans le lexique. In Traitement Automatique des Langues Naturelles (TALN), Rennes, France. Urieli, A. (2013). Robust French Syntax Analysis : Reconciling Statistical Methods and Linguistic Knowledge in the Talismane Toolkit. PhD thesis, Université de Toulouse II le Mirail. Varvara, R., Lapesa, G., and Padó, S. (2016). Quantifying Regularity in Morphological Processes : An Ongoing Study on Nominalization in German. In ESSLLI DSALT Workshop : Distributional Semantics and Semantic Theory, Bolzano, Italy. Wauquier, M., Fabre, C., and Hathout, N. (2018). Différenciation sémantique de dérivés morphologiques à l’aide de critères distributionnels. In Congrès Mondial de Linguistique Française (CMLF), Mons, Belgique. M. Wauquier (CLLE) RJC 2018 16 mai 2018 17 / 21
  • 31. Représentation de l’instruction sémantique du suffixe Représenter directement l’instruction sémantique du suffixe, et pas la suffixation prototypique ? Ajout de sens par rapport à la base (Laca, 2001) Résultat de la soustraction Dérivé - Base −−−→ SUFF = n i=1( −→ V i − −−−→ Nsuffi ) n Noms d’agent ou d’instruments prototypiques M. Wauquier (CLLE) RJC 2018 16 mai 2018 17 / 21
  • 32. Voisins du vecteur moyen soustractif en -eur pour Wikipédia Sans filtrage forsans - sasía - řezníček - mctabb - artiflex - donnaud - zinberg - monig - arabo - unaid - easynet - yachtman - xbt - beugniot - vasouy - oblata - uillevin - mejirov - daguerréotypiste - delisa - ruland - sébastien-joseph - gphs-rtg - chourer - wiliam - continuiste - karkamánis - gałecki - souilhe - bibeault - critiquement - nouvellement - lalliance - gromard - fivethirtyeight - rentilly - chevassus - sorabji - enayat-seraj - marisy - sicob - effets-spéciaux - izrael - gugliotta - hfr - plassat - kinnick - gvb - virae - étévé Avec filtrage (f>=100) nouvellement - rauch - edson - fraichement - ridder - fraîchement - waddell - buckland - adamson - courvoisier - smits - lema - boe - eda - zacharias - rust - bateman - martyn - heyer - lanier - pipes - pugh - koehler - shuster - scientists - fisch - needham - hyman - straits - salter - ory - kow - keir - coproducteur - alzon - herd - tillie - perri - mast - matches - kling - cypher - giamatti - roché - theron - biggs - loudon - smet - edmundo - berenson M. Wauquier (CLLE) RJC 2018 16 mai 2018 18 / 21
  • 33. Voisins du vecteur moyen lexicalisé en -euse/rice Wikipédia herzigova - coiffeuse - venhard - naymark - manucure - vericel - sorokina - trulle - cover-girl - gitane - séménoff - chammah - comédienne - estragnat - yma - stroyberg - réju - tallier - soubrette - alycia - montalant - minouche - dartonne - ménine - metmer - rembauville - jitka - catzéflis - prepon - denarnaud - marie-olivier - tainsy - cuisinière - chauffeuse - anicée - serveuse - stripteaseuse - kajmak - laury - ballerine - barmaid - lunchlady - pierens -laparé - servantie - mammamia - stresi - irma - elfride - vendell LM10 duègne - rousse - jolie - gitane - pulpeux - vamp - ravissant - bacchante - chatte - diablesse - boulotte - mignonne - allumeuse - madone - rockeuse - danseuse - parisienne - nymphomane - débutante - brune - mégère - lhamo - almée - ingénue - soubrette - véro - blonde - mamelue - pimbêche - adorable - femme-objet - femme-oiseau - garce - pétulant - servante-maîtresse - servante - dévergond - antillaise - trémière - courtisane - arnaqueuse - donzelle - nastassia - diva - guenon - chasseresse - junon - demi-mondaine - rieuse - belle-de-nuit M. Wauquier (CLLE) RJC 2018 16 mai 2018 19 / 21
  • 34. Voisins du vecteur moyen lexicalisé en -eur (Wiki, 300 dim) Wikipédia sèche-cheveux - soudeur - ampèremètre - réparateur - armurier - installa- teur - plombier - conducteur - télérupteur - mélangeur - grappin - ramasse- miettes - client - prestidigitateur - contacteur - extincteur - ventilateur - machiniste - mécano - laborantin - manomètre - accéléromètre - minuteur - déménageur - mécanicien - microphone - vendeur - projectionniste - dé- bogueur - contremaître - allumeur - nettoyeur - wattmètre - manipulateur - anti-cheat - treuil - coursier - opticien - électroaimant - bottier - commu- nicateur - dérailleur - transmetteur - peson - traceur - receleur - serveur - interrupteur - paratonnerre - sécateur LM10 bricoleur - alchimiste - ludion - magicien - manipulateur - baroudeur - com- parse - nounours - garnement - barman - garagiste - affabulateur - voyou - collectionneur - fripon - fêtard - aventurier - matou - filou - braconnier - galopin - toqué - roublard - musicien - prestidigitateur - ferrailleur - auto- mate - escroc - lutin - coursier - garçon - satyre - cambrioleur - jongleur - loubard - moustachu - cinglé - imitateur - artiste - malfrat - mixeur - for- geron - cuisinier - tâcheron - rouquin - imprésario - acolyte - businessman - squale - râleur M. Wauquier (CLLE) RJC 2018 16 mai 2018 20 / 21
  • 35. Voisins des vecteurs moyens lexicalisés en -eur et -euse pour Wiki avec fastText Utilisation de l’outil fastText (Bojanowski et al., 2016) dans les mêmes conditions que Word2Vec (n-grammes : 3 à 6) -eur prosateur - délateur - brumisateur – bouteur - remplisseur - mateur - surpresseur - amodiateur - prompteur - pourvoyeur - appariteur - filateur - suiveur - brouilleur - dénicheur - conditionneur - couppier - pitancier - jouteur - licteur - rebouilleur - récupérateur - entendeur - décaladeur - passoire - souteneur - compensateur - em- ballement - coutant - gravleur - congélateur - mancier - traiteur - prestidigitateur - écouteur - collimateur - fouisseur - coupier - débugant - soudeur - anticipateur - porteur - approbateur - tricheur - travaillant - convertisseur - affabulateur - gainier-doreur - moncheur - prouveur -euse rouilleuse – jillette – suiveuse – ravisseuse – séryeuse – repasseuse – pouilleuse – meurette – entremetteuse – dragueuse – collette – chouquette – souffleuse – mallette – michetonneuse – plantureuse – ratelle – euse – peureuse – savonnette – pouponnière – barbygère – bouette – marlette – marionnette – amourette – laffineuse – trompinette – serinette – adrienne-choquette – chanelle – bouffant – balle-molle – minette – doublouline – verseuse – mouillette – chaumelle – gamiette – lègère – globe-trotteuse – loulette – billaine – débroussailleuse – bichette – allumeuse – vendinelle – courtilière – charpier - yette M. Wauquier (CLLE) RJC 2018 16 mai 2018 21 / 21