Modéliser le langage

MODÉLISER LE LANGAGE
Adrien Guille
Université de Lyon

BIO
Enseignant-chercheur
Fouille de données
Université de Lyon , IUT Lumière & Laboratoire ERIC
Doctorat
Diﬀusion de l’information dans les médias sociaux : modélisation et analyse
Université Lumière Lyon 2
Master
Fouille de données
École Polytechnique de l’Université de Nantes
Licence
Informatique, mathématiques et application à l'économie
Université de La Rochelle

“Words that occur in the same
contexts tend to have similar
meanings.
- Zellig S. Harris, 1954

“You shall know a word by the
company it keeps.
- John Rupert Firth, 1957

50 mots les plus populaires sur Wikipedia (fr) : fréquence vs.rang
➤ Mesurer les fréquences de co-occurrences entre mots dans un
grand corpus textuel (e.g. Wikipedia, Google News)
APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE

➤ Mesurer les fréquences de co-occurrences entre mots dans un
grand corpus textuel (e.g. Wikipedia, Google News)
10 000 mots les plus populaires sur Wikipedia (fr) : fréquence vs.rang, échelle log-log

➤ Construire la matrice des co-occurrences entre mots
➤ Matrice symétrique, n par n (nombre de mots distincts)
➤ Un vecteur ligne = un mot
➤ Un vecteur colonne = un mot “contexte”
0
B
B
B
B
B
@
mot1 mot2 · · · motn
mot1 0 x12 . . . x1n
mot2 x21 0 . . . x2n
...
...
...
...
...
motn x1n xn2 . . . 0
1
C
C
C
C
C
A

➤ Le langage = un espace vectoriel
➤ Un mot = un vecteur
➤ Les mots sémantiquement proches sont proches dans l’espace

➤ Construire la matrice X des co-occurrences entre mots
➤ Matrice symétrique, n par n (nombre de mots distincts)
➤ Un mot = un vecteur ligne
➤ Transformer la matrice X
➤ X : grande dimension, creuse, colonnes corrélées
➤ W : faible dimension, dense
➤ Réduire la dimension de la matrice X
➤ Solution traditionnelle = SVD tronquée, i.e. ACP
➤ Solutions récentes plus eﬃcaces

MÉTHODES POUR APPRENDRE DES REPRÉSENTATIONS DISTRIBUÉES DENSES
➤ GloVe: Global Vectors for Word Representation, J. Pennington
et al.
➤ Word2Vec: Distributed Representations of Words and Phrases
and their Compositionality, T. Mikolov et al.

GLOVEJ. Pennington, R. Socher, C. D. Manning 
Glove: Global Vectors for Word Representation
EMNLP 2014, pp 1532-1543

GLOVE : INTUITION
➤ Encoder le sens des mots via des ratios de probabilités
Probabilité et
ratio
k = solide k = gaz k = eau k = aléatoire
P(k|glace)
probabilité
élevée
probabilité
faible
probabilité
élevée
probabilité
faible
P(k|vapeur)
probabilité
faible
probabilité
élevée
probabilité
élevée
probabilité
faible
P(k|glace)
P(k|vapeur)
ratio
important
ratio proche
de zéro
ratio proche
de 1
ratio proche
de 1

GLOVE : INTUITION
➤ Encoder le sens des mots via des ratios de probabilités
➤ Trouver la matrice W telle que
➤ Pour toute paire de mots
➤ Pour tout triplet de mots
➤ La diﬀérence entre les mots a et b est encodée par un ratio
de probabilités conditionnelles
wi · wj = log P(k = i|j)
wc · (wa wb) = log
P(k = c|a)
P(k = c|b)

GLOVE : FORMULATION
➤ Factoriser la matrice X
➤ Résoudre un problème d’optimisation
➤ Problème de type “moindres carrés pondérés”
➤ Introduction de biais
➤ Introduction d’une fonction de pondération
J =
nX
i=1
nX
j=1
f(Xij)(w>
i ˜wj + bi + ˜bj log(Xij))2
X ' W ⇥ fW
X 2 Nn⇥n
, W 2 Rn⇥d
, fW 2 Rd⇥n

MESURER LA SIMILARITÉ
SÉMANTIQUE
Comparer des vecteurs

MESURER LA SIMILARITÉ SÉMANTIQUE DE DEUX MOTS
➤ Similarité basée sur la distance euclidienne
Se(u, v) =
1
ku vk

MESURER LA SIMILARITÉ SÉMANTIQUE DE DEUX MOTS
➤ Similarité cosinus
Sc(u, v) =
u · v
kukkvk

INTERPRÉTER DES
ASSOCIATIONS
Sommer des vecteurs

INTERPRÉTATION D’UNE PAIRE DE MOTS
À quoi correspond l’association des mots “monnaie” et “tchèque” ?

Dans l’espace vectoriel : monnaie + tchèque = ?

Cette association désigne la Couronne, devise nationale de la République tchèque

DÉCOUVRIR DES RELATIONS
SÉMANTIQUES
Composer des vecteurs

RÉSOLUTION D’UNE ANALOGIE
L’homme est au roi, ce que la femme est à _______ ?

Dans l’espace vectoriel : roi - homme + femme = ?

Dans l’espace vectoriel : roi + (femme - homme) = ?

Dans l’espace vectoriel : roi + (femme - homme) = reine

L’homme est au roi, ce que la femme est à la reine

Dans l’espace vectoriel : reine - roi = femme - homme

Le modèle a capturé la notion de “genre”

TRADUIRE
AUTOMATIQUEMENT
Appliquer une rotation de matrice

Les vecteurs pour les chiffres 1, 2, 3, 4 et 5 en anglais
TRADUCTION MOT À MOT

Les vecteurs pour les chiffres 1, 2, 3, 4 et 5 en français, après rotation
TRADUCTION MOT À MOT

DÉCOUVRIR DES RELATIONS
GRAMMATICALES
Composer des vecteurs

IDENTIFICATION DES DEGRÉS DE COMPARAISON
Représentations vectorielles de “lent”, “plus lent”, “le plus lent” en anglais

Représentations vectorielles de “rapide”, “plus rapide”, “le plus rapide” en anglais

Le modèle a capturé les notions de “superlatif relatif” et de “superlatif absolu”

Modéliser le langage

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (12)

Modéliser le langage