2. BIO
Enseignant-chercheur
Fouille de données
Université de Lyon , IUT Lumière & Laboratoire ERIC
Doctorat
Diffusion de l’information dans les médias sociaux : modélisation et analyse
Université Lumière Lyon 2
Master
Fouille de données
École Polytechnique de l’Université de Nantes
Licence
Informatique, mathématiques et application à l'économie
Université de La Rochelle
3. “Words that occur in the same
contexts tend to have similar
meanings.
- Zellig S. Harris, 1954
4. “You shall know a word by the
company it keeps.
- John Rupert Firth, 1957
5. 50 mots les plus populaires sur Wikipedia (fr) : fréquence vs.rang
➤ Mesurer les fréquences de co-occurrences entre mots dans un
grand corpus textuel (e.g. Wikipedia, Google News)
APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE
6. ➤ Mesurer les fréquences de co-occurrences entre mots dans un
grand corpus textuel (e.g. Wikipedia, Google News)
APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE
10 000 mots les plus populaires sur Wikipedia (fr) : fréquence vs.rang, échelle log-log
7. APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE
➤ Construire la matrice des co-occurrences entre mots
➤ Matrice symétrique, n par n (nombre de mots distincts)
➤ Un vecteur ligne = un mot
➤ Un vecteur colonne = un mot “contexte”
0
B
B
B
B
B
@
mot1 mot2 · · · motn
mot1 0 x12 . . . x1n
mot2 x21 0 . . . x2n
...
...
...
...
...
motn x1n xn2 . . . 0
1
C
C
C
C
C
A
8. APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE
➤ Le langage = un espace vectoriel
➤ Un mot = un vecteur
➤ Les mots sémantiquement proches sont proches dans l’espace
9. APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE
➤ Construire la matrice X des co-occurrences entre mots
➤ Matrice symétrique, n par n (nombre de mots distincts)
➤ Un mot = un vecteur ligne
➤ Transformer la matrice X
➤ X : grande dimension, creuse, colonnes corrélées
➤ W : faible dimension, dense
➤ Réduire la dimension de la matrice X
➤ Solution traditionnelle = SVD tronquée, i.e. ACP
➤ Solutions récentes plus efficaces
10. MÉTHODES POUR APPRENDRE DES REPRÉSENTATIONS DISTRIBUÉES DENSES
➤ GloVe: Global Vectors for Word Representation, J. Pennington
et al.
➤ Word2Vec: Distributed Representations of Words and Phrases
and their Compositionality, T. Mikolov et al.
11. GLOVEJ. Pennington, R. Socher, C. D. Manning
Glove: Global Vectors for Word Representation
EMNLP 2014, pp 1532-1543
12. GLOVE : INTUITION
➤ Encoder le sens des mots via des ratios de probabilités
Probabilité et
ratio
k = solide k = gaz k = eau k = aléatoire
P(k|glace)
probabilité
élevée
probabilité
faible
probabilité
élevée
probabilité
faible
P(k|vapeur)
probabilité
faible
probabilité
élevée
probabilité
élevée
probabilité
faible
P(k|glace)
P(k|vapeur)
ratio
important
ratio proche
de zéro
ratio proche
de 1
ratio proche
de 1
13. GLOVE : INTUITION
➤ Encoder le sens des mots via des ratios de probabilités
➤ Trouver la matrice W telle que
➤ Pour toute paire de mots
➤ Pour tout triplet de mots
➤ La différence entre les mots a et b est encodée par un ratio
de probabilités conditionnelles
wi · wj = log P(k = i|j)
wc · (wa wb) = log
P(k = c|a)
P(k = c|b)
14. GLOVE : FORMULATION
➤ Factoriser la matrice X
➤ Résoudre un problème d’optimisation
➤ Problème de type “moindres carrés pondérés”
➤ Introduction de biais
➤ Introduction d’une fonction de pondération
J =
nX
i=1
nX
j=1
f(Xij)(w>
i ˜wj + bi + ˜bj log(Xij))2
X ' W ⇥ fW
X 2 Nn⇥n
, W 2 Rn⇥d
, fW 2 Rd⇥n