SlideShare une entreprise Scribd logo
MODÉLISER LE LANGAGE
Adrien Guille
Université de Lyon
BIO
Enseignant-chercheur
Fouille de données
Université de Lyon , IUT Lumière & Laboratoire ERIC
Doctorat
Diffusion de l’information dans les médias sociaux : modélisation et analyse
Université Lumière Lyon 2
Master
Fouille de données
École Polytechnique de l’Université de Nantes
Licence
Informatique, mathématiques et application à l'économie
Université de La Rochelle
“Words that occur in the same
contexts tend to have similar
meanings.
- Zellig S. Harris, 1954
“You shall know a word by the
company it keeps.
- John Rupert Firth, 1957
50 mots les plus populaires sur Wikipedia (fr) : fréquence vs.rang
➤ Mesurer les fréquences de co-occurrences entre mots dans un
grand corpus textuel (e.g. Wikipedia, Google News)
APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE
➤ Mesurer les fréquences de co-occurrences entre mots dans un
grand corpus textuel (e.g. Wikipedia, Google News)
APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE
10 000 mots les plus populaires sur Wikipedia (fr) : fréquence vs.rang, échelle log-log
APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE
➤ Construire la matrice des co-occurrences entre mots
➤ Matrice symétrique, n par n (nombre de mots distincts)
➤ Un vecteur ligne = un mot
➤ Un vecteur colonne = un mot “contexte”
0
B
B
B
B
B
@
mot1 mot2 · · · motn
mot1 0 x12 . . . x1n
mot2 x21 0 . . . x2n
...
...
...
...
...
motn x1n xn2 . . . 0
1
C
C
C
C
C
A
APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE
➤ Le langage = un espace vectoriel
➤ Un mot = un vecteur
➤ Les mots sémantiquement proches sont proches dans l’espace
APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE
➤ Construire la matrice X des co-occurrences entre mots
➤ Matrice symétrique, n par n (nombre de mots distincts)
➤ Un mot = un vecteur ligne
➤ Transformer la matrice X
➤ X : grande dimension, creuse, colonnes corrélées
➤ W : faible dimension, dense
➤ Réduire la dimension de la matrice X
➤ Solution traditionnelle = SVD tronquée, i.e. ACP
➤ Solutions récentes plus efficaces
MÉTHODES POUR APPRENDRE DES REPRÉSENTATIONS DISTRIBUÉES DENSES
➤ GloVe: Global Vectors for Word Representation, J. Pennington
et al.
➤ Word2Vec: Distributed Representations of Words and Phrases
and their Compositionality, T. Mikolov et al.
GLOVEJ. Pennington, R. Socher, C. D. Manning

Glove: Global Vectors for Word Representation
EMNLP 2014, pp 1532-1543
GLOVE : INTUITION
➤ Encoder le sens des mots via des ratios de probabilités
Probabilité et
ratio
k = solide k = gaz k = eau k = aléatoire
P(k|glace)
probabilité
élevée
probabilité
faible
probabilité
élevée
probabilité
faible
P(k|vapeur)
probabilité
faible
probabilité
élevée
probabilité
élevée
probabilité
faible
P(k|glace)
P(k|vapeur)
ratio
important
ratio proche
de zéro
ratio proche
de 1
ratio proche
de 1
GLOVE : INTUITION
➤ Encoder le sens des mots via des ratios de probabilités
➤ Trouver la matrice W telle que
➤ Pour toute paire de mots
➤ Pour tout triplet de mots
➤ La différence entre les mots a et b est encodée par un ratio
de probabilités conditionnelles
wi · wj = log P(k = i|j)
wc · (wa wb) = log
P(k = c|a)
P(k = c|b)
GLOVE : FORMULATION
➤ Factoriser la matrice X
➤ Résoudre un problème d’optimisation
➤ Problème de type “moindres carrés pondérés”
➤ Introduction de biais
➤ Introduction d’une fonction de pondération
J =
nX
i=1
nX
j=1
f(Xij)(w>
i ˜wj + bi + ˜bj log(Xij))2
X ' W ⇥ fW
X 2 Nn⇥n
, W 2 Rn⇥d
, fW 2 Rd⇥n
MESURER LA SIMILARITÉ
SÉMANTIQUE
Comparer des vecteurs
MESURER LA SIMILARITÉ SÉMANTIQUE DE DEUX MOTS
➤ Similarité basée sur la distance euclidienne
Se(u, v) =
1
ku vk
MESURER LA SIMILARITÉ SÉMANTIQUE DE DEUX MOTS
➤ Similarité cosinus
Sc(u, v) =
u · v
kukkvk
INTERPRÉTER DES
ASSOCIATIONS
Sommer des vecteurs
INTERPRÉTATION D’UNE PAIRE DE MOTS
À quoi correspond l’association des mots “monnaie” et “tchèque” ?
INTERPRÉTATION D’UNE PAIRE DE MOTS
Dans l’espace vectoriel : monnaie + tchèque = ?
INTERPRÉTATION D’UNE PAIRE DE MOTS
Dans l’espace vectoriel : monnaie + tchèque = ?
INTERPRÉTATION D’UNE PAIRE DE MOTS
Cette association désigne la Couronne, devise nationale de la République tchèque
DÉCOUVRIR DES RELATIONS
SÉMANTIQUES
Composer des vecteurs
RÉSOLUTION D’UNE ANALOGIE
L’homme est au roi, ce que la femme est à _______ ?
Dans l’espace vectoriel : roi - homme + femme = ?
RÉSOLUTION D’UNE ANALOGIE
Dans l’espace vectoriel : roi + (femme - homme) = ?
RÉSOLUTION D’UNE ANALOGIE
Dans l’espace vectoriel : roi + (femme - homme) = ?
RÉSOLUTION D’UNE ANALOGIE
Dans l’espace vectoriel : roi + (femme - homme) = ?
RÉSOLUTION D’UNE ANALOGIE
Dans l’espace vectoriel : roi + (femme - homme) = ?
RÉSOLUTION D’UNE ANALOGIE
Dans l’espace vectoriel : roi + (femme - homme) = reine
RÉSOLUTION D’UNE ANALOGIE
L’homme est au roi, ce que la femme est à la reine
RÉSOLUTION D’UNE ANALOGIE
Dans l’espace vectoriel : reine - roi = femme - homme
RÉSOLUTION D’UNE ANALOGIE
Le modèle a capturé la notion de “genre”
RÉSOLUTION D’UNE ANALOGIE
TRADUIRE
AUTOMATIQUEMENT
Appliquer une rotation de matrice
Les vecteurs pour les chiffres 1, 2, 3, 4 et 5 en anglais
TRADUCTION MOT À MOT
Les vecteurs pour les chiffres 1, 2, 3, 4 et 5 en français, après rotation
TRADUCTION MOT À MOT
DÉCOUVRIR DES RELATIONS
GRAMMATICALES
Composer des vecteurs
IDENTIFICATION DES DEGRÉS DE COMPARAISON
Représentations vectorielles de “lent”, “plus lent”, “le plus lent” en anglais
IDENTIFICATION DES DEGRÉS DE COMPARAISON
Représentations vectorielles de “rapide”, “plus rapide”, “le plus rapide” en anglais
IDENTIFICATION DES DEGRÉS DE COMPARAISON
Le modèle a capturé les notions de “superlatif relatif” et de “superlatif absolu”

Contenu connexe

En vedette

Tailieu.vncty.com 21 lv-09_dhkh_toanud_pham van dung
Tailieu.vncty.com   21 lv-09_dhkh_toanud_pham van dungTailieu.vncty.com   21 lv-09_dhkh_toanud_pham van dung
Tailieu.vncty.com 21 lv-09_dhkh_toanud_pham van dung
Trần Đức Anh
 
Componentes internos yexternos del computador 701
Componentes internos yexternos del computador 701Componentes internos yexternos del computador 701
Componentes internos yexternos del computador 701
edgar sigindioy
 
Magicien hors du_commun
Magicien hors du_communMagicien hors du_commun
Magicien hors du_commun
Agostinho.Gouveia
 
TIK DAN MEDIA PEMBELAJARAN
TIK DAN MEDIA PEMBELAJARANTIK DAN MEDIA PEMBELAJARAN
TIK DAN MEDIA PEMBELAJARAN
ifafaiz
 
那些年的蘿拉與瑪莉歐:認識IP授權遊戲
那些年的蘿拉與瑪莉歐:認識IP授權遊戲那些年的蘿拉與瑪莉歐:認識IP授權遊戲
那些年的蘿拉與瑪莉歐:認識IP授權遊戲
智傑 楊
 
Catalogos promocionales
Catalogos promocionalesCatalogos promocionales
Catalogos promocionales
Distribuidorasolymar
 
SeSQL : un moteur de recherche en Python et PostgreSQL
SeSQL : un moteur de recherche en Python et PostgreSQLSeSQL : un moteur de recherche en Python et PostgreSQL
SeSQL : un moteur de recherche en Python et PostgreSQLParis, France
 
Réseaux neurons
Réseaux neuronsRéseaux neurons
Réseaux neurons
sadjida bellatreche
 

En vedette (12)

Tailieu.vncty.com 21 lv-09_dhkh_toanud_pham van dung
Tailieu.vncty.com   21 lv-09_dhkh_toanud_pham van dungTailieu.vncty.com   21 lv-09_dhkh_toanud_pham van dung
Tailieu.vncty.com 21 lv-09_dhkh_toanud_pham van dung
 
Attempt 2
Attempt 2Attempt 2
Attempt 2
 
Pátio madalena
Pátio madalenaPátio madalena
Pátio madalena
 
Componentes internos yexternos del computador 701
Componentes internos yexternos del computador 701Componentes internos yexternos del computador 701
Componentes internos yexternos del computador 701
 
Magicien hors du_commun
Magicien hors du_communMagicien hors du_commun
Magicien hors du_commun
 
TIK DAN MEDIA PEMBELAJARAN
TIK DAN MEDIA PEMBELAJARANTIK DAN MEDIA PEMBELAJARAN
TIK DAN MEDIA PEMBELAJARAN
 
HontiGergelyANXY5A
HontiGergelyANXY5AHontiGergelyANXY5A
HontiGergelyANXY5A
 
Ensayo
EnsayoEnsayo
Ensayo
 
那些年的蘿拉與瑪莉歐:認識IP授權遊戲
那些年的蘿拉與瑪莉歐:認識IP授權遊戲那些年的蘿拉與瑪莉歐:認識IP授權遊戲
那些年的蘿拉與瑪莉歐:認識IP授權遊戲
 
Catalogos promocionales
Catalogos promocionalesCatalogos promocionales
Catalogos promocionales
 
SeSQL : un moteur de recherche en Python et PostgreSQL
SeSQL : un moteur de recherche en Python et PostgreSQLSeSQL : un moteur de recherche en Python et PostgreSQL
SeSQL : un moteur de recherche en Python et PostgreSQL
 
Réseaux neurons
Réseaux neuronsRéseaux neurons
Réseaux neurons
 

Modéliser le langage

  • 1. MODÉLISER LE LANGAGE Adrien Guille Université de Lyon
  • 2. BIO Enseignant-chercheur Fouille de données Université de Lyon , IUT Lumière & Laboratoire ERIC Doctorat Diffusion de l’information dans les médias sociaux : modélisation et analyse Université Lumière Lyon 2 Master Fouille de données École Polytechnique de l’Université de Nantes Licence Informatique, mathématiques et application à l'économie Université de La Rochelle
  • 3. “Words that occur in the same contexts tend to have similar meanings. - Zellig S. Harris, 1954
  • 4. “You shall know a word by the company it keeps. - John Rupert Firth, 1957
  • 5. 50 mots les plus populaires sur Wikipedia (fr) : fréquence vs.rang ➤ Mesurer les fréquences de co-occurrences entre mots dans un grand corpus textuel (e.g. Wikipedia, Google News) APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE
  • 6. ➤ Mesurer les fréquences de co-occurrences entre mots dans un grand corpus textuel (e.g. Wikipedia, Google News) APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE 10 000 mots les plus populaires sur Wikipedia (fr) : fréquence vs.rang, échelle log-log
  • 7. APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE ➤ Construire la matrice des co-occurrences entre mots ➤ Matrice symétrique, n par n (nombre de mots distincts) ➤ Un vecteur ligne = un mot ➤ Un vecteur colonne = un mot “contexte” 0 B B B B B @ mot1 mot2 · · · motn mot1 0 x12 . . . x1n mot2 x21 0 . . . x2n ... ... ... ... ... motn x1n xn2 . . . 0 1 C C C C C A
  • 8. APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE ➤ Le langage = un espace vectoriel ➤ Un mot = un vecteur ➤ Les mots sémantiquement proches sont proches dans l’espace
  • 9. APPROCHE STATISTIQUE : SÉMANTIQUE DISTRIBUTIONNELLE ➤ Construire la matrice X des co-occurrences entre mots ➤ Matrice symétrique, n par n (nombre de mots distincts) ➤ Un mot = un vecteur ligne ➤ Transformer la matrice X ➤ X : grande dimension, creuse, colonnes corrélées ➤ W : faible dimension, dense ➤ Réduire la dimension de la matrice X ➤ Solution traditionnelle = SVD tronquée, i.e. ACP ➤ Solutions récentes plus efficaces
  • 10. MÉTHODES POUR APPRENDRE DES REPRÉSENTATIONS DISTRIBUÉES DENSES ➤ GloVe: Global Vectors for Word Representation, J. Pennington et al. ➤ Word2Vec: Distributed Representations of Words and Phrases and their Compositionality, T. Mikolov et al.
  • 11. GLOVEJ. Pennington, R. Socher, C. D. Manning
 Glove: Global Vectors for Word Representation EMNLP 2014, pp 1532-1543
  • 12. GLOVE : INTUITION ➤ Encoder le sens des mots via des ratios de probabilités Probabilité et ratio k = solide k = gaz k = eau k = aléatoire P(k|glace) probabilité élevée probabilité faible probabilité élevée probabilité faible P(k|vapeur) probabilité faible probabilité élevée probabilité élevée probabilité faible P(k|glace) P(k|vapeur) ratio important ratio proche de zéro ratio proche de 1 ratio proche de 1
  • 13. GLOVE : INTUITION ➤ Encoder le sens des mots via des ratios de probabilités ➤ Trouver la matrice W telle que ➤ Pour toute paire de mots ➤ Pour tout triplet de mots ➤ La différence entre les mots a et b est encodée par un ratio de probabilités conditionnelles wi · wj = log P(k = i|j) wc · (wa wb) = log P(k = c|a) P(k = c|b)
  • 14. GLOVE : FORMULATION ➤ Factoriser la matrice X ➤ Résoudre un problème d’optimisation ➤ Problème de type “moindres carrés pondérés” ➤ Introduction de biais ➤ Introduction d’une fonction de pondération J = nX i=1 nX j=1 f(Xij)(w> i ˜wj + bi + ˜bj log(Xij))2 X ' W ⇥ fW X 2 Nn⇥n , W 2 Rn⇥d , fW 2 Rd⇥n
  • 16. MESURER LA SIMILARITÉ SÉMANTIQUE DE DEUX MOTS ➤ Similarité basée sur la distance euclidienne Se(u, v) = 1 ku vk
  • 17. MESURER LA SIMILARITÉ SÉMANTIQUE DE DEUX MOTS ➤ Similarité cosinus Sc(u, v) = u · v kukkvk
  • 19. INTERPRÉTATION D’UNE PAIRE DE MOTS À quoi correspond l’association des mots “monnaie” et “tchèque” ?
  • 20. INTERPRÉTATION D’UNE PAIRE DE MOTS Dans l’espace vectoriel : monnaie + tchèque = ?
  • 21. INTERPRÉTATION D’UNE PAIRE DE MOTS Dans l’espace vectoriel : monnaie + tchèque = ?
  • 22. INTERPRÉTATION D’UNE PAIRE DE MOTS Cette association désigne la Couronne, devise nationale de la République tchèque
  • 24. RÉSOLUTION D’UNE ANALOGIE L’homme est au roi, ce que la femme est à _______ ?
  • 25. Dans l’espace vectoriel : roi - homme + femme = ? RÉSOLUTION D’UNE ANALOGIE
  • 26. Dans l’espace vectoriel : roi + (femme - homme) = ? RÉSOLUTION D’UNE ANALOGIE
  • 27. Dans l’espace vectoriel : roi + (femme - homme) = ? RÉSOLUTION D’UNE ANALOGIE
  • 28. Dans l’espace vectoriel : roi + (femme - homme) = ? RÉSOLUTION D’UNE ANALOGIE
  • 29. Dans l’espace vectoriel : roi + (femme - homme) = ? RÉSOLUTION D’UNE ANALOGIE
  • 30. Dans l’espace vectoriel : roi + (femme - homme) = reine RÉSOLUTION D’UNE ANALOGIE
  • 31. L’homme est au roi, ce que la femme est à la reine RÉSOLUTION D’UNE ANALOGIE
  • 32. Dans l’espace vectoriel : reine - roi = femme - homme RÉSOLUTION D’UNE ANALOGIE
  • 33. Le modèle a capturé la notion de “genre” RÉSOLUTION D’UNE ANALOGIE
  • 35. Les vecteurs pour les chiffres 1, 2, 3, 4 et 5 en anglais TRADUCTION MOT À MOT
  • 36. Les vecteurs pour les chiffres 1, 2, 3, 4 et 5 en français, après rotation TRADUCTION MOT À MOT
  • 38. IDENTIFICATION DES DEGRÉS DE COMPARAISON Représentations vectorielles de “lent”, “plus lent”, “le plus lent” en anglais
  • 39. IDENTIFICATION DES DEGRÉS DE COMPARAISON Représentations vectorielles de “rapide”, “plus rapide”, “le plus rapide” en anglais
  • 40. IDENTIFICATION DES DEGRÉS DE COMPARAISON Le modèle a capturé les notions de “superlatif relatif” et de “superlatif absolu”