Les récentes avancées dans le domaine du traitement du langage ont permis de repousser la qualité des applications présentes dans notre quotidien : traduction, analyse de sentiments, reconnaissance vocale, dialogue homme-machine (Chatbots). Camille nous invite à comprendre une structure de représentation du langage assez puissante : les word embeddings. Cela consiste à représenter le sens des mots dans un espace vectoriel continu présentant des propriétés remarquables ; on peut par exemple déterminer des analogies entre les mots : reine = roi – home + femme.
2. Plan
• Représentations symboliques du sens des mots
• Représentations vectorielles basées sur la similarité distributionnelle
• Co-occurences et réduction de dimensions
• Réseaux de neurones
• Propriétés remarquables
• Applications
3. Représentations symboliques du sens des mots
• WordNet : 117 659 synsets (synonym set), un groupe de mots
interchangeables, dénotant un sens ou un usage particulier
1. car, auto, automobile, machine, motorcar -- (4-wheeled motor vehicle;
usually propelled by an internal combustion engine; he needs a car to get to
work)
2. car, railcar, railway car, railroad car -- (a wheeled vehicle adapted to the
rails of railroad; three cars had jumped the rails)
3. car, gondola -- (car suspended from an airship and carrying personnel and
cargo and power plant)
4. car, elevator car -- (where passengers ride up and down; the car was on the
top floor)
5. cable car, car -- (a conveyance for passengers or freight on a cable railway;
they took a cable car to the top of the mountain)
4. • Relations sémantiques entre les synsets
• Relations d'hyperonymie/hyponymie
car, auto, automobile, machine, motorcar
-> motor vehicle, automotive vehicle
-> vehicle
-> conveyance, transport
-> instrumentality, instrumentation
-> artifact, artefact
-> object, physical object
-> entity, something
Représentations symboliques du sens des mots
5. • Relations sémantiques entre les synsets
• Relation de méronymie/holonymie
car, auto, automobile, machine, motorcar
HAS PART: accelerator, accelerator pedal, gas pedal, gas, throttle, gun
HAS PART: air bag
HAS PART: auto accessory
HAS PART: automobile engine
HAS PART: automobile horn, car horn, motor horn, horn
Représentations symboliques du sens des mots
6. • Limites
• Manque de nuances
Adept = expert = good = practiced = proficient = skillful
• Pas à jour
wicked, badass, nifty, crack, ace, wizard, genius, ninjia
• Subjective
• Chère à construire
• Compromis couverture VS exhaustivité
• Difficile de déduire une mesure de similarité entre les mots
Représentations symboliques du sens des mots
7. Représentations basées sur la similarité
distributionnelle
Hypothèse distributionnelle: les mots qui apparaissent
dans des contextes similaires ont tendance à être similaires.
Le chat s’allonge sur le paillasson.
Le chaton s’allonge sur le paillasson.
Le chien s’allonge sur le paillasson.
Mon chat m’a griffé.
Mon chaton m’a griffé.
garantie pour conclure un prêt avec une autre banque, dans un autre pays. "Le blanchisseur
centrale européenne perdra sa crédibilité. Cette banque centrale, enfin, sera contrainte de serrer
des emprunts en marks. Voici que cette banque fait maintenant ouvertement part de sa
Philosophical Investigation
Wittgenstein, L
1953
Sur le plan thématique:
Sur le plan sémantique:
8. Matrices de co-occurrences
I like deep learning
I like NLP
I enjoy flying
• Limites:
• Augmente en taille avec le vocabulaire
• Consomme de l’espace de stockage
• Vecteurs creux -> modèles peu robustes
9. Réduction de dimensions
• Enregistrer les informations les plus importantes dans un nombre
réduit de dimensions (en général entre 25 et 1000)
• Analyse en composante principale (PCA)
• Décomposition en valeur singulière (SVD)
• …
10. Réseaux de neurones
• SVD
• Complexité quadratique -> passage à l’échelle compliqué
• Difficile de prendre en compte de nouveaux documents
apprendre directement des vecteurs de mots de dimension réduite
• Learning representations by back-propagating errors (Rumelhart et al., 1986)
• A neural probabilistic language model (Bengio et al., 2003)
• NLP (almost) from Scratch (Collobert & Weston, 2008)
• word2vec (Mikolov et al. 2013)
11. Réseaux de neurones
• Utilisation d’un réseau de neurones pour apprendre une tâche fictive
• Prédire le contexte d’un mot
• Prédire un mot en fonction de son contexte
Démo: ronxin.github.io/wevi/
Efficient estimation of word
representations in vector space
Mikolov, T., Chen, K.,
Corrado, G. & Dean, J.
2013
13. An improved model of
semantic similarity based
on lexical co-occurrence
Rohde, D. L., Gonnerman,
L. M., and Plaut, D. C.
2006
Emergence de motifs
syntaxiques
Propriétés remarquables
14. An improved model of
semantic similarity based
on lexical co-occurrence
Rohde, D. L., Gonnerman,
L. M., and Plaut, D. C.
2006
Emergence de motifs
sémantiques
Propriétés remarquables
15. Propriétés remarquables
• Relations linéaires
• Analogies syntaxiques
apple − apples ≈ car − cars ≈ family − families
• Analogies sémantiques
shirt − clothing ≈ chair − furniture
king − man ≈ queen − woman
Efficient estimation of word representations in vector space
Mikolov, T., Chen, K., Corrado, G., & Dean, J.
2013
16. GloVe: Global Vectors for
Word Representation
Jeffrey Pennington,
Richard Socher, and
Christopher D. Manning.
2014
Capture du genre
Propriétés remarquables
17. GloVe: Global Vectors for
Word Representation
Jeffrey Pennington,
Richard Socher, and
Christopher D. Manning.
2014
Superlatifs
Propriétés remarquables
18. GloVe: Global Vectors for
Word Representation
Jeffrey Pennington,
Richard Socher, and
Christopher D. Manning.
2014
Compagnie - CEO
Propriétés remarquables
20. Applications
• Identifier l’intrus dans une liste
https://github.com/dhammack/Word2VecExample
math shopping reading science
eight six seven five three owe nine
breakfast cereal dinner lunch
england spain france italy greece germany portugal australia
21. Applications
• Dice utilise des modèles de vecteurs de mots pour
rapprocher des mots-clés liés
• Analytics -> Business Intelligence
Implementing Conceptual Search in Solr using LSA and
Word2Vec - Simon Hughes
http://fr.slideshare.net/lucidworks/implementing-conceptual-
search-in-solr-using-lsa-and-word2vec-presented-by-simon-
hughes-dicecom
22. Applications
A Word is Worth a Thousand Vectors - Chris Moody
http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-
worth-a-thousand-vectors/
ITEM_3469
pregnant
ITEM_3469 ITEM_3469 ITEM_3469
23. Applications
• Embeddings à plus grande échelle
• Traduction statistique
• Robots conversationnels
• Description d’image
et de vidéos
https://vimeo.com/146492001
24. Sources "pédagogiques"
• CS224d: Deep Learning for Natural Language Processing - Richard Socher
• http://cs224d.stanford.edu/syllabus.html
• https://www.youtube.com/watch?v=T8tQZChniMk (Lecture 2)
• word2vec parameter learning explained - Xin Rong
• http://arxiv.org/abs/1411.2738
• Grounding distributional semantics in the visual world - Marco Baroni
• http://clic.cimec.unitn.it/marco/publications/lectures/marco-grounding-ds-vl-2015.pdf
• Understanding Dimensionality Reduction- Principal Component Analysis And Singular Value
Decomposition - Priya Rana
• http://hpc-asia.com/understanding-dimensionality-reduction-principal-component-analysis-and-singular-
value-decomposition/
• A Beginner’s Guide to word2vec AKA What’s the Opposite of Canada? - Will Critchlow
• https://www.distilled.net/resources/a-beginners-guide-to-word2vec-aka-whats-the-opposite-of-canada/
• Page Wikipedia sur WordNet
• https://fr.wikipedia.org/wiki/WordNet