Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Context2vec: Learning generic context embedding with bidirectional LSTM
1. Auteurs :
o Oren Melamud
o Jacob Golberger
o Ido Daga
Présentée par :
Hwerbi Khouloud
Context2vec:
Learning Generic Context Embedding with
Bidirectional LSTM
Faculté des Sciences Mathématiques,
Physiques et Naturelles de Tunis
Module Recherche d’Information
2019/2020
3. Contexte (1)
Les représentations contextuelles sont au cœur de diverses tâches de PNL,
telles que
La désambiguïsation du sens des mots,
La reconnaissance d'entités nommées,
La résolution de coréférence …
L’intégration de mots génériques capture des informations sémantiques et
syntaxiques sur des mots individuels dans une représentation compacte de
faible dimension.
Pour faire des inférences d’une instance concrète de mot cible, de bonnes
représentations à la fois du mot cible et du contexte donné sont utiles.
Dans la phrase «I can’t find [avril]», il faut considérer à la fois le mot
cible[April] et son contexte «I can’t find []» pour déduire que April fait
probablement référence à une personne.
4. Contexte (2)
Une avancée majeure dans ce domaine a été l'introduction de word2vec
(Mikolov 2013) et GloVe (Pennington 2014), pour l'apprentissage des
intégrations de mots génériques à partir de très grands corpus.
La capture d'informations à partir de ces corpus a considérablement accru la
valeur des intégrations de mots pour les tâches de PNL non supervisées et
semi-supervisées.
Plus récemment, des réseaux de neurones récurrents bidirectionnels, et en
particulier des Bi-LSTM, ont été utilisés dans ces tâches pour apprendre les
représentations internes de contextes sententiels plus larges (Zhou et Xu,
2015; Lample2016).
5. État de l’art
• Représente le contexte comme une distribution
probabiliste sur les mots potentiels de remplissage de
l'espace pour l'emplacement cible, élagués à ses k mots
les plus probables.
• Bien que l'utilisation de cette représentation ait montré un
potentiel intéressant, elle est limitée aux contextes de
taille fixe.
Vecteurs de
substitution
(Yuret, 2012)
• Cette approche dépende de la disponibilité d'un
analyseur de dépendance de haute qualité.
• Elle peut être considérés comme un sac de dépendance
plutôt qu’une représentation unique pour l'ensemble du
contexte.
Dépendane
syntaxique
(Levy et Goldberg
2014a;
Bansal 2014)
6. État de l’art
• Quelques travaux ont étendu word2vec en remplaçant sa
représentation du contexte interne.
• La 1er version est utilisé pour trouver les caractéristiques
pertinentes dans une fenêtre contextuelle.
• La 2éme propose une fenêtre continue, qui est une simple
projection linéaire des plongements du contexte dans un
vecteur de faible dimension.
CBOW with
attention
(Ling 2015a)
Continuous
Window
(Ling 2015b)
• Représente les mots à l'aide des Bi-LSTM et d'une
supervision multilingue.
Kawakami et
Dyer (2016)
• Les travaux qui se repose sur l'utilisation de réseaux de
neurones récurrents pour représenter des séquences de
mots.
Phrases or
Sentences
(Socher 2011;
Kiros 2015).
7. Contexte
Les approches non supervisé
Sont jugées utiles pour les tâches :
• Mesurer la similitude contextuelle
• Désambiguïsation du sens des
mots
• L’induction du sens des mots
• La substitution lexicale
• L'achèvement de la phrase
Les approches supervisé
Sont jugées utiles pour les tâches :
• le découpage
• La reconnaissance d'entités
nommées
• l'étiquetage des rôles sémantiques
• la résolution de coréférence
8. Contexte
Comment optimiser la représentation des
mots génériques ?
Apprendre une fonction générique indépendante
des tâches pour les contextes de longueurs
variables.
Contexte2vec
9. Approche proposée : context2vec
C’est un modèle non supervisés et une boîte à outils pour l'apprentissage
efficace de l'intégration de contexte larges.
Pour ce faire, les auteurs ont proposé une architecture de réseau de
neurones, qui est basée sur l'architecture CBOW de word2vec, mais ils ont
remplacé la modélisation de contexte naïf de la création de mots moyenne
dans une fenêtre fixe, par un neurone beaucoup plus puissant, en utilisant le
Bi-LSTM.
context2vec
word2vec
Bi LSTM
12. Discussion
• Contrairement à word2vec et aux modèles similaires de reproduction de mots
qui utilisent la modélisation du contexte principalement en interne et
considèrent les intégrations de mots cibles comme leur principal résultat,
l’objectif principal de context2vec est la représentation du contexte.
14. Spécification et analyse formelle
Soient :
lLS un LSTM lisant les mots de une phrase donnée de gauche à droite
rLS un LSTM lisant les mots de une phrase donnée de droite à gauche.
une phrase 𝑤1:𝑛
La représentation du contexte Bi-LSTM pour la cible 𝑤𝑖 est défini comme la
concaténation de vecteur suivante:
où l / r représente des intégrations distinctes de gauche à droite / de
droite à gauche des mots de phrase.
biLS (𝑤1:𝑛, i) = lLS (𝑙1:𝑖−1) ⊕ rLS (𝑟𝑖+1:𝑛)
15. Spécification et analyse formelles
Ensuite, nous appliquons la fonction non linéaire suivante sur la
concaténation des représentations contextuelles gauche et droite:
MLP (x) = 𝐿2 (ReLU (𝐿1 (x)))
• où MLP signifie Multi Layer Perceptron,
• ReLU la fonction d'activation Rectified Linear Unit,
• 𝐿𝑖 (x) = 𝑤𝑖x + 𝑏𝑖 est une opération linéaire.
Soit c = (𝑤1, ..., 𝑤𝑖−1, 𝑤𝑖+1, ..., 𝑤 𝑛) le contexte sententiel du mot en position i.
Nous définissons la représentation de c par text2vec comme:
𝑐 = MLP(biLS(𝑤1:𝑛 ; i))
16. Spécification et analyse formelles
Ensuite, ils désignent l'intégration d'un mot cible t comme 𝑡.
Pour apprendre les représentations de mots et de contextes cibles, ils
utilisent la fonction objective d'échantillonnage négatif word2vec suivante :
S= 𝑡,𝑐(𝑙𝑜𝑔𝜎 𝑡. 𝑐 + 𝑖=1
𝑘
𝑙𝑜𝑔𝜎(−𝑡𝑖. 𝑐))
où la sommation passe par chaque terme de t dans le corpus
d'apprentissage et de son contexte
𝜎 la fonction sigmoïde.
17. Spécification et analyse formelles
Levy et Goldberg (2014b) ont prouvé que si la fonction objectif est appliquée
à des contextes de mot unique, elle est optimisée lorsque:
𝑡. 𝑐= 𝑀𝑃𝐼 𝛼 𝑡, 𝑐 − log(𝑘)
où 𝑀𝑃𝐼 𝑡, 𝑐 = 𝑙𝑜𝑔
𝑝(𝑡,𝑐)
𝑝 𝛼 𝑡 𝑝(𝑐)
est l'information mutuelle ponctuelle entre le
mot cible t et le mot de contexte c.
Le facteur de lissage 𝛼, avec 0 ≤ 𝛼 < 1
Cette analyse peut être appliqué à notre cas, où le contexte n'est pas un seul
mot mais un contexte sententiel entier d'un mot cible.
18. Illustration du modèle :
Pour démontrer les qualités de l'espace
intégré apprises par context2vec, ils
illustrent trois types de métriques de
similitude dans cet espace :
cible à contexte (t2c),
contexte à contexte (c2c)
cible à cible (t2t).
Tout cela est mesuré par la valeur
du cosinus du vecteur entre les
représentations d'imbrication respectives.
Cette figure fournit une illustration 2D d'un
tel espace et des mesures respectives
19. Illustration du modèle : métrique (1)
Cible à contexte
Comme on peut le voir, la modélisation Bi-LSTM de context2vec
est en effet capable dans de capturer des dépendances à longue
distance, ainsi que de prendre en compte les deux côtés du contexte.
20. Illustration du modèle : métrique (1)
Cible à contexte
Nous notons qu'avec des valeurs plus grandes de 𝛼, il y aura plus de
chance pour placer les mots rares plus près de leurs contextes associés dans
cet espace.
21. Illustration du modèle : métrique (2)
Contexte à contexte :
La mesure de similitude d'AWE semble être influencée par la présence
des noms de lieux dans les contextes, même s'ils ont peu d'effet sur la
signification perçue dans les phrases.
Dans ce cas, la mesure de similarité de context2vec était robuste à ce
problème.
22. Illustration du modèle : métrique (3)
Cible à cible :
Comme on peut le voir, contexte2 avec semble mieux préserver la
fonction des mots cibles donnés, y compris une partie du discours et même
tendue. Context2vec considère les contextes entiers en tenant compte de l’ordre
et de la position des mots de contexte.
23. Relation avec les modèles linguistiques
• Notre modèle est étroitement lié aux modèles linguistiques :
1. En particulier, il a beaucoup en commun avec les modèles de langage
basés sur LSTM, car les deux entraînent des réseaux de neurones
dans le but de prédire les mots cibles en fonction de leur contexte
2. La principale différence est que les modèles de langue LSTM sont
principalement concernés par l'optimisation des prédictions des
probabilités conditionnelles pour les mots cibles compte tenu de leur
histoire, tandis que context2vec se concentre sur la dérivation de
représentations généralement utiles à l'ensemble des contextes
historiques et futurs des mots cibles.
• Les auteurs le cadre d'apprentissage de word2vec car il est connu pour
produire des représentations de haute qualité pour des mots simples.
25. Corpus d'apprentissage
À l'exception de la tâche d'achèvement de phrase, qui est fournie avec son
propre base d'apprentissage, ils ont utilisé les deux milliards de mots ukWaC
proposé par Ferraresi en 2008 comme base d'apprentissage.
Pour accélérer la formation de context2vec, ils ont supprimé toutes les
phrases de plus de 64 mots, réduisant ainsi la taille du corpus de 10%.
Ils ont mis tout le texte en minuscules et considéré tout jeton contenant moins
de 100 occurrences comme un mot inconnu.
Cela a donné un vocabulaire d'un peu plus de 180K mots pour le corpus
complet et 160K mots pour la version découpée.
26. Évaluation et Résultats
Pour démontrer les qualités de context2vec, les auteurs abordent les trois
types de tâches suivantes, par le simple moyen de mesurer les distances
cosinus entre les représentations intégrées.
1. Achèvement de la phrase
2. Substitution lexicale
3. Désambiguïsation du sens des mots
27. Évaluation et Résultats : ( Tâche 1 )
Achèvement de la phrase
Microsoft Sentence Completion Challenge (MSCC) comprend 1 040 éléments. Chaque
élément est une phrase avec un mot remplacé par un vide, et le défi consiste à
identifier le mot, parmi cinq choix, qui est le plus significatif et cohérent.
Ils ont utilisé les 520 premières phrases pour le réglage des paramètres et le reste
comme jeu de test. Pour utiliser ce corpus pour la formation des modèles,
d'abord
• ils ont éliminé toutes les phrases de plus de 128 mots,
ce qui a entraîné une réduction négligeable de 1% de la
taille du corpus.
Ensuite,
• ils ont converti tout le texte en minuscules et
considéré tous les mots de fréquence inférieure à 3
comme inconnus, produisant un vocabulaire d'environ
100 000 types de mots.
Enfin,
• pour combler l'écart, ils choisissent simplement
le mot dont l'intégration est la plus similaire à
l'intégration du contexte donné en utilisant la
métrique de similitude cible-contexte.
28. Évaluation et Résultats : ( Tâche 2 )
Substitution lexicale
La tâche de substitution lexicale nécessite de trouver un mot de substitution
pour un mot cible donné dans un contexte.
La différence entre cela et la tâche d'achèvement de la phrase est que le mot
de substitution doit non seulement être cohérent avec le contexte, mais aussi
préserver le sens du mot d'origine dans ce contexte.
Les performances de cette tâche sont signalées avec une précision moyenne
généralisée (GAP).
29. Évaluation et Résultats : ( Tâche 2 )
Il ont utilisé deux ensembles de données de substitution lexicale dans
les expériences:
1. Le premier est l'ensemble de données introduit dans la tâche de substitution
lexicale de SemEval 2007 (Mc-Carthy et Navigli, 2007), noté LST-07, divisé en
300 phrases dev et 1710 phrases test.
2. Le second est un ensemble de données plus récent (Kremer, 2014), noté LST-
14, avec plus de 15 000 instances de mots cibles. Il est livré avec une répartition
prédéfinie de 35% / 65%.
Enfin ils ont utilisé le plus petit ensemble comme ensemble de
développement pour le réglage des paramètres et le plus grand
comme ensemble de test.
30. Évaluation et Résultats : ( Tâche 3 )
Désambiguïsation du sens des mots
Dans les tâches WSD supervisées, l'objectif est de déterminer le sens correct
des mots dans le contexte, sur la base d'un ensemble de formation étiqueté
manuellement.
Pour classer une instance de mot dans le contexte, ils considèrent toutes les
instances marquées du même lemme de mot dans l'ensemble
d'apprentissage, et trouvent l'instance dont l'intégration de contexte est la
plus similaire à l'intégration de contexte de l'instance de test à l'aide du
métrique de similitude contexte à contexte.
Ensuite, ils utilisent les sens marqués de cette instance. Il s'agit
essentiellement de la forme la plus simple d'un algorithme k-plus proche
voisin, avec k = 1.
En tant que jeu de données WSD supervisé, nous avons utilisé le jeu de
données échantillon lexical Senseval-3 (Mihalcea, 2004), noté SE-3, qui
comprend 7 860 trains et 3 944 instances de test.
31. Les hyper paramètres utilisés dans les
expériences
rapportées avec context2vec sont résumés
dans ce tableau.
Dans les expériences de développement
préliminaires, ils n'ont utilisé que 200 unités
pour représenter les contextes, puis ils ont
constaté une amélioration significative des
résultats lors du passage à 600 unités.
L'augmentation de la taille de la
représentation à 1 000 unités ne semble
pas améliorer davantage les résultats.
32. Pour explorer l'effet de biais de mots rares du facteur de lissage α du
vocabulaire, ils ont varié sa valeur dans nos expériences de développement.
Les résultats apparaissent dans le tableau
iters+ désigne le meilleur modèle trouvé lors de l'exécution de plusieurs
itérations de formation avec α = 0.75.
AWE config: W5/sent denotes using a 5-word-window/
full-sentence,
and stop/tf-idf denotes ignoring stop words or using tf-idf weights,
respectively.
33. Conclusion et perspective
Context2vec est un modèle neuronal qui apprend une fonction
générique d'intégration pour les contextes de longueur variable des
mots cibles.
context2vec surpasse ou atteint presque les résultats de pointe en
matière de complétion de phrases, de substitution lexicale et de
désambiguïsation des mots.
Bien qu'il puisse être étendu, context2vec n'est pas conçu pour tirer
parti d'un contexte très large, il ignore donc tout contexte en dehors
de la phrase du mot cible.
La direction future des auteurs est l’intégration des informations
basées sur les dépendances dans le modèle proposé.