SlideShare une entreprise Scribd logo
1  sur  34
Auteurs :
o Oren Melamud
o Jacob Golberger
o Ido Daga
Présentée par :
Hwerbi Khouloud
Context2vec:
Learning Generic Context Embedding with
Bidirectional LSTM
Faculté des Sciences Mathématiques,
Physiques et Naturelles de Tunis
Module Recherche d’Information
2019/2020
Plan de présentation
Contexte
État de l’art
Approche proposée
Évaluation et Résultats
Conclusion et Perspective
Contexte (1)
 Les représentations contextuelles sont au cœur de diverses tâches de PNL,
telles que
 La désambiguïsation du sens des mots,
 La reconnaissance d'entités nommées,
 La résolution de coréférence …
 L’intégration de mots génériques capture des informations sémantiques et
syntaxiques sur des mots individuels dans une représentation compacte de
faible dimension.
 Pour faire des inférences d’une instance concrète de mot cible, de bonnes
représentations à la fois du mot cible et du contexte donné sont utiles.
Dans la phrase «I can’t find [avril]», il faut considérer à la fois le mot
cible[April] et son contexte «I can’t find []» pour déduire que April fait
probablement référence à une personne.
Contexte (2)
 Une avancée majeure dans ce domaine a été l'introduction de word2vec
(Mikolov 2013) et GloVe (Pennington 2014), pour l'apprentissage des
intégrations de mots génériques à partir de très grands corpus.
 La capture d'informations à partir de ces corpus a considérablement accru la
valeur des intégrations de mots pour les tâches de PNL non supervisées et
semi-supervisées.
 Plus récemment, des réseaux de neurones récurrents bidirectionnels, et en
particulier des Bi-LSTM, ont été utilisés dans ces tâches pour apprendre les
représentations internes de contextes sententiels plus larges (Zhou et Xu,
2015; Lample2016).
État de l’art
• Représente le contexte comme une distribution
probabiliste sur les mots potentiels de remplissage de
l'espace pour l'emplacement cible, élagués à ses k mots
les plus probables.
• Bien que l'utilisation de cette représentation ait montré un
potentiel intéressant, elle est limitée aux contextes de
taille fixe.
Vecteurs de
substitution
(Yuret, 2012)
• Cette approche dépende de la disponibilité d'un
analyseur de dépendance de haute qualité.
• Elle peut être considérés comme un sac de dépendance
plutôt qu’une représentation unique pour l'ensemble du
contexte.
Dépendane
syntaxique
(Levy et Goldberg
2014a;
Bansal 2014)
État de l’art
• Quelques travaux ont étendu word2vec en remplaçant sa
représentation du contexte interne.
• La 1er version est utilisé pour trouver les caractéristiques
pertinentes dans une fenêtre contextuelle.
• La 2éme propose une fenêtre continue, qui est une simple
projection linéaire des plongements du contexte dans un
vecteur de faible dimension.
CBOW with
attention
(Ling 2015a)
Continuous
Window
(Ling 2015b)
• Représente les mots à l'aide des Bi-LSTM et d'une
supervision multilingue.
Kawakami et
Dyer (2016)
• Les travaux qui se repose sur l'utilisation de réseaux de
neurones récurrents pour représenter des séquences de
mots.
Phrases or
Sentences
(Socher 2011;
Kiros 2015).
Contexte
Les approches non supervisé
Sont jugées utiles pour les tâches :
• Mesurer la similitude contextuelle
• Désambiguïsation du sens des
mots
• L’induction du sens des mots
• La substitution lexicale
• L'achèvement de la phrase
Les approches supervisé
Sont jugées utiles pour les tâches :
• le découpage
• La reconnaissance d'entités
nommées
• l'étiquetage des rôles sémantiques
• la résolution de coréférence
Contexte
Comment optimiser la représentation des
mots génériques ?
Apprendre une fonction générique indépendante
des tâches pour les contextes de longueurs
variables.
Contexte2vec
Approche proposée : context2vec
C’est un modèle non supervisés et une boîte à outils pour l'apprentissage
efficace de l'intégration de contexte larges.
Pour ce faire, les auteurs ont proposé une architecture de réseau de
neurones, qui est basée sur l'architecture CBOW de word2vec, mais ils ont
remplacé la modélisation de contexte naïf de la création de mots moyenne
dans une fenêtre fixe, par un neurone beaucoup plus puissant, en utilisant le
Bi-LSTM.
context2vec
word2vec
Bi LSTM
word2vec CBOW
Context2vec
Discussion
• Contrairement à word2vec et aux modèles similaires de reproduction de mots
qui utilisent la modélisation du contexte principalement en interne et
considèrent les intégrations de mots cibles comme leur principal résultat,
l’objectif principal de context2vec est la représentation du contexte.
SPÉCIFICATION ET ANALYSE
FORMELLES
Spécification et analyse formelle
 Soient :
 lLS un LSTM lisant les mots de une phrase donnée de gauche à droite
 rLS un LSTM lisant les mots de une phrase donnée de droite à gauche.
 une phrase 𝑤1:𝑛
 La représentation du contexte Bi-LSTM pour la cible 𝑤𝑖 est défini comme la
concaténation de vecteur suivante:
 où l / r représente des intégrations distinctes de gauche à droite / de
droite à gauche des mots de phrase.
biLS (𝑤1:𝑛, i) = lLS (𝑙1:𝑖−1) ⊕ rLS (𝑟𝑖+1:𝑛)
Spécification et analyse formelles
 Ensuite, nous appliquons la fonction non linéaire suivante sur la
concaténation des représentations contextuelles gauche et droite:
MLP (x) = 𝐿2 (ReLU (𝐿1 (x)))
• où MLP signifie Multi Layer Perceptron,
• ReLU la fonction d'activation Rectified Linear Unit,
• 𝐿𝑖 (x) = 𝑤𝑖x + 𝑏𝑖 est une opération linéaire.
 Soit c = (𝑤1, ..., 𝑤𝑖−1, 𝑤𝑖+1, ..., 𝑤 𝑛) le contexte sententiel du mot en position i.
Nous définissons la représentation de c par text2vec comme:
𝑐 = MLP(biLS(𝑤1:𝑛 ; i))
Spécification et analyse formelles
 Ensuite, ils désignent l'intégration d'un mot cible t comme 𝑡.
 Pour apprendre les représentations de mots et de contextes cibles, ils
utilisent la fonction objective d'échantillonnage négatif word2vec suivante :
S= 𝑡,𝑐(𝑙𝑜𝑔𝜎 𝑡. 𝑐 + 𝑖=1
𝑘
𝑙𝑜𝑔𝜎(−𝑡𝑖. 𝑐))
 où la sommation passe par chaque terme de t dans le corpus
d'apprentissage et de son contexte
 𝜎 la fonction sigmoïde.
Spécification et analyse formelles
 Levy et Goldberg (2014b) ont prouvé que si la fonction objectif est appliquée
à des contextes de mot unique, elle est optimisée lorsque:
𝑡. 𝑐= 𝑀𝑃𝐼 𝛼 𝑡, 𝑐 − log(𝑘)
 où 𝑀𝑃𝐼 𝑡, 𝑐 = 𝑙𝑜𝑔
𝑝(𝑡,𝑐)
𝑝 𝛼 𝑡 𝑝(𝑐)
est l'information mutuelle ponctuelle entre le
mot cible t et le mot de contexte c.
 Le facteur de lissage 𝛼, avec 0 ≤ 𝛼 < 1
 Cette analyse peut être appliqué à notre cas, où le contexte n'est pas un seul
mot mais un contexte sententiel entier d'un mot cible.
Illustration du modèle :
 Pour démontrer les qualités de l'espace
intégré apprises par context2vec, ils
illustrent trois types de métriques de
similitude dans cet espace :
cible à contexte (t2c),
contexte à contexte (c2c)
cible à cible (t2t).
Tout cela est mesuré par la valeur
du cosinus du vecteur entre les
représentations d'imbrication respectives.
Cette figure fournit une illustration 2D d'un
tel espace et des mesures respectives
Illustration du modèle : métrique (1)
Cible à contexte
Comme on peut le voir, la modélisation Bi-LSTM de context2vec
est en effet capable dans de capturer des dépendances à longue
distance, ainsi que de prendre en compte les deux côtés du contexte.
Illustration du modèle : métrique (1)
Cible à contexte
Nous notons qu'avec des valeurs plus grandes de 𝛼, il y aura plus de
chance pour placer les mots rares plus près de leurs contextes associés dans
cet espace.
Illustration du modèle : métrique (2)
Contexte à contexte :
La mesure de similitude d'AWE semble être influencée par la présence
des noms de lieux dans les contextes, même s'ils ont peu d'effet sur la
signification perçue dans les phrases.
Dans ce cas, la mesure de similarité de context2vec était robuste à ce
problème.
Illustration du modèle : métrique (3)
Cible à cible :
Comme on peut le voir, contexte2 avec semble mieux préserver la
fonction des mots cibles donnés, y compris une partie du discours et même
tendue. Context2vec considère les contextes entiers en tenant compte de l’ordre
et de la position des mots de contexte.
Relation avec les modèles linguistiques
• Notre modèle est étroitement lié aux modèles linguistiques :
1. En particulier, il a beaucoup en commun avec les modèles de langage
basés sur LSTM, car les deux entraînent des réseaux de neurones
dans le but de prédire les mots cibles en fonction de leur contexte
2. La principale différence est que les modèles de langue LSTM sont
principalement concernés par l'optimisation des prédictions des
probabilités conditionnelles pour les mots cibles compte tenu de leur
histoire, tandis que context2vec se concentre sur la dérivation de
représentations généralement utiles à l'ensemble des contextes
historiques et futurs des mots cibles.
• Les auteurs le cadre d'apprentissage de word2vec car il est connu pour
produire des représentations de haute qualité pour des mots simples.
ÉVALUATION ET RÉSULTATS
Corpus d'apprentissage
 À l'exception de la tâche d'achèvement de phrase, qui est fournie avec son
propre base d'apprentissage, ils ont utilisé les deux milliards de mots ukWaC
proposé par Ferraresi en 2008 comme base d'apprentissage.
 Pour accélérer la formation de context2vec, ils ont supprimé toutes les
phrases de plus de 64 mots, réduisant ainsi la taille du corpus de 10%.
 Ils ont mis tout le texte en minuscules et considéré tout jeton contenant moins
de 100 occurrences comme un mot inconnu.
 Cela a donné un vocabulaire d'un peu plus de 180K mots pour le corpus
complet et 160K mots pour la version découpée.
Évaluation et Résultats
 Pour démontrer les qualités de context2vec, les auteurs abordent les trois
types de tâches suivantes, par le simple moyen de mesurer les distances
cosinus entre les représentations intégrées.
1. Achèvement de la phrase
2. Substitution lexicale
3. Désambiguïsation du sens des mots
Évaluation et Résultats : ( Tâche 1 )
Achèvement de la phrase
 Microsoft Sentence Completion Challenge (MSCC) comprend 1 040 éléments. Chaque
élément est une phrase avec un mot remplacé par un vide, et le défi consiste à
identifier le mot, parmi cinq choix, qui est le plus significatif et cohérent.
 Ils ont utilisé les 520 premières phrases pour le réglage des paramètres et le reste
comme jeu de test. Pour utiliser ce corpus pour la formation des modèles,
d'abord
• ils ont éliminé toutes les phrases de plus de 128 mots,
ce qui a entraîné une réduction négligeable de 1% de la
taille du corpus.
Ensuite,
• ils ont converti tout le texte en minuscules et
considéré tous les mots de fréquence inférieure à 3
comme inconnus, produisant un vocabulaire d'environ
100 000 types de mots.
Enfin,
• pour combler l'écart, ils choisissent simplement
le mot dont l'intégration est la plus similaire à
l'intégration du contexte donné en utilisant la
métrique de similitude cible-contexte.
Évaluation et Résultats : ( Tâche 2 )
Substitution lexicale
 La tâche de substitution lexicale nécessite de trouver un mot de substitution
pour un mot cible donné dans un contexte.
 La différence entre cela et la tâche d'achèvement de la phrase est que le mot
de substitution doit non seulement être cohérent avec le contexte, mais aussi
préserver le sens du mot d'origine dans ce contexte.
 Les performances de cette tâche sont signalées avec une précision moyenne
généralisée (GAP).
Évaluation et Résultats : ( Tâche 2 )
 Il ont utilisé deux ensembles de données de substitution lexicale dans
les expériences:
1. Le premier est l'ensemble de données introduit dans la tâche de substitution
lexicale de SemEval 2007 (Mc-Carthy et Navigli, 2007), noté LST-07, divisé en
300 phrases dev et 1710 phrases test.
2. Le second est un ensemble de données plus récent (Kremer, 2014), noté LST-
14, avec plus de 15 000 instances de mots cibles. Il est livré avec une répartition
prédéfinie de 35% / 65%.
 Enfin ils ont utilisé le plus petit ensemble comme ensemble de
développement pour le réglage des paramètres et le plus grand
comme ensemble de test.
Évaluation et Résultats : ( Tâche 3 )
Désambiguïsation du sens des mots
 Dans les tâches WSD supervisées, l'objectif est de déterminer le sens correct
des mots dans le contexte, sur la base d'un ensemble de formation étiqueté
manuellement.
 Pour classer une instance de mot dans le contexte, ils considèrent toutes les
instances marquées du même lemme de mot dans l'ensemble
d'apprentissage, et trouvent l'instance dont l'intégration de contexte est la
plus similaire à l'intégration de contexte de l'instance de test à l'aide du
métrique de similitude contexte à contexte.
 Ensuite, ils utilisent les sens marqués de cette instance. Il s'agit
essentiellement de la forme la plus simple d'un algorithme k-plus proche
voisin, avec k = 1.
 En tant que jeu de données WSD supervisé, nous avons utilisé le jeu de
données échantillon lexical Senseval-3 (Mihalcea, 2004), noté SE-3, qui
comprend 7 860 trains et 3 944 instances de test.
Les hyper paramètres utilisés dans les
expériences
rapportées avec context2vec sont résumés
dans ce tableau.
 Dans les expériences de développement
préliminaires, ils n'ont utilisé que 200 unités
pour représenter les contextes, puis ils ont
constaté une amélioration significative des
résultats lors du passage à 600 unités.
 L'augmentation de la taille de la
représentation à 1 000 unités ne semble
pas améliorer davantage les résultats.
 Pour explorer l'effet de biais de mots rares du facteur de lissage α du
vocabulaire, ils ont varié sa valeur dans nos expériences de développement.
Les résultats apparaissent dans le tableau
iters+ désigne le meilleur modèle trouvé lors de l'exécution de plusieurs
itérations de formation avec α = 0.75.
AWE config: W5/sent denotes using a 5-word-window/
full-sentence,
and stop/tf-idf denotes ignoring stop words or using tf-idf weights,
respectively.
Conclusion et perspective
 Context2vec est un modèle neuronal qui apprend une fonction
générique d'intégration pour les contextes de longueur variable des
mots cibles.
 context2vec surpasse ou atteint presque les résultats de pointe en
matière de complétion de phrases, de substitution lexicale et de
désambiguïsation des mots.
 Bien qu'il puisse être étendu, context2vec n'est pas conçu pour tirer
parti d'un contexte très large, il ignore donc tout contexte en dehors
de la phrase du mot cible.
 La direction future des auteurs est l’intégration des informations
basées sur les dépendances dans le modèle proposé.
Context2vec: Learning generic context embedding with bidirectional LSTM

Contenu connexe

En vedette

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

En vedette (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Context2vec: Learning generic context embedding with bidirectional LSTM

  • 1. Auteurs : o Oren Melamud o Jacob Golberger o Ido Daga Présentée par : Hwerbi Khouloud Context2vec: Learning Generic Context Embedding with Bidirectional LSTM Faculté des Sciences Mathématiques, Physiques et Naturelles de Tunis Module Recherche d’Information 2019/2020
  • 2. Plan de présentation Contexte État de l’art Approche proposée Évaluation et Résultats Conclusion et Perspective
  • 3. Contexte (1)  Les représentations contextuelles sont au cœur de diverses tâches de PNL, telles que  La désambiguïsation du sens des mots,  La reconnaissance d'entités nommées,  La résolution de coréférence …  L’intégration de mots génériques capture des informations sémantiques et syntaxiques sur des mots individuels dans une représentation compacte de faible dimension.  Pour faire des inférences d’une instance concrète de mot cible, de bonnes représentations à la fois du mot cible et du contexte donné sont utiles. Dans la phrase «I can’t find [avril]», il faut considérer à la fois le mot cible[April] et son contexte «I can’t find []» pour déduire que April fait probablement référence à une personne.
  • 4. Contexte (2)  Une avancée majeure dans ce domaine a été l'introduction de word2vec (Mikolov 2013) et GloVe (Pennington 2014), pour l'apprentissage des intégrations de mots génériques à partir de très grands corpus.  La capture d'informations à partir de ces corpus a considérablement accru la valeur des intégrations de mots pour les tâches de PNL non supervisées et semi-supervisées.  Plus récemment, des réseaux de neurones récurrents bidirectionnels, et en particulier des Bi-LSTM, ont été utilisés dans ces tâches pour apprendre les représentations internes de contextes sententiels plus larges (Zhou et Xu, 2015; Lample2016).
  • 5. État de l’art • Représente le contexte comme une distribution probabiliste sur les mots potentiels de remplissage de l'espace pour l'emplacement cible, élagués à ses k mots les plus probables. • Bien que l'utilisation de cette représentation ait montré un potentiel intéressant, elle est limitée aux contextes de taille fixe. Vecteurs de substitution (Yuret, 2012) • Cette approche dépende de la disponibilité d'un analyseur de dépendance de haute qualité. • Elle peut être considérés comme un sac de dépendance plutôt qu’une représentation unique pour l'ensemble du contexte. Dépendane syntaxique (Levy et Goldberg 2014a; Bansal 2014)
  • 6. État de l’art • Quelques travaux ont étendu word2vec en remplaçant sa représentation du contexte interne. • La 1er version est utilisé pour trouver les caractéristiques pertinentes dans une fenêtre contextuelle. • La 2éme propose une fenêtre continue, qui est une simple projection linéaire des plongements du contexte dans un vecteur de faible dimension. CBOW with attention (Ling 2015a) Continuous Window (Ling 2015b) • Représente les mots à l'aide des Bi-LSTM et d'une supervision multilingue. Kawakami et Dyer (2016) • Les travaux qui se repose sur l'utilisation de réseaux de neurones récurrents pour représenter des séquences de mots. Phrases or Sentences (Socher 2011; Kiros 2015).
  • 7. Contexte Les approches non supervisé Sont jugées utiles pour les tâches : • Mesurer la similitude contextuelle • Désambiguïsation du sens des mots • L’induction du sens des mots • La substitution lexicale • L'achèvement de la phrase Les approches supervisé Sont jugées utiles pour les tâches : • le découpage • La reconnaissance d'entités nommées • l'étiquetage des rôles sémantiques • la résolution de coréférence
  • 8. Contexte Comment optimiser la représentation des mots génériques ? Apprendre une fonction générique indépendante des tâches pour les contextes de longueurs variables. Contexte2vec
  • 9. Approche proposée : context2vec C’est un modèle non supervisés et une boîte à outils pour l'apprentissage efficace de l'intégration de contexte larges. Pour ce faire, les auteurs ont proposé une architecture de réseau de neurones, qui est basée sur l'architecture CBOW de word2vec, mais ils ont remplacé la modélisation de contexte naïf de la création de mots moyenne dans une fenêtre fixe, par un neurone beaucoup plus puissant, en utilisant le Bi-LSTM. context2vec word2vec Bi LSTM
  • 12. Discussion • Contrairement à word2vec et aux modèles similaires de reproduction de mots qui utilisent la modélisation du contexte principalement en interne et considèrent les intégrations de mots cibles comme leur principal résultat, l’objectif principal de context2vec est la représentation du contexte.
  • 14. Spécification et analyse formelle  Soient :  lLS un LSTM lisant les mots de une phrase donnée de gauche à droite  rLS un LSTM lisant les mots de une phrase donnée de droite à gauche.  une phrase 𝑤1:𝑛  La représentation du contexte Bi-LSTM pour la cible 𝑤𝑖 est défini comme la concaténation de vecteur suivante:  où l / r représente des intégrations distinctes de gauche à droite / de droite à gauche des mots de phrase. biLS (𝑤1:𝑛, i) = lLS (𝑙1:𝑖−1) ⊕ rLS (𝑟𝑖+1:𝑛)
  • 15. Spécification et analyse formelles  Ensuite, nous appliquons la fonction non linéaire suivante sur la concaténation des représentations contextuelles gauche et droite: MLP (x) = 𝐿2 (ReLU (𝐿1 (x))) • où MLP signifie Multi Layer Perceptron, • ReLU la fonction d'activation Rectified Linear Unit, • 𝐿𝑖 (x) = 𝑤𝑖x + 𝑏𝑖 est une opération linéaire.  Soit c = (𝑤1, ..., 𝑤𝑖−1, 𝑤𝑖+1, ..., 𝑤 𝑛) le contexte sententiel du mot en position i. Nous définissons la représentation de c par text2vec comme: 𝑐 = MLP(biLS(𝑤1:𝑛 ; i))
  • 16. Spécification et analyse formelles  Ensuite, ils désignent l'intégration d'un mot cible t comme 𝑡.  Pour apprendre les représentations de mots et de contextes cibles, ils utilisent la fonction objective d'échantillonnage négatif word2vec suivante : S= 𝑡,𝑐(𝑙𝑜𝑔𝜎 𝑡. 𝑐 + 𝑖=1 𝑘 𝑙𝑜𝑔𝜎(−𝑡𝑖. 𝑐))  où la sommation passe par chaque terme de t dans le corpus d'apprentissage et de son contexte  𝜎 la fonction sigmoïde.
  • 17. Spécification et analyse formelles  Levy et Goldberg (2014b) ont prouvé que si la fonction objectif est appliquée à des contextes de mot unique, elle est optimisée lorsque: 𝑡. 𝑐= 𝑀𝑃𝐼 𝛼 𝑡, 𝑐 − log(𝑘)  où 𝑀𝑃𝐼 𝑡, 𝑐 = 𝑙𝑜𝑔 𝑝(𝑡,𝑐) 𝑝 𝛼 𝑡 𝑝(𝑐) est l'information mutuelle ponctuelle entre le mot cible t et le mot de contexte c.  Le facteur de lissage 𝛼, avec 0 ≤ 𝛼 < 1  Cette analyse peut être appliqué à notre cas, où le contexte n'est pas un seul mot mais un contexte sententiel entier d'un mot cible.
  • 18. Illustration du modèle :  Pour démontrer les qualités de l'espace intégré apprises par context2vec, ils illustrent trois types de métriques de similitude dans cet espace : cible à contexte (t2c), contexte à contexte (c2c) cible à cible (t2t). Tout cela est mesuré par la valeur du cosinus du vecteur entre les représentations d'imbrication respectives. Cette figure fournit une illustration 2D d'un tel espace et des mesures respectives
  • 19. Illustration du modèle : métrique (1) Cible à contexte Comme on peut le voir, la modélisation Bi-LSTM de context2vec est en effet capable dans de capturer des dépendances à longue distance, ainsi que de prendre en compte les deux côtés du contexte.
  • 20. Illustration du modèle : métrique (1) Cible à contexte Nous notons qu'avec des valeurs plus grandes de 𝛼, il y aura plus de chance pour placer les mots rares plus près de leurs contextes associés dans cet espace.
  • 21. Illustration du modèle : métrique (2) Contexte à contexte : La mesure de similitude d'AWE semble être influencée par la présence des noms de lieux dans les contextes, même s'ils ont peu d'effet sur la signification perçue dans les phrases. Dans ce cas, la mesure de similarité de context2vec était robuste à ce problème.
  • 22. Illustration du modèle : métrique (3) Cible à cible : Comme on peut le voir, contexte2 avec semble mieux préserver la fonction des mots cibles donnés, y compris une partie du discours et même tendue. Context2vec considère les contextes entiers en tenant compte de l’ordre et de la position des mots de contexte.
  • 23. Relation avec les modèles linguistiques • Notre modèle est étroitement lié aux modèles linguistiques : 1. En particulier, il a beaucoup en commun avec les modèles de langage basés sur LSTM, car les deux entraînent des réseaux de neurones dans le but de prédire les mots cibles en fonction de leur contexte 2. La principale différence est que les modèles de langue LSTM sont principalement concernés par l'optimisation des prédictions des probabilités conditionnelles pour les mots cibles compte tenu de leur histoire, tandis que context2vec se concentre sur la dérivation de représentations généralement utiles à l'ensemble des contextes historiques et futurs des mots cibles. • Les auteurs le cadre d'apprentissage de word2vec car il est connu pour produire des représentations de haute qualité pour des mots simples.
  • 25. Corpus d'apprentissage  À l'exception de la tâche d'achèvement de phrase, qui est fournie avec son propre base d'apprentissage, ils ont utilisé les deux milliards de mots ukWaC proposé par Ferraresi en 2008 comme base d'apprentissage.  Pour accélérer la formation de context2vec, ils ont supprimé toutes les phrases de plus de 64 mots, réduisant ainsi la taille du corpus de 10%.  Ils ont mis tout le texte en minuscules et considéré tout jeton contenant moins de 100 occurrences comme un mot inconnu.  Cela a donné un vocabulaire d'un peu plus de 180K mots pour le corpus complet et 160K mots pour la version découpée.
  • 26. Évaluation et Résultats  Pour démontrer les qualités de context2vec, les auteurs abordent les trois types de tâches suivantes, par le simple moyen de mesurer les distances cosinus entre les représentations intégrées. 1. Achèvement de la phrase 2. Substitution lexicale 3. Désambiguïsation du sens des mots
  • 27. Évaluation et Résultats : ( Tâche 1 ) Achèvement de la phrase  Microsoft Sentence Completion Challenge (MSCC) comprend 1 040 éléments. Chaque élément est une phrase avec un mot remplacé par un vide, et le défi consiste à identifier le mot, parmi cinq choix, qui est le plus significatif et cohérent.  Ils ont utilisé les 520 premières phrases pour le réglage des paramètres et le reste comme jeu de test. Pour utiliser ce corpus pour la formation des modèles, d'abord • ils ont éliminé toutes les phrases de plus de 128 mots, ce qui a entraîné une réduction négligeable de 1% de la taille du corpus. Ensuite, • ils ont converti tout le texte en minuscules et considéré tous les mots de fréquence inférieure à 3 comme inconnus, produisant un vocabulaire d'environ 100 000 types de mots. Enfin, • pour combler l'écart, ils choisissent simplement le mot dont l'intégration est la plus similaire à l'intégration du contexte donné en utilisant la métrique de similitude cible-contexte.
  • 28. Évaluation et Résultats : ( Tâche 2 ) Substitution lexicale  La tâche de substitution lexicale nécessite de trouver un mot de substitution pour un mot cible donné dans un contexte.  La différence entre cela et la tâche d'achèvement de la phrase est que le mot de substitution doit non seulement être cohérent avec le contexte, mais aussi préserver le sens du mot d'origine dans ce contexte.  Les performances de cette tâche sont signalées avec une précision moyenne généralisée (GAP).
  • 29. Évaluation et Résultats : ( Tâche 2 )  Il ont utilisé deux ensembles de données de substitution lexicale dans les expériences: 1. Le premier est l'ensemble de données introduit dans la tâche de substitution lexicale de SemEval 2007 (Mc-Carthy et Navigli, 2007), noté LST-07, divisé en 300 phrases dev et 1710 phrases test. 2. Le second est un ensemble de données plus récent (Kremer, 2014), noté LST- 14, avec plus de 15 000 instances de mots cibles. Il est livré avec une répartition prédéfinie de 35% / 65%.  Enfin ils ont utilisé le plus petit ensemble comme ensemble de développement pour le réglage des paramètres et le plus grand comme ensemble de test.
  • 30. Évaluation et Résultats : ( Tâche 3 ) Désambiguïsation du sens des mots  Dans les tâches WSD supervisées, l'objectif est de déterminer le sens correct des mots dans le contexte, sur la base d'un ensemble de formation étiqueté manuellement.  Pour classer une instance de mot dans le contexte, ils considèrent toutes les instances marquées du même lemme de mot dans l'ensemble d'apprentissage, et trouvent l'instance dont l'intégration de contexte est la plus similaire à l'intégration de contexte de l'instance de test à l'aide du métrique de similitude contexte à contexte.  Ensuite, ils utilisent les sens marqués de cette instance. Il s'agit essentiellement de la forme la plus simple d'un algorithme k-plus proche voisin, avec k = 1.  En tant que jeu de données WSD supervisé, nous avons utilisé le jeu de données échantillon lexical Senseval-3 (Mihalcea, 2004), noté SE-3, qui comprend 7 860 trains et 3 944 instances de test.
  • 31. Les hyper paramètres utilisés dans les expériences rapportées avec context2vec sont résumés dans ce tableau.  Dans les expériences de développement préliminaires, ils n'ont utilisé que 200 unités pour représenter les contextes, puis ils ont constaté une amélioration significative des résultats lors du passage à 600 unités.  L'augmentation de la taille de la représentation à 1 000 unités ne semble pas améliorer davantage les résultats.
  • 32.  Pour explorer l'effet de biais de mots rares du facteur de lissage α du vocabulaire, ils ont varié sa valeur dans nos expériences de développement. Les résultats apparaissent dans le tableau iters+ désigne le meilleur modèle trouvé lors de l'exécution de plusieurs itérations de formation avec α = 0.75. AWE config: W5/sent denotes using a 5-word-window/ full-sentence, and stop/tf-idf denotes ignoring stop words or using tf-idf weights, respectively.
  • 33. Conclusion et perspective  Context2vec est un modèle neuronal qui apprend une fonction générique d'intégration pour les contextes de longueur variable des mots cibles.  context2vec surpasse ou atteint presque les résultats de pointe en matière de complétion de phrases, de substitution lexicale et de désambiguïsation des mots.  Bien qu'il puisse être étendu, context2vec n'est pas conçu pour tirer parti d'un contexte très large, il ignore donc tout contexte en dehors de la phrase du mot cible.  La direction future des auteurs est l’intégration des informations basées sur les dépendances dans le modèle proposé.

Notes de l'éditeur

  1. uguyf