Bidirectional Encoder Representations from Transformers

Bidirectional Encoder Representations
from Transformers
BERT
Réalisé par :
BABZINE BAHIJA
ER-RAHMOUNY ZOHAYR
Encadré par :
Mr. El-fenaouy Reda
Mr. Gardelle Bertin

Les travaux ayant aboutis aux raisonnements utilisés dans BERT
Le transformer (aller au-
delà des LSTMs)
ULM-FiT
delà des LSTMs)
Récapitulatif sur
l’enchâssement de
mots
ELMo (Embeddings
from Language Models)

Récapitulatif sur l’enchâssement de mots
Pour que les mots soient traités par les modèles d’apprentissage automatique, ils ont besoin d’une représentation numérique.
Word2Vec a montré que nous pouvons utiliser un vecteur (une liste de nombres) pour représenter correctement les mots d’une
manière capturant les relations sémantiques ou liées au sens.
EXEMPLE:
Capacité de dire si les mots sont similaires, ou opposés, ou si une
paire de mots comme « rabat » et « Maroc » ont la même relation
entre eux que « Le Caire » et « Egypte »
01
Relations syntaxiques, ou grammaticales comme la relation
entre « avait » et « a » est la même que celle entre « était »
et « est »)
02
les modèles d'apprentissage automatique nécessitent des représentations numériques des mots, et Word2Vec et GloVe ont
montré l'efficacité des embeddings pré-entraînés sur de grandes quantités de données textuelles pour capturer les
relations sémantiques et grammaticales

ELMo (Embeddings
delà des LSTMs)
ULM-FiT
delà des LSTMs)
Récapitulatif sur
mots

ELMo (Embeddings from Language Models)
ELMo (Embeddings from Language Models) est un modèle d'enchâssement de langage qui génère des
représentations vectorielles de mots en utilisant des réseaux de neurones bi-directionnels, capturant ainsi le sens
contextuel des mots.

ULM-FiT
ULM-FiT a introduit des méthodes permettant d’utiliser efficacement une grande partie de ce que le modèle apprend au
cours du pré-entrainement (plus que de simples embedding et plus que des embedding contextualisés). ULM-FiT est
ainsi un moyen de transférer l’apprentissage probablement aussi bien que ce qui se faisait alors en vision par
ordinateur.

ELMo (Embeddings
Transformer
ULM-FiT
delà des LSTMs)
Récapitulatif sur
mots

Transformer
Un Transformer est une architecture de modèle encodeur-décodeur qui utilise également le codage de
position, l'auto-attention, l'attention multi-têtes et la connexion résiduelle.

ELMo (Embeddings
Transformer
ULM-FiT
Open AI Transformer :
le GPT
Récapitulatif sur
mots

Open AI Transformer : le GPT
Pas besoin d’un transformer complet pour adopter l’apprentissage par transfert dans le cadre de taches de NLP. ILs
peuvent contenter de la partie decodeur du transformer. Le modèle empile 12 couches décodeur. Puisqu’il n’y a pas
d’encodeur, les couches décodeur n’ont pas la sous-couche d’attention encodeur-décodeur comme dans
le transformer classique. Ils ont cependant toujours la couche d’auto-attention.

Bidirectional Encoder Representations from Transformers est une avancée
remarquable dans le domaine du traitement du langage naturel (NLP) publiée par des
chercheurs de Google AI Language en 2018. Elle a suscité beaucoup d'enthousiasme dans
la communauté de l'apprentissage automatique en présentant des résultats de pointe dans
une grande variété de tâches de NLP, notamment la traduction neuronale, la question-
réponse (SQuAD v1.1), la classification de paires de phrases (MNLI), l'analyse de
sentiment, la génération de résumés de texte, et bien d'autres.
BERT
À partir de l'abréviation de BERT, nous pouvons comprendre certains aspects de ses
fonctionnalités :
1.Il est bidirectionnel.
2.Il utilise une représentation d'encodeur.
3.Il a une architecture basée sur les Transformers.

BERT
BERT, qui signifie Bidirectional Encoder Representations from Transformers, repose sur une architecture
de réseau de neurones appelée Transformer. Son innovation principale réside dans l'utilisation d'un
entraînement bidirectionnel pour la modélisation du langage. Contrairement aux approches précédentes
qui se concentraient soit sur la direction de gauche à droite, soit sur une combinaison de l'entraînement
dans les deux directions, BERT prend en compte le contexte à la fois avant et après chaque mot. Cela lui
permet d'obtenir une meilleure compréhension du contexte et du flux linguistique. les chercheurs
GOOGLE décrivent une nouvelle technique appelée "Masked Language Modeling" (MLM) qui permet
l'entraînement bidirectionnel dans des modèles de langage. Cette approche a permis à BERT d'obtenir des
performances remarquables dans différentes tâches de traitement du langage naturel.

Architecture du BERT
Il existe deux types de BERT :
 12 couches d'encodeur
 12 têtes d'attention
 768 unités cachées
 110 M PARAMÈTRES
 24 couches d'encodeur
 16 têtes d'attention
 1024 unités cachées
 330M PARAMÈTRES
BASE
LARGE

pourquoi ils utilisent uniquement l'encodeur ?
1. Utiliser BERT dans toutes sortes de tâches
2. OpenAI GPT-2 utilise que décodeurs
Pour construire une architecture de transformateur
bidirectionnelle, BERT utilise l'encodeur du transformateur au
lieu des décodeurs. Ainsi, BERT construit un modèle non
seulement de gauche à droite, mais aussi de droite à gauche

A l'intérieur de BERT ce n'est pas seulement l'empilement d'encodeurs, mais bien plus que
cela. BERT introduit également la modélisation du langage masqué et la prédiction de la
phrase suivante. Il y a quatre parties principales de BERT.
1. From Word to Vectors
2. The Encoders from the transformer
3. Masked Language Modeling (MLM)
4. Next Sentence Prediction (NSP)

From Word to Vectors
chaque mot de la séquence est mappé sur un
vecteur dimensionnel emb_dim que le modèle
apprendra pendant le training. Les éléments de ces
vecteurs sont traités comme des paramètres de
modèle et sont optimisés avec rétro-propagation
comme n'importe quel autre poids

From Word to Vectors
Embedding des phrases représentent des phrases entières et leur information sémantique sous forme de vecteurs. Cela aide la machine
à comprendre le contexte, l'intention et d'autres nuances dans l'ensemble du texte. Elle observe simplement quel mot appartient à quelle
phrase. Un marqueur indiquant la phrase A ou la phrase B est ajouté à chaque jeton. Cela permet au modèle de faire la distinction entre
les phrases.
Après la première étape, nous avons effectué notre étape d'intégration et d'encodage comme:

The Encoders from the transformer

Masked Language Modeling (MLM)
L'un des points forts de BERT est le modèle de langage masqué (MLM). Le modèle de langage masqué
masque aléatoirement certains des token de l'entrée, et l'objectif est de prédire l'identifiant original du
vocabulaire du mot masqué uniquement en fonction de son contexte 1 , l'objectif du MLM permet à la
représentation de fusionner le contexte gauche et droit, ce qui nous permet de pré-entraîner un transformateur
bidirectionnel profond.
Avant de fournir des séquences de mots à BERT, 15% des mots de chaque séquence sont remplacés par un
jeton [MASK]. Le modèle tente ensuite de prédire la valeur d'origine des mots masqués, en se basant sur le
contexte fourni par les autres mots non masqués de la séquence. En termes techniques, la prédiction des mots
de sortie nécessite :
1. L'ajout d'une couche de classification par-dessus la sortie de l'encodeur.
2. La multiplication des vecteurs de sortie par la matrice d'embedding, les transformant ainsi en
dimension de vocabulaire.
3. Le calcul de la probabilité de chaque mot dans le vocabulaire avec la fonction softmax.

BERT utilise l'activation GELU (Gaussian Error Linear Unit).

MLM dans BERT ressemble à
utiliser la sortie de la position du
mot masqué pour prédire le mot
masqué

Bien entrainer le modèle

Next Sentence Prediction (NSP)
Pour permettre à BERT de mieux gérer les relations entre plusieurs phrases, le processus de pré-entraînement comprend
une tâche supplémentaire : étant donné deux phrases (A et B), il s'agit de prédire si B est susceptible d'être la phrase qui suit
A ou non.
Pour aider le modèle à distinguer les deux phrases lors de l'entraînement, l'entrée est traitée de la manière suivante avant
d'être entrée dans le modèle :
• [CLS] est inséré au début de
la première phrase
• [SEP] est inséré à la fin de
chaque phrase

Pour prédire si la deuxième phrase est effectivement liée à la première, les étapes suivantes sont
effectuées :
1. L'ensemble de la séquence d'entrée passe à travers le modèle Transformer. (La taille du vecteur d'entrée est de 768 pour
chaque mot dans BERT base) Chaque position produit en sortie un vecteur de taille hidden_size (768 dans BERT Base).
2. La sortie du token [CLS] est transformée en un vecteur de forme 2x1, en utilisant une simple couche de classification
(matrices de poids et biais appris).
3. Calcul de la probabilité de IsNextSequence (étiquettes IsNext et NotNext) avec softmax.
Par exemple,
Input = [CLS] the man went to [MASQUE] store [SEP] he bought a gallon [MASQUE] milk [SEP]
label = IsNext
Input = [CLS] the man [MASQUE] to the store [SEP] penguins [MASQUE] are flight ##less birds [SEP]
label = NotNext
Séquence A : Il va pleuvoir.
Séquence B : Je prends mon parapluie.
Prédiction : IsNext
Séquence A : Il va pleuvoir.
Séquence B : C’est bientôt les élections présidentielles américaines.
Prédiction : NotNext
01
02
03
04

Pour prédire si la deuxième phrase est effectivement liée à la première, les étapes suivantes sont
effectuées :
767
0

Pourquoi l'entrée et la sortie d'un seul mot contiennent un
vecteur de dimension 764 dans le modèle BERT_base ?
Dans le modèle BERT_base, chaque mot utilise 12 têtes d'attention pour l'attention multi-tête.
Ainsi, lors de la création de l'attention multi-tête, nous utilisons 12 têtes pour un seul mot.
Chaque tête contient un vecteur clé, un vecteur de requête et un vecteur de valeur de
dimension 64, à partir desquels nous obtenons un vecteur de dimension 64 avec le score d'auto-
attention pour un seul mot.
Donc, le vecteur d'entrée et de sortie d'un seul jeton/mot sera de dimension 12 x 64 = 768.

Fine-Tuning
 fine-tuning est une technique utilisée dans le domaine de l'apprentissage automatique pour adapter un modèle pré-
entraîné à une tâche spécifique. Dans le contexte du traitement du langage naturel (NLP), cela implique de prendre
un modèle pré-entraîné tel que BERT, qui a été entraîné sur une grande quantité de données textuelles pour capturer
les connaissances générales du langage, et de l'ajuster sur un jeu de données spécifique à une tâche donnée.
 Le processus de fine-tuning consiste à ré-entraîner le modèle pré-entraîné en utilisant des données spécifiques à la
tâche, souvent avec un jeu de données plus restreint et étiqueté. Cela permet au modèle d'adapter ses paramètres pour
répondre aux exigences spécifiques de la tâche, telle que la classification de texte, la traduction ou la génération de
réponses.

Pré-entraînement
BERT se différencie de ses prédécesseurs (modèles de NLP pré-entraînés), par la façon dont il est pré-
entraîné. Ce pré-entraînement est non-supervisé c’est-à-dire qu’il ne nécessite pas de jeu de données
labellisé. BERT est pré-entraîné sur un grand jeu de données constitué de textes des pages Wikipédia en
anglais (2 500 millions de mots) ainsi qu’un ensemble de livres (800 millions de mots).

Pré-entraînement
Utilisons BERT en tant que modèle pré-entraîné dans une tâche supervisée en aval (par exemple, une tâche de
question-réponse) ressemblera à ceci :

Pré-entraînement
Si nous voulons utiliser BERT pour la classification des images, le processus d'apprentissage par transfert pour
BERT ressemblera à

BERT pour différentes tâches en NLP
Tâche de classification
de paires de phrases
01 Tâche de classification
d'une seule phrase
02 Tâche question
reponce
03

Référence
https://ledatascientist.com/a-la-decouverte-de-
bert/#:~:text=BERT%20est%20pr%C3%A9%2Dentra%C3%AEn%C3%A9%20sur,(800%20millions%20de%2
0mots).
https://lbourdois.github.io/blog/nlp/BERT/
https://au1206.github.io/annotated%20paper/BERT/
https://lbourdois.github.io/blog/nlp/RNN-LSTM-GRU-ELMO/
https://jalammar.github.io/illustrated-bert/
https://devopedia.org/bert-language-model
https://pub.towardsai.net/understanding-bert-b69ce7ad03c1

Bidirectional Encoder Representations from Transformers

Recommandé

Recommandé

Contenu connexe

Similaire à Bidirectional Encoder Representations from Transformers

Similaire à Bidirectional Encoder Representations from Transformers (20)

Plus de bahija babzine

Plus de bahija babzine (6)

Bidirectional Encoder Representations from Transformers

Notes de l'éditeur