To_understand_transformers_together presentation

Transformer
Réalisé par :
BABZINE BAHIJA
ER-RAHMOUNY ZOHAYR
Encadré par :
Mr. El-fenaouy Reda
Mr. Gardelle Bertin

INTRODUCTION
01
Mécanisme d’Attention
03
Encoder/Decoder
02
PLAN:
Conclusion
05
Transformer
04

SEQtoSEQ
Un modèle de séquence à séquence est un modèle qui prend une séquence d’éléments (mots, lettres,
caractéristiques d’une image, etc.) et en sort une autre séquence. Un modèle entraîné fonctionnerait
comme ça :

01 L' encodeur Couches d'unités récurrentes où, à chaque pas de temps, un
jeton d'entrée est reçu, collectant des informations pertinentes
et produisant un état caché. Cela dépend du type de RNN
Encoder-Decoder

02 Vecteur Contexte
souvent utilisé pour représenter le contexte environnant d'un mot spécifique
dans une phrase ou un texte. Il capture les informations sémantiques et
syntaxiques du contexte et peut être utilisé pour effectuer diverses tâches, telles
que la prédiction de mots manquants ou la détermination du sens d'un mot en se
basant sur son contexte
Encoder-Decoder
Le contexte est un vecteur de flottants. Plus loin, nous allons visualiser les vecteurs en
couleur en assignant des couleurs plus claires aux cellules avec des valeurs plus élevées.
la taille du vecteur de context 265,512,1024

03 Le décodeur
Couches d'unités récurrentes - par exemple, LSTM - où chaque unité
produit une sortie à un pas de temps t . L'état caché de la première
unité est le vecteur d'encodeur et les autres unités acceptent l'état
caché de l'unité précédente. La sortie est calculée à l'aide d'une
fonction softmax pour obtenir une probabilité pour chaque jeton
dans le vocabulaire de sortie.
Encoder-Decoder

L' encodeur
Dans un problème de question-réponse, la séquence d'entrée est une
collection de tous les mots de la question. Chaque mot est représenté
par x_i où i est l'ordre de ce mot.
les états cachés h_i sont calculés à l'aide de la formule :
Cette formule simple représente le résultat d'un réseau neuronal récurrent ordinaire. Comme vous
pouvez le voir, nous appliquons simplement les poids appropriés à l'état caché précédent h_(t-1) et au
vecteur d'entrée x_t.

Le décodeur
•Dans le problème de question-réponse, la séquence de sortie est
une collection de tous les mots de la réponse. Chaque mot est
représenté par y_i où i est l'ordre de ce mot.
•Tout état caché h_i est calculé à l'aide de la formule :
nous utilisons simplement l'état caché précédent pour calculer le suivant.

Encoder-Decoder pour RNN
RNN prend deux entrées à chaque pas de temps : une entrée (dans le cas de l’encodeur, un mot de la
phrase d’entrée), et un état caché. Le mot, cependant, doit être représenté par un vecteur. Pour transformer
un mot en vecteur, nous nous tournons vers les méthodes d’embedding. Ils transforment les mots en
espaces vectoriels qui capturent une grande partie de l’information sémantique des mots

Encoder-Decoder machine translation
Encoder-Decoder
LSTM

Encoder-Decoder machine translation
Encoder-Decoder

Encoder-Decoder LSTM structure for chatting
Encoder-Decoder pour RNN

Le vecteur de contexte a été identifié comme une limite pour ces types de modèles, ce qui signifie qu'il a posé un
problème ou une contrainte. En d'autres termes, le vecteur de contexte a été considéré comme une restriction ou
une difficulté pour ces modèles.
 La solution est la mécanisme d’attention qui améliora considérablement la qualité des systèmes. L’attention
permet au modèle de se concentrer sur les parties pertinentes de la séquence d’entrée si nécessaire.

Les mécanismes d'attention dans l'apprentissage en profondeur sont utilisés pour
aider le modèle à se concentrer sur les parties les plus pertinentes de l'entrée lors
de la réalisation d'une prédiction. Dans de nombreux problèmes, les données
d'entrée peuvent être très volumineuses et complexes , et il peut être difficile
pour le modèle de tout traiter. Les mécanismes d'attention permettent au modèle
de se concentrer sélectivement sur les parties de l'entrée qui sont les plus
importantes pour faire une prédiction, et d'ignorer les parties les moins
pertinentes. Cela peut aider le modèle à faire des prédictions plus précises et à
fonctionner plus efficacement.

Exemple:
dans les tâches de traitement du langage naturel telles que la traduction, le
mécanisme d'attention peut aider le modèle à comprendre le sens des mots
dans leur contexte. Au lieu de simplement traiter chaque mot
individuellement, le mécanisme d'attention permet au modèle de
considérer les mots concernant les autres mots de la phrase, ce qui peut
l'aider à comprendre sa signification globale.

Transformer
Je suis étudiant I am a student
Input Output
Transformer

Transformer
Une couche qui aide l'encodeur
à regarder d'autres mots dans la
phrase d'entrée lorsqu'il encode
un mot spécifique.
Encoder :

Transformer
une couche de neurones qui traite les entrées
indépendamment les unes des autres, sans
prendre en compte la séquence ou la position
des données. Cette couche est utilisée pour
transformer les représentations de la couche
précédente en des représentations plus riches
et plus utiles pour la tâche en cours.
Encoder :

Transformer
transformer chaque mot d'entrée en un vecteur à l'aide d'un algorithme d’embedding.
X1
Je suis
X3
X2
étudiant
Chaque mot est
incorporé dans un
vecteur de taille 512

Transformer
Remarque
dépendances entre ces
chemins dans la couche
d’auto-attention.
Feed Foward Neural Network
n’a pas ces dépendances et
donc les différents chemins
peuvent être exécutés en
parallèle lors de cette couche.

Transformer
Self-Attention
” The animal didn't cross the street because it was too tired”

Transformer
Self-Attention
calcul de Self-Attention dans un transformateur consiste à :

Transformer
Self-Attention
calcul de Self-Attention dans un transformateur consiste à :
Étape 1 : créez trois vecteurs à partir de chacun des
vecteurs d'entrée de l'encodeur :
Query, Key, Value
en multipliant l’embedding par trois matrices que
nous avons entraînées pendant le processus
d'entraînement (1x512).
xi (64x512):
qi = xi WQ
Ki = xi WK
Vi = xi WV

Transformer
Étape 2 : calculer maintenant le score pour
déterminer comment d'attention à
accorder à d'autres Parties de l'entrée.
Prenons le produit scalaire Query avec Key
Exemple :pour le mot « Thinking" en
position 1, le premier score serait le produit
scalaire de q1 et k1. Le deuxième score
serait le produit scalaire de q1 et k2.
,

Transformer
Étape 3 : diviser les scores par la racine carrée
de la dimension des vecteurs clés (gradients
plus stables).
Etape 4 : passe le résultat par une opération
softmax (normalise les scores)

Transformer
Étape 5 : multiplier chaque vecteur de valeur
par le score softmax
Étape 6 : consiste à sommer les vecteurs de
valeur pondérés. Cela produit la sortie de la
couche d'auto-attention à cette position (pour
le premier mot).

Transformer
Tableau pour le traitement du mot « Bonjour »

Transformer
Tableau pour le traitement du mot « Je »

Transformer
Tableau pour le traitement du mot « suis »

Transformer
Calcul matriciel de Self-Attention
Calculer les matrices Query , Key et Value. Pour ce faire,
nous regroupons nos embedding dans une matrice X ,
et multiplions par les matrices de poids que nous avons
entrainées ( WQ , WK , WV

Transformer
les sorties de la couche Self-Attention
Calcul matriciel de Self-Attention

Transformer
La bête à plusieurs têtes
Au lieu d’exécuter une seule fonction d’attention il est avantageux de projeter linéairement les requêtes, les
clés et les valeurs h fois avec différentes projections linéaires apprises sur les dimensions dk, dk et dv,
respectivement.
Ce mécanisme est appelé « attention multi-têtes ». Cela améliore les performances de
la couche d’attention de deux façons :

Transformer
Ce mécanisme est appelé « attention multi-têtes ». Cela améliore les performances de la
couche d’attention de deux façons :
1. Élargissement de la capacité du modèle à se concentrer sur différentes positions : L'attention multi-
têtes permet au modèle de considérer différentes relations et positions dans une phrase.
1. Il donne à la couche d’attention de multiples « sous-espaces de représentation ». Comme nous le
verrons plus loin, avec l’attention à plusieurs têtes, nous n’avons pas seulement un, mais plusieurs
ensembles de matrices de poids Query/Key/Value (le transformer utilise huit têtes d’attention, donc
nous obtenons huit ensembles pour chaque encodeur/décodeur). Chacun de ces ensembles est
initialisé au hasard. Ensuite, après l’entraînement, chaque ensemble est utilisé pour projeter les
enchâssements d’entrée (ou les vecteurs des encodeurs/décodeurs inférieurs) dans un sous-espace
de représentation différent.
Exemple: "Marie a donné des roses à Susane"

Transformer

Transformer
Si nous faisons le même calcul d’auto-attention que nous avons décrit ci-dessus, huit fois
avec des matrices de poids différentes, nous obtenons huit matrices Z différente
On obtient 8 matrices Zi de dimension 64 et 8×64 = 512

Transformer
En concaténant les matrices puis les multipliant par une matrice de poids supplémentaire WO.

Transformer
Résumons l’ensemble des étapes sous la forme d’un unique graphique récapitulatif :

Transformer
Donc le mot « *it* », une tête d’attention
(traits en orange) se concentre sur « *the
animal* », tandis qu’une autre (traits en
vert) se concentre sur « *tired* ».

Transformer
L’encodage positionnel
Pour régler ça, le transformer ajoute un vecteur à chaque embedding d’entrée. Ces vecteurs suivent un
forme particulière que le modèle apprend ce qui l’aide à déterminer la position de chaque mot (ou la
distance entre les différents mots dans la séquence).

Transformer
Si nous supposons que l’enchâssement a une dimension de 4, les encodages positionnels
ressembleraient à ceci :

Transformer
La formule d’encodage positionnel est :

Transformer
Les couches finales : linéaire et softmax

https://jalammar.github.io/illustrated-transformer/
https://ledatascientist.com/amp/a-la-decouverte-du-transformer/
https://france.devoteam.com/paroles-dexperts/attention-is-all-you-need-comprendre-
le-traitement-naturel-du-langage-avec-les-modeles-transformers/
https://blent.ai/blog/a/transformers-deep-learning
https://vaclavkosar.com/ml/Feed-Forward-Self-Attendion-Key-Value-Memory
https://nlp.seas.harvard.edu/2018/04/03/attention.html
https://deepfrench.gitlab.io/deep-learning-project/
https://www.exxactcorp.com/blog/Deep-Learning/a-deep-dive-into-the-transformer-
architecture-the-development-of-transformer-models

To_understand_transformers_together presentation

Recommandé

Recommandé

Contenu connexe

Similaire à To_understand_transformers_together presentation

Similaire à To_understand_transformers_together presentation (20)

Plus de bahija babzine

Plus de bahija babzine (6)

To_understand_transformers_together presentation

Notes de l'éditeur