Introduction à la traduction automatique, et au processus de traduction, les types de traduction automatique ainsi que les mesures du qualité...
Quelques informations sur le modèle de traduction neuronale développé pour la traduction de l'anglais vers l'allemand que vous pouvez trouver dans ce lien :
2. Plan du Travail :
• INTODUCTION
• PROCESSUS DE TRADUCTION
• TYPES DE TRADUCTION AUTOMATIQUE
• DEVELOPPER UN MODELE DE DEEP LEARNING
POUR LA TRADUCTION DE L’ANGLAIS VERS
L’ALLEMAND
• MESURER LA QUALITÉ DE LA TRADUCTION
AUTOMATIQUE
• CONCLUSION
1
4. Introduction :
• Dans toute traduction, qu'elle soit humaine ou automatisée, la
signification d'un texte dans la source (original) la langue doit être
entièrement transférée à sa signification équivalente dans la traduction
de la langue cible.
• Bien qu'en surface cela semble simple, c'est souvent beaucoup plus
complexe. La traduction n'est jamais un simple substitution mot à
mot.
• Un traducteur humain doit interpréter et analyser tous les éléments du
texte et comprendre comment chaque mot peut influencer le contexte
du texte. Cela nécessite une expertise approfondie en grammaire,
syntaxe (structure des phrases, sémantique, significations, etc…)
dans les langues source et cible, ainsi qu'une expertise dans le
domaine.
3
5. Introduction :
• La traduction automatique (MT) est une technologie qui traduit
automatiquement le texte à l'aide de bases terminologiques et de
techniques d'analyse grammaticale, syntaxique et sémantique avancées.
• L'idée que les ordinateurs peuvent traduire des langues humaines est
aussi ancienne que les ordinateurs eux-mêmes. Les premières tentatives
de construction d'une telle technologie dans les années 1950 aux États-
Unis se sont accompagnées de beaucoup d'enthousiasme et de
financements importants.
• La fois où le grand public a entendu parler de MT, c'était probablement à la
fin des années 1990 (Babelfish). Bien que la qualité fasse souvent défaut,
elle est devenue extrêmement populaire et a de nouveau mis MT en
vedette. D'autres géants de l'internet ont présenté des services similaires
peu de temps après, dont le plus connu est désormais Google Translate.
• La traduction automatique ne doit pas être confondue avec les outils de
traduction assistée par ordinateur (CAT).
4
8. Processus de Traduction :
Le processus de traduction (au sens humain) peut être découpé en trois
phases successives :
1. Compréhension : assimilation du sens véhiculé par un texte, du vouloir
dire d'un auteur…
2. Déverbalisation : oubli des mots et conservation du sens, « Opération
par laquelle un sujet prend conscience du sens d'un message en
perdant conscience des mots et des phrases qui lui ont donné corps »
3. Réexpression : reformulation du vouloir dire en langue cible.
En termes informatiques, la compréhension devient l'analyse, la
déverbalisation devient le transfert et la réexpression devient la génération.
Ces étapes du processus sont modélisées dans le triangle de Vauquois
7
9. Processus de Traduction :
• Triangle de Vauquois, modèle pour les fondements de la traduction automatique
8
10. Processus de Traduction :
• Le transfert direct: La traduction est vue comme un processus de décodage. (ET
& SMT)
• Le transfert syntaxique: Généralement, sa représentation est l'arbre syntaxique.
L'analyse produit une représentation syntaxique pour la langue source. Le
transfert consiste à produire une représentation syntaxique pour la langue cible à
partir de ce dernier. Finalement la génération produit la phrase en langue cible.
(RBMT)
• Le transfert sémantique: Les modèles de représentation de la sémantique du
langage sont décrits par la pragmatique. La sémantique peut être décrite par une
ontologie.
• L'interlangue: Ce niveau supprime la nécessité de transfert. L'interlangue devient
universelle. Et seuls restent les processus d'analyse et de génération. L'approche
est séduisante car l'effort consiste, pour une langue donnée, à produire un
analyseur et un générateur pour l'interlangue. On bénéficie alors de toutes les
traductions de ou vers les langues possédant aussi l'analyseur et le générateur.
9
12. Types de traduction automatique :
MT fonctionne avec de grandes quantités de langues source et cible qui sont
comparées et mises en correspondance par un moteur de traduction
automatique. Nous différencions trois types de méthodes de traduction
automatique:
• Traduction automatique basée sur des règles : utilise des règles de grammaire
et de langue, développées par des experts en langues, et des dictionnaires qui
peuvent être personnalisés pour un sujet ou une industrie spécifique.
• Traduction automatique statistique: ne repose pas sur des règles et des mots
linguistiques; il apprend à traduire en analysant une grande quantité de
traductions humaines existantes.
• Neural Machine Translation: apprend lui-même sur la façon de traduire en
utilisant un grand réseau de neurones. Cette méthode devient de plus en plus
populaire car elle fournit de meilleurs résultats avec les paires de langues.
11
13. Types de traduction automatique :
Traduction automatique basée sur des règles (RBMT) :
• Il fonctionne en analysant une phrase source pour identifier les mots et
analyser sa structure, puis en la convertissant dans la langue cible sur la
base d'un ensemble de règles déterminées manuellement encodées par des
experts linguistiques.
• Les règles tentent de définir des correspondances entre la structure de la
langue source et celle de la langue cible.
• L'avantage de RBMT est qu'un bon moteur peut traduire un large éventail de
textes sans avoir besoin de grands corpus bilingues, mais les règles
encodées par l'homme ne peuvent pas couvrir tous les phénomènes
linguistiques possibles et les conflits entre les règles existantes peuvent
conduire à une mauvaise qualité de traduction lorsque face à des textes
réels.
12
14. Types de traduction automatique :
Traduction automatique statistique (SMT) :
• SMT travaille en formant le moteur de traduction avec un très grand volume de corpus
bilingues et monolingues. Le système recherche des corrélations statistiques entre les
textes sources et les traductions, à la fois pour des segments entiers et pour des
phrases plus courtes au sein de chaque segment, créant ainsi un soi-disant modèle
de traduction.
• Il génère ensuite des scores de confiance pour la probabilité qu'un texte source donné
soit mappé sur une traduction. Le moteur de traduction lui-même n'a aucune notion
de règles ou de grammaire.
• Le principal avantage est qu'elle élimine la nécessité de fabriquer à la main un moteur
de traduction pour chaque paire de langues et de créer des ensembles de règles
linguistiques, comme c'est le cas avec RBMT.
• Le principal inconvénient est qu'elle nécessite des corpus bilingues très grands et
bien organisés pour chaque paire de langues. Les moteurs SMT échouent lorsqu'ils
sont présentés avec des textes qui ne sont pas similaires au matériel des corpus de
formation.
13
15. Types de traduction automatique :
Neural Machine Translation :
• La traduction automatique neuronale (NMT) est basée sur le paradigme
de l'apprentissage automatique et est la plus récente approche de la MT.
• La NMT utilise des réseaux de neurones constitués de nœuds modélisés
conceptuellement d'après le cerveau humain. Les nœuds peuvent
contenir des mots, des phrases ou des segments plus longs et se relier
les uns aux autres dans un réseau de relations complexes basées sur des
textes bilingues utilisés pour former le système.
• La nature complexe et dynamique de ces réseaux permet la formation de
suppositions beaucoup plus instruites sur le contexte et donc la
signification de n'importe quel mot à traduire. Les systèmes NMT
apprennent et s'ajustent en continu pour fournir la meilleure sortie et
nécessitent beaucoup de puissance de traitement.
14
16. Develop a Deep Learning Model to
Automatically
Translate from German to English in Python
with Keras
15
17. Le Travail (TP):
Vue d’ensemble :
• J'ai développé un système de traduction automatique de
neurones pour traduire des phrases allemandes en anglais.
• J'ai nettoyé et préparé des données prêtes à former un
système de traduction automatique de neurones.
• J'ai développé un modèle encodeur-décodeur pour la
traduction automatique.
• J'ai entrainé le modèle pour l'inférence sur de nouvelles
phrases d'entrée et j'évalue les compétences du modèle.
16
18. Le Travail (TP):
Vue d’ensemble :
Ce travail est divisé en 4 parties; elles sont:
• Dataset de traduction allemand vers anglais
• Pré-traitement des données textuelle
• Former (Entrainer) le modèle de traduction
neuronale
• Évaluer le modèle de traduction neuronale
17
19. Le Travail (TP):
German to English Dataset:
• Un ensemble de données de termes allemands vers anglais
utilisés comme base pour les cartes mémoire pour
l'apprentissage des langues.
• L'ensemble de données est disponible sur le site
ManyThings.org, avec des exemples tirés du projet Tatoeba.
L'ensemble de données est composé de phrases allemandes et
de leurs homologues anglais
• La page fournit une liste de nombreuses paires de langues, et je
vous encourage à explorer d'autres langues
18
20. Le Travail (TP):
Pré-traitement :
La préparation des données est divisée en deux sous-sections:
• Nettoyage de texte
• Fractionnement du texte (Diviser en train et test)
• Les opérations de nettoyage spécifiques sont les suivantes:
1. Supprimez tous les caractères non imprimables.
2. Supprimez tous les caractères de ponctuation.
3. Normalisez tous les caractères Unicode en ASCII (par
exemple les caractères latins).
4. Normalisez le cas en minuscules.
5. Supprimez tous les jetons restants qui ne sont pas
alphabétiques.
19
21. Le Travail (TP):
Entrainer et Evaluer le modèle :
• Un modèle LSTM encodeur-décodeur sur ce problème. Dans cette
architecture, la séquence d'entrée est codée par un modèle frontal
appelé Encoder puis décodée mot par mot par un modèle backend
appelé Decoder.
• Nous formons le modèle pour 30 Epochs et une taille de lot de 64
exemples.
• Nous utilisons des points de contrôle pour nous assurer que chaque fois
que la compétence de modèle sur l'ensemble de test s’améliore.
• Chaque Epochs prend environ 30 secondes sur du matériel CPU
moderne; aucun GPU n'est requis.
• Nous calculerons également les scores BLEU pour avoir une idée
quantitative de la performance du modèle.
20
23. Types de traduction automatique :
Mesurer la qualité de la MT :
Diverses méthodes d'évaluation automatique sont disponibles pour mesurer
la similitude de la traduction MT et celle d'un traducteur humain. Quelques
exemples:
• Word error rate (WER): est défini en fonction de la distance entre la sortie
du système et la traduction de référence au niveau des mots.
• Position-independent error rate (PER): calcule le taux d'erreur sur les mots
en traitant chaque phrase comme un sac de mots et en ignorant l'ordre
des mots.
• Bilingual Evaluation Understudy (BLEU); calcule la précision de n grammes
plutôt que le taux d'erreur sur les mots.
• Metric for Evaluation of Translation with Explicit Ordering (METEOR):
prend en compte les racines et les synonymes.
22
25. Conclusion
• La traduction humaine et la traduction automatique ont chacune leur lot
de défis. Par exemple, deux traducteurs individuels ne produiront pas de
traductions identiques du même texte dans la même paire de langues, et
cela peut prendre plusieurs séries de révisions pour répondre aux
exigences du client.
• Les traductions automatisées ont du mal à interpréter les éléments
contextuels et culturels d'un texte et la qualité dépend du type de
système et de la manière dont il est formé, mais il est extrêmement
efficace pour des types de contenu et des cas d'utilisation particuliers,
par ex. automobile, mécanique, contenu généré par l'utilisateur (USG),
textes répétitifs, langage structuré et bien d'autres.
• Bien que la traduction automatique soit confrontée à certains défis, si elle
est correctement mise en œuvre, les utilisateurs MT peuvent bénéficier
d'économies d'échelle lors de la traduction dans des domaines adaptés à
la traduction automatique.
24