Traduction vocale quasi instantanee introduction

Near real time voice translation
(Traduction vocale quasi instantanée)
Pratique
Mais où en est-on ?

Near real time voice translation
• À partir d’un cas d'utilisation du service Inspection de l'ONSS dans une entreprise internationale
• Comprendre immédiatement ce que dit une personne dans une langue étrangère
• S’apparente au sous-titrage en direct d'un débat télévisé dans une langue étrangère
• Technique ?
• Cascade : succession de différentes parties de la solution
• Reconnaissance automatique de la parole
• Traduction automatique
• Synthèse vocale : conversion en parole
• Bout en bout
• La reconnaissance vocale et la traduction se font en une seule opération
« Un grand pain s’il-vous-plaît »
« 我愛海豹 »

Traduction ≠ interprétation
• Traduction
• Hors ligne
• Le plus précisément possible, temps de réflexion
• Généralement basé sur l'écrit
• Texte intégral et contexte disponibles
• Interprétation
• Temps réel
• « Best effort », très grande pression du temps
• Généralement basé sur l’oral
• Texte futur et contexte inconnus
• Les formations diffèrent fortement
• Les bons traducteurs sont souvent de mauvais interprètes

Outils de traduction classique
• La traduction automatique est une industrie très développée
• Sur le web : Google/Bing/AWS Translate, DeepL…
• Environnements de travail intégrés : Trados, memoQ, WordBee (
babelfed)…
• Souvent, intégration avec MS Office via des plugins, etc.
• Gestion des tâches pour les gros volumes de travail
• Outils de traduction assistée par ordinateur (TAO)
• Initialement, l'accent reposait sur la « mémoire de traduction »
(base de données de traductions antérieures)
• Ensuite combiné avec la traduction automatique statistique (TAS)
• Maintenant : SMT  apprentissage profond
• Pour le code, les sites web, le software UX : i18n, gettext fichiers
PO…

Exemple d'outil
de traduction
classique : EU
eTranslation
• Outil de traduction puissant et
performant pour les
administrations
• Élément constitutif européen
• 24 langues de l'UE + russe,
norvégien, islandais et chinois
• Différents moteurs spécialisés par
domaine : UE formel, général,
santé publique, cour de justice,
Europeana (culturel), droit de la
propriété intellectuelle…
• Docs :
https://ec.europa.eu/cefdigital/wiki
/display/CEFDIGITAL/Documentati
on+eTranslation

Traduction de la langue parlée
Microsoft translator
TrueText : correction considérable de la reconnaissance vocale
par l’élimination des mots vides, des répétitions, des hésitations
et des erreurs grammaticales ainsi que par l’ajout de ponctuation

Customization
personalization
1
um no I mean
yes but I am I’ve
never done it
myself did users
before uh I will
ask go deep to
help me
INFOGRAPHICS WITH
PHOTOS
Lattice rescoring
3
um no I mean
yes but I am I’ve
never done it my-
self did you use
yours before uh I
will ask gurdeep
to help me
Customization
personalization
2
um no I mean
yes but I am I’ve
never done it
myself did users
before uh I will
ask gurdeep to
help me
Disfluency removal
4
* yes but * I’ve
never done it
myself did you
use yours before
* I will ask
gurdeep to help
me
Segmentation
punctuation
true casing
5
Yes.
But I’ve never
done it myself.
Did you use
yours before? I
will ask Gurdeep
to help me.
Avec TrueText, nous passons d'un brouillon rempli d'hésitations
à un résultat final clair en cinq étapes
La base provient
d'une reconnaissance
vocale
Les malentendus
sont corrigés
Les noms propres
sont reconnus
Enfin, des majuscules
et de la ponctuation
sont ajoutées
Les hésitations sont
filtrées

• Quasiment tous les systèmes de traduction vocale
fonctionnent en cascade
• Dans un premier temps, les modèles en cascade
convertissent le message parlé en texte grâce à la
reconnaissance automatique de la parole
• Dans un deuxième temps, ce texte est traduit par
traduction automatique
• Cela génère de bons résultats, comme dans Google
Translate par exemple
• Une nouvelle approche de Google AI (Translatotron)
traduit immédiatement le message parlé sans qu'il
faille d’abord le convertir en texte
Reconnaissance
automatique de la
parole

• Commencez-vous à traduire dès le premier mot
d'une phrase ? Ou combien de temps pouvez-vous
attendre pour commencer la traduction ?
• Les erreurs de la reconnaissance
automatique de la parole viennent s'ajouter
aux erreurs de traduction
• Un résultat plus rapide est plus susceptible
de comporter des erreurs
• Exemple : « what her » => « water », mais
n'est corrigé qu'après le mot « atmosphere »

• La traduction de bout en bout en une seule opération plutôt
qu'en cascade relève encore de la jeune recherche scientifique
• Exemple : SimulSpeech, juillet 2020
• Nécessite de grandes quantités de données spécifiquement
annotées
• Les résultats se rapprochent tout doucement de ceux des systèmes
en cascade, mais n’ont pas encore atteint le même niveau
• Même avec un système de bout en bout, un buffer d'une phrase
est pour ainsi dire inévitable si l'ordre des mots doit également
être correct :
Ik ben afgelopen zaterdag nog snel even naar Antwerpen gegaan
Je me suis rendu rapidement à Anvers samedi dernier [DeepL]
Parole  texte traduit

• Le sous-titrage en direct s’apparente à
l'interprétation
• Utilise généralement en coulisses la
• Formé sur le profil vocal du sous-titreur
• Les noms propres et la terminologie sont
introduits à l'avance
• Le sous-titreur répète ce qui est dit à l'écran,
sans « euh », etc.
• Les mots inconnus sont tapés, par exemple
« tweet »
• Problèmes fréquents :
• L’attention -> la tension ; verre  vers ; sept 
cette
• Expressions / idiomes traduits littéralement :
« break a leg »  « casser une jambe »
• Réduction des phrases requise lorsque
l’orateur parle vite
• Fonctionne mieux pour les émissions en
différé. Un retard est toujours constaté lors
des émissions en direct.
Sous-titrage en direct

• La traduction des sous-titres apparaît bien phrase par
phrase
• Part du sous-titre généré mais avec anticipation
• Beaucoup de mots passent à la trappe
•  Donne une idée de la marge d'erreur attendue
• Difficulté avec la séparation des phrases / ponctuation
• Apparaît mot par mot (fatigant)
• Pas de correction ultérieure
• Pas d'alignement sur le découpage des scènes
• Le bruit de fond est rédhibitoire
Traduction automatique sur YouTube

YouTube
• Peu efficace avec les dialectes :
•
– Walt Disney is dood.
• – Ni woar! Wa-d-heet’m veur g’had?
• Des problèmes sont également constatés
avec les forts accents, comme l'anglais
indien par exemple
 Très restreint en raison des limites de la

• Tour à tour = attendre la fin de la phrase
• Fournisseurs majeurs
• Google Translate : hors ligne pour le texte et les images
uniquement
• Microsoft Translator : hors ligne pour le texte uniquement
• Apple Translate : bientôt sur iOS 14 ? Pas de néerlandais
• Amazon : via AWS, Alexa, etc. Relativement cher (15$ / 1M
de caractères)
• Apps sur smartphone
• La base est la traduction écrite
• Souvent, traduction orale possible également
• iTranslate (supporte le NL)
• Talk&Translate
• Conversation Translator
• …
• Nombreuses apps de mauvaise qualité et difficiles à
différencier
Traduction de dialogues

• Quelle langue est parlée ?
• Lié à l'identification / la vérification de l'orateur : qui parle ?
• Utile pour l'authentification
• Utile pour la « diarisation » (distinction des orateurs dans le dialogue)
• Concentré sur la seule détection de la langue : quelques
initiatives
• Nécessite des centaines d'heures de parole dans la langue à détecter ;
des (dizaines de) milliers si des langues proches doivent être distinguées
• https://github.com/matiaslindgren/lidbox
• Google ne peut le faire qu’avec un ensemble limité de langues possibles
• Problèmes fondamentaux
• On ne peut travailler que sur des phonèmes (une combinaison en mots
nécessite des connaissances préalables de la langue), qui sont partagés
par de nombreuses langues
• Il est déjà difficile pour un humain de faire la distinction entre l'hindi et
l'ourdou sans trop de connaissances préalables
• Parmi les langues plus obscures que l'on voudrait identifier, il n'y a de
toute façon pas assez de données pour former un détecteur
Spoken Language Identification

• Généralement traduction en ligne
• Enceintes intelligentes (Google Home…) / smartphones
• Divers fabricants chinois sur Amazon / Alibaba…
• Boeleo W1 AI translator (Chine)
• Travis Touch Go (NL)
• Timekettle (Singapour)
• Valeur ajoutée limitée par rapport aux apps sur
smartphone
• Majorité des fonctions limitées hors ligne
• Hors ligne souvent limité aux langues les plus courantes
(parfois le néerlandais)
• Certains ont une carte SIM
• Hardware de traduction (quasi) instantanée de la parole

• Google, Microsoft et DeepL produisent aujourd'hui de bons
résultats pour la traduction en temps quasi réel
• Sur site web, smartphone, haut-parleurs intelligents…
• Toujours en ligne cependant  soucis de protection de la vie
privée
• Traduction hors ligne possible selon le hardware
• La traduction de bout en bout des discours en « streaming »
est encore en phase d’étude, mais ça progresse
Conclusion

Merci !
Website
www.smals.be
https://www.smalsresearch.be/
Phone
+3227875928
Email
research@smals.be

Traduction vocale quasi instantanee introduction

Recommandé

Recommandé

Contenu connexe

Similaire à Traduction vocale quasi instantanee introduction

Similaire à Traduction vocale quasi instantanee introduction (20)

Plus de Smals

Plus de Smals (20)

Traduction vocale quasi instantanee introduction

Notes de l'éditeur