SlideShare une entreprise Scribd logo
1  sur  18
Near real time voice translation
(Traduction vocale quasi instantanée)
Pratique
Mais où en est-on ?
Near real time voice translation
• À partir d’un cas d'utilisation du service Inspection de l'ONSS dans une entreprise internationale
• Comprendre immédiatement ce que dit une personne dans une langue étrangère
• S’apparente au sous-titrage en direct d'un débat télévisé dans une langue étrangère
• Technique ?
• Cascade : succession de différentes parties de la solution
• Reconnaissance automatique de la parole
• Traduction automatique
• Synthèse vocale : conversion en parole
• Bout en bout
• La reconnaissance vocale et la traduction se font en une seule opération
« Un grand pain s’il-vous-plaît »
« 我愛海豹 »
Traduction ≠ interprétation
• Traduction
• Hors ligne
• Le plus précisément possible, temps de réflexion
• Généralement basé sur l'écrit
• Texte intégral et contexte disponibles
• Interprétation
• Temps réel
• « Best effort », très grande pression du temps
• Généralement basé sur l’oral
• Texte futur et contexte inconnus
• Les formations diffèrent fortement
• Les bons traducteurs sont souvent de mauvais interprètes
Outils de traduction classique
• La traduction automatique est une industrie très développée
• Sur le web : Google/Bing/AWS Translate, DeepL…
• Environnements de travail intégrés : Trados, memoQ, WordBee (
babelfed)…
• Souvent, intégration avec MS Office via des plugins, etc.
• Gestion des tâches pour les gros volumes de travail
• Outils de traduction assistée par ordinateur (TAO)
• Initialement, l'accent reposait sur la « mémoire de traduction »
(base de données de traductions antérieures)
• Ensuite combiné avec la traduction automatique statistique (TAS)
• Maintenant : SMT  apprentissage profond
• Pour le code, les sites web, le software UX : i18n, gettext fichiers
PO…
Exemple d'outil
de traduction
classique : EU
eTranslation
• Outil de traduction puissant et
performant pour les
administrations
• Élément constitutif européen
• 24 langues de l'UE + russe,
norvégien, islandais et chinois
• Différents moteurs spécialisés par
domaine : UE formel, général,
santé publique, cour de justice,
Europeana (culturel), droit de la
propriété intellectuelle…
• Docs :
https://ec.europa.eu/cefdigital/wiki
/display/CEFDIGITAL/Documentati
on+eTranslation
Traduction de la langue parlée
Microsoft translator
TrueText : correction considérable de la reconnaissance vocale
par l’élimination des mots vides, des répétitions, des hésitations
et des erreurs grammaticales ainsi que par l’ajout de ponctuation
Customization
personalization
1
um no I mean
yes but I am I’ve
never done it
myself did users
before uh I will
ask go deep to
help me
INFOGRAPHICS WITH
PHOTOS
Lattice rescoring
3
um no I mean
yes but I am I’ve
never done it my-
self did you use
yours before uh I
will ask gurdeep
to help me
Customization
personalization
2
um no I mean
yes but I am I’ve
never done it
myself did users
before uh I will
ask gurdeep to
help me
Disfluency removal
4
* yes but * I’ve
never done it
myself did you
use yours before
* I will ask
gurdeep to help
me
Segmentation
punctuation
true casing
5
Yes.
But I’ve never
done it myself.
Did you use
yours before? I
will ask Gurdeep
to help me.
Avec TrueText, nous passons d'un brouillon rempli d'hésitations
à un résultat final clair en cinq étapes
La base provient
d'une reconnaissance
vocale
Les malentendus
sont corrigés
Les noms propres
sont reconnus
Enfin, des majuscules
et de la ponctuation
sont ajoutées
Les hésitations sont
filtrées
• Quasiment tous les systèmes de traduction vocale
fonctionnent en cascade
• Dans un premier temps, les modèles en cascade
convertissent le message parlé en texte grâce à la
reconnaissance automatique de la parole
• Dans un deuxième temps, ce texte est traduit par
traduction automatique
• Cela génère de bons résultats, comme dans Google
Translate par exemple
• Une nouvelle approche de Google AI (Translatotron)
traduit immédiatement le message parlé sans qu'il
faille d’abord le convertir en texte
Reconnaissance
automatique de la
parole
• Commencez-vous à traduire dès le premier mot
d'une phrase ? Ou combien de temps pouvez-vous
attendre pour commencer la traduction ?
• Les erreurs de la reconnaissance
automatique de la parole viennent s'ajouter
aux erreurs de traduction
• Un résultat plus rapide est plus susceptible
de comporter des erreurs
• Exemple : « what her » => « water », mais
n'est corrigé qu'après le mot « atmosphere »
• La traduction de bout en bout en une seule opération plutôt
qu'en cascade relève encore de la jeune recherche scientifique
• Exemple : SimulSpeech, juillet 2020
• Nécessite de grandes quantités de données spécifiquement
annotées
• Les résultats se rapprochent tout doucement de ceux des systèmes
en cascade, mais n’ont pas encore atteint le même niveau
• Même avec un système de bout en bout, un buffer d'une phrase
est pour ainsi dire inévitable si l'ordre des mots doit également
être correct :
Ik ben afgelopen zaterdag nog snel even naar Antwerpen gegaan
Je me suis rendu rapidement à Anvers samedi dernier [DeepL]
Parole  texte traduit
• Le sous-titrage en direct s’apparente à
l'interprétation
• Utilise généralement en coulisses la
reconnaissance automatique de la parole
• Formé sur le profil vocal du sous-titreur
• Les noms propres et la terminologie sont
introduits à l'avance
• Le sous-titreur répète ce qui est dit à l'écran,
sans « euh », etc.
• Les mots inconnus sont tapés, par exemple
« tweet »
• Problèmes fréquents :
• L’attention -> la tension ; verre  vers ; sept 
cette
• Expressions / idiomes traduits littéralement :
« break a leg »  « casser une jambe »
• Réduction des phrases requise lorsque
l’orateur parle vite
• Fonctionne mieux pour les émissions en
différé. Un retard est toujours constaté lors
des émissions en direct.
Sous-titrage en direct
• La traduction des sous-titres apparaît bien phrase par
phrase
• Part du sous-titre généré mais avec anticipation
• Beaucoup de mots passent à la trappe
•  Donne une idée de la marge d'erreur attendue
• Difficulté avec la séparation des phrases / ponctuation
• Apparaît mot par mot (fatigant)
• Pas de correction ultérieure
• Pas d'alignement sur le découpage des scènes
• Le bruit de fond est rédhibitoire
Traduction automatique sur YouTube
YouTube
• Peu efficace avec les dialectes :
•
– Walt Disney is dood.
• – Ni woar! Wa-d-heet’m veur g’had?
• Des problèmes sont également constatés
avec les forts accents, comme l'anglais
indien par exemple
 Très restreint en raison des limites de la
reconnaissance automatique de la parole
• Tour à tour = attendre la fin de la phrase
• Fournisseurs majeurs
• Google Translate : hors ligne pour le texte et les images
uniquement
• Microsoft Translator : hors ligne pour le texte uniquement
• Apple Translate : bientôt sur iOS 14 ? Pas de néerlandais
• Amazon : via AWS, Alexa, etc. Relativement cher (15$ / 1M
de caractères)
• Apps sur smartphone
• La base est la traduction écrite
• Souvent, traduction orale possible également
• iTranslate (supporte le NL)
• Talk&Translate
• Conversation Translator
• …
• Nombreuses apps de mauvaise qualité et difficiles à
différencier
Traduction de dialogues
• Quelle langue est parlée ?
• Lié à l'identification / la vérification de l'orateur : qui parle ?
• Utile pour l'authentification
• Utile pour la « diarisation » (distinction des orateurs dans le dialogue)
• Concentré sur la seule détection de la langue : quelques
initiatives
• Nécessite des centaines d'heures de parole dans la langue à détecter ;
des (dizaines de) milliers si des langues proches doivent être distinguées
• https://github.com/matiaslindgren/lidbox
• Google ne peut le faire qu’avec un ensemble limité de langues possibles
• Problèmes fondamentaux
• On ne peut travailler que sur des phonèmes (une combinaison en mots
nécessite des connaissances préalables de la langue), qui sont partagés
par de nombreuses langues
• Il est déjà difficile pour un humain de faire la distinction entre l'hindi et
l'ourdou sans trop de connaissances préalables
• Parmi les langues plus obscures que l'on voudrait identifier, il n'y a de
toute façon pas assez de données pour former un détecteur
Spoken Language Identification
• Généralement traduction en ligne
• Enceintes intelligentes (Google Home…) / smartphones
• Divers fabricants chinois sur Amazon / Alibaba…
• Boeleo W1 AI translator (Chine)
• Travis Touch Go (NL)
• Timekettle (Singapour)
• Valeur ajoutée limitée par rapport aux apps sur
smartphone
• Majorité des fonctions limitées hors ligne
• Hors ligne souvent limité aux langues les plus courantes
(parfois le néerlandais)
• Certains ont une carte SIM
• Hardware de traduction (quasi) instantanée de la parole
• Google, Microsoft et DeepL produisent aujourd'hui de bons
résultats pour la traduction en temps quasi réel
• Sur site web, smartphone, haut-parleurs intelligents…
• Toujours en ligne cependant  soucis de protection de la vie
privée
• Traduction hors ligne possible selon le hardware
• La traduction de bout en bout des discours en « streaming »
est encore en phase d’étude, mais ça progresse
Conclusion
Merci !
Website
www.smals.be
https://www.smalsresearch.be/
Phone
+3227875928
Email
research@smals.be

Contenu connexe

Similaire à Traduction vocale quasi instantanee introduction

2014 05 atelier Posilandais #1
2014 05 atelier Posilandais #12014 05 atelier Posilandais #1
2014 05 atelier Posilandais #1Eric NENIN
 
Agile Day Tunisia 2012 - Quand le langage devient Agile
Agile Day Tunisia 2012 - Quand le langage devient AgileAgile Day Tunisia 2012 - Quand le langage devient Agile
Agile Day Tunisia 2012 - Quand le langage devient AgileTunisia Scrum User Group
 
Sortir de l’ère des héros - HumanTalks Paris Mars 2017
Sortir de l’ère des héros - HumanTalks Paris Mars 2017Sortir de l’ère des héros - HumanTalks Paris Mars 2017
Sortir de l’ère des héros - HumanTalks Paris Mars 2017Jean-Pierre Lambert
 
La traduction (automatique) gratuite sur internet
La traduction (automatique) gratuite sur internetLa traduction (automatique) gratuite sur internet
La traduction (automatique) gratuite sur internetCGtraduction
 
La traduction automatique remplace t-elle la traduction humaine
La traduction automatique remplace t-elle la traduction humaineLa traduction automatique remplace t-elle la traduction humaine
La traduction automatique remplace t-elle la traduction humaineTieubap1991
 
Qui ne voudrait pas gagner 1 million avec Drupal ?
Qui ne voudrait pas gagner 1 million avec Drupal ?Qui ne voudrait pas gagner 1 million avec Drupal ?
Qui ne voudrait pas gagner 1 million avec Drupal ?golchi
 
Les chatbots, l’IA dans tout cela, les technologies
Les chatbots, l’IA dans tout cela, les technologiesLes chatbots, l’IA dans tout cela, les technologies
Les chatbots, l’IA dans tout cela, les technologiesLudan Stoecklé
 
En attendant le Poisson de Babel
En attendant le Poisson de BabelEn attendant le Poisson de Babel
En attendant le Poisson de Babelsbooth
 
Ez18n theorie encoding gouvernance
Ez18n theorie encoding gouvernanceEz18n theorie encoding gouvernance
Ez18n theorie encoding gouvernancegdigugli
 
Coding dojo en entreprise
Coding dojo en entrepriseCoding dojo en entreprise
Coding dojo en entrepriseNicolas Ledez
 
Vers des langues de programmation ?
Vers des langues de programmation ?Vers des langues de programmation ?
Vers des langues de programmation ?Nicolas Dubois
 
Présentation IceFire pour Aos Canada français
Présentation IceFire pour Aos Canada françaisPrésentation IceFire pour Aos Canada français
Présentation IceFire pour Aos Canada françaisMartin Laplante
 

Similaire à Traduction vocale quasi instantanee introduction (20)

2014 05 atelier Posilandais #1
2014 05 atelier Posilandais #12014 05 atelier Posilandais #1
2014 05 atelier Posilandais #1
 
Machine Translation
Machine TranslationMachine Translation
Machine Translation
 
GetText / Rails - FR
GetText / Rails - FRGetText / Rails - FR
GetText / Rails - FR
 
GetText / Rails
GetText / RailsGetText / Rails
GetText / Rails
 
Du coup, vous parlez canadien-français?
Du coup, vous parlez canadien-français?Du coup, vous parlez canadien-français?
Du coup, vous parlez canadien-français?
 
La traduction pour les nuls
La traduction pour les nulsLa traduction pour les nuls
La traduction pour les nuls
 
Agile Day Tunisia 2012 - Quand le langage devient Agile
Agile Day Tunisia 2012 - Quand le langage devient AgileAgile Day Tunisia 2012 - Quand le langage devient Agile
Agile Day Tunisia 2012 - Quand le langage devient Agile
 
Sortir de l’ère des héros - HumanTalks Paris Mars 2017
Sortir de l’ère des héros - HumanTalks Paris Mars 2017Sortir de l’ère des héros - HumanTalks Paris Mars 2017
Sortir de l’ère des héros - HumanTalks Paris Mars 2017
 
La traduction (automatique) gratuite sur internet
La traduction (automatique) gratuite sur internetLa traduction (automatique) gratuite sur internet
La traduction (automatique) gratuite sur internet
 
La traduction automatique remplace t-elle la traduction humaine
La traduction automatique remplace t-elle la traduction humaineLa traduction automatique remplace t-elle la traduction humaine
La traduction automatique remplace t-elle la traduction humaine
 
XebiConFr 15 - Développer dans le Cloud
XebiConFr 15 - Développer dans le CloudXebiConFr 15 - Développer dans le Cloud
XebiConFr 15 - Développer dans le Cloud
 
Qui ne voudrait pas gagner 1 million avec Drupal ?
Qui ne voudrait pas gagner 1 million avec Drupal ?Qui ne voudrait pas gagner 1 million avec Drupal ?
Qui ne voudrait pas gagner 1 million avec Drupal ?
 
Donnez la voix aux machines
Donnez la voix aux machinesDonnez la voix aux machines
Donnez la voix aux machines
 
Les chatbots, l’IA dans tout cela, les technologies
Les chatbots, l’IA dans tout cela, les technologiesLes chatbots, l’IA dans tout cela, les technologies
Les chatbots, l’IA dans tout cela, les technologies
 
En attendant le Poisson de Babel
En attendant le Poisson de BabelEn attendant le Poisson de Babel
En attendant le Poisson de Babel
 
Ez18n theorie encoding gouvernance
Ez18n theorie encoding gouvernanceEz18n theorie encoding gouvernance
Ez18n theorie encoding gouvernance
 
Coding dojo en entreprise
Coding dojo en entrepriseCoding dojo en entreprise
Coding dojo en entreprise
 
Vers des langues de programmation ?
Vers des langues de programmation ?Vers des langues de programmation ?
Vers des langues de programmation ?
 
Présentation IceFire pour Aos Canada français
Présentation IceFire pour Aos Canada françaisPrésentation IceFire pour Aos Canada français
Présentation IceFire pour Aos Canada français
 
Latitudes unité 1 suite
Latitudes unité 1 suiteLatitudes unité 1 suite
Latitudes unité 1 suite
 

Plus de Smals

Wat zijn chatbots en waarvoor gebruiken we ze
Wat zijn chatbots en waarvoor gebruiken we zeWat zijn chatbots en waarvoor gebruiken we ze
Wat zijn chatbots en waarvoor gebruiken we zeSmals
 
Wat is augmented reality en waarvoor gebruiken we het nl
Wat is augmented reality en waarvoor gebruiken we het nlWat is augmented reality en waarvoor gebruiken we het nl
Wat is augmented reality en waarvoor gebruiken we het nlSmals
 
Named entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nlNamed entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nlSmals
 
Natural language generation nederlands
Natural language generation nederlandsNatural language generation nederlands
Natural language generation nederlandsSmals
 
Wat is ai en wat kan het nl
Wat is ai en wat kan het nlWat is ai en wat kan het nl
Wat is ai en wat kan het nlSmals
 
Realite augmentee
Realite augmenteeRealite augmentee
Realite augmenteeSmals
 
Internet des objets
Internet des objetsInternet des objets
Internet des objetsSmals
 
Chatbots comment ca marche a quoi ca sert
Chatbots comment ca marche a quoi ca sertChatbots comment ca marche a quoi ca sert
Chatbots comment ca marche a quoi ca sertSmals
 
Analyse predictive comment ca marche a quoi ca sert
Analyse predictive comment ca marche a quoi ca sertAnalyse predictive comment ca marche a quoi ca sert
Analyse predictive comment ca marche a quoi ca sertSmals
 
Automatisation des processus robotises introduction
Automatisation des processus robotises introductionAutomatisation des processus robotises introduction
Automatisation des processus robotises introductionSmals
 
Interfaces conversationnelle introduction
Interfaces conversationnelle introductionInterfaces conversationnelle introduction
Interfaces conversationnelle introductionSmals
 
Reconnaissance d'entites nommees introduction
Reconnaissance d'entites nommees introductionReconnaissance d'entites nommees introduction
Reconnaissance d'entites nommees introductionSmals
 
Generation automatique de textes
Generation automatique de textesGeneration automatique de textes
Generation automatique de textesSmals
 
Intelligence artificielle etroite introduction
Intelligence artificielle etroite introductionIntelligence artificielle etroite introduction
Intelligence artificielle etroite introductionSmals
 
Named entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doenNamed entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doenSmals
 
Real time voice translation handig maar hoe ver staat het
Real time voice translation   handig  maar hoe ver staat hetReal time voice translation   handig  maar hoe ver staat het
Real time voice translation handig maar hoe ver staat hetSmals
 
Wat is predictive analytics en waarvoor kun je het gebruiken
Wat is predictive analytics en waarvoor kun je het gebruikenWat is predictive analytics en waarvoor kun je het gebruiken
Wat is predictive analytics en waarvoor kun je het gebruikenSmals
 
Wat is robotic process automation en wat kun je er mee doen
Wat is robotic process automation en wat kun je er mee doenWat is robotic process automation en wat kun je er mee doen
Wat is robotic process automation en wat kun je er mee doenSmals
 
Exemples europeens comme source d inspiration
Exemples europeens comme source d inspirationExemples europeens comme source d inspiration
Exemples europeens comme source d inspirationSmals
 
Wat zijn conversational interfaces en waarvoor kun je ze gebruiken
Wat zijn conversational interfaces en waarvoor kun je ze gebruikenWat zijn conversational interfaces en waarvoor kun je ze gebruiken
Wat zijn conversational interfaces en waarvoor kun je ze gebruikenSmals
 

Plus de Smals (20)

Wat zijn chatbots en waarvoor gebruiken we ze
Wat zijn chatbots en waarvoor gebruiken we zeWat zijn chatbots en waarvoor gebruiken we ze
Wat zijn chatbots en waarvoor gebruiken we ze
 
Wat is augmented reality en waarvoor gebruiken we het nl
Wat is augmented reality en waarvoor gebruiken we het nlWat is augmented reality en waarvoor gebruiken we het nl
Wat is augmented reality en waarvoor gebruiken we het nl
 
Named entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nlNamed entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nl
 
Natural language generation nederlands
Natural language generation nederlandsNatural language generation nederlands
Natural language generation nederlands
 
Wat is ai en wat kan het nl
Wat is ai en wat kan het nlWat is ai en wat kan het nl
Wat is ai en wat kan het nl
 
Realite augmentee
Realite augmenteeRealite augmentee
Realite augmentee
 
Internet des objets
Internet des objetsInternet des objets
Internet des objets
 
Chatbots comment ca marche a quoi ca sert
Chatbots comment ca marche a quoi ca sertChatbots comment ca marche a quoi ca sert
Chatbots comment ca marche a quoi ca sert
 
Analyse predictive comment ca marche a quoi ca sert
Analyse predictive comment ca marche a quoi ca sertAnalyse predictive comment ca marche a quoi ca sert
Analyse predictive comment ca marche a quoi ca sert
 
Automatisation des processus robotises introduction
Automatisation des processus robotises introductionAutomatisation des processus robotises introduction
Automatisation des processus robotises introduction
 
Interfaces conversationnelle introduction
Interfaces conversationnelle introductionInterfaces conversationnelle introduction
Interfaces conversationnelle introduction
 
Reconnaissance d'entites nommees introduction
Reconnaissance d'entites nommees introductionReconnaissance d'entites nommees introduction
Reconnaissance d'entites nommees introduction
 
Generation automatique de textes
Generation automatique de textesGeneration automatique de textes
Generation automatique de textes
 
Intelligence artificielle etroite introduction
Intelligence artificielle etroite introductionIntelligence artificielle etroite introduction
Intelligence artificielle etroite introduction
 
Named entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doenNamed entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doen
 
Real time voice translation handig maar hoe ver staat het
Real time voice translation   handig  maar hoe ver staat hetReal time voice translation   handig  maar hoe ver staat het
Real time voice translation handig maar hoe ver staat het
 
Wat is predictive analytics en waarvoor kun je het gebruiken
Wat is predictive analytics en waarvoor kun je het gebruikenWat is predictive analytics en waarvoor kun je het gebruiken
Wat is predictive analytics en waarvoor kun je het gebruiken
 
Wat is robotic process automation en wat kun je er mee doen
Wat is robotic process automation en wat kun je er mee doenWat is robotic process automation en wat kun je er mee doen
Wat is robotic process automation en wat kun je er mee doen
 
Exemples europeens comme source d inspiration
Exemples europeens comme source d inspirationExemples europeens comme source d inspiration
Exemples europeens comme source d inspiration
 
Wat zijn conversational interfaces en waarvoor kun je ze gebruiken
Wat zijn conversational interfaces en waarvoor kun je ze gebruikenWat zijn conversational interfaces en waarvoor kun je ze gebruiken
Wat zijn conversational interfaces en waarvoor kun je ze gebruiken
 

Traduction vocale quasi instantanee introduction

  • 1. Near real time voice translation (Traduction vocale quasi instantanée) Pratique Mais où en est-on ?
  • 2. Near real time voice translation • À partir d’un cas d'utilisation du service Inspection de l'ONSS dans une entreprise internationale • Comprendre immédiatement ce que dit une personne dans une langue étrangère • S’apparente au sous-titrage en direct d'un débat télévisé dans une langue étrangère • Technique ? • Cascade : succession de différentes parties de la solution • Reconnaissance automatique de la parole • Traduction automatique • Synthèse vocale : conversion en parole • Bout en bout • La reconnaissance vocale et la traduction se font en une seule opération « Un grand pain s’il-vous-plaît » « 我愛海豹 »
  • 3. Traduction ≠ interprétation • Traduction • Hors ligne • Le plus précisément possible, temps de réflexion • Généralement basé sur l'écrit • Texte intégral et contexte disponibles • Interprétation • Temps réel • « Best effort », très grande pression du temps • Généralement basé sur l’oral • Texte futur et contexte inconnus • Les formations diffèrent fortement • Les bons traducteurs sont souvent de mauvais interprètes
  • 4. Outils de traduction classique • La traduction automatique est une industrie très développée • Sur le web : Google/Bing/AWS Translate, DeepL… • Environnements de travail intégrés : Trados, memoQ, WordBee ( babelfed)… • Souvent, intégration avec MS Office via des plugins, etc. • Gestion des tâches pour les gros volumes de travail • Outils de traduction assistée par ordinateur (TAO) • Initialement, l'accent reposait sur la « mémoire de traduction » (base de données de traductions antérieures) • Ensuite combiné avec la traduction automatique statistique (TAS) • Maintenant : SMT  apprentissage profond • Pour le code, les sites web, le software UX : i18n, gettext fichiers PO…
  • 5. Exemple d'outil de traduction classique : EU eTranslation • Outil de traduction puissant et performant pour les administrations • Élément constitutif européen • 24 langues de l'UE + russe, norvégien, islandais et chinois • Différents moteurs spécialisés par domaine : UE formel, général, santé publique, cour de justice, Europeana (culturel), droit de la propriété intellectuelle… • Docs : https://ec.europa.eu/cefdigital/wiki /display/CEFDIGITAL/Documentati on+eTranslation
  • 6. Traduction de la langue parlée Microsoft translator TrueText : correction considérable de la reconnaissance vocale par l’élimination des mots vides, des répétitions, des hésitations et des erreurs grammaticales ainsi que par l’ajout de ponctuation
  • 7. Customization personalization 1 um no I mean yes but I am I’ve never done it myself did users before uh I will ask go deep to help me INFOGRAPHICS WITH PHOTOS Lattice rescoring 3 um no I mean yes but I am I’ve never done it my- self did you use yours before uh I will ask gurdeep to help me Customization personalization 2 um no I mean yes but I am I’ve never done it myself did users before uh I will ask gurdeep to help me Disfluency removal 4 * yes but * I’ve never done it myself did you use yours before * I will ask gurdeep to help me Segmentation punctuation true casing 5 Yes. But I’ve never done it myself. Did you use yours before? I will ask Gurdeep to help me. Avec TrueText, nous passons d'un brouillon rempli d'hésitations à un résultat final clair en cinq étapes La base provient d'une reconnaissance vocale Les malentendus sont corrigés Les noms propres sont reconnus Enfin, des majuscules et de la ponctuation sont ajoutées Les hésitations sont filtrées
  • 8. • Quasiment tous les systèmes de traduction vocale fonctionnent en cascade • Dans un premier temps, les modèles en cascade convertissent le message parlé en texte grâce à la reconnaissance automatique de la parole • Dans un deuxième temps, ce texte est traduit par traduction automatique • Cela génère de bons résultats, comme dans Google Translate par exemple • Une nouvelle approche de Google AI (Translatotron) traduit immédiatement le message parlé sans qu'il faille d’abord le convertir en texte Reconnaissance automatique de la parole
  • 9. • Commencez-vous à traduire dès le premier mot d'une phrase ? Ou combien de temps pouvez-vous attendre pour commencer la traduction ? • Les erreurs de la reconnaissance automatique de la parole viennent s'ajouter aux erreurs de traduction • Un résultat plus rapide est plus susceptible de comporter des erreurs • Exemple : « what her » => « water », mais n'est corrigé qu'après le mot « atmosphere »
  • 10. • La traduction de bout en bout en une seule opération plutôt qu'en cascade relève encore de la jeune recherche scientifique • Exemple : SimulSpeech, juillet 2020 • Nécessite de grandes quantités de données spécifiquement annotées • Les résultats se rapprochent tout doucement de ceux des systèmes en cascade, mais n’ont pas encore atteint le même niveau • Même avec un système de bout en bout, un buffer d'une phrase est pour ainsi dire inévitable si l'ordre des mots doit également être correct : Ik ben afgelopen zaterdag nog snel even naar Antwerpen gegaan Je me suis rendu rapidement à Anvers samedi dernier [DeepL] Parole  texte traduit
  • 11. • Le sous-titrage en direct s’apparente à l'interprétation • Utilise généralement en coulisses la reconnaissance automatique de la parole • Formé sur le profil vocal du sous-titreur • Les noms propres et la terminologie sont introduits à l'avance • Le sous-titreur répète ce qui est dit à l'écran, sans « euh », etc. • Les mots inconnus sont tapés, par exemple « tweet » • Problèmes fréquents : • L’attention -> la tension ; verre  vers ; sept  cette • Expressions / idiomes traduits littéralement : « break a leg »  « casser une jambe » • Réduction des phrases requise lorsque l’orateur parle vite • Fonctionne mieux pour les émissions en différé. Un retard est toujours constaté lors des émissions en direct. Sous-titrage en direct
  • 12. • La traduction des sous-titres apparaît bien phrase par phrase • Part du sous-titre généré mais avec anticipation • Beaucoup de mots passent à la trappe •  Donne une idée de la marge d'erreur attendue • Difficulté avec la séparation des phrases / ponctuation • Apparaît mot par mot (fatigant) • Pas de correction ultérieure • Pas d'alignement sur le découpage des scènes • Le bruit de fond est rédhibitoire Traduction automatique sur YouTube
  • 13. YouTube • Peu efficace avec les dialectes : • – Walt Disney is dood. • – Ni woar! Wa-d-heet’m veur g’had? • Des problèmes sont également constatés avec les forts accents, comme l'anglais indien par exemple  Très restreint en raison des limites de la reconnaissance automatique de la parole
  • 14. • Tour à tour = attendre la fin de la phrase • Fournisseurs majeurs • Google Translate : hors ligne pour le texte et les images uniquement • Microsoft Translator : hors ligne pour le texte uniquement • Apple Translate : bientôt sur iOS 14 ? Pas de néerlandais • Amazon : via AWS, Alexa, etc. Relativement cher (15$ / 1M de caractères) • Apps sur smartphone • La base est la traduction écrite • Souvent, traduction orale possible également • iTranslate (supporte le NL) • Talk&Translate • Conversation Translator • … • Nombreuses apps de mauvaise qualité et difficiles à différencier Traduction de dialogues
  • 15. • Quelle langue est parlée ? • Lié à l'identification / la vérification de l'orateur : qui parle ? • Utile pour l'authentification • Utile pour la « diarisation » (distinction des orateurs dans le dialogue) • Concentré sur la seule détection de la langue : quelques initiatives • Nécessite des centaines d'heures de parole dans la langue à détecter ; des (dizaines de) milliers si des langues proches doivent être distinguées • https://github.com/matiaslindgren/lidbox • Google ne peut le faire qu’avec un ensemble limité de langues possibles • Problèmes fondamentaux • On ne peut travailler que sur des phonèmes (une combinaison en mots nécessite des connaissances préalables de la langue), qui sont partagés par de nombreuses langues • Il est déjà difficile pour un humain de faire la distinction entre l'hindi et l'ourdou sans trop de connaissances préalables • Parmi les langues plus obscures que l'on voudrait identifier, il n'y a de toute façon pas assez de données pour former un détecteur Spoken Language Identification
  • 16. • Généralement traduction en ligne • Enceintes intelligentes (Google Home…) / smartphones • Divers fabricants chinois sur Amazon / Alibaba… • Boeleo W1 AI translator (Chine) • Travis Touch Go (NL) • Timekettle (Singapour) • Valeur ajoutée limitée par rapport aux apps sur smartphone • Majorité des fonctions limitées hors ligne • Hors ligne souvent limité aux langues les plus courantes (parfois le néerlandais) • Certains ont une carte SIM • Hardware de traduction (quasi) instantanée de la parole
  • 17. • Google, Microsoft et DeepL produisent aujourd'hui de bons résultats pour la traduction en temps quasi réel • Sur site web, smartphone, haut-parleurs intelligents… • Toujours en ligne cependant  soucis de protection de la vie privée • Traduction hors ligne possible selon le hardware • La traduction de bout en bout des discours en « streaming » est encore en phase d’étude, mais ça progresse Conclusion

Notes de l'éditeur

  1. IT crowd sketch: https://youtu.be/VZrp7mAmeRI?t=90
  2. Intro tot ASR lecture: https://www.youtube.com/watch?v=q67z7PTGRi8
  3. https://www.stichtinghoormij.nl/items/nl-nl/nieuws/voor-iedereen/de-grootste-valkuilen-voor-ondertitelaars
  4. Origineel: https://www.youtube.com/watch?v=u1gCoW9-2K8
  5. https://www.youtube.com/watch?v=wTSO91rV5fo Minstens evengoed voorbeeld: https://www.youtube.com/watch?v=ip6DtLvDbKo
  6. https://techcrunch.com/2020/06/22/apples-new-translate-app-works-offline-with-11-languages/
  7. https://www.youtube.com/watch?v=cyL4UkVh_oQ&feature=youtu.be
  8. Zie https://www.talendomein.nl/realtime-vertaalapparaat-draagbare-vertaler.html
  9. Zie mail Bart Defrancq Ugent