Reconnaissance vocale et création artistique

Département
Signal et systèmes embarqués
Liège Creative - 27/04/2018

Positionnement du problème
You shall
not pass!
Wingardium
Leviosa
Surtitrage automatique
§ You shall not pass !
§ Wingardium Leviosa
§ …

Challenges
• Acquisition multi-locuteurs la moins invasive
possible (confort de l’acteur et direction
artistique).
• Prétraitement du signal de parole afin d’assurer
un taux élevé de reconnaissance vocale (bruit
ambiant, interférences, réverbération, etc.).
• Reconnaissance vocale dans plusieurs langues.
• Détection correcte du prompt en fonction des
résultats de la reconnaissance vocale (Parole ->
texte)
• Faisabilité « temps réel » du système.

Architecture système
Acquisition
Trames
audio
Prétraitement
signal de parole
Speech Cloud
API (Google,
Nuance, etc.)
Indice du
prompt
(UDP/IP)
Identification
du prompt
Texte
Application
Le traitement des trames s’effectue en parallèle
(Multi-Threading) pour chaque micro.

Acquisition – 4 approches testées (monolocuteur)
Setups Avantages Inconvénients
Microphone champ proche
dit « madonna »
Super directif, bon rapport
signal à bruit
Dépend de la direction
artistique
Microphone champ lointain
omnidirectionnel
Non intrusif, facile à
déployer
Non directif, mauvais
rapport signal à bruit
Microphone champ lointain
directionnel dit « shotgun »
Non intrusif, directif, bon
rapport signal à bruit
Nécessité de « traquer »
l’acteur
Réseau de microphones en
champ lointain (ULG)
Non intrusif, super directif
(steering), bon rapport
signal à bruit
Dépend de la configuration
du réseau de microphone +
algorithme de
beamforming

Acquisition – Illustration
Prof. J.J. Embrechts
Audio and acoustics laboratory/CEDIA
Simulation multi-locuteurs avec 8 micros
directifs (~shotguns) synchronisés à 48000 Hz.

Prétraitement du signal de parole
• Objectif : amélioration du signal utile + relaxation du
moteur de reconnaissance via algorithmes de dé-
bruitage, dé-réverbération et détecteur d’activité
vocale.
• Création d’une base de données bruitée pour tester les
algorithmes (bruit d’audience, piano, etc.).
• Approches implémentées :
– « Single channel filtering » : Karhunen-Loeve transform,
Wiener algorithm, Multiband spectral-subtractive, etc.
– “Adaptive filtering” : LMS & RLS filter
– VAD : WebRTC(GMM-based)

Évaluation – Acquisition + prétraitement
• Critère d’évaluation : « Word Error Rate » qui
est la distance de Levenshtein entre la phrase
attendue et la phrase obtenue par
reconnaissance vocale.
• Moteur de reco : Google API
• Conclusions :
– Micro madonna >> (5% WER)
– Adaptive filtering >> Single channel filtering,
performances proches du micro madonna

Identificateur de prompts - Concept
Prétraitement + VAD
ONE DOES
NOT SIMPLY
TRAIN A RNN
GOOGLE SPEECH API
t(0)
t(1)
t(2)
DATA PROCESSING
CLASSIFICATION
P001 : You shall
not pass!
P002 : ONE
DOES NOT
SIMPLY TRAIN A
DNN
P003 :
Wingardium
Leviosa
?

Classification – TF IDF
• Analogie avec la recherche de documents via une
requête (ex : moteur de recherche Google)
• Documents => Prompts et Query => Sortie de
l’ASR
• Utilisation de l’approche Term Frequency (TF) –
Inverse Document Frequency (IDF) + Cosine
Similarity :
– TF : Étape de vectorisation des documents
– IDF : Étape de pondération des vecteurs
– CosSim : Étape de classification

Classification – Illustration (1)
(1)
https://janav.wordpress.com/2013/10/27/t
f-idf-and-cosine-similarity/
1 – TF vectorisation
2 – TF normalisation
3 – IDF pondération
VECTORISATION
CLASSIFICATION
4 – TF/IDF Documents 5 – TF/IDF Query
X
6 – Cosine similarity

Classification - Commentaires
• Approche nécessaire mais pas suffisante pour
avoir un système fonctionnel -> Si plusieurs
prompts partagent des mots communs, des
transitions « brutales » apparaissent et dégradent
l’expérience.
• Nécessité de « lisser » le processus de décision en
ajoutant des contraintes supplémentaires sur les
transitions possibles entre prompts -> framework
des Modèles Cachés de Markov (HMM).

Classification- HMM
• Design simple :
– 1 état par prompt (Xi).
– Probabilités de transition (aij) entre états éditées
« à la main ». aij = P(Xj|Xi)
– Probabilités d’émission (bik) correspondent aux
CosSim. bik=P(Ok|Xi)=CosSim(Query_k,Prompt_i)
– Pas d’entrainement, HMM utilisé uniquement
pour le décodage (Viterbi).

HMM - Configuration 0.33
I
P001
F
P002
0.5
0.5
0.33
0.33
0.5
0.5

Conclusions et perspectives
• Taux de classification des prompts > 95%.
• Degré de liberté offert dans le design des transitions
possibles entre prompts -> utilisation agnostique pour
le end-user (artistes).
• Perspectives d’amélioration de la v0 :
– Acquisition unique par réseau de micro pour filtrer
spatialement les acteurs + renforcement par GéoLoc?!
– Détection automatique de la langue pour configurer le
moteur de reconnaissance vocale.
– Approche TF-IDF basée sur les mots et non pas la
sémantique du prompt -> pas de place à l’interprétation,
variation artistique -> Approche sémantique à envisager.

Reconnaissance vocale et création artistique

Reconnaissance vocale et création artistique

Recommandé

Recommandé

Contenu connexe

Similaire à Reconnaissance vocale et création artistique

Similaire à Reconnaissance vocale et création artistique (8)

Plus de Geeks Anonymes

Plus de Geeks Anonymes (20)

Reconnaissance vocale et création artistique