5. Acquisition – 4 approches testées (monolocuteur)
Setups Avantages Inconvénients
Microphone champ proche
dit « madonna »
Super directif, bon rapport
signal à bruit
Dépend de la direction
artistique
Microphone champ lointain
omnidirectionnel
Non intrusif, facile à
déployer
Non directif, mauvais
rapport signal à bruit
Microphone champ lointain
directionnel dit « shotgun »
Non intrusif, directif, bon
rapport signal à bruit
Nécessité de « traquer »
l’acteur
Réseau de microphones en
champ lointain (ULG)
Non intrusif, super directif
(steering), bon rapport
signal à bruit
Dépend de la configuration
du réseau de microphone +
algorithme de
beamforming
8. Prétraitement du signal de parole
• Objectif : amélioration du signal utile + relaxation du
moteur de reconnaissance via algorithmes de dé-
bruitage, dé-réverbération et détecteur d’activité
vocale.
• Création d’une base de données bruitée pour tester les
algorithmes (bruit d’audience, piano, etc.).
• Approches implémentées :
– « Single channel filtering » : Karhunen-Loeve transform,
Wiener algorithm, Multiband spectral-subtractive, etc.
– “Adaptive filtering” : LMS & RLS filter
– VAD : WebRTC(GMM-based)
9. Évaluation – Acquisition + prétraitement
• Critère d’évaluation : « Word Error Rate » qui
est la distance de Levenshtein entre la phrase
attendue et la phrase obtenue par
reconnaissance vocale.
• Moteur de reco : Google API
• Conclusions :
– Micro madonna >> (5% WER)
– Adaptive filtering >> Single channel filtering,
performances proches du micro madonna
11. Identificateur de prompts - Concept
Prétraitement + VAD
ONE DOES
NOT SIMPLY
TRAIN A RNN
GOOGLE SPEECH API
t(0)
t(1)
t(2)
DATA PROCESSING
CLASSIFICATION
P001 : You shall
not pass!
P002 : ONE
DOES NOT
SIMPLY TRAIN A
DNN
P003 :
Wingardium
Leviosa
?
12. Classification – TF IDF
• Analogie avec la recherche de documents via une
requête (ex : moteur de recherche Google)
• Documents => Prompts et Query => Sortie de
l’ASR
• Utilisation de l’approche Term Frequency (TF) –
Inverse Document Frequency (IDF) + Cosine
Similarity :
– TF : Étape de vectorisation des documents
– IDF : Étape de pondération des vecteurs
– CosSim : Étape de classification
14. Classification - Commentaires
• Approche nécessaire mais pas suffisante pour
avoir un système fonctionnel -> Si plusieurs
prompts partagent des mots communs, des
transitions « brutales » apparaissent et dégradent
l’expérience.
• Nécessité de « lisser » le processus de décision en
ajoutant des contraintes supplémentaires sur les
transitions possibles entre prompts -> framework
des Modèles Cachés de Markov (HMM).
15. Classification- HMM
• Design simple :
– 1 état par prompt (Xi).
– Probabilités de transition (aij) entre états éditées
« à la main ». aij = P(Xj|Xi)
– Probabilités d’émission (bik) correspondent aux
CosSim. bik=P(Ok|Xi)=CosSim(Query_k,Prompt_i)
– Pas d’entrainement, HMM utilisé uniquement
pour le décodage (Viterbi).
19. Conclusions et perspectives
• Taux de classification des prompts > 95%.
• Degré de liberté offert dans le design des transitions
possibles entre prompts -> utilisation agnostique pour
le end-user (artistes).
• Perspectives d’amélioration de la v0 :
– Acquisition unique par réseau de micro pour filtrer
spatialement les acteurs + renforcement par GéoLoc?!
– Détection automatique de la langue pour configurer le
moteur de reconnaissance vocale.
– Approche TF-IDF basée sur les mots et non pas la
sémantique du prompt -> pas de place à l’interprétation,
variation artistique -> Approche sémantique à envisager.