Recent research focuses on improving the performance of Automatic Speaker Identification (IAL) systems on VoIP.
The effect of speech signal compression on the IAL on wireless networks is measured. On those, the Gaussian Mixture Model (GMM) are used for the modeling task and the Line Spectral frequency (LSF) coefficients as a feature vector.
In order to improve the measured recognition rate, this work investigates on the contribution of Line Spectral Frequency (LSF) derived directly from the G.729 encoded Bitstream.
The performance of the proposed system is analysed from either the synthesized speech and directly from the coded parameters. The identification phase was tested with ARADIGIT corpus which is a database of Arabic spoken digits, spoken by Algerian speakers. The obtained results show that the emerging method that uses the LSF derived directly from the G.729 bitstream improves significantly the recognition accuracy compared with the case where LSF features extracted from synthesized speech.
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Front-end Configuration For Distributed Speaker Recognition Using Bitstream
1. Paramétrage front-end pour la
reconnaissance de locuteur distribuée
utilisant le bitstream
BOUCHOUIKA Faycal
TEBOUB Islem
Présenté par:
Mme ZERGAT.K.Y
Proposé par:
République Algérienne Démocratique et Populaire
Ministère de l’enseignement Supérieur et de la Recherche Scientifique
Université des Sciences et de la Technologie Houari Boumediene
Faculté d’Electronique et de l’Informatique
Département d’Informatique
2. 4- Experiences et résultats
3- La RAL appliquée aux communications sans fils
1- Reconnaissance de locuteur : Analyse technique
Introduction
PLAN DE TRAVAIL
Conlusion
2- Composants d’un systèmede RAL
3. INTRODUCTION
1
De nos jours, les sociétés possédants des informations
confidentielles devront assurer une bonne protection à leurs
bases de données pour parfaire leurs fonctions.
Les systèmes d’accès sont des systèmes qui se focalisent
sur la reconnaissance automatique de l’individu, et sont
basés sur la biométrie.
Sécurisation de
données
Assurance de
confidentialité
Mise en œuvre d’un
système d’accès
8. INTRODUCTION
5
L’objectif de notre travail consiste à évaluer et
améliorer les performances d’un système de
Reconnaissance Automatique du Locuteur sur IP.
Objectif :
9. 1- Reconnaissance de locuteur : Analyse technique
6
Utilisationde
variabilitésde la voix
Différencier les
locuteurs
Variabilitésinterlocuteurs
Variabilitésintra-locuteur
10. 1- Reconnaissance de locuteur : Analyse technique
7
Variabilités de la voix
La voix humaine n’est pas constante, les changements
peuvent être naturels ou volontaires. Ces évolutions sont
dues aux paramètres suivant:
• Court terme (occasionnelles).
• Moyen terme.
• Long terme.
11. 1- Reconnaissance de locuteur : Analyse technique
8
Variabilités de la voix
Variabilités Interlocuteurs
Locuteur 1
Locuteur 2
Locuteur 3
“We were away a year ago”
12. 1- Reconnaissance de locuteur : Analyse technique
9
Variabilités de la voix
Système RAL
SystèmeVAL
SystèmeIAL
13. 1- Reconnaissance de locuteur : Analyse technique
10
Variabilités de la voix Classificationde la reconnaissance vocale
Extraction
des
paramètres
Decision MAX
Sarah
?
Said
?
Ali ?
...
Sarah
14. 1- Reconnaissance de locuteur : Analyse technique
11
Variabilités de la voix Classificationde la reconnaissance vocale
I’am
Nawel
DécisionExtraction
des
paramètres
Nawel ?
Imposteur
15. 2- Composants d’un systèmede reconnaissance
de locuteur
12
Correspondance
de motifs
Extractiondes
caractéristiques
Décision
Modélisation
de locuteur Base de donnée
« modèles de
locuteurs »
Parole entrée
Mode d’entrainement
Mode de reconnaissance
Demande d’identité
Modèle de base d’un système d’Identificationde locuteur
16. 2- Composants d’un systèmede reconnaissance
de locuteur
13
Trames Hamming
Signale vocal
LPC
LSF
17. 2- Composants d’un systèmede reconnaissance
de locuteur
14
Extraction des
caractéristiques
Comment surmonter les variabilités de la voix
caractérisées par LSF ??
Utilisationdu
GMM
Modélisation des
locuteurs
Tolérer les
variabilitéde la
voix
18. 2- Composants d’un systèmede reconnaissance
de locuteur
15
Extraction des
caractéristiques
Expectation
Modélisation de
locuteur GMM
La variance idéale
Poids du mélange
idéal
La moyenne idéale
Maximisation
),/(
1
1
nT
t ti xip
T
P = =
=
=
=
T
t
n
t
T
t t
n
t
i
xip
xxip
1
1
),/(
),/(
2
1
1
2
2
),/(
),/(
iT
t
n
t
T
t t
n
t
i
xip
xxip
−
=
=
=
19. 2- Composants d’un systèmede reconnaissance
de locuteur
16
Extraction des
caractéristiques
Modélisation de la voix
Les performances d’un système d’identification sont données
en terme de taux d’identification correcte .cL
=cL Nombre de tests correctement identifiés
Nombre totalde tentatives
21. 18
3- La reconnaissance automatique appliquée
aux communications sans fils
Codec G729
Codeur
Compression Décompression
Décodeur
Signalanalogique
Signalnumérique
Signalanalogique Environnement
IP
Insertion dans des
paquets IP
22. 19
3- La reconnaissance automatique appliquée
aux communications sans fils
Extraction
des
paramètres
Reconnaissance Décision
WIFI
Client Serveur
SignalVocal
Codec G729
23. 20
3- La reconnaissance automatique appliquée
aux communications sans fils
Codage Décodage
Extraction des
paramètres
Reconnaissance
Décision
WIFI
Client
Server
SpeechSignal
Codec G729 DSR sur IP ( 2eme concept )
24. 21
3- La reconnaissance automatique appliquée
aux communications sans fils
Codage LSF extraites à
partir du Bitstream
Reconnaissance
Décision
WIFI
Client
Server
SpeechSignal
Codec G729 DSR sur IP ( Solutionproposée)
25. 4- Partie expérimentale
22
صفر واحد ثالثةاثنان أربعة خمسة ستة تسعةثمانيةسبعة
31 locuteurs femmes
Chaque locuteur répète la chaine ci-dessous trois fois.
31 locuteurs hommes
+
26. 23
BDD Clean
(Apprentissage
& Test)
BDD sous
échantillonnée
à 8 KHz
BDD
Synthétisée
Praat Perl
Descriptionde la
BDD
4- Partie expérimentale
BDD LSF
G729 Bitstream
27. 24
Descriptionde la
BDD
4- Partie expérimentale
Extraction des paramètres
VAD Normlize Pré-accentuation
Fonctionsutilisées
AVANTAVANT AVANT
APRES APRES APRES
28. 0
10
20
30
40
50
60
70
80
90
100
4 8 16 32 64 128
Taux
d’identification
(%)
Nombre de gaussiennes
5 itérations
10 itérations
15 itérations
25
Descriptionde la
BDD
Extraction des paramètres
4- Partie expérimentale
29. 26
Descriptionde la
BDD
Extraction des paramètres
4- Partie expérimentale
0
10
20
30
40
50
60
70
80
90
100
BDD (85,45%)
BDD synthétisée
(8,06%)
LSF (66,12%)
Taux obtenus par le systèmed’IAL dans les
trois phases de l’expérimentation.
Taux
d'identification
(%)
31. 28
Conclusion
Objectif : Amélioration des performances d’un système de IAL dans un environnement IP.
Perspective
Appliquerles
résultatsobtenus
sur un système
VAL
Amélioration
en terme de
sécurité
Combinerle système
d’IAL avec un
système de
reconnaissance
faciale
Coopération«traitement
d'image –analyse vocale »