Front-end Configuration For Distributed Speaker Recognition Using Bitstream

Paramétrage front-end pour la
reconnaissance de locuteur distribuée
utilisant le bitstream
BOUCHOUIKA Faycal
TEBOUB Islem
Présenté par:
Mme ZERGAT.K.Y
Proposé par:
République Algérienne Démocratique et Populaire
Ministère de l’enseignement Supérieur et de la Recherche Scientifique
Université des Sciences et de la Technologie Houari Boumediene
Faculté d’Electronique et de l’Informatique
Département d’Informatique

4- Experiences et résultats
3- La RAL appliquée aux communications sans fils
1- Reconnaissance de locuteur : Analyse technique
Introduction
PLAN DE TRAVAIL
Conlusion
2- Composants d’un systèmede RAL

INTRODUCTION
1
De nos jours, les sociétés possédants des informations
confidentielles devront assurer une bonne protection à leurs
bases de données pour parfaire leurs fonctions.
Les systèmes d’accès sont des systèmes qui se focalisent
sur la reconnaissance automatique de l’individu, et sont
basés sur la biométrie.
Sécurisation de
données
Assurance de
confidentialité
Mise en œuvre d’un
système d’accès

INTRODUCTION
2
Biométrie
MesureVivant
Biométrie = Etude quantitative des êtres vivants.

INTRODUCTION
3
Biométrie
Empreinte
Physiologique Comportementale
Œil Clavier Signature VoixVisage

Reconnaissance
de la parole
Synthese de la
parole
Vérification du
locuteur
Identification du
locuteur
Techniques de traitement de la parole

WIFI
Je suis
Nawel
Qui est-
ce ??
INTRODUCTION
4
Problématique:

INTRODUCTION
5
L’objectif de notre travail consiste à évaluer et
améliorer les performances d’un système de
Reconnaissance Automatique du Locuteur sur IP.
Objectif :

6
Utilisationde
variabilitésde la voix
Différencier les
locuteurs
Variabilitésinterlocuteurs
Variabilitésintra-locuteur

7
Variabilités de la voix
La voix humaine n’est pas constante, les changements
peuvent être naturels ou volontaires. Ces évolutions sont
dues aux paramètres suivant:
• Court terme (occasionnelles).
• Moyen terme.
• Long terme.

8
Variabilités Interlocuteurs
Locuteur 1
Locuteur 2
Locuteur 3
“We were away a year ago”

9
Système RAL
SystèmeVAL
SystèmeIAL

10
Variabilités de la voix Classificationde la reconnaissance vocale
Extraction
des
paramètres
Decision MAX
Sarah
?
Said
?
Ali ?
...
Sarah

11
Variabilités de la voix Classificationde la reconnaissance vocale
I’am
Nawel
DécisionExtraction
des
paramètres
Nawel ?
Imposteur

2- Composants d’un systèmede reconnaissance
de locuteur
12
Correspondance
de motifs
Extractiondes
caractéristiques
Décision
Modélisation
de locuteur Base de donnée
« modèles de
locuteurs »
Parole entrée
Mode d’entrainement
Mode de reconnaissance
Demande d’identité
Modèle de base d’un système d’Identificationde locuteur

de locuteur
13
Trames Hamming
Signale vocal
LPC
LSF

de locuteur
14
Extraction des
caractéristiques
Comment surmonter les variabilités de la voix
caractérisées par LSF ??
Utilisationdu
GMM
Modélisation des
locuteurs
Tolérer les
variabilitéde la
voix

de locuteur
15
Extraction des
caractéristiques
Expectation
Modélisation de
locuteur GMM
La variance idéale
Poids du mélange
idéal
La moyenne idéale
Maximisation
),/(
1
1
nT
t ti xip
T
P = =


=
=
=
T
t
n
t
T
t t
n
t
i
xip
xxip
1
1
),/(
),/(



2
1
1
2
2
),/(
),/(
iT
t
n
t
T
t t
n
t
i
xip
xxip



 −


=
=
=

de locuteur
16
Extraction des
caractéristiques
Modélisation de la voix
Les performances d’un système d’identification sont données
en terme de taux d’identification correcte .cL
=cL Nombre de tests correctement identifiés
Nombre totalde tentatives

17
3- La reconnaissance automatique appliquée
aux communications sans fils

18
Codec G729
Codeur
Compression Décompression
Décodeur
Signalanalogique
Signalnumérique
Signalanalogique Environnement
IP
Insertion dans des
paquets IP

19
Extraction
des
paramètres
Reconnaissance Décision
WIFI
Client Serveur
SignalVocal
Codec G729

20
Codage Décodage
Extraction des
paramètres
Reconnaissance
Décision
WIFI
Client
Server
SpeechSignal
Codec G729 DSR sur IP ( 2eme concept )

21
Codage LSF extraites à
partir du Bitstream
Reconnaissance
Décision
WIFI
Client
Server
SpeechSignal
Codec G729 DSR sur IP ( Solutionproposée)

4- Partie expérimentale
22
‫صفر‬ ‫واحد‬ ‫ثالثة‬‫اثنان‬ ‫أربعة‬ ‫خمسة‬ ‫ستة‬ ‫تسعة‬‫ثمانية‬‫سبعة‬
31 locuteurs femmes
Chaque locuteur répète la chaine ci-dessous trois fois.
31 locuteurs hommes
+

23
BDD Clean
(Apprentissage
& Test)
BDD sous
échantillonnée
à 8 KHz
BDD
Synthétisée
Praat Perl
Descriptionde la
BDD
BDD LSF
G729 Bitstream

24
Descriptionde la
BDD
Extraction des paramètres
VAD Normlize Pré-accentuation
Fonctionsutilisées
AVANTAVANT AVANT
APRES APRES APRES

0
10
20
30
40
50
60
70
80
90
100
4 8 16 32 64 128
Taux
d’identification
(%)
Nombre de gaussiennes
5 itérations
10 itérations
15 itérations
25
Descriptionde la
BDD

26
Descriptionde la
BDD
0
10
20
30
40
50
60
70
80
90
100
BDD (85,45%)
BDD synthétisée
(8,06%)
LSF (66,12%)
Taux obtenus par le systèmed’IAL dans les
trois phases de l’expérimentation.
Taux
d'identification
(%)

27
Descriptionde la
BDD
Application

28
Conclusion
Objectif : Amélioration des performances d’un système de IAL dans un environnement IP.
Perspective
Appliquerles
résultatsobtenus
sur un système
VAL
Amélioration
en terme de
sécurité
Combinerle système
d’IAL avec un
système de
reconnaissance
faciale
Coopération«traitement
d'image –analyse vocale »

Front-end Configuration For Distributed Speaker Recognition Using Bitstream

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Front-end Configuration For Distributed Speaker Recognition Using Bitstream