SlideShare une entreprise Scribd logo
1  sur  32
Télécharger pour lire hors ligne
Paramétrage front-end pour la
reconnaissance de locuteur distribuée
utilisant le bitstream
BOUCHOUIKA Faycal
TEBOUB Islem
Présenté par:
Mme ZERGAT.K.Y
Proposé par:
République Algérienne Démocratique et Populaire
Ministère de l’enseignement Supérieur et de la Recherche Scientifique
Université des Sciences et de la Technologie Houari Boumediene
Faculté d’Electronique et de l’Informatique
Département d’Informatique
4- Experiences et résultats
3- La RAL appliquée aux communications sans fils
1- Reconnaissance de locuteur : Analyse technique
Introduction
PLAN DE TRAVAIL
Conlusion
2- Composants d’un systèmede RAL
INTRODUCTION
1
De nos jours, les sociétés possédants des informations
confidentielles devront assurer une bonne protection à leurs
bases de données pour parfaire leurs fonctions.
Les systèmes d’accès sont des systèmes qui se focalisent
sur la reconnaissance automatique de l’individu, et sont
basés sur la biométrie.
Sécurisation de
données
Assurance de
confidentialité
Mise en œuvre d’un
système d’accès
INTRODUCTION
2
Biométrie
MesureVivant
Biométrie = Etude quantitative des êtres vivants.
INTRODUCTION
3
Biométrie
Empreinte
Physiologique Comportementale
Œil Clavier Signature VoixVisage
Reconnaissance
de la parole
Synthese de la
parole
Vérification du
locuteur
Identification du
locuteur
Techniques de traitement de la parole
WIFI
Je suis
Nawel
Qui est-
ce ??
INTRODUCTION
4
Problématique:
INTRODUCTION
5
L’objectif de notre travail consiste à évaluer et
améliorer les performances d’un système de
Reconnaissance Automatique du Locuteur sur IP.
Objectif :
1- Reconnaissance de locuteur : Analyse technique
6
Utilisationde
variabilitésde la voix
Différencier les
locuteurs
Variabilitésinterlocuteurs
Variabilitésintra-locuteur
1- Reconnaissance de locuteur : Analyse technique
7
Variabilités de la voix
La voix humaine n’est pas constante, les changements
peuvent être naturels ou volontaires. Ces évolutions sont
dues aux paramètres suivant:
• Court terme (occasionnelles).
• Moyen terme.
• Long terme.
1- Reconnaissance de locuteur : Analyse technique
8
Variabilités de la voix
Variabilités Interlocuteurs
Locuteur 1
Locuteur 2
Locuteur 3
“We were away a year ago”
1- Reconnaissance de locuteur : Analyse technique
9
Variabilités de la voix
Système RAL
SystèmeVAL
SystèmeIAL
1- Reconnaissance de locuteur : Analyse technique
10
Variabilités de la voix Classificationde la reconnaissance vocale
Extraction
des
paramètres
Decision MAX
Sarah
?
Said
?
Ali ?
...
Sarah
1- Reconnaissance de locuteur : Analyse technique
11
Variabilités de la voix Classificationde la reconnaissance vocale
I’am
Nawel
DécisionExtraction
des
paramètres
Nawel ?
Imposteur
2- Composants d’un systèmede reconnaissance
de locuteur
12
Correspondance
de motifs
Extractiondes
caractéristiques
Décision
Modélisation
de locuteur Base de donnée
« modèles de
locuteurs »
Parole entrée
Mode d’entrainement
Mode de reconnaissance
Demande d’identité
Modèle de base d’un système d’Identificationde locuteur
2- Composants d’un systèmede reconnaissance
de locuteur
13
Trames Hamming
Signale vocal
LPC
LSF
2- Composants d’un systèmede reconnaissance
de locuteur
14
Extraction des
caractéristiques
Comment surmonter les variabilités de la voix
caractérisées par LSF ??
Utilisationdu
GMM
Modélisation des
locuteurs
Tolérer les
variabilitéde la
voix
2- Composants d’un systèmede reconnaissance
de locuteur
15
Extraction des
caractéristiques
Expectation
Modélisation de
locuteur GMM
La variance idéale
Poids du mélange
idéal
La moyenne idéale
Maximisation
),/(
1
1
nT
t ti xip
T
P = =


=
=
=
T
t
n
t
T
t t
n
t
i
xip
xxip
1
1
),/(
),/(



2
1
1
2
2
),/(
),/(
iT
t
n
t
T
t t
n
t
i
xip
xxip



 −


=
=
=
2- Composants d’un systèmede reconnaissance
de locuteur
16
Extraction des
caractéristiques
Modélisation de la voix
Les performances d’un système d’identification sont données
en terme de taux d’identification correcte .cL
=cL Nombre de tests correctement identifiés
Nombre totalde tentatives
17
3- La reconnaissance automatique appliquée
aux communications sans fils
18
3- La reconnaissance automatique appliquée
aux communications sans fils
Codec G729
Codeur
Compression Décompression
Décodeur
Signalanalogique
Signalnumérique
Signalanalogique Environnement
IP
Insertion dans des
paquets IP
19
3- La reconnaissance automatique appliquée
aux communications sans fils
Extraction
des
paramètres
Reconnaissance Décision
WIFI
Client Serveur
SignalVocal
Codec G729
20
3- La reconnaissance automatique appliquée
aux communications sans fils
Codage Décodage
Extraction des
paramètres
Reconnaissance
Décision
WIFI
Client
Server
SpeechSignal
Codec G729 DSR sur IP ( 2eme concept )
21
3- La reconnaissance automatique appliquée
aux communications sans fils
Codage LSF extraites à
partir du Bitstream
Reconnaissance
Décision
WIFI
Client
Server
SpeechSignal
Codec G729 DSR sur IP ( Solutionproposée)
4- Partie expérimentale
22
‫صفر‬ ‫واحد‬ ‫ثالثة‬‫اثنان‬ ‫أربعة‬ ‫خمسة‬ ‫ستة‬ ‫تسعة‬‫ثمانية‬‫سبعة‬
31 locuteurs femmes
Chaque locuteur répète la chaine ci-dessous trois fois.
31 locuteurs hommes
+
23
BDD Clean
(Apprentissage
& Test)
BDD sous
échantillonnée
à 8 KHz
BDD
Synthétisée
Praat Perl
Descriptionde la
BDD
4- Partie expérimentale
BDD LSF
G729 Bitstream
24
Descriptionde la
BDD
4- Partie expérimentale
Extraction des paramètres
VAD Normlize Pré-accentuation
Fonctionsutilisées
AVANTAVANT AVANT
APRES APRES APRES
0
10
20
30
40
50
60
70
80
90
100
4 8 16 32 64 128
Taux
d’identification
(%)
Nombre de gaussiennes
5 itérations
10 itérations
15 itérations
25
Descriptionde la
BDD
Extraction des paramètres
4- Partie expérimentale
26
Descriptionde la
BDD
Extraction des paramètres
4- Partie expérimentale
0
10
20
30
40
50
60
70
80
90
100
BDD (85,45%)
BDD synthétisée
(8,06%)
LSF (66,12%)
Taux obtenus par le systèmed’IAL dans les
trois phases de l’expérimentation.
Taux
d'identification
(%)
27
Descriptionde la
BDD
Extraction des paramètres
4- Partie expérimentale
Application
28
Conclusion
Objectif : Amélioration des performances d’un système de IAL dans un environnement IP.
Perspective
Appliquerles
résultatsobtenus
sur un système
VAL
Amélioration
en terme de
sécurité
Combinerle système
d’IAL avec un
système de
reconnaissance
faciale
Coopération«traitement
d'image –analyse vocale »
Merci
pour votre
attention

Contenu connexe

En vedette

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

En vedette (20)

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 

Front-end Configuration For Distributed Speaker Recognition Using Bitstream

  • 1. Paramétrage front-end pour la reconnaissance de locuteur distribuée utilisant le bitstream BOUCHOUIKA Faycal TEBOUB Islem Présenté par: Mme ZERGAT.K.Y Proposé par: République Algérienne Démocratique et Populaire Ministère de l’enseignement Supérieur et de la Recherche Scientifique Université des Sciences et de la Technologie Houari Boumediene Faculté d’Electronique et de l’Informatique Département d’Informatique
  • 2. 4- Experiences et résultats 3- La RAL appliquée aux communications sans fils 1- Reconnaissance de locuteur : Analyse technique Introduction PLAN DE TRAVAIL Conlusion 2- Composants d’un systèmede RAL
  • 3. INTRODUCTION 1 De nos jours, les sociétés possédants des informations confidentielles devront assurer une bonne protection à leurs bases de données pour parfaire leurs fonctions. Les systèmes d’accès sont des systèmes qui se focalisent sur la reconnaissance automatique de l’individu, et sont basés sur la biométrie. Sécurisation de données Assurance de confidentialité Mise en œuvre d’un système d’accès
  • 6. Reconnaissance de la parole Synthese de la parole Vérification du locuteur Identification du locuteur Techniques de traitement de la parole
  • 7. WIFI Je suis Nawel Qui est- ce ?? INTRODUCTION 4 Problématique:
  • 8. INTRODUCTION 5 L’objectif de notre travail consiste à évaluer et améliorer les performances d’un système de Reconnaissance Automatique du Locuteur sur IP. Objectif :
  • 9. 1- Reconnaissance de locuteur : Analyse technique 6 Utilisationde variabilitésde la voix Différencier les locuteurs Variabilitésinterlocuteurs Variabilitésintra-locuteur
  • 10. 1- Reconnaissance de locuteur : Analyse technique 7 Variabilités de la voix La voix humaine n’est pas constante, les changements peuvent être naturels ou volontaires. Ces évolutions sont dues aux paramètres suivant: • Court terme (occasionnelles). • Moyen terme. • Long terme.
  • 11. 1- Reconnaissance de locuteur : Analyse technique 8 Variabilités de la voix Variabilités Interlocuteurs Locuteur 1 Locuteur 2 Locuteur 3 “We were away a year ago”
  • 12. 1- Reconnaissance de locuteur : Analyse technique 9 Variabilités de la voix Système RAL SystèmeVAL SystèmeIAL
  • 13. 1- Reconnaissance de locuteur : Analyse technique 10 Variabilités de la voix Classificationde la reconnaissance vocale Extraction des paramètres Decision MAX Sarah ? Said ? Ali ? ... Sarah
  • 14. 1- Reconnaissance de locuteur : Analyse technique 11 Variabilités de la voix Classificationde la reconnaissance vocale I’am Nawel DécisionExtraction des paramètres Nawel ? Imposteur
  • 15. 2- Composants d’un systèmede reconnaissance de locuteur 12 Correspondance de motifs Extractiondes caractéristiques Décision Modélisation de locuteur Base de donnée « modèles de locuteurs » Parole entrée Mode d’entrainement Mode de reconnaissance Demande d’identité Modèle de base d’un système d’Identificationde locuteur
  • 16. 2- Composants d’un systèmede reconnaissance de locuteur 13 Trames Hamming Signale vocal LPC LSF
  • 17. 2- Composants d’un systèmede reconnaissance de locuteur 14 Extraction des caractéristiques Comment surmonter les variabilités de la voix caractérisées par LSF ?? Utilisationdu GMM Modélisation des locuteurs Tolérer les variabilitéde la voix
  • 18. 2- Composants d’un systèmede reconnaissance de locuteur 15 Extraction des caractéristiques Expectation Modélisation de locuteur GMM La variance idéale Poids du mélange idéal La moyenne idéale Maximisation ),/( 1 1 nT t ti xip T P = =   = = = T t n t T t t n t i xip xxip 1 1 ),/( ),/(    2 1 1 2 2 ),/( ),/( iT t n t T t t n t i xip xxip     −   = = =
  • 19. 2- Composants d’un systèmede reconnaissance de locuteur 16 Extraction des caractéristiques Modélisation de la voix Les performances d’un système d’identification sont données en terme de taux d’identification correcte .cL =cL Nombre de tests correctement identifiés Nombre totalde tentatives
  • 20. 17 3- La reconnaissance automatique appliquée aux communications sans fils
  • 21. 18 3- La reconnaissance automatique appliquée aux communications sans fils Codec G729 Codeur Compression Décompression Décodeur Signalanalogique Signalnumérique Signalanalogique Environnement IP Insertion dans des paquets IP
  • 22. 19 3- La reconnaissance automatique appliquée aux communications sans fils Extraction des paramètres Reconnaissance Décision WIFI Client Serveur SignalVocal Codec G729
  • 23. 20 3- La reconnaissance automatique appliquée aux communications sans fils Codage Décodage Extraction des paramètres Reconnaissance Décision WIFI Client Server SpeechSignal Codec G729 DSR sur IP ( 2eme concept )
  • 24. 21 3- La reconnaissance automatique appliquée aux communications sans fils Codage LSF extraites à partir du Bitstream Reconnaissance Décision WIFI Client Server SpeechSignal Codec G729 DSR sur IP ( Solutionproposée)
  • 25. 4- Partie expérimentale 22 ‫صفر‬ ‫واحد‬ ‫ثالثة‬‫اثنان‬ ‫أربعة‬ ‫خمسة‬ ‫ستة‬ ‫تسعة‬‫ثمانية‬‫سبعة‬ 31 locuteurs femmes Chaque locuteur répète la chaine ci-dessous trois fois. 31 locuteurs hommes +
  • 26. 23 BDD Clean (Apprentissage & Test) BDD sous échantillonnée à 8 KHz BDD Synthétisée Praat Perl Descriptionde la BDD 4- Partie expérimentale BDD LSF G729 Bitstream
  • 27. 24 Descriptionde la BDD 4- Partie expérimentale Extraction des paramètres VAD Normlize Pré-accentuation Fonctionsutilisées AVANTAVANT AVANT APRES APRES APRES
  • 28. 0 10 20 30 40 50 60 70 80 90 100 4 8 16 32 64 128 Taux d’identification (%) Nombre de gaussiennes 5 itérations 10 itérations 15 itérations 25 Descriptionde la BDD Extraction des paramètres 4- Partie expérimentale
  • 29. 26 Descriptionde la BDD Extraction des paramètres 4- Partie expérimentale 0 10 20 30 40 50 60 70 80 90 100 BDD (85,45%) BDD synthétisée (8,06%) LSF (66,12%) Taux obtenus par le systèmed’IAL dans les trois phases de l’expérimentation. Taux d'identification (%)
  • 30. 27 Descriptionde la BDD Extraction des paramètres 4- Partie expérimentale Application
  • 31. 28 Conclusion Objectif : Amélioration des performances d’un système de IAL dans un environnement IP. Perspective Appliquerles résultatsobtenus sur un système VAL Amélioration en terme de sécurité Combinerle système d’IAL avec un système de reconnaissance faciale Coopération«traitement d'image –analyse vocale »