@AmauryCrickx#dv14ievn
Identification d’une Empreinte
Vocale pour les Nuls
@AmauryCrickx
Développeur Java
Ingénieur du son...
@YourTwitterHandle#DVXFR14{session hashtag} @AmauryCrickx#dv14ievn
@AmauryCrickx#dv14ievn
Agenda
Périmètre du
Problème
Comment ça
marche ?
Aspects
Pratiques
@AmauryCrickx#dv14ievn
Caractéristiques de la voix p
arlée
Tonalité Timbre AccentFlot Vocabulaire
Physique Comportement
@AmauryCrickx#dv14ievn
D’où vient la différence ?
Larynx
Cordes vocales
1. Pharynx
3. Cavité nasale
2. Cavité buccale
4. C...
@AmauryCrickx#dv14ievn
D’où vient la différence ?
Larynx
Cordes vocales
1. Pharynx
3. Cavité nasale
2. Cavité buccale
4. C...
@AmauryCrickx#dv14ievn
Captation du signal
+
-
0
@AmauryCrickx#dv14ievn
Numérisation du signal
Fréquence
d’échantillonnage
de 16 KHz
Amplitude
Temps
 Encodé sur 16 bits
@AmauryCrickx#dv14ievn
Empreinte vocale
Modèle mathématique basé
sur les formants de la voix
• Trigonométrie
• Equations d...
@AmauryCrickx#dv14ievn
Buts poursuivis
Authentification
Classification
Identification
Segmentation
(Diarisation)
@AmauryCrickx#dv14ievn
En résumé
Fréquences
Uniques
Numériser Extraction
Modèle
Mathématique
Authentifier
Identifier
Class...
@AmauryCrickx#dv14ievn
Agenda
Périmètre du
Problème
Comment ça
marche ?
Aspects
Pratiques
@AmauryCrickx#dv14ievn
Recognito ?
Identification du locuteur
indépendamment du texte
• Librairie orientée développeurs
• ...
@AmauryCrickx#dv14ievn
Enrôlement
@AmauryCrickx#dv14ievn
Constructeur 2
@AmauryCrickx#dv14ievn
Identification
@AmauryCrickx#dv14ievn
Dans les coulisses
@AmauryCrickx#dv14ievn
Suppression du silence
@AmauryCrickx#dv14ievn
Normalisation du volume
@AmauryCrickx#dv14ievn
• Linear Predictive Coding – LPC
 Utilisé pour compresser la voix dans la téléphonie
 double[20]
...
@AmauryCrickx#dv14ievn
Fenêtrage
@AmauryCrickx#dv14ievn
Fenêtrage
@AmauryCrickx#dv14ievn
Fenêtrage
@AmauryCrickx#dv14ievn
Fenêtrage
@AmauryCrickx#dv14ievn
Fenêtrage
@AmauryCrickx#dv14ievn
Distance Euclidienne
 Somme du carré des différences
@AmauryCrickx#dv14ievn
Une poignée de classes
Recognito
Voice
Activity
Detector
Normalizer
Features
Extractor
Window
Funct...
@AmauryCrickx#dv14ievn
Agenda
Périmètre du
Problème
Comment ça
marche ?
Aspects
Pratiques
@AmauryCrickx#dv14ievn
FOSS
• ALIZE – C/C++ – LGPL
• Laboratoire Informatique d’Avignon
• Plateforme open source d'authent...
@AmauryCrickx#dv14ievn
De nombreux acteurs
• Nuance
• VoiceVault
• ValidSoft
• Agnitio
• VoiceSecure
• Verint
• SesTek
• S...
@AmauryCrickx#dv14ievn
Marchés visés
Institutions
Gouvernementales
Call
Centers
Applications
Mobiles
@AmauryCrickx#dv14ievn
Authentification
Référence
Individuelle
Modèle
Universel
seuil
Echantillon à authentifier
@AmauryCrickx#dv14ievn
Indicateurs de performance
Seuil
%Erreur
False
Acceptance
Rate
False
Rejection
Rate
Equal
Error
Rate
@AmauryCrickx#dv14ievn
Indicateurs de performance
FAR, FRR, EER
N’ont de sens que lorsqu’on compare
les mêmes jeux de donn...
@AmauryCrickx#dv14ievn
Modalités d’authentification
1. Phrase clé « Ma voix est mon mot de passe »
Enrôlement : répéter 3 ...
@AmauryCrickx#dv14ievn
Modalités d’authentification
Reconnaissance
Vocale
Intonation Flot Robuste
au bruit
1. Phrase clé «...
@AmauryCrickx#dv14ievn
Modalités d’authentification
• Pas 2 enregistrements identiques
• Détection de traitements numériqu...
@AmauryCrickx#dv14ievn
Modalités d’authentification
• Plus difficile à obtenir
• Détection de traitements numériques
2. Ph...
@AmauryCrickx#dv14ievn
Modalités d’authentification
• Vérificateur humain
• Encore plus difficile à contrefaire
• Détectio...
@AmauryCrickx#dv14ievn
Vérification à facteurs multiples
Savoir Posséder Etre
Mot de passe
Question / réponse
Générateur
d...
@YourTwitterHandle#DVXFR14{session hashtag} @AmauryCrickx#dv14ievn
@AmauryCrickx#dv14ievn
En résumé
• Technologie mature
• Coût faible
• Meilleure expérience
utilisateur
• Sensibilité au br...
@YourTwitterHandle#DVXFR14{session hashtag} @AmauryCrickx#dv14ievn
@AmauryCrickx#dv14ievn
Crédit image / Creative Commons
• Rue pavée — By-Nc-Sa
•http://www.flickr.com/photos/22914687@N05/4...
Prochain SlideShare
Chargement dans…5
×

Identification d'une empreinte vocale pour les Nuls

1 579 vues

Publié le

Présentation Devoxx France 2014

Les nouvelles perspectives offertes par la reconnaissance vocale vont tôt ou tard nous confronter à l'usage de librairies spécialisées dont le fonctionnement interne nous échappe totalement. Comment dès lors les évaluer, les utiliser correctement et en tirer le meilleur parti ?

Cette présentation ludique et pratique a pour objectif de démystifier les arcanes de l'analyse de la voix humaine et ses contraintes en vous présentant les rouages internes du logiciel libre "Recognito", créé par le conférencier et permettant l'identification d'un locuteur à partir de son empreinte vocale.

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 579
Sur SlideShare
0
Issues des intégrations
0
Intégrations
11
Actions
Partages
0
Téléchargements
31
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Identification d'une empreinte vocale pour les Nuls

  1. 1. @AmauryCrickx#dv14ievn Identification d’une Empreinte Vocale pour les Nuls @AmauryCrickx Développeur Java Ingénieur du son Recognito
  2. 2. @YourTwitterHandle#DVXFR14{session hashtag} @AmauryCrickx#dv14ievn
  3. 3. @AmauryCrickx#dv14ievn Agenda Périmètre du Problème Comment ça marche ? Aspects Pratiques
  4. 4. @AmauryCrickx#dv14ievn Caractéristiques de la voix p arlée Tonalité Timbre AccentFlot Vocabulaire Physique Comportement
  5. 5. @AmauryCrickx#dv14ievn D’où vient la différence ? Larynx Cordes vocales 1. Pharynx 3. Cavité nasale 2. Cavité buccale 4. Cavité labiale
  6. 6. @AmauryCrickx#dv14ievn D’où vient la différence ? Larynx Cordes vocales 1. Pharynx 3. Cavité nasale 2. Cavité buccale 4. Cavité labiale
  7. 7. @AmauryCrickx#dv14ievn Captation du signal + - 0
  8. 8. @AmauryCrickx#dv14ievn Numérisation du signal Fréquence d’échantillonnage de 16 KHz Amplitude Temps  Encodé sur 16 bits
  9. 9. @AmauryCrickx#dv14ievn Empreinte vocale Modèle mathématique basé sur les formants de la voix • Trigonométrie • Equations différentielles et intégrales • Nombre Complexe (Réel + Imaginaire)
  10. 10. @AmauryCrickx#dv14ievn Buts poursuivis Authentification Classification Identification Segmentation (Diarisation)
  11. 11. @AmauryCrickx#dv14ievn En résumé Fréquences Uniques Numériser Extraction Modèle Mathématique Authentifier Identifier Classifier Segmenter
  12. 12. @AmauryCrickx#dv14ievn Agenda Périmètre du Problème Comment ça marche ? Aspects Pratiques
  13. 13. @AmauryCrickx#dv14ievn Recognito ? Identification du locuteur indépendamment du texte • Librairie orientée développeurs • Thread safe • Licence Apache 2
  14. 14. @AmauryCrickx#dv14ievn Enrôlement
  15. 15. @AmauryCrickx#dv14ievn Constructeur 2
  16. 16. @AmauryCrickx#dv14ievn Identification
  17. 17. @AmauryCrickx#dv14ievn Dans les coulisses
  18. 18. @AmauryCrickx#dv14ievn Suppression du silence
  19. 19. @AmauryCrickx#dv14ievn Normalisation du volume
  20. 20. @AmauryCrickx#dv14ievn • Linear Predictive Coding – LPC  Utilisé pour compresser la voix dans la téléphonie  double[20] • Fenêtres de 25ms • Empreinte vocale = moyenne des double[20] Extraction des caractéristiques … Empreinte vocale Fen. 1 Fen. 2 Moyenne
  21. 21. @AmauryCrickx#dv14ievn Fenêtrage
  22. 22. @AmauryCrickx#dv14ievn Fenêtrage
  23. 23. @AmauryCrickx#dv14ievn Fenêtrage
  24. 24. @AmauryCrickx#dv14ievn Fenêtrage
  25. 25. @AmauryCrickx#dv14ievn Fenêtrage
  26. 26. @AmauryCrickx#dv14ievn Distance Euclidienne  Somme du carré des différences
  27. 27. @AmauryCrickx#dv14ievn Une poignée de classes Recognito Voice Activity Detector Normalizer Features Extractor Window Function LPC Distance Calculator Voice Print
  28. 28. @AmauryCrickx#dv14ievn Agenda Périmètre du Problème Comment ça marche ? Aspects Pratiques
  29. 29. @AmauryCrickx#dv14ievn FOSS • ALIZE – C/C++ – LGPL • Laboratoire Informatique d’Avignon • Plateforme open source d'authentification biométrique • LIUM – Java – GPL • Laboratoire Informatique de l’Université du Maine (Le Mans) • Diarisation des locuteurs • VoiceId – Python – GPL • Diarisation LIUM + Identification • MARF – Java – GPL
  30. 30. @AmauryCrickx#dv14ievn De nombreux acteurs • Nuance • VoiceVault • ValidSoft • Agnitio • VoiceSecure • Verint • SesTek • SpeechPro • VoiceTrust • Authentify • Voice Biometrics Group • Neurotechnology • OxfordWaveResearch • Recognition Technologies • Acustek • …
  31. 31. @AmauryCrickx#dv14ievn Marchés visés Institutions Gouvernementales Call Centers Applications Mobiles
  32. 32. @AmauryCrickx#dv14ievn Authentification Référence Individuelle Modèle Universel seuil Echantillon à authentifier
  33. 33. @AmauryCrickx#dv14ievn Indicateurs de performance Seuil %Erreur False Acceptance Rate False Rejection Rate Equal Error Rate
  34. 34. @AmauryCrickx#dv14ievn Indicateurs de performance FAR, FRR, EER N’ont de sens que lorsqu’on compare les mêmes jeux de données Par exemple : NIST, PRISM, …
  35. 35. @AmauryCrickx#dv14ievn Modalités d’authentification 1. Phrase clé « Ma voix est mon mot de passe » Enrôlement : répéter 3 fois la phrase
  36. 36. @AmauryCrickx#dv14ievn Modalités d’authentification Reconnaissance Vocale Intonation Flot Robuste au bruit 1. Phrase clé « Ma voix est mon mot de passe »
  37. 37. @AmauryCrickx#dv14ievn Modalités d’authentification • Pas 2 enregistrements identiques • Détection de traitements numériques 1. Phrase clé « Ma voix est mon mot de passe »
  38. 38. @AmauryCrickx#dv14ievn Modalités d’authentification • Plus difficile à obtenir • Détection de traitements numériques 2. Phrase aléatoire « correct cheval batterie agrafe » Enrôlement : lire une (longue) liste de mots
  39. 39. @AmauryCrickx#dv14ievn Modalités d’authentification • Vérificateur humain • Encore plus difficile à contrefaire • Détection de traitements numériques • Sensible au bruit environnant 3. En continu au cours d’une conversation Enrôlement : première conversation vérifiée
  40. 40. @AmauryCrickx#dv14ievn Vérification à facteurs multiples Savoir Posséder Etre Mot de passe Question / réponse Générateur de Token Biométrie
  41. 41. @YourTwitterHandle#DVXFR14{session hashtag} @AmauryCrickx#dv14ievn
  42. 42. @AmauryCrickx#dv14ievn En résumé • Technologie mature • Coût faible • Meilleure expérience utilisateur • Sensibilité au bruit • Variabilité de la voix • Statistique par nature
  43. 43. @YourTwitterHandle#DVXFR14{session hashtag} @AmauryCrickx#dv14ievn
  44. 44. @AmauryCrickx#dv14ievn Crédit image / Creative Commons • Rue pavée — By-Nc-Sa •http://www.flickr.com/photos/22914687@N05/4957591422/sizes/l/ • Sous la Tour Eiffel — By-Nc-Sa •http://www.flickr.com/photos/stewiedewie/244850735/sizes/l/in/photostream/ • Sous le pont — photo par B.Monginoux - By-Nc-Nd •http://www.landscape-photo.net/displayimage.php?pid=5194 • Le Louvre – Photo par Anthony Gaudun - By-Nc-Sa •http://www.flickr.com/photos/anthonygaudun/7474397964/sizes/o/in/photostream/ • Slide template created by @glaforge, completed by @nmartignole for Devoxx FR2014

×