Identification d'une empreinte vocale pour les Nuls

1 632 vues

Publié le

Présentation Devoxx France 2014

Les nouvelles perspectives offertes par la reconnaissance vocale vont tôt ou tard nous confronter à l'usage de librairies spécialisées dont le fonctionnement interne nous échappe totalement. Comment dès lors les évaluer, les utiliser correctement et en tirer le meilleur parti ?

Cette présentation ludique et pratique a pour objectif de démystifier les arcanes de l'analyse de la voix humaine et ses contraintes en vous présentant les rouages internes du logiciel libre "Recognito", créé par le conférencier et permettant l'identification d'un locuteur à partir de son empreinte vocale.

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 632
Sur SlideShare
0
Issues des intégrations
0
Intégrations
6
Actions
Partages
0
Téléchargements
33
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Identification d'une empreinte vocale pour les Nuls

  1. 1. @AmauryCrickx#dv14ievn Identification d’une Empreinte Vocale pour les Nuls @AmauryCrickx Développeur Java Ingénieur du son Recognito
  2. 2. @YourTwitterHandle#DVXFR14{session hashtag} @AmauryCrickx#dv14ievn
  3. 3. @AmauryCrickx#dv14ievn Agenda Périmètre du Problème Comment ça marche ? Aspects Pratiques
  4. 4. @AmauryCrickx#dv14ievn Caractéristiques de la voix p arlée Tonalité Timbre AccentFlot Vocabulaire Physique Comportement
  5. 5. @AmauryCrickx#dv14ievn D’où vient la différence ? Larynx Cordes vocales 1. Pharynx 3. Cavité nasale 2. Cavité buccale 4. Cavité labiale
  6. 6. @AmauryCrickx#dv14ievn D’où vient la différence ? Larynx Cordes vocales 1. Pharynx 3. Cavité nasale 2. Cavité buccale 4. Cavité labiale
  7. 7. @AmauryCrickx#dv14ievn Captation du signal + - 0
  8. 8. @AmauryCrickx#dv14ievn Numérisation du signal Fréquence d’échantillonnage de 16 KHz Amplitude Temps  Encodé sur 16 bits
  9. 9. @AmauryCrickx#dv14ievn Empreinte vocale Modèle mathématique basé sur les formants de la voix • Trigonométrie • Equations différentielles et intégrales • Nombre Complexe (Réel + Imaginaire)
  10. 10. @AmauryCrickx#dv14ievn Buts poursuivis Authentification Classification Identification Segmentation (Diarisation)
  11. 11. @AmauryCrickx#dv14ievn En résumé Fréquences Uniques Numériser Extraction Modèle Mathématique Authentifier Identifier Classifier Segmenter
  12. 12. @AmauryCrickx#dv14ievn Agenda Périmètre du Problème Comment ça marche ? Aspects Pratiques
  13. 13. @AmauryCrickx#dv14ievn Recognito ? Identification du locuteur indépendamment du texte • Librairie orientée développeurs • Thread safe • Licence Apache 2
  14. 14. @AmauryCrickx#dv14ievn Enrôlement
  15. 15. @AmauryCrickx#dv14ievn Constructeur 2
  16. 16. @AmauryCrickx#dv14ievn Identification
  17. 17. @AmauryCrickx#dv14ievn Dans les coulisses
  18. 18. @AmauryCrickx#dv14ievn Suppression du silence
  19. 19. @AmauryCrickx#dv14ievn Normalisation du volume
  20. 20. @AmauryCrickx#dv14ievn • Linear Predictive Coding – LPC  Utilisé pour compresser la voix dans la téléphonie  double[20] • Fenêtres de 25ms • Empreinte vocale = moyenne des double[20] Extraction des caractéristiques … Empreinte vocale Fen. 1 Fen. 2 Moyenne
  21. 21. @AmauryCrickx#dv14ievn Fenêtrage
  22. 22. @AmauryCrickx#dv14ievn Fenêtrage
  23. 23. @AmauryCrickx#dv14ievn Fenêtrage
  24. 24. @AmauryCrickx#dv14ievn Fenêtrage
  25. 25. @AmauryCrickx#dv14ievn Fenêtrage
  26. 26. @AmauryCrickx#dv14ievn Distance Euclidienne  Somme du carré des différences
  27. 27. @AmauryCrickx#dv14ievn Une poignée de classes Recognito Voice Activity Detector Normalizer Features Extractor Window Function LPC Distance Calculator Voice Print
  28. 28. @AmauryCrickx#dv14ievn Agenda Périmètre du Problème Comment ça marche ? Aspects Pratiques
  29. 29. @AmauryCrickx#dv14ievn FOSS • ALIZE – C/C++ – LGPL • Laboratoire Informatique d’Avignon • Plateforme open source d'authentification biométrique • LIUM – Java – GPL • Laboratoire Informatique de l’Université du Maine (Le Mans) • Diarisation des locuteurs • VoiceId – Python – GPL • Diarisation LIUM + Identification • MARF – Java – GPL
  30. 30. @AmauryCrickx#dv14ievn De nombreux acteurs • Nuance • VoiceVault • ValidSoft • Agnitio • VoiceSecure • Verint • SesTek • SpeechPro • VoiceTrust • Authentify • Voice Biometrics Group • Neurotechnology • OxfordWaveResearch • Recognition Technologies • Acustek • …
  31. 31. @AmauryCrickx#dv14ievn Marchés visés Institutions Gouvernementales Call Centers Applications Mobiles
  32. 32. @AmauryCrickx#dv14ievn Authentification Référence Individuelle Modèle Universel seuil Echantillon à authentifier
  33. 33. @AmauryCrickx#dv14ievn Indicateurs de performance Seuil %Erreur False Acceptance Rate False Rejection Rate Equal Error Rate
  34. 34. @AmauryCrickx#dv14ievn Indicateurs de performance FAR, FRR, EER N’ont de sens que lorsqu’on compare les mêmes jeux de données Par exemple : NIST, PRISM, …
  35. 35. @AmauryCrickx#dv14ievn Modalités d’authentification 1. Phrase clé « Ma voix est mon mot de passe » Enrôlement : répéter 3 fois la phrase
  36. 36. @AmauryCrickx#dv14ievn Modalités d’authentification Reconnaissance Vocale Intonation Flot Robuste au bruit 1. Phrase clé « Ma voix est mon mot de passe »
  37. 37. @AmauryCrickx#dv14ievn Modalités d’authentification • Pas 2 enregistrements identiques • Détection de traitements numériques 1. Phrase clé « Ma voix est mon mot de passe »
  38. 38. @AmauryCrickx#dv14ievn Modalités d’authentification • Plus difficile à obtenir • Détection de traitements numériques 2. Phrase aléatoire « correct cheval batterie agrafe » Enrôlement : lire une (longue) liste de mots
  39. 39. @AmauryCrickx#dv14ievn Modalités d’authentification • Vérificateur humain • Encore plus difficile à contrefaire • Détection de traitements numériques • Sensible au bruit environnant 3. En continu au cours d’une conversation Enrôlement : première conversation vérifiée
  40. 40. @AmauryCrickx#dv14ievn Vérification à facteurs multiples Savoir Posséder Etre Mot de passe Question / réponse Générateur de Token Biométrie
  41. 41. @YourTwitterHandle#DVXFR14{session hashtag} @AmauryCrickx#dv14ievn
  42. 42. @AmauryCrickx#dv14ievn En résumé • Technologie mature • Coût faible • Meilleure expérience utilisateur • Sensibilité au bruit • Variabilité de la voix • Statistique par nature
  43. 43. @YourTwitterHandle#DVXFR14{session hashtag} @AmauryCrickx#dv14ievn
  44. 44. @AmauryCrickx#dv14ievn Crédit image / Creative Commons • Rue pavée — By-Nc-Sa •http://www.flickr.com/photos/22914687@N05/4957591422/sizes/l/ • Sous la Tour Eiffel — By-Nc-Sa •http://www.flickr.com/photos/stewiedewie/244850735/sizes/l/in/photostream/ • Sous le pont — photo par B.Monginoux - By-Nc-Nd •http://www.landscape-photo.net/displayimage.php?pid=5194 • Le Louvre – Photo par Anthony Gaudun - By-Nc-Sa •http://www.flickr.com/photos/anthonygaudun/7474397964/sizes/o/in/photostream/ • Slide template created by @glaforge, completed by @nmartignole for Devoxx FR2014

×